数据分析-思维分析逻辑 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

授信模型：

芝麻信用分结构：

身份（who): 小学毕业还是博世毕业—稳定性

履约能力（what）：有没有房车—兜底性

信用历史（when)：信用卡有无逾期—历史性

人脉关系（who)：你得支付宝朋友是不是土豪—稳定性验证+弱价值性；

行为偏好（what)：喜欢买奢侈品还是地摊货—真正价值

数据源

数据并不是越多越好。

数据变量分为：原始变量、衍生变量

原始变量：直接存储在数据库里的基础变量，如你每日交易额

衍生变量：因为金融的本质是风险，所以都要队员是变量进行加工转化，一般是三种

1、时间维度衍生：最近一个月交易额、最近三个月的交易额

2、函数衍生：最大交易额、最小交易额、交易额方差

3、比率衍生：最近一个月交易额/最近三个月交易额

在选择变量的时候：基于RMF原则，即最近、频次、钱，所有跟这三个属性相关的变量都要先保留。

数据处理

服务与业务，初期都比较简单，慢慢迭代。

字符串数字化

数据标准化

建模前的思考

由于身份特质、履约能力、信用历史、人脉关系、行为偏好5大模块在不同时期的权重不一样，所以每个模块都要单读建模；

在建模前，一定要把业务目标先理一理，这样才能找到用什么模型；

就芝麻信用来说，我们的目的是希望根据用户在这5个模块的综合芝麻分来给用户一些其他额外服务，比如花呗借呗免押金，同事保证用户不违约。

因此逻辑上就是：

根据用户的数据，算出违约的概率，而这个概率也可以转化为用户的分数

所以逻辑回归模型就自然而然涌上了。

总结：授信模型：数据源、数据处理、数据标准化、数据建模、模型落地、模型优化，这一套数据分析标准化流程非常像，模型最终的评估指标就是坏账率。

数据建模师：数据源在前期就已经决定了模型的效果，要具备良好的沟通能力和快速反馈能力，金融行业本身比较成熟，比模型更加重要的是分析师自身的想法和验证。

在前期重点是围绕数据源和数据处理，模型，无论是逻辑回归、决策树、GBDT、随机森林、神经网络，问题都不会很大，与纯互联网行业对比，金融行业数据建模师的价值更容易得到体现，而且相对更有趣。