授信模型:
芝麻信用分结构:
身份(who): 小学毕业还是博世毕业—稳定性
履约能力(what):有没有房车—兜底性
信用历史(when):信用卡有无逾期—历史性
人脉关系(who):你得支付宝朋友是不是土豪—稳定性验证+弱价值性;
行为偏好(what):喜欢买奢侈品还是地摊货—真正价值
数据源
数据并不是越多越好。
数据变量分为:原始变量、衍生变量
原始变量:直接存储在数据库里的基础变量,如你每日交易额
衍生变量:因为金融的本质是风险,所以都要队员是变量进行加工转化,一般是三种
1、时间维度衍生:最近一个月交易额、最近三个月的交易额
2、函数衍生:最大交易额、最小交易额、交易额方差
3、比率衍生:最近一个月交易额/最近三个月交易额
在选择变量的时候:基于RMF原则,即最近、频次、钱,所有跟这三个属性相关的变量都要先保留。
数据处理
服务与业务,初期都比较简单,慢慢迭代。
字符串数字化
数据标准化
建模前的思考
由于身份特质、履约能力、信用历史、人脉关系、行为偏好5大模块在不同时期的权重不一样,所以每个模块都要单读建模;
在建模前,一定要把业务目标先理一理,这样才能找到用什么模型;
就芝麻信用来说,我们的目的是希望根据用户在这5个模块的综合芝麻分来给用户一些其他额外服务,比如花呗借呗免押金,同事保证用户不违约。
因此逻辑上就是:
根据用户的数据,算出违约的概率,而这个概率也可以转化为用户的分数
所以逻辑回归模型就自然而然涌上了。
总结:授信模型:数据源、数据处理、数据标准化、数据建模、模型落地、模型优化,这一套数据分析标准化流程非常像,模型最终的评估指标就是坏账率。
数据建模师:数据源在前期就已经决定了模型的效果,要具备良好的沟通能力和快速反馈能力,金融行业本身比较成熟,比模型更加重要的是分析师自身的想法和验证。
在前期重点是围绕数据源和数据处理,模型,无论是逻辑回归、决策树、GBDT、随机森林、神经网络,问题都不会很大,与纯互联网行业对比,金融行业数据建模师的价值更容易得到体现,而且相对更有趣。