分箱:
1)评分卡核心,本质是离散化连续变量
2)分多少箱子合适?4-5个最佳
3)离散化必然伴随信息损失,IV:用于衡量特征对预测函数的贡献,<0.03特征可以删除,太高的也删除(特征选择)IV可以帮助找出合适的分箱个数。
4)分箱想要达成什么效果?组间差异大,组内差异小,用卡方检验对比箱子相似性,卡方检验p值越大越相似
分箱:
1)评分卡核心,本质是离散化连续变量
2)分多少箱子合适?4-5个最佳
3)离散化必然伴随信息损失,IV:用于衡量特征对预测函数的贡献,<0.03特征可以删除,太高的也删除(特征选择)IV可以帮助找出合适的分箱个数。
4)分箱想要达成什么效果?组间差异大,组内差异小,用卡方检验对比箱子相似性,卡方检验p值越大越相似