三、剪枝参数:正确剪枝是优化决策树算法的核心
注:剪枝后准确度不下降,保留剪枝参数,避免重复计算;准确度下降,注掉参数
1、max_depth:限制树的最大参数
高维度、低样本量非常有效,从=3开始尝试,看拟合效果再增加深度
2、min_sample_leaf
1)一个节点在分枝后,每个节点至少包含min_sample_leaf个训练样本samples
2)一般和max_depth搭配使用
3)太小:过拟合,太大:阻止模型学习数据
4)从=5开始使用;
训练集测试集划分不平衡:输入浮点数(含义为样本总量*小数);
类别不多,=1通常最好
3、min_sample_split
1)一个节点至少min_sample_split个样本才被允许分枝