四、处理连续型特征:二值化与分段
prepscessing.Binarizer二值化,文本数据常见操作
属性threshold:设置阈值,大于阈值1,小于0
prepscessing.KBinsDiscretizer分箱
1、3个参数
1)n_bins:分箱个数,默认5
2)encode:默认"onehot"
"onehot":一列一类,有该类1,无0
"ordinal":有几个特征几列,每个特征用数字显示类别
"onehot-dense"不常用
3)strategy:定义箱宽,默认"quantile"
"uniform":等宽分箱,特征值极差/箱数
"quantile":等位分箱,每箱样本数相同
"kmeans":聚类分箱,分类,同类一箱