自由式学习
748人加入学习
(0人评价)
机器学习-Sklearn(第三版)
价格 免费
该课程属于 1515-小刀-算法方向-金融风控-就业:是 请加入后再学习

四、处理连续型特征:二值化与分段

prepscessing.Binarizer二值化,文本数据常见操作

属性threshold:设置阈值,大于阈值1,小于0

prepscessing.KBinsDiscretizer分箱

1、3个参数

1)n_bins:分箱个数,默认5

2)encode:默认"onehot"

"onehot":一列一类,有该类1,无0

"ordinal":有几个特征几列,每个特征用数字显示类别

"onehot-dense"不常用

3)strategy:定义箱宽,默认"quantile"

"uniform":等宽分箱,特征值极差/箱数

"quantile":等位分箱,每箱样本数相同

"kmeans":聚类分箱,分类,同类一箱

 

[展开全文]

处理连续型特征:二值化和分箱

根据阈值将数据二值化(将特征值设置为0或1),用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈 值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1。

二值化是对文本计数数据的常见操作,分析人员 可以决定仅考虑某种现象的存在与否。它还可以用作考虑布尔随机变量的估计器的预处理步骤(例如,使用贝叶斯 设置中的伯努利分布建模)。

分箱

 

[展开全文]