解锁式学习
749人加入学习
(0人评价)
机器学习-Sklearn(第三版)
价格 免费
承诺服务
该课程属于 2243-咸鱼-算法方向-数据挖掘-就业:否 请加入后再学习

特征选择feature_selection

一、理解数据:根据业务理解选择数据(特征选择之前要与数据提供者沟通)

二、四种选择方法

1、过滤法:根据统计指标过滤

1)方差过滤:VarianceThreshold模块:

  • 优先消除方差为0(每个数据都一样)的特征
  • 重要参数threshold:方差阈值,小于删除,默认为0

2、嵌入法

3、包装法

4、降维算法

特征提取feature extraction

特征创造feature creation

[展开全文]

特征选择feature_selection

特征创造是一个中很好的方法

在做特征选择之前,有三件非常重要的事:跟数据提供者开会!跟数据提供者开会!跟数据提供者开会!

所以特征选择的第一步,其实是根据我们的目标,用业务常识来选择特征。

一、方差过滤

可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。所以无 论接下来的特征工程要做什么,都要优先消除方差为0的特征。

当特征是二分类时,特征的取值就是伯努利随机变量,这些变量的方差可以计算为:

其中X是特征矩阵,p是二分类特征中的一类在这个特征中所占的概率。

[展开全文]