特征选择feature_selection
一、理解数据:根据业务理解选择数据(特征选择之前要与数据提供者沟通)
二、四种选择方法
1、过滤法:根据统计指标过滤
1)方差过滤:VarianceThreshold模块:
- 优先消除方差为0(每个数据都一样)的特征
- 重要参数threshold:方差阈值,小于删除,默认为0
2、嵌入法
3、包装法
4、降维算法
特征提取feature extraction
特征创造feature creation
特征选择feature_selection
一、理解数据:根据业务理解选择数据(特征选择之前要与数据提供者沟通)
二、四种选择方法
1、过滤法:根据统计指标过滤
1)方差过滤:VarianceThreshold模块:
2、嵌入法
3、包装法
4、降维算法
特征提取feature extraction
特征创造feature creation
特征选择feature_selection
特征创造是一个中很好的方法
在做特征选择之前,有三件非常重要的事:跟数据提供者开会!跟数据提供者开会!跟数据提供者开会!
所以特征选择的第一步,其实是根据我们的目标,用业务常识来选择特征。
一、方差过滤
可能特征中的大多数值都一样,甚至整个特征的取值都相同,那这个特征对于样本区分没有什么作用。所以无 论接下来的特征工程要做什么,都要优先消除方差为0的特征。
当特征是二分类时,特征的取值就是伯努利随机变量,这些变量的方差可以计算为:
其中X是特征矩阵,p是二分类特征中的一类在这个特征中所占的概率。