特征选择feature_selection
一、理解数据:根据业务理解选择数据(特征选择之前要与数据提供者沟通)
二、四种选择方法
1、过滤法:根据统计指标过滤,目标是降低计算成本
过滤法主要对象:需要遍历特征或升维的算法(最近邻算法KNN、支持向量机SVM、神经网络、回归算法、单棵决策树)
1)方差过滤:VarianceThreshold模块:
- 优先消除方差为0(每个数据都一样)的特征
- 重要参数threshold:方差阈值,小于删除,默认为0
- 特征是二分类时,方差=p(1-p),p为其中一特征概率
- 对算法的影响:阈值小-过滤特征少-影响不大;阈值大-过滤特征多-模型可能更好 or 更糟
- 如何选择threshold?一般只使用0或很小的值,再用更优的特征选择方式
2、嵌入法
3、包装法
4、降维算法
特征提取feature extraction
特征创造feature creation