2)相关性过滤
卡方过滤:
- 专门针对分类问题,不能计算负数,chi2(x,y)返回卡方值和p值
- feature_selection.chi2,结合feature_selection.SelectKBest(选出前k分数最高特征)
- 如何选择k值(想保留特征值)?使用p值。p小于0.05或0.01:特征与标签相关。k=(chi_value.shape[0]-(p_value>0.05).sum())#特征数-想删除的特征数
F检验:
- 捕捉特征与标签之间的线性关系,返回F值和P值
- feature_selection.f_classif(F检验分类),feature_selection.f_regression(F检验回归),需要与feature_selection.SelectKBest连用
- F检验在数据服从正态分布时效果好,先把数据转换成正态分布形式
- p小于0.05或0.01:特征与标签显著线性相关
互信息法:
- 捕捉特征与标签任意关系,返回特征与标签之间互信息量的估计,0:独立,1:相关
- feature_selection.mutual_info_classif(互信息分类),feature_selection.mutual_info_regression(互信息回归)