解锁式学习
749人加入学习
(0人评价)
机器学习-Sklearn(第三版)
价格 免费
承诺服务
该课程属于 2243-咸鱼-算法方向-数据挖掘-就业:否 请加入后再学习

2)相关性过滤

卡方过滤:

  • 专门针对分类问题,不能计算负数,chi2(x,y)返回卡方值和p值
  • feature_selection.chi2,结合feature_selection.SelectKBest(选出前k分数最高特征)
  • 如何选择k值(想保留特征值)?使用p值。p小于0.05或0.01:特征与标签相关。k=(chi_value.shape[0]-(p_value>0.05).sum())#特征数-想删除的特征数

F检验:

  • 捕捉特征与标签之间的线性关系,返回F值和P值
  • feature_selection.f_classif(F检验分类),feature_selection.f_regression(F检验回归),需要与feature_selection.SelectKBest连用
  • F检验在数据服从正态分布时效果好,先把数据转换成正态分布形式
  • p小于0.05或0.01:特征与标签显著线性相关

互信息法:

  • 捕捉特征与标签任意关系,返回特征与标签之间互信息量的估计,0:独立,1:相关
  • feature_selection.mutual_info_classif(互信息分类),feature_selection.mutual_info_regression(互信息回归)
[展开全文]

互信息法是用来捕捉每个特征与标签之间的任意关系(包括线性和非线性关系)的过滤方法。和F检验相似,它既 可以做回归也可以做分类,并且包含两个类feature_selection.mutual_info_classif(互信息分类)和 feature_selection.mutual_info_regression(互信息回归)。这两个类的用法和参数都和F检验一模一样,不过 互信息法比F检验更加强大,F检验只能够找出线性关系,而互信息法可以找出任意关系。

[展开全文]