## 数据降维
> 维度:特征的数量
> 为什么要降维:删除一些不必要的特征
- 特征选择
- 主成分分析
### 特征选择
特征选择的原因
- 冗余:部分特征相关度高,容易消耗计算性能
- 噪声:部分特征对预测结果有影响
特征选择的主要方法
- filter 过滤式 variance threshold
- embedded 嵌入式 正则化、决策树
- wrapper 包裹式
### 过滤式特征选择
sklearn.feature_selection.VarianceThreshold
> 特征之间容易相关 对于高纬度数据来说
n_components:
- 小数 百分比(0~1)保留多少信息 一般取90~95%
- 整数 减少到的特征数量
一般使用小数