机器学习-Sklearn（第三版） - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

降维算法

一、维度概述

1、对数组和Series，shape中返回几个数字就是几维，几个方括号就是几维

2、特征矩阵，DataFrame，几个特征就是几维，对应图中几个坐标轴，降维降的是特征数量

二、降维算法decomposition.PCA：主成分分析

1、PCA使用的信息量衡量指标为样本方差，越大，该特征带有信息量越多。

2、降维后找到的每个新特征向量叫“主成分”，新特征没有可读性，属于特征创造。线性回归不适合使用PCA。

3、重要参数

1）n_components：降维后要保留的特征数量，一般选 0-最小维度（特征数和标签数比较小的值）范围内整数，默认为最小维度。如果需要可视化，取2或3.

2）如何选择n_components？

累积可解释方差贡献率曲线。横坐标：降维后保留的特征个数，纵坐标：累积可解释方差贡献率（选1个特征多少总信息，2个特征多少总信息...）

plt.plot([1,2,3,4],np.cumsum(pca_line.explained_variance_ratio_))

最大似然估计自选超参数。n_components="mle"，计算量大

4、重要属性

1）属性explained_variance：查看降维后每个新特征信息量大小

2）属性explained_variance_ratio：查看降维后每个新特征信息量占原始数据信息量百分比

三、降维算法SVD

降维算法计算量很大