解锁式学习
748人加入学习
(0人评价)
机器学习-Sklearn(第三版)
价格 免费
承诺服务
该课程属于 2243-咸鱼-算法方向-数据挖掘-就业:否 请加入后再学习

降维算法

一、维度概述

1、对数组和Series,shape中返回几个数字就是几维,几个方括号就是几维

2、特征矩阵,DataFrame,几个特征就是几维,对应图中几个坐标轴,降维降的是特征数量

二、降维算法decomposition.PCA:主成分分析

1、PCA使用的信息量衡量指标为样本方差,越大,该特征带有信息量越多。

2、降维后找到的每个新特征向量叫“主成分”,新特征没有可读性,属于特征创造。线性回归不适合使用PCA。

3、重要参数

1)n_components:降维后要保留的特征数量,一般选 0-最小维度(特征数和标签数比较小的值) 范围内整数,默认为最小维度。如果需要可视化,取2或3.

2)如何选择n_components?

累积可解释方差贡献率曲线。横坐标:降维后保留的特征个数,纵坐标:累积可解释方差贡献率(选1个特征多少总信息,2个特征多少总信息...)

plt.plot([1,2,3,4],np.cumsum(pca_line.explained_variance_ratio_))

最大似然估计自选超参数。n_components="mle",计算量大

4、重要属性

1)属性explained_variance:查看降维后每个新特征信息量大小

2)属性explained_variance_ratio:查看降维后每个新特征信息量占原始数据信息量百分比

三、降维算法SVD

降维算法计算量很大

[展开全文]

重要参数n_components

n_components是我们降维后需要的维度,即降维后需要保留的特征数量,降维流程中第二步里需要确认的k值, 一般输入[0, min(X.shape)]范围中的整数。K是一个需要我们人为去确认的超参数,并且我们设定的数字会影响到模型的表现。就达不到降维的效果,如果留下的特征太少,那新特征向量可能无法容纳原始数据集中的大部分信息,因此,n_components既不能太大也不能太小。那怎么办呢?

可以先从我们的降维目标说起:如果我们希望可视化一组数据来观察数据分布,我们往往将数据降到三维以下,很 多时候是二维,即n_components的取值为2。

[展开全文]