自由式学习
748人加入学习
(0人评价)
机器学习-Sklearn(第三版)
价格 免费
该课程属于 1515-小刀-算法方向-金融风控-就业:是 请加入后再学习

SVD比PCA快得多

一、2个重要参数

1、svd_solver

"auto":数据量小选full,大则选randomized

"full":生成完整的矩阵,数据量不大一般选用

"randomized":适合特征矩阵巨大,计算量大。

"arpack”:适合特征矩阵大,一般用于特征矩阵为稀疏矩阵(每一列为0,1组成,大部分为0)

注:一般选"auto", 算不出来找"randomized"

2、random_state: 

svd_solver为"randomized""arpack”生效,通常选"auto"

二、重要属性components_:提出的值是V(k,n),表示新特征空间,可视化可以看出提取了什么重要信息,n维压缩到k维

[展开全文]

重要属性components_

通常来说,在新的特征矩阵生成之前,我们无法知晓PCA都建立了怎样的新特征向量,新 特征矩阵生成之后也不具有可读性,我们无法判断新特征矩阵的特征是从原数据中的什么特征组合而来,新特征虽 然带有原始数据的信息,却已经不是原数据上代表着的含义了。

但是其实,在矩阵分解时,PCA是有目标的:在原有特征的基础上,找出能够让信息尽量聚集的新特征向量。

如果原特征矩阵是图像,V(k,n)这 个空间矩阵也可以被可视化的话,我们就可以通过两张图来比较,就可以看出新特征空间究竟从原始数据里提取了 什么重要的信息。

 

[展开全文]