3572-叶同学-Python学科-数据分析 已关闭

3572-叶同学-Python学科-数据分析 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费

4、max_features

1)限制分枝考虑的特征个数

2)用于高维数据,防止过拟合

3)缺点:强行设定会导致模型学习不足。

4)如果希望通过降维防止过拟合,最好使用PCA,ICA中的降维算法

5、min_impurity_decrease

1)限制信息增益的大小,信息增益小于指定数值的分枝不会发生

2)信息增益:父节点和子节点信息熵的差(子节点信息熵一定小于父节点信息熵),越大,这一层分枝对决策树贡献越大

注:

1)如何确定最优的剪枝参数?画出超参数学习曲线

2)剪枝参数不一定能提升模型在测试集上的表现

[展开全文]
3077_Yuki · 2022-07-03 · 自由式学习 0

三、剪枝参数:正确剪枝是优化决策树算法的核心

注:剪枝后准确度不下降,保留剪枝参数,避免重复计算;准确度下降,注掉参数

1、max_depth:限制树的最大参数

高维度、低样本量非常有效,从=3开始尝试,看拟合效果再增加深度

2、min_sample_leaf

1)一个节点在分枝后,每个节点至少包含min_sample_leaf个训练样本samples

2)一般和max_depth搭配使用

3)太小:过拟合,太大:阻止模型学习数据

4)从=5开始使用;

训练集测试集划分不平衡:输入浮点数(含义为样本总量*小数);

类别不多,=1通常最好

3、min_sample_split

1)一个节点至少min_sample_split个样本才被允许分枝

 

 

[展开全文]
3077_Yuki · 2022-07-03 · 自由式学习 0

控制随机性的两个参数

1、random_state:控制随机模式,使每次结果一致,默认为None

决策树高维随机性明显,低维度数据集随机性不会显现

2、splitter:控制随机性,可以与random_state同时设置,如果设置了反而准确度降低则不写

1)="best",默认,分枝随机,但会优先选更重要特征进行分枝

2)="random",更随机,决策树会更深,拟合程度更低(防止过拟合)

 

[展开全文]
3077_Yuki · 2022-07-03 · 自由式学习 0

决策树重要参数

1、criterion:决定不纯度计算方法

entropy信息熵,gini基尼系数

  • 通常使用gini(默认)
  • 维度低、数据清晰:没区别(信息熵慢一点)
  • 高维、噪音多的数据:gini(信息熵容易过拟合)
  • 决策树欠拟合:信息熵

不纯度:

  • 衡量最佳(决策树要找最佳节点和最佳分支方法),越低,决策树对训练集的拟合越好
  • 每个节点一个不纯度,子节点低于父节点(同一决策树,叶子节点的不纯度最低)
[展开全文]
3077_Yuki · 2022-07-03 · 自由式学习 0

数据标准化:数据按照均值中心化后,再按标准差缩放,数据就会变成均值为0方差为1的正态分布

API:from sklearn.preprocessing import StandardScaler

[展开全文]

特征工程:

去中心化:让所有记录减去一个固定值。

数据归一化:把数据按照最小值中心化后再按极差缩放,然后被收敛到0-1之间

preprocessing.minmax

[展开全文]

load_boston 在 1.0 中已弃用,并在 1.2 中删除


https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_boston.html

scikit-learn 维护者强烈反对使用这个数据集,其中代码的目的是研究和教育数据科学和机器学习中的伦理问题替代方法。
 

[展开全文]

 #apply返回每个测试样本所在叶子节点的索引

clf.apply(xtext)

#predict返回每个测试样本的分类、回归结果

clf.predict(xtest)

[展开全文]
小王 · 2022-03-25 · 自由式学习 0
#决策树
# from sklearn import tree#导入需要的模块
# clf=tree.DecisionTreeClassifier()#实例化
# clf=clf.fit(x_train,y_train)#用训练集数据训练模型
# result=clf.score(x_test,y_test)#导入测试集,从接口中调用需要的信息进行打分

citerion:不纯度,不纯的越低,训练集拟合越好

 

[展开全文]
小王 · 2022-03-25 · 自由式学习 0

Imputer, 已更新很久了

课程是旧版本, 我为新版本稍作说明

[展开全文]

as a reminder for classmates, currently we use 'sklearn' rather than 'scikit-learn' in coding ;)

[展开全文]

機器學習推薦書:

1. 機器學習 (西瓜書)

2. Python數據分析與挖掘實戰

3. 機器學習系統設計

4. 面向機器智能TensorFlow實戰

5. TensorFlow技術解析與實戰

[展开全文]

机器学习简介

机器学习、深度学习可以做什么?

(自然语言处理、图象识别、传统预测)

机器学习库和框架

scikit learn、TensorFlow

课程定位:

以算法、案例为驱动的学习,浅显易懂的数学知识

注意:参考书比较晦涩难懂,不建议直接读

课程目标:
熟悉机器学习各类算法的原理

掌握算法的使用,能够结合场景解决实际问题

掌握使用机器学习算法库和框架

机器学习课程

特征工程;模型、策略、优化,分类、回归和聚类,TensorFlow,神经网络,图象识别,自然语言处理

 

[展开全文]

支持向量机的分类方法,是在这组分布中找出一个超平面作为决策边界,使模型在数据上的 分类误差尽量接近于小,尤其是在未知数据集上的分类误差(泛化误差)尽量小。

决策边界一侧的所有点在分类为属于一个类,而另一侧的所有点分类属于另一个类。如果我们能够找出决策边界, 分类问题就可以变成探讨每个样本对于决策边界而言的相对位置。比如上面的数据分布,我们很容易就可以在方块 和圆的中间画出一条线,并让所有落在直线左边的样本被分类为方块,在直线右边的样本被分类为圆。如果把数据 当作我们的训练集,只要直线的一边只有一种类型的数据,就没有分类错误,我们的训练误差就会为0。

但是,对于一个数据集来说,让训练误差为0的决策边界可以有无数条。

[展开全文]

支持向量机(SVM,也称为支持向量网络),是机器学习中获得关注最多的算法没有之一。它源于统计学习理论, 是我们除了集成算法之外,接触的第一个强学习器。它有多强呢?

从实际应用来看,SVM在各种实际问题中都表现非常优秀。它在手写识别数字和人脸识别中应用广泛,在文本和超 文本的分类中举足轻重,因为SVM可以大量减少标准归纳(standard inductive)和转换设置(transductive settings)中对标记训练实例的需求。同时,SVM也被用来执行图像的分类,并用于图像分割系统。。除此之外,生物学和许多其他科学都是SVM的青睐者,SVM现在已经广泛被用于蛋白质分类,现 在化合物分类的业界平均水平可以达到90%以上的准确率。在生物科学的尖端研究中,人们还使用支持向量机来识 别用于模型预测的各种特征,以找出各种基因表现结果的影响因素。

从学术的角度来看,SVM是最接近深度学习的机器学习算法。线性SVM可以看成是神经网络的单个神经元(虽然损 失函数与神经网络不同),非线性的SVM则与两层的神经网络相当,非线性的SVM中如果添加多个核函数,则可以 模仿多层的神经网络。

[展开全文]

高效嵌入法embedded

 

[展开全文]

业务选择

说到降维和特征选择,首先要想到的是利用自己的业务能力进行选择,肉眼可见明显和标签有关的特征就是需要留 下的。当然,如果我们并不了解业务,或者有成千上万的特征,那我们也可以使用算法来帮助我们。或者,可以让 算法先帮助我们筛选过一遍特征,然后在少量的特征中,我们再根据业务常识来选择更少量的特征。

PCA和SVD一般不用

逻辑回归是由线性回归演变而来,线性回归的一个核心目的是通过求解参数来探究特征X与标签y之间的 关系,而逻辑回归也传承了这个性质,我们常常希望通过逻辑回归的结果,来判断什么样的特征与分类结果相关, 因此我们希望保留特征的原貌。PCA和SVD的降维结果是不可解释的,因此一旦降维后,我们就无法解释特征和标 签之间的关系了。当然,在不需要探究特征与标签之间关系的线性数据上,降维算法PCA和SVD也是可以使用的。

统计方法可以使用,但不是非常必要

逻辑回归对数据的要求低于线性回归,由于我们不是使用最小二乘法来求解,所以逻辑回归对数据的总体分布和方差没有要求,也不需要排除特征之间的共线性,但如果我 们确实希望使用一些统计方法,比如方差,卡方,互信息等方法来做特征选择,也并没有问题。过滤法中所有的方法,都可以用在逻辑回归上。

 

[展开全文]