3520-杨同学-数据分析 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

二、RandomForestClassifier（随机森林分类器）参数

1、n_estimators：森林中树木的数量

1）越大往往越好，但计算量越大，达到一定值精确性波动，一般在0-200内选

2）单个决策树准确度越高，随机森林的准确度也会越高

[展开全文]

3077_Yuki · 2022-07-04 · 自由式学习 0

随机森林

一、概述

1、集成算法

1）集成算法考虑多个评估器的结果，汇总获取更好的分类、回归表现

2）三种集成算法：装袋法bagging（模型独立），提升法boosting（模型相关），stacking

3）随机森林是一种bagging集成算法

[展开全文]

3077_Yuki · 2022-07-04 · 自由式学习 0

超平面：就是低于

[展开全文]

2846_Y_陈同学 · 2022-07-04 · 自由式学习 0

如何进行增维？（放到回归树中的数据必须是二维的）

1）.reshape(-1,1)

2)[:,np.newaxis]

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

交叉验证（)

1、观察模型稳定性的一种方法，避免测试集训练集划分导致模型不同

2、数据分为n份，依次把其中一份作为测试集，其他为训练集，交叉验证n次求平均值

3、model_selection.cross_val_score的五个参数

1）任何实例化的算法模型

2）不需划分测试集、训练集的特征矩阵

3）不需划分的完整标签

4）cv=10，做十次交叉验证，数据划分为十份，每次一份为测试集，剩下为训练集，通常选5，默认为5

5）scoring="neg_mean_squared_error"，neg_mean_squared_error负均方误差。用这个指标评估交叉验证的结果。不填，回归默认返回R平方

1、回归问题处理的是连续型变量

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

交叉验证（model_selection.cross_val_score)

1、观察模型稳定性的一种方法，避免测试集训练集划分导致模型不同

2、数据分为n份，依次把其中一份作为测试集，其他为训练集，交叉验证n次求平均值

1、回归问题处理的是连续型变量

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

回归树

一、参数、属性、接口几乎和分类树相同）

二、回归树没有标签分布均衡问题，没有class_weight

三、参数criterion差异

1、="mse"，均方误差

1）父节点和子节点均方误差的差额，本质是样本真实数据和回归结果的差异。

2）在回归树中，MSE是分枝质量衡量指标、回归树回归质量衡量指标。越小越好。

3）回归树接口score返回的是R平方，不是MSE，取值为负无穷到1，MSE总为正，sklearn中为负值

2、="friedman_mse"，费尔德曼均方误差

3、="mae"，绝对平均误差

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

四、目标权重参数（用的少）

控制目标权重，保持样本标签平衡（不平衡：某类标签占比大，决策树会向占比大标签偏移）

1、class_weight

1）给少量标签更多权重，参数默认None（所有标签相同权重）

2、min_weight_fraction_leaf

1）基于权重的剪枝参数，比min_samples_leaf更偏向主导类

2）样本加权使用此参数剪枝

重要接口

1、fit训练，score

2、apply测试样本叶子节点索引，predict返回测试样本分类或回归标签结果（只输入训练集特征，不需要标签y)

注：所有接口中要求输入x_test或x_train部分必须输入二维矩阵，不接受任何一维矩阵输入，若数据只有一个样本，reshape(-1,1)增维

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

4、max_features

1）限制分枝考虑的特征个数

2）用于高维数据，防止过拟合

3）缺点：强行设定会导致模型学习不足。

4）如果希望通过降维防止过拟合，最好使用PCA,ICA中的降维算法

5、min_impurity_decrease

1）限制信息增益的大小，信息增益小于指定数值的分枝不会发生

2）信息增益：父节点和子节点信息熵的差（子节点信息熵一定小于父节点信息熵），越大，这一层分枝对决策树贡献越大

注：

1）如何确定最优的剪枝参数？画出超参数学习曲线

2）剪枝参数不一定能提升模型在测试集上的表现

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

三、剪枝参数：正确剪枝是优化决策树算法的核心

注：剪枝后准确度不下降，保留剪枝参数，避免重复计算；准确度下降，注掉参数

1、max_depth：限制树的最大参数

高维度、低样本量非常有效，从=3开始尝试，看拟合效果再增加深度

2、min_sample_leaf

1）一个节点在分枝后，每个节点至少包含min_sample_leaf个训练样本samples

2）一般和max_depth搭配使用

3）太小：过拟合，太大：阻止模型学习数据

4）从=5开始使用；

训练集测试集划分不平衡：输入浮点数（含义为样本总量*小数）；

类别不多，=1通常最好

3、min_sample_split

1）一个节点至少min_sample_split个样本才被允许分枝

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

控制随机性的两个参数

1、random_state：控制随机模式，使每次结果一致，默认为None

决策树高维随机性明显，低维度数据集随机性不会显现

2、splitter：控制随机性，可以与random_state同时设置，如果设置了反而准确度降低则不写

1）="best"，默认，分枝随机，但会优先选更重要特征进行分枝

2）="random"，更随机，决策树会更深，拟合程度更低（防止过拟合）

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

决策树重要参数

1、criterion：决定不纯度计算方法

entropy信息熵，gini基尼系数

通常使用gini（默认）
维度低、数据清晰：没区别（信息熵慢一点）
高维、噪音多的数据：gini（信息熵容易过拟合）
决策树欠拟合：信息熵

不纯度：

衡量最佳（决策树要找最佳节点和最佳分支方法），越低，决策树对训练集的拟合越好
每个节点一个不纯度，子节点低于父节点（同一决策树，叶子节点的不纯度最低）

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

ordinalencoder

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

数据标准化：数据按照均值中心化后，再按标准差缩放，数据就会变成均值为0方差为1的正态分布

API：from sklearn.preprocessing import StandardScaler

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

特征工程：

去中心化：让所有记录减去一个固定值。

数据归一化：把数据按照最小值中心化后再按极差缩放，然后被收敛到0-1之间

preprocessing.minmax

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

fsfada

[展开全文]

2902_Y_ss · 2022-05-22 · 自由式学习 0

#apply返回每个测试样本所在叶子节点的索引

clf.apply(xtext)

#predict返回每个测试样本的分类、回归结果

clf.predict(xtest)

[展开全文]

小王 · 2022-03-25 · 自由式学习 0

#决策树
# from sklearn import tree#导入需要的模块
# clf=tree.DecisionTreeClassifier()#实例化
# clf=clf.fit(x_train,y_train)#用训练集数据训练模型
# result=clf.score(x_test,y_test)#导入测试集，从接口中调用需要的信息进行打分

citerion:不纯度，不纯的越低，训练集拟合越好

[展开全文]

小王 · 2022-03-25 · 自由式学习 0

机器学习

[展开全文]

小王 · 2022-03-25 · 自由式学习 0

支持向量机的分类方法，是在这组分布中找出一个超平面作为决策边界，使模型在数据上的分类误差尽量接近于小，尤其是在未知数据集上的分类误差（泛化误差）尽量小。

决策边界一侧的所有点在分类为属于一个类，而另一侧的所有点分类属于另一个类。如果我们能够找出决策边界，分类问题就可以变成探讨每个样本对于决策边界而言的相对位置。比如上面的数据分布，我们很容易就可以在方块和圆的中间画出一条线，并让所有落在直线左边的样本被分类为方块，在直线右边的样本被分类为圆。如果把数据当作我们的训练集，只要直线的一边只有一种类型的数据，就没有分类错误，我们的训练误差就会为0。

但是，对于一个数据集来说，让训练误差为0的决策边界可以有无数条。

[展开全文]

1512_N_小星星 · 2021-11-03 · 自由式学习 0

3520-杨同学-数据分析 3520-杨同学-数据分析 扫二维码继续学习 二维码时效为半小时

3520-杨同学-数据分析 3520-杨同学-数据分析扫二维码继续学习二维码时效为半小时