3350-Daniel-Python学科-提升 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

numpy数组

1、

[展开全文]

3077_Yuki · 2022-07-04 · 自由式学习 0

（）为元组行

【】为列表行

{}为

[展开全文]

2417aeb1529c3e26 · 2022-07-03 · 自由式学习 0

如何进行增维？（放到回归树中的数据必须是二维的）

1）.reshape(-1,1)

2)[:,np.newaxis]

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

交叉验证（)

1、观察模型稳定性的一种方法，避免测试集训练集划分导致模型不同

2、数据分为n份，依次把其中一份作为测试集，其他为训练集，交叉验证n次求平均值

3、model_selection.cross_val_score的五个参数

1）任何实例化的算法模型

2）不需划分测试集、训练集的特征矩阵

3）不需划分的完整标签

4）cv=10，做十次交叉验证，数据划分为十份，每次一份为测试集，剩下为训练集，通常选5，默认为5

5）scoring="neg_mean_squared_error"，neg_mean_squared_error负均方误差。用这个指标评估交叉验证的结果。不填，回归默认返回R平方

1、回归问题处理的是连续型变量

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

交叉验证（model_selection.cross_val_score)

1、观察模型稳定性的一种方法，避免测试集训练集划分导致模型不同

2、数据分为n份，依次把其中一份作为测试集，其他为训练集，交叉验证n次求平均值

1、回归问题处理的是连续型变量

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

回归树

一、参数、属性、接口几乎和分类树相同）

二、回归树没有标签分布均衡问题，没有class_weight

三、参数criterion差异

1、="mse"，均方误差

1）父节点和子节点均方误差的差额，本质是样本真实数据和回归结果的差异。

2）在回归树中，MSE是分枝质量衡量指标、回归树回归质量衡量指标。越小越好。

3）回归树接口score返回的是R平方，不是MSE，取值为负无穷到1，MSE总为正，sklearn中为负值

2、="friedman_mse"，费尔德曼均方误差

3、="mae"，绝对平均误差

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

四、目标权重参数（用的少）

控制目标权重，保持样本标签平衡（不平衡：某类标签占比大，决策树会向占比大标签偏移）

1、class_weight

1）给少量标签更多权重，参数默认None（所有标签相同权重）

2、min_weight_fraction_leaf

1）基于权重的剪枝参数，比min_samples_leaf更偏向主导类

2）样本加权使用此参数剪枝

重要接口

1、fit训练，score

2、apply测试样本叶子节点索引，predict返回测试样本分类或回归标签结果（只输入训练集特征，不需要标签y)

注：所有接口中要求输入x_test或x_train部分必须输入二维矩阵，不接受任何一维矩阵输入，若数据只有一个样本，reshape(-1,1)增维

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

4、max_features

1）限制分枝考虑的特征个数

2）用于高维数据，防止过拟合

3）缺点：强行设定会导致模型学习不足。

4）如果希望通过降维防止过拟合，最好使用PCA,ICA中的降维算法

5、min_impurity_decrease

1）限制信息增益的大小，信息增益小于指定数值的分枝不会发生

2）信息增益：父节点和子节点信息熵的差（子节点信息熵一定小于父节点信息熵），越大，这一层分枝对决策树贡献越大

注：

1）如何确定最优的剪枝参数？画出超参数学习曲线

2）剪枝参数不一定能提升模型在测试集上的表现

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

三、剪枝参数：正确剪枝是优化决策树算法的核心

注：剪枝后准确度不下降，保留剪枝参数，避免重复计算；准确度下降，注掉参数

1、max_depth：限制树的最大参数

高维度、低样本量非常有效，从=3开始尝试，看拟合效果再增加深度

2、min_sample_leaf

1）一个节点在分枝后，每个节点至少包含min_sample_leaf个训练样本samples

2）一般和max_depth搭配使用

3）太小：过拟合，太大：阻止模型学习数据

4）从=5开始使用；

训练集测试集划分不平衡：输入浮点数（含义为样本总量*小数）；

类别不多，=1通常最好

3、min_sample_split

1）一个节点至少min_sample_split个样本才被允许分枝

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

控制随机性的两个参数

1、random_state：控制随机模式，使每次结果一致，默认为None

决策树高维随机性明显，低维度数据集随机性不会显现

2、splitter：控制随机性，可以与random_state同时设置，如果设置了反而准确度降低则不写

1）="best"，默认，分枝随机，但会优先选更重要特征进行分枝

2）="random"，更随机，决策树会更深，拟合程度更低（防止过拟合）

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

决策树重要参数

1、criterion：决定不纯度计算方法

entropy信息熵，gini基尼系数

通常使用gini（默认）
维度低、数据清晰：没区别（信息熵慢一点）
高维、噪音多的数据：gini（信息熵容易过拟合）
决策树欠拟合：信息熵

不纯度：

衡量最佳（决策树要找最佳节点和最佳分支方法），越低，决策树对训练集的拟合越好
每个节点一个不纯度，子节点低于父节点（同一决策树，叶子节点的不纯度最低）

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

函数的基础：

def 定义函数

函数调用

函数说明

函数返回值：

return

多个返回值

函数参数：

函数传参

缺省参数

不定长参数

嵌套调用函数方法

[展开全文]

2952_N_家一 · 2022-06-25 · 自由式学习 0

ordinalencoder

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

数据标准化：数据按照均值中心化后，再按标准差缩放，数据就会变成均值为0方差为1的正态分布

API：from sklearn.preprocessing import StandardScaler

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

特征工程：

去中心化：让所有记录减去一个固定值。

数据归一化：把数据按照最小值中心化后再按极差缩放，然后被收敛到0-1之间

preprocessing.minmax

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

参数的分类：

1.必选参数2.默认参数3 .可选参数4.关键字参数

参数：其实就是函数为了实现某些特定的功能，进而为了得到实现功能所需要的数据。

必选参数：

形式参数：只是意义上的一种参数，在定义的时候是不占内存地址的。

实际参数：实参，实实在在的参数，是实际占用内存地址的

默认参数：始终存在于参数末尾

可变参数：

当参数的个数不确定时使用，比较灵活

[展开全文]

2952_N_家一 · 2022-06-21 · 自由式学习 0

字符窜：
1.下标与切片

2.常用方法

元组：

创建元组

2.元组的方法

列表

1.下标与切片

2.循环遍历

3.常用方法

字典：
1.字典格式

2.字典常用

[展开全文]

2952_N_家一 · 2022-06-17 · 自由式学习 0

hello，我叫张一然，我今年13岁了。

我喜欢藏个

[展开全文]

2952_N_家一 · 2022-06-12 · 自由式学习 0

小结：

1.学习了单分支，双分支，多分支等。

2学会了while循环。

3.学会了for循环。

4.学会了break和control语句。

[展开全文]

2952_N_家一 · 2022-06-11 · 自由式学习 0

选择行，

选择列

选择行列

[展开全文]

2846_Y_陈同学 · 2022-06-03 · 自由式学习 0

3350-Daniel-Python学科-提升 3350-Daniel-Python学科-提升 扫二维码继续学习 二维码时效为半小时

3350-Daniel-Python学科-提升 3350-Daniel-Python学科-提升扫二维码继续学习二维码时效为半小时