3475-黄黄-人工智能学科-数据挖掘方向 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

如何进行增维？（放到回归树中的数据必须是二维的）

1）.reshape(-1,1)

2)[:,np.newaxis]

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

交叉验证（)

1、观察模型稳定性的一种方法，避免测试集训练集划分导致模型不同

2、数据分为n份，依次把其中一份作为测试集，其他为训练集，交叉验证n次求平均值

3、model_selection.cross_val_score的五个参数

1）任何实例化的算法模型

2）不需划分测试集、训练集的特征矩阵

3）不需划分的完整标签

4）cv=10，做十次交叉验证，数据划分为十份，每次一份为测试集，剩下为训练集，通常选5，默认为5

5）scoring="neg_mean_squared_error"，neg_mean_squared_error负均方误差。用这个指标评估交叉验证的结果。不填，回归默认返回R平方

1、回归问题处理的是连续型变量

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

交叉验证（model_selection.cross_val_score)

1、观察模型稳定性的一种方法，避免测试集训练集划分导致模型不同

2、数据分为n份，依次把其中一份作为测试集，其他为训练集，交叉验证n次求平均值

1、回归问题处理的是连续型变量

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

回归树

一、参数、属性、接口几乎和分类树相同）

二、回归树没有标签分布均衡问题，没有class_weight

三、参数criterion差异

1、="mse"，均方误差

1）父节点和子节点均方误差的差额，本质是样本真实数据和回归结果的差异。

2）在回归树中，MSE是分枝质量衡量指标、回归树回归质量衡量指标。越小越好。

3）回归树接口score返回的是R平方，不是MSE，取值为负无穷到1，MSE总为正，sklearn中为负值

2、="friedman_mse"，费尔德曼均方误差

3、="mae"，绝对平均误差

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

四、目标权重参数（用的少）

控制目标权重，保持样本标签平衡（不平衡：某类标签占比大，决策树会向占比大标签偏移）

1、class_weight

1）给少量标签更多权重，参数默认None（所有标签相同权重）

2、min_weight_fraction_leaf

1）基于权重的剪枝参数，比min_samples_leaf更偏向主导类

2）样本加权使用此参数剪枝

重要接口

1、fit训练，score

2、apply测试样本叶子节点索引，predict返回测试样本分类或回归标签结果（只输入训练集特征，不需要标签y)

注：所有接口中要求输入x_test或x_train部分必须输入二维矩阵，不接受任何一维矩阵输入，若数据只有一个样本，reshape(-1,1)增维

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

4、max_features

1）限制分枝考虑的特征个数

2）用于高维数据，防止过拟合

3）缺点：强行设定会导致模型学习不足。

4）如果希望通过降维防止过拟合，最好使用PCA,ICA中的降维算法

5、min_impurity_decrease

1）限制信息增益的大小，信息增益小于指定数值的分枝不会发生

2）信息增益：父节点和子节点信息熵的差（子节点信息熵一定小于父节点信息熵），越大，这一层分枝对决策树贡献越大

注：

1）如何确定最优的剪枝参数？画出超参数学习曲线

2）剪枝参数不一定能提升模型在测试集上的表现

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

三、剪枝参数：正确剪枝是优化决策树算法的核心

注：剪枝后准确度不下降，保留剪枝参数，避免重复计算；准确度下降，注掉参数

1、max_depth：限制树的最大参数

高维度、低样本量非常有效，从=3开始尝试，看拟合效果再增加深度

2、min_sample_leaf

1）一个节点在分枝后，每个节点至少包含min_sample_leaf个训练样本samples

2）一般和max_depth搭配使用

3）太小：过拟合，太大：阻止模型学习数据

4）从=5开始使用；

训练集测试集划分不平衡：输入浮点数（含义为样本总量*小数）；

类别不多，=1通常最好

3、min_sample_split

1）一个节点至少min_sample_split个样本才被允许分枝

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

控制随机性的两个参数

1、random_state：控制随机模式，使每次结果一致，默认为None

决策树高维随机性明显，低维度数据集随机性不会显现

2、splitter：控制随机性，可以与random_state同时设置，如果设置了反而准确度降低则不写

1）="best"，默认，分枝随机，但会优先选更重要特征进行分枝

2）="random"，更随机，决策树会更深，拟合程度更低（防止过拟合）

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

决策树重要参数

1、criterion：决定不纯度计算方法

entropy信息熵，gini基尼系数

通常使用gini（默认）
维度低、数据清晰：没区别（信息熵慢一点）
高维、噪音多的数据：gini（信息熵容易过拟合）
决策树欠拟合：信息熵

不纯度：

衡量最佳（决策树要找最佳节点和最佳分支方法），越低，决策树对训练集的拟合越好
每个节点一个不纯度，子节点低于父节点（同一决策树，叶子节点的不纯度最低）

[展开全文]

3077_Yuki · 2022-07-03 · 自由式学习 0

ordinalencoder

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

数据标准化：数据按照均值中心化后，再按标准差缩放，数据就会变成均值为0方差为1的正态分布

API：from sklearn.preprocessing import StandardScaler

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

特征工程：

去中心化：让所有记录减去一个固定值。

数据归一化：把数据按照最小值中心化后再按极差缩放，然后被收敛到0-1之间

preprocessing.minmax

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

：

[展开全文]

RW123 · 2022-06-21 · 自由式学习 0

浅拷贝 copy :不拷贝子对象的内容，只拷贝子对象的引用。

深拷贝 deepcopy ：连子对象的内存也全部拷贝一份，对子对象的修改不会影响源对象。

[展开全文]

lincyjiang · 2022-06-15 · 自由式学习 0

int float 字符串元组布尔值

传递参数是不可变对象时，实际也是传递的对对象的引用，但是因为不可变对象不可修改，所以系统创建新的对象。

[展开全文]

lincyjiang · 2022-06-15 · 自由式学习 0

可变对象：字典、列表、集合、自定义的对象

不可变对象：数字、字符串、元组、function等

可变对象进行更改时，不创建对象拷贝，直接修改这个对象。

[展开全文]

lincyjiang · 2022-06-15 · 自由式学习 0

函数内的局部变量可以和全局变量重名，只要不进行global申明，就是局部变量。

打印输出全部的局部变量 print(locals())

打印输出全部的全局变量 print(globals())

[展开全文]

lincyjiang · 2022-06-15 · 自由式学习 0

推导式

1、列表推导式

>>>[x for x in range(1,5)]

[1,2,3,4]

>>>[x for x in range(1,20) if(x%5==0)]

2、字典推导式

{key：value for 表达式 in 迭代对象}

3、集合推导式

{key for 表达式 in 迭代对象}

4、生成器推导式生成元组

一个生成器只能运行一次。

[展开全文]

lincyjiang · 2022-06-14 · 自由式学习 0

集合添加元素

a.add()

set()变成集合

remove()删除

[展开全文]

lincyjiang · 2022-06-14 · 自由式学习 0

字典是散列表稀疏数组总有空白元素

数组每个单元就是一个bucket：2个部分键对象引用和值对象引用

[展开全文]

lincyjiang · 2022-06-14 · 自由式学习 0

3475-黄黄-人工智能学科-数据挖掘方向 3475-黄黄-人工智能学科-数据挖掘方向 扫二维码继续学习 二维码时效为半小时

3475-黄黄-人工智能学科-数据挖掘方向 3475-黄黄-人工智能学科-数据挖掘方向扫二维码继续学习二维码时效为半小时