2248-小鱼-算法方向-数据挖掘-就业：否 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训| - Powered By EduSoho

2248-小鱼-算法方向-数据挖掘-就业：否

已关闭

2248-小鱼-算法方向-数据挖掘-就业：否 2248-小鱼-算法方向-数据挖掘-就业：否扫二维码继续学习二维码时效为半小时

(0评价)

价格：免费

班级有效天数：367天

学员(1)
课程(26)
分享

承诺服务

练
试
问
疑
动
业

排序：最新笔记
- 最新笔记
- 点赞最多

四、目标权重参数（用的少）

控制目标权重，保持样本标签平衡（不平衡：某类标签占比大，决策树会向占比大标签偏移）

1、class_weight

1）给少量标签更多权重，参数默认None（所有标签相同权重）

2、min_weight_fraction_leaf

1）基于权重的剪枝参数，比min_samples_leaf更偏向主导类

2）样本加权使用此参数剪枝

重要接口

1、fit训练，score

2、apply测试样本叶子节点索引，predict返回测试样本分类或回归标签结果（只输入训练集特征，不需要标签y)

注：所有接口中要求输入x_test或x_train部分必须输入二维矩阵，不接受任何一维矩阵输入，若数据只有一个样本，reshape(-1,1)增维

3077_Yuki · 2022-07-03 · 自由式学习 0

4、max_features

1）限制分枝考虑的特征个数

2）用于高维数据，防止过拟合

3）缺点：强行设定会导致模型学习不足。

4）如果希望通过降维防止过拟合，最好使用PCA,ICA中的降维算法

5、min_impurity_decrease

1）限制信息增益的大小，信息增益小于指定数值的分枝不会发生

2）信息增益：父节点和子节点信息熵的差（子节点信息熵一定小于父节点信息熵），越大，这一层分枝对决策树贡献越大

注：

1）如何确定最优的剪枝参数？画出超参数学习曲线

2）剪枝参数不一定能提升模型在测试集上的表现

3077_Yuki · 2022-07-03 · 自由式学习 0

三、剪枝参数：正确剪枝是优化决策树算法的核心

注：剪枝后准确度不下降，保留剪枝参数，避免重复计算；准确度下降，注掉参数

1、max_depth：限制树的最大参数

高维度、低样本量非常有效，从=3开始尝试，看拟合效果再增加深度

2、min_sample_leaf

1）一个节点在分枝后，每个节点至少包含min_sample_leaf个训练样本samples

2）一般和max_depth搭配使用

3）太小：过拟合，太大：阻止模型学习数据

4）从=5开始使用；

训练集测试集划分不平衡：输入浮点数（含义为样本总量*小数）；

类别不多，=1通常最好

3、min_sample_split

1）一个节点至少min_sample_split个样本才被允许分枝

3077_Yuki · 2022-07-03 · 自由式学习 0

控制随机性的两个参数

1、random_state：控制随机模式，使每次结果一致，默认为None

决策树高维随机性明显，低维度数据集随机性不会显现

2、splitter：控制随机性，可以与random_state同时设置，如果设置了反而准确度降低则不写

1）="best"，默认，分枝随机，但会优先选更重要特征进行分枝

2）="random"，更随机，决策树会更深，拟合程度更低（防止过拟合）

3077_Yuki · 2022-07-03 · 自由式学习 0

决策树重要参数

1、criterion：决定不纯度计算方法

entropy信息熵，gini基尼系数

通常使用gini（默认）
维度低、数据清晰：没区别（信息熵慢一点）
高维、噪音多的数据：gini（信息熵容易过拟合）
决策树欠拟合：信息熵

不纯度：

衡量最佳（决策树要找最佳节点和最佳分支方法），越低，决策树对训练集的拟合越好
每个节点一个不纯度，子节点低于父节点（同一决策树，叶子节点的不纯度最低）

3077_Yuki · 2022-07-03 · 自由式学习 0

ordinalencoder

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

数据标准化：数据按照均值中心化后，再按标准差缩放，数据就会变成均值为0方差为1的正态分布

API：from sklearn.preprocessing import StandardScaler

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

特征工程：

去中心化：让所有记录减去一个固定值。

数据归一化：把数据按照最小值中心化后再按极差缩放，然后被收敛到0-1之间

preprocessing.minmax

2846_Y_陈同学 · 2022-06-23 · 自由式学习 0

fsfada

2902_Y_ss · 2022-05-22 · 自由式学习 0

.开头是隐藏文件l

21岁离异两套房 · 2022-04-18 · 解锁式学习 0

最大熵模型：

2441_Y_迷宫 · 2022-04-10 · 自由式学习 0

2834_Y_杨勋宇 · 2022-03-28 · 自由式学习 0

#apply返回每个测试样本所在叶子节点的索引

clf.apply(xtext)

#predict返回每个测试样本的分类、回归结果

clf.predict(xtest)

小王 · 2022-03-25 · 自由式学习 0

#决策树
# from sklearn import tree#导入需要的模块
# clf=tree.DecisionTreeClassifier()#实例化
# clf=clf.fit(x_train,y_train)#用训练集数据训练模型
# result=clf.score(x_test,y_test)#导入测试集，从接口中调用需要的信息进行打分

citerion:不纯度，不纯的越低，训练集拟合越好

小王 · 2022-03-25 · 自由式学习 0

机器学习

小王 · 2022-03-25 · 自由式学习 0

步长定义

zhang4718 · 2022-01-29 · 自由式学习 0

good 重点内容

zhang4718 · 2022-01-29 · 自由式学习 0

秩铺垫

zhang4718 · 2022-01-29 · 自由式学习 0

要点总结

zhang4718 · 2022-01-29 · 自由式学习 0

二阶导数是凸函数?

hurry_up · 2022-01-21 · 解锁式学习 0