机器学习-Sklearn（第三版） - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

748人加入学习

(0人评价)

机器学习-Sklearn（第三版）

价格免费

教学计划

学习有效期 365 天（随到随学）

扫一扫扫二维码继续学习二维码时效为半小时
分享
已收藏
收藏

该课程属于 1515-小刀-算法方向-金融风控-就业：是请加入后再学习

排序：最新笔记
- 最新笔记
- 点赞最多

控制随机性的两个参数

1、random_state：控制随机模式，使每次结果一致，默认为None

决策树高维随机性明显，低维度数据集随机性不会显现

2、splitter：控制随机性，可以与random_state同时设置，如果设置了反而准确度降低则不写

1）="best"，默认，分枝随机，但会优先选更重要特征进行分枝

2）="random"，更随机，决策树会更深，拟合程度更低（防止过拟合）

[展开全文]

3077_Yuki · 2022-07-03 · 005 - 1 4. 分类树：实现一棵树，随机性参数.mp4 0

决策树重要参数

1、criterion：决定不纯度计算方法

entropy信息熵，gini基尼系数

通常使用gini（默认）
维度低、数据清晰：没区别（信息熵慢一点）
高维、噪音多的数据：gini（信息熵容易过拟合）
决策树欠拟合：信息熵

不纯度：

衡量最佳（决策树要找最佳节点和最佳分支方法），越低，决策树对训练集的拟合越好
每个节点一个不纯度，子节点低于父节点（同一决策树，叶子节点的不纯度最低）

[展开全文]

3077_Yuki · 2022-07-03 · 004 - 1 3. 分类树：参数Criterion.mp4 0

ordinalencoder

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 034 - 3 6数据预处理5：处理分类型数据：编码与哑变量.mp4 0

数据标准化：数据按照均值中心化后，再按标准差缩放，数据就会变成均值为0方差为1的正态分布

API：from sklearn.preprocessing import StandardScaler

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 031 - 3 3数据预处理2：无量纲化：数据标准化.mp4 0

特征工程：

去中心化：让所有记录减去一个固定值。

数据归一化：把数据按照最小值中心化后再按极差缩放，然后被收敛到0-1之间

preprocessing.minmax

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 030 - 3 2数据预处理1：无量纲化：数据归一化.mp4 0

fsfada

[展开全文]

2902_Y_ss · 2022-05-22 · 256 - 11 4.2 XGBoost应用 (4)：使用joblib保存好XGB模型.mp4 0

#apply返回每个测试样本所在叶子节点的索引

clf.apply(xtext)

#predict返回每个测试样本的分类、回归结果

clf.predict(xtest)

[展开全文]

小王 · 2022-03-25 · 008 - 1 6. 分类树：重要属性和接口.mp4 0

#决策树
# from sklearn import tree#导入需要的模块
# clf=tree.DecisionTreeClassifier()#实例化
# clf=clf.fit(x_train,y_train)#用训练集数据训练模型
# result=clf.score(x_test,y_test)#导入测试集，从接口中调用需要的信息进行打分

citerion:不纯度，不纯的越低，训练集拟合越好

[展开全文]

小王 · 2022-03-25 · 004 - 1 3. 分类树：参数Criterion.mp4 0

机器学习

[展开全文]

小王 · 2022-03-25 · 001 - 00 课程介绍.mp4 0

sklearn中的信息熵，实际上是信息增益。即父节点的信息熵-子节点的信息熵。

[展开全文]

2426_Y_zyj · 2022-01-26 · 004 - 1 3. 分类树：参数Criterion.mp4 0

非参数：即不限制数据结构和类型

有监督：有标签

[展开全文]

2426_Y_zyj · 2022-01-26 · 003 - ===【经典算法】1 决策树===.mp4 0

支持向量机的分类方法，是在这组分布中找出一个超平面作为决策边界，使模型在数据上的分类误差尽量接近于小，尤其是在未知数据集上的分类误差（泛化误差）尽量小。

决策边界一侧的所有点在分类为属于一个类，而另一侧的所有点分类属于另一个类。如果我们能够找出决策边界，分类问题就可以变成探讨每个样本对于决策边界而言的相对位置。比如上面的数据分布，我们很容易就可以在方块和圆的中间画出一条线，并让所有落在直线左边的样本被分类为方块，在直线右边的样本被分类为圆。如果把数据当作我们的训练集，只要直线的一边只有一种类型的数据，就没有分类错误，我们的训练误差就会为0。

但是，对于一个数据集来说，让训练误差为0的决策边界可以有无数条。

[展开全文]

1512_N_小星星 · 2021-11-03 · 110 - 7 1.2 支持向量机是如何工作的 & sklearn中的SVM.mp4 0

支持向量机（SVM，也称为支持向量网络），是机器学习中获得关注最多的算法没有之一。它源于统计学习理论，是我们除了集成算法之外，接触的第一个强学习器。它有多强呢？

从实际应用来看，SVM在各种实际问题中都表现非常优秀。它在手写识别数字和人脸识别中应用广泛，在文本和超文本的分类中举足轻重，因为SVM可以大量减少标准归纳（standard inductive）和转换设置（transductive settings）中对标记训练实例的需求。同时，SVM也被用来执行图像的分类，并用于图像分割系统。。除此之外，生物学和许多其他科学都是SVM的青睐者，SVM现在已经广泛被用于蛋白质分类，现在化合物分类的业界平均水平可以达到90%以上的准确率。在生物科学的尖端研究中，人们还使用支持向量机来识别用于模型预测的各种特征，以找出各种基因表现结果的影响因素。

从学术的角度来看，SVM是最接近深度学习的机器学习算法。线性SVM可以看成是神经网络的单个神经元（虽然损失函数与神经网络不同），非线性的SVM则与两层的神经网络相当，非线性的SVM中如果添加多个核函数，则可以模仿多层的神经网络。

[展开全文]

1512_N_小星星 · 2021-11-03 · 109 - 7 1.1 支持向量机概述：最强大的机器学习算法.mp4 0

高效嵌入法embedded

[展开全文]

1512_N_小星星 · 2021-10-09 · 062 - 5 2.2.2 逻辑回归的特征工程 (2).mp4 0

业务选择

说到降维和特征选择，首先要想到的是利用自己的业务能力进行选择，肉眼可见明显和标签有关的特征就是需要留下的。当然，如果我们并不了解业务，或者有成千上万的特征，那我们也可以使用算法来帮助我们。或者，可以让算法先帮助我们筛选过一遍特征，然后在少量的特征中，我们再根据业务常识来选择更少量的特征。

PCA和SVD一般不用

逻辑回归是由线性回归演变而来，线性回归的一个核心目的是通过求解参数来探究特征X与标签y之间的关系，而逻辑回归也传承了这个性质，我们常常希望通过逻辑回归的结果，来判断什么样的特征与分类结果相关，因此我们希望保留特征的原貌。PCA和SVD的降维结果是不可解释的，因此一旦降维后，我们就无法解释特征和标签之间的关系了。当然，在不需要探究特征与标签之间关系的线性数据上，降维算法PCA和SVD也是可以使用的。

统计方法可以使用，但不是非常必要

逻辑回归对数据的要求低于线性回归，由于我们不是使用最小二乘法来求解，所以逻辑回归对数据的总体分布和方差没有要求，也不需要排除特征之间的共线性，但如果我们确实希望使用一些统计方法，比如方差，卡方，互信息等方法来做特征选择，也并没有问题。过滤法中所有的方法，都可以用在逻辑回归上。

[展开全文]

1512_N_小星星 · 2021-10-09 · 061 - 5 2.2.2 逻辑回归的特征工程 (1).mp4 0

重要参数penatly&C

1、正则化

L1正则化和L2正则化虽然都可以控制过拟合，但它们的效果并不相同。当正则化强度逐渐增大（即C逐渐变小），参数的取值会逐渐变小，但L1正则化会将参数压缩为0，L2正则化只会让参数尽量小，不会取到0。

在L1正则化在逐渐加强的过程中，携带信息量小的、对模型贡献不大的特征的参数，会比携带大量信息的、对模型有巨大贡献的特征的参数更快地变成0，所以L1正则化本质是一个特征选择的过程，掌管了参数的“稀疏性”。L1正则化越强，参数向量中就越多的参数为0，参数就越稀疏，选出来的特征就越少，以此来防止过拟合。

相对的，L2正则化在加强的过程中，会尽量让每个特征对模型都有一些小的贡献，但携带信息少，对模型贡献不大的特征的参数会非常接近于0。通常来说，如果我们的主要目的只是为了防止过拟合，选择L2正则化就足够了。但是如果选择L2正则化后还是过拟合，模型在未知数据集上的效果表现很差，就可以考虑L1正则化。

[展开全文]

1512_N_小星星 · 2021-10-09 · 060 - 5 2.2.1 正则化：重要参数penalty & C.mp4 0

[展开全文]

1512_N_小星星 · 2021-10-09 · 059 - 5 2.1.1 二元逻辑回归的损失函数.mp4 0

为什么需要逻辑回归

1. 逻辑回归对线性关系的拟合效果好到丧心病狂，特征与标签之间的线性关系极强的数据，比如金融领域中的信用卡欺诈，评分卡制作，电商中的营销预测等等相关的数据，都是逻辑回归的强项。虽然现在有了梯度提升树GDBT，比逻辑回归效果更好，也被许多数据咨询公司启用，但逻辑回归在金融领域，尤其是银行业中的统治地位依然不可动摇（相对的，逻辑回归在非线性数据的效果很多时候比瞎猜还不如，所以如果你已经知道数据之间的联系是非线性的，千万不要迷信逻辑回归）；

2. 逻辑回归计算快：对于线性数据，逻辑回归的拟合和计算都非常快，计算效率优于SVM和随机森林，亲测表示在大型数据上尤其能够看得出区别；

3. 逻辑回归返回的分类结果不是固定的0，1，而是以小数形式呈现的类概率数字：我们因此可以把逻辑回归返回的结果当成连续型数据来利用。比如在评分卡制作时，我们不仅需要判断客户是否会违约，还需要给出确定的”信用分“，而这个信用分的计算就需要使用类概率计算出的对数几率，而决策树和随机森林这样的分类器，可以产出分类结果，却无法帮助我们计算分数（当然，在sklearn中，决策树也可以产生概率，使用接口 predict_proba调用就好，但一般来说，正常的决策树没有这个功能）。

另外，逻辑回归还有抗噪能力强的优点。福布斯杂志在讨论逻辑回归的优点时，甚至有着“技术上来说，最佳模型的AUC面积低于0.8时，逻辑回归非常明显优于树模型”的说法。并且，逻辑回归在小数据集上表现更好，在大型的数据集上，树模型有着更好的表现。

由此，我们已经了解了逻辑回归的本质，它是一个返回对数几率的，在线性数据上表现优异的分类器，它主要被应用在金融领域。其数学目的是求解能够让模型对数据拟合程度最高的参数的值，以此构建预测函数，然后将特征矩阵输入预测函数来计算出逻辑回归的结果y。注意，虽然我们熟悉的逻辑回归通常被用于处理二分类问题，但逻辑回归也可以做多分类。

[展开全文]

1512_N_小星星 · 2021-10-09 · 057 - 5 1.2 为什么需要逻辑回归.mp4 0

而逻辑回归，是一种名为“回归”的线性分类器，其本质是由线性回归变化而来的，一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来，得要先理解线性回归。线性回归是机器学习中最简单的的回归算法，它写作一个几乎人人熟悉的方程：