机器学习算法基础（基础机器学习课程） - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

936人加入学习

(0人评价)

机器学习算法基础（基础机器学习课程）

价格免费

教学计划

学习有效期 365 天（随到随学）

承诺服务练试问疑

扫一扫扫二维码继续学习二维码时效为半小时
分享
已收藏
收藏

该课程属于 1449-王同学-算法方向-金融风控-就业：是请加入后再学习

排序：最新笔记
- 最新笔记
- 点赞最多

文本特征分类功能：

1、文本特征抽取：count

文本分类----如每天的文献分类/文章的分类

2、tf idf:

2.1 tf:term frequency:词的频率出现的次数（类似count）

2.2 idf:逆文档频率inverse document frequency

log(总文档数量/该词出现的文档数量）

例：log(数值)：输入的数值越小，结果越小

tf*idf 重要性

[展开全文]

2032037_N_Bella · 2021-09-30 · 07_tf-df分析问题.flv 0

文本特征抽取：Count

功能：

文本分类

情感分析

默认对于单个英文字母或者单词：没有不统计

词组分类器：jie'ba

[展开全文]

2032037_N_Bella · 2021-09-30 · 06_文本特征抽取以及中文问题.flv 0

特征抽取：特征值化

字典数据特征抽取：对字典数据进行特征值化

DictVectorizer语法：

字典数据抽取:将字典中的一些类别数据，分别转换成一些数值。

数组形式：有类别的这些特征，先要转换字典数据

[展开全文]

2032037_N_Bella · 2021-09-30 · 05_字典特征数据抽取.flv 0

pandas数据处理

：缺失值，数据转换，重复值（不用处理)

sklearn：对特征进行处理

[展开全文]

2032037_N_Bella · 2021-09-30 · 04_特征工程的定义.flv 0

特征值（具体特征：身高/体重）->目标值（具体要达到的目的：如区分男女）

[展开全文]

2032037_N_Bella · 2021-09-29 · 03_数据集的组成.flv 0

temperature是气温, 100度很吓人啦 XD

[展开全文]

2158_N_阿恩 · 2021-09-13 · 05_字典特征数据抽取.flv 1

数据降维

1.特征选择

2.主成分分析

[展开全文]

1820_Y_Daisy · 2021-05-22 · 12_数据的降维之特征选择.flv 0

MinMaxScaler(feature_range=())

feature_range 可以指定在一定的数值范围内

[展开全文]

1820_Y_Daisy · 2021-05-22 · 09_归一化以及标准化对比.flv 0

tf idf

tf:term frenquency词的频率出现的次数

idf:inverse document frequency 逆文档频率

log(总文档数量/该词出现的文档数量)

重要性程度

[展开全文]

1820_Y_Daisy · 2021-05-22 · 07_tf-df分析问题.flv 0

countvectorizer没有参数

文本都是放在列表里面的可迭代对象

[展开全文]

1820_Y_Daisy · 2021-05-22 · 06_文本特征抽取以及中文问题.flv 0

性能瓶颈，读取速度

格式不太符合机器学习要求数据的格式

可用数据集:

Kaggle

UCI

scikit-learn

[展开全文]

1820_Y_Daisy · 2021-05-21 · 03_数据集的组成.flv 0

机器学习是从数据中自动分析获得规律(模型)，并利用规律对未知数据进行预测

1. 解放生产力

2.解决专业问题

3.提供社会便利

[展开全文]

1820_Y_Daisy · 2021-05-21 · 02_机器学习概述.flv 0

让机器学习程序替换手动步骤，减少企业的成本，也提高企业的效率

[展开全文]

1530_Y_Breative · 2021-02-16 · 02_机器学习概述.flv 0

# 非监督学习

## k-means （聚类）

> 聚类做在分类之前

[展开全文]

1411_Y_James · 2020-12-09 · 12_k-means原理以及案例.flv 0

# 分类算法：逻辑回归

> 逻辑回归：线性回归的式子作为输入，解决二分类问题，也可以得出概率值

## 1、应用场景（基础分类问题：二分类）

- 广告点击率

- 是否为垃圾邮件

- 是否患病

- 金融诈骗

- 虚假账号

## 2、广告点击

- 点击

- 没点击

## 3、逻辑回归的输入与线性回归相同

[展开全文]

1411_Y_James · 2020-12-09 · 08_逻辑回归定义，损失函数，优化与线性回归比较.flv 0

# 模型的保存和加载

from sklearn.externals import joblib

[展开全文]

1411_Y_James · 2020-12-09 · 07_模型的保存与加载.flv 0

## 过拟合与欠拟合

> 问题：训练集数据训练得很好，误差也不大，在测试集上有问题原因：学习特征太少，导致区分标准太粗糙，不能准确识别处目标

- 欠拟合：特征太少

- 过拟合：特征过多

特征选择：

- 过滤式：低方差特征

- 嵌入式：正则化，决策树，神经网络

[展开全文]

1411_Y_James · 2020-12-09 · 05_过拟合以及欠拟合.flv 0

## 2、线性回归策略

> 预测结果与真实值有误差

> 回归：迭代的算法，知道误差，不断减小误差，

### 损失函数

- 最小二乘法之梯度下降

scikit-learn：

- 优点：封装好，建立模型简单，预测简单

- 缺点：算法的过程，有些参数都在算法API内部优化

[展开全文]

1411_Y_James · 2020-12-09 · 03_线性回归策略，优化，案例.flv 0

## 集成学习方法-随机森林

### 集成学习方法

> 通过建立几个模型组合来解决单一预测问题。工作原理是生成多个分类器/模型，各自独立地学习和做出预测，这些预测最后结合成单预测，因此优于任何一个单分类的做出预测。

### 随机森林

> 在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。多个决策树来投票

### 随机森林建立多个决策树的过程

[展开全文]

1411_Y_James · 2020-12-08 · 15_随机森林的原理以及案例调优.flv 0

# 分类算法：决策树、随机森林

## 1、认识决策树

### 决策树的划分

## 2、信息的度量和作用

> 信息的单位：比特

### 信息熵

> 信息和消除不确定性xiang'guan

[展开全文]

1411_Y_James · 2020-12-08 · 12_决策树之信息论基础.flv 0

机器学习-【技法】

1 0

机器学习-【基石】

1 0

机器学习-视觉聊天机器（9）

185 0

机器学习-基于pytorch的风格转换（4）

184 0

授课教师

森陌夏栀

高级算法工程师

teacher03

teacher02

teacher01

老师

课程特色

考试(7)

图文(1)

视频(43)

学员动态

3687_Y_zheng 开始学习 09_归一化以及标准化对比.f...

2970 开始学习 04_k-近邻算法以及案例预测...

2970 完成了课件资料下载

3683_徐天宇完成了课件资料下载

3683_徐天宇开始学习 04_特征工程的定义.flv

授课教师

课程特色

最新学员

学员动态