解锁式学习
937人加入学习
(0人评价)
机器学习算法基础(基础机器学习课程)
价格 免费
承诺服务
该课程属于 1449-王同学-算法方向-金融风控-就业:是 请加入后再学习

文本特征分类功能:

1、文本特征抽取:count

文本分类----如每天的文献分类/文章的分类

2、tf  idf:

2.1 tf:term frequency:词的频率    出现的次数(类似count)

2.2 idf:逆文档频率inverse document frequency

log(总文档数量/该词出现的文档数量)

例:log(数值):输入的数值越小,结果越小

tf*idf 重要性

 

 

 

[展开全文]

文本特征抽取:Count 

功能:

文本分类

情感分析

默认对于单个英文字母或者单词:没有不统计

词组分类器:jie'ba

 

[展开全文]

特征抽取:特征值化

字典数据特征抽取:对字典数据进行特征值化

 

DictVectorizer语法:

字典数据抽取:将字典中的一些类别数据,分别转换成一些数值。

数组形式:有类别的这些特征,先要转换字典数据

[展开全文]

pandas数据处理

:缺失值,数据转换,重复值(不用处理)

sklearn:对特征进行处理

 

 

[展开全文]

特征值(具体特征:身高/体重)->目标值(具体要达到的目的:如区分男女)

[展开全文]
temperature是气温, 100度很吓人啦 XD
[展开全文]

数据降维

1.特征选择

2.主成分分析

 

[展开全文]

MinMaxScaler(feature_range=())

feature_range 可以指定在一定的数值范围内

[展开全文]

tf idf

tf:term frenquency词的频率 出现的次数

idf:inverse document frequency 逆文档频率

log(总文档数量/该词出现的文档数量)

 

重要性程度

 

[展开全文]

countvectorizer没有参数

文本都是放在列表里面的可迭代对象

[展开全文]

性能瓶颈,读取速度

格式不太符合机器学习要求数据的格式

 

可用数据集:

Kaggle

UCI

scikit-learn

 

 

[展开全文]

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

1. 解放生产力

2.解决专业问题

3.提供社会便利

[展开全文]

让机器学习程序替换手动步骤,减少企业的成本,也提高企业的效率

[展开全文]

# 非监督学习

## k-means (聚类)

> 聚类做在分类之前

[展开全文]

# 分类算法:逻辑回归

> 逻辑回归:线性回归的式子作为输入,解决二分类问题, 也可以得出概率值

## 1、应用场景(基础分类问题:二分类)

- 广告点击率

- 是否为垃圾邮件

- 是否患病

- 金融诈骗

- 虚假账号

## 2、广告点击

- 点击

- 没点击

## 3、逻辑回归的输入与线性回归相同

[展开全文]

# 模型的保存和加载

from sklearn.externals import joblib

 

[展开全文]

## 过拟合与欠拟合

> 问题:训练集数据训练得很好,误差也不大,在测试集上有问题 原因:学习特征太少,导致区分标准太粗糙,不能准确识别处目标

- 欠拟合:特征太少

- 过拟合:特征过多

 

特征选择:

- 过滤式:低方差特征

- 嵌入式: 正则化,决策树,神经网络

 

[展开全文]

## 2、线性回归策略

> 预测结果与真实值有误差

> 回归:迭代的算法,知道误差,不断减小误差,

### 损失函数

 

 

- 最小二乘法之梯度下降

 

 

scikit-learn:

- 优点:封装好,建立模型简单,预测简单

- 缺点:算法的过程,有些参数都在算法API内部优化

[展开全文]

## 集成学习方法-随机森林

### 集成学习方法

> 通过建立几个模型组合来解决单一预测问题。工作原理是生成多个分类器/模型,各自独立地学习和做出预测,这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。

### 随机森林

> 在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。多个决策树来投票

### 随机森林建立多个决策树的过程

 

 

[展开全文]

# 分类算法:决策树、随机森林

## 1、认识决策树

### 决策树的划分

 

 

## 2、信息的度量和作用

> 信息的单位:比特

### 信息熵

> 信息和消除不确定性xiang'guan

[展开全文]