1201-马同学-算法方向-大数据挖掘方向-就业:是 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费


### 特征的预处理: 对数据进行处理

### 特征预处理的方法

> 通过特定的统计方法,将数据转换成算法要求的数据

数值型数据:标准缩放:

- 归一化

- 标准化

类别型数据:one-hot编码

时间类型:时间的切分

### sklearn特征处理API

- sklearn.preprocessing

 

[展开全文]

### tf_  idf分析

朴素贝叶斯

> tf: term frequency(词的频率) 出现的次数

> idf: 逆文档频率 inverse document frequency 公式:log(总文档数量/该词出现的文档数量)

log() 输入的数值越小,结果越小。

> tf*idf 重要性 用以苹果一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。

sklearn.feature_extraction.text.TfidVectorizer

[展开全文]

### 字典特征数据抽取

> 特征抽取:文本,字符串

> sklearn特征抽取API

- 字典特征抽取

sklearn.feature_extraction.Dictvectorizer

### Dictvectorizer语法

DictVectorizer.fit_transform(x)

返回sparse矩阵

### 流程

- 实例化DictVectorizer

- 输入数据并转换 fit_transform()

 

[展开全文]

### 数据对于特征的处理

pandas:一个数据读取非常方便以及基本的处理格式的工具

- 缺失值

- 数据转换

- 重复值 (机器学习中不需要进行去重)

sklearn:对于特征的处理提供了强大的接口

特征工程

> 概念:将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性

> 意义:直接影响预测结果

### sklearn

> python语言的机器学习工具

> 机器学习算法的实现

- 数据的特征抽取

- 数据的特征预处理

- 数据的降维

 

 

 

 

[展开全文]
链式赋值:x = y = 123

系列解包赋值:a,b,c = 1,2,3

变量互换:a,b = b,a
 
续航符:a = 'aaaaa/bbbb'
print(a)
<<<aaaaabbbb 
 
切片操作:a = 'aasdffghhjjk'
a[1:2:3]
[展开全文]