### 特征的预处理: 对数据进行处理
### 特征预处理的方法
> 通过特定的统计方法,将数据转换成算法要求的数据
数值型数据:标准缩放:
- 归一化
- 标准化
类别型数据:one-hot编码
时间类型:时间的切分
### sklearn特征处理API
- sklearn.preprocessing
### 特征的预处理: 对数据进行处理
### 特征预处理的方法
> 通过特定的统计方法,将数据转换成算法要求的数据
数值型数据:标准缩放:
- 归一化
- 标准化
类别型数据:one-hot编码
时间类型:时间的切分
### sklearn特征处理API
- sklearn.preprocessing
### tf_ idf分析
朴素贝叶斯
> tf: term frequency(词的频率) 出现的次数
> idf: 逆文档频率 inverse document frequency 公式:log(总文档数量/该词出现的文档数量)
log() 输入的数值越小,结果越小。
> tf*idf 重要性 用以苹果一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。
sklearn.feature_extraction.text.TfidVectorizer
### 字典特征数据抽取
> 特征抽取:文本,字符串
> sklearn特征抽取API
- 字典特征抽取
sklearn.feature_extraction.Dictvectorizer
### Dictvectorizer语法
DictVectorizer.fit_transform(x)
返回sparse矩阵
### 流程
- 实例化DictVectorizer
- 输入数据并转换 fit_transform()
### 数据对于特征的处理
pandas:一个数据读取非常方便以及基本的处理格式的工具
- 缺失值
- 数据转换
- 重复值 (机器学习中不需要进行去重)
sklearn:对于特征的处理提供了强大的接口
特征工程
> 概念:将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
> 意义:直接影响预测结果
### sklearn
> python语言的机器学习工具
> 机器学习算法的实现
- 数据的特征抽取
- 数据的特征预处理
- 数据的降维