### 特征的预处理: 对数据进行处理
### 特征预处理的方法
> 通过特定的统计方法,将数据转换成算法要求的数据
数值型数据:标准缩放:
- 归一化
- 标准化
类别型数据:one-hot编码
时间类型:时间的切分
### sklearn特征处理API
- sklearn.preprocessing
### 特征的预处理: 对数据进行处理
### 特征预处理的方法
> 通过特定的统计方法,将数据转换成算法要求的数据
数值型数据:标准缩放:
- 归一化
- 标准化
类别型数据:one-hot编码
时间类型:时间的切分
### sklearn特征处理API
- sklearn.preprocessing
### tf_ idf分析
朴素贝叶斯
> tf: term frequency(词的频率) 出现的次数
> idf: 逆文档频率 inverse document frequency 公式:log(总文档数量/该词出现的文档数量)
log() 输入的数值越小,结果越小。
> tf*idf 重要性 用以苹果一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。
sklearn.feature_extraction.text.TfidVectorizer
### 字典特征数据抽取
> 特征抽取:文本,字符串
> sklearn特征抽取API
- 字典特征抽取
sklearn.feature_extraction.Dictvectorizer
### Dictvectorizer语法
DictVectorizer.fit_transform(x)
返回sparse矩阵
### 流程
- 实例化DictVectorizer
- 输入数据并转换 fit_transform()
### 数据对于特征的处理
pandas:一个数据读取非常方便以及基本的处理格式的工具
- 缺失值
- 数据转换
- 重复值 (机器学习中不需要进行去重)
sklearn:对于特征的处理提供了强大的接口
特征工程
> 概念:将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
> 意义:直接影响预测结果
### sklearn
> python语言的机器学习工具
> 机器学习算法的实现
- 数据的特征抽取
- 数据的特征预处理
- 数据的降维
链式赋值:一个对象赋值给多个变量
eg。 x=y=123
系列解包赋值:赋值给相同个数的变量
eg。x,y,z,= 1,2,3
python 不支持常量 一般用命名方法确定是常量就是全部大写
del 变量名字 #shan c
标识符命名方法
避开已有的命名 比如if in or not 等关键字
区分大小写
第一个字符必须是- or 字母 其后的字符是:字母 数字 下划线
一般不用双下划线 为开头和结尾的名称命名
变量储存的是对象的地址,变量也通过地址引用了对象
变量是属于栈
对象是属于堆
python 里的变量不需要声明类型 是因为变量引用的对象里可以查找到类型 python可以自动确定数据类型
python 是强类型语言
一个类型 只能做相应的事情 不能瞎搞事情
对象
对象由 标识(identity) ,类型(type) ,值(value) 组成。
eg.1 可将其比作车位: id 即为停车位号数 d1 d2...
type 即为不同车型不同size的停车位 轿车 自行车 大卡车
value 即为停进这个车位的什么车
eg.2 a=3
id(3)=id(a) :1531372336
type(3)=type(a):int
value(a):3
以后看到 a=3 不要单纯的仅仅想到数值三,而是其间的关系,3的id\type\value综合起来才是其赋予给a的内容。
eg.3 b=''我爱你'' (字符类)
id(b)=46806816
type(b)=str
value(b)=''我爱你''
# 行注释
注释想解释或表达的内容(会自动被翻译器忽略)
''' 段注释
一段的解释或想表达的内容(由两个''',一个在开头一个在结尾组成)
\ 行连接符
eg.
a=''1234567890'
也可写为
a=''123\456\7890''
import turtle 引入绘图模式
turtle.show 开始看图画
.write 可以写字
.forward 箭头向前
.penup 抬笔
.pendown 落笔
.goto (0,0) 去坐标轴
.circle(100) 画圆
守:保守学习,跟随老师
破: 突破基础,多做训练 学会反问
离:自成一派,独立解决
不要钻牛角尖 先建立完整的知识体系
再返回看不懂的知识
开头不要有空格
行注释 #
段落注释'''
注意点
1 不要在开头增加空格
2 符号都是英文符号