数据预处理与特征工程
数据挖掘的五大流程:获取数据、数据预处理、特征工程、建模、上线验证
数据预处理preprocessing & impute
一、数据无量纲化(统一规格,特例:决策树、树的集成算法不需要)
1、中心化 zero-centered/mean subtraction
本质是所有记录减去一个固定值
1)preprocessing.MinMaxScaler
- 数据归一化Normalization:数据收敛到[0,1]之间,归一化后的数据服从正态分布
- 参数feature_range:控制缩放范围,默认[0,1]
2、缩放处理 scale
本质是所有记录除以一个固定值