解锁式学习
749人加入学习
(0人评价)
机器学习-Sklearn(第三版)
价格 免费
承诺服务
该课程属于 2243-咸鱼-算法方向-数据挖掘-就业:否 请加入后再学习

数据预处理与特征工程

数据挖掘的五大流程:获取数据、数据预处理、特征工程、建模、上线验证

数据预处理preprocessing & impute

一、数据无量纲化(统一规格,特例:决策树、树的集成算法不需要)

1、中心化 zero-centered/mean subtraction

本质是所有记录减去一个固定值

1)preprocessing.MinMaxScaler

  • 数据归一化Normalization:数据收敛到[0,1]之间,归一化后的数据服从正态分布
  • 参数feature_range:控制缩放范围,默认[0,1]

2、缩放处理 scale

本质是所有记录除以一个固定值

 

[展开全文]

特征工程:

去中心化:让所有记录减去一个固定值。

数据归一化:把数据按照最小值中心化后再按极差缩放,然后被收敛到0-1之间

preprocessing.minmax

[展开全文]

数据无量纲化

在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布 的需求,这种需求统称为将数据“无量纲化”。

数据的无量纲化可以是线性的,也可以是非线性的。线性的无量纲化包括中心化(Zero-centered或者Meansubtraction)处理和缩放处理(Scale)。中心化的本质是让所有记录减去一个固定值,即让数据样本数据平移到 某个位置。

preprocessing.MinMaxScaler

当数据(x)按照最小值中心化后,再按极差(最大值 - 最小值)缩放,数据移动了最小值个单位,并且会被收敛到 [0,1]之间,而这个过程,就叫做数据归一化(Normalization,又称Min-Max Scaling)。注意,Normalization是归 一化,不是正则化,真正的正则化是regularization,不是数据预处理的一种手段。归一化之后的数据服从正态分 布,公式如下:

在sklearn当中,我们使用preprocessing.MinMaxScaler来实现这个功能。MinMaxScaler有一个重要参数, feature_range,控制我们希望把数据压缩到的范围,默认是[0,1]。

axis = 0 按行计算,得到列的性质。

axis = 1 按列计算,得到行的性质。

[展开全文]