机器学习-Sklearn（第三版） - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训|

数据预处理与特征工程

数据挖掘的五大流程：获取数据、数据预处理、特征工程、建模、上线验证

数据预处理preprocessing & impute

一、数据无量纲化（统一规格，特例：决策树、树的集成算法不需要）

1、中心化 zero-centered/mean subtraction

本质是所有记录减去一个固定值

1）preprocessing.MinMaxScaler

数据归一化Normalization：数据收敛到[0,1]之间，归一化后的数据服从正态分布
参数feature_range：控制缩放范围，默认[0,1]

2、缩放处理 scale

本质是所有记录除以一个固定值

[展开全文]

3077_Yuki · 2022-07-06 · 030 - 3 2数据预处理1：无量纲化：数据归一化.mp4 0

特征工程：

去中心化：让所有记录减去一个固定值。

数据归一化：把数据按照最小值中心化后再按极差缩放，然后被收敛到0-1之间

preprocessing.minmax

[展开全文]

2846_Y_陈同学 · 2022-06-23 · 030 - 3 2数据预处理1：无量纲化：数据归一化.mp4 0

数据无量纲化

在机器学习算法实践中，我们往往有着将不同规格的数据转换到同一规格，或不同分布的数据转换到某个特定分布的需求，这种需求统称为将数据“无量纲化”。

数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化（Zero-centered或者Meansubtraction）处理和缩放处理（Scale）。中心化的本质是让所有记录减去一个固定值，即让数据样本数据平移到某个位置。

preprocessing.MinMaxScaler

当数据(x)按照最小值中心化后，再按极差（最大值 - 最小值）缩放，数据移动了最小值个单位，并且会被收敛到 [0,1]之间，而这个过程，就叫做数据归一化(Normalization，又称Min-Max Scaling)。注意，Normalization是归一化，不是正则化，真正的正则化是regularization，不是数据预处理的一种手段。归一化之后的数据服从正态分布，公式如下：

在sklearn当中，我们使用preprocessing.MinMaxScaler来实现这个功能。MinMaxScaler有一个重要参数， feature_range，控制我们希望把数据压缩到的范围，默认是[0,1]。

axis = 0 按行计算,得到列的性质。

axis = 1 按列计算,得到行的性质。

[展开全文]

1512_N_小星星 · 2021-09-25 · 030 - 3 2数据预处理1：无量纲化：数据归一化.mp4 0

授课教师

课程特色

最新学员

学员动态