- 常用数据集数据的结构组成:特征值 + 目标值(有些数据集可以没有目标值)
- 样本:一组数据也可以称为一个样本。
- 数据中对于特征的处理:
1. pandas:工具。数据读取非常方便,可以处理数据的基本格式
2. sklearn:可以对特征进行处理——这类处理被称为特征工程。
# 机器学习不需要对样本进行去重
【特征工程】
- 特征工程是将原始数据转换为能更好地代表预测模型的潜在问题的特征的过程,从而提高对未知数据的预测准确性
- 安装scikit-learn
- 常用数据集数据的结构组成:特征值 + 目标值(有些数据集可以没有目标值)
- 样本:一组数据也可以称为一个样本。
- 数据中对于特征的处理:
1. pandas:工具。数据读取非常方便,可以处理数据的基本格式
2. sklearn:可以对特征进行处理——这类处理被称为特征工程。
# 机器学习不需要对样本进行去重
【特征工程】
- 特征工程是将原始数据转换为能更好地代表预测模型的潜在问题的特征的过程,从而提高对未知数据的预测准确性
- 安装scikit-learn
pandas数据处理
:缺失值,数据转换,重复值(不用处理)
sklearn:对特征进行处理
### 数据对于特征的处理
pandas:一个数据读取非常方便以及基本的处理格式的工具
- 缺失值
- 数据转换
- 重复值 (机器学习中不需要进行去重)
sklearn:对于特征的处理提供了强大的接口
特征工程
> 概念:将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
> 意义:直接影响预测结果
### sklearn
> python语言的机器学习工具
> 机器学习算法的实现
- 数据的特征抽取
- 数据的特征预处理
- 数据的降维