3813-沈同学-人工智能学科-数据挖掘方向 - 拜师教育 - 师徒制教育平台|人工智能培训|大数据培训|JAVA培训|PYTHON培训| - Powered By EduSoho

3813-沈同学-人工智能学科-数据挖掘方向

3813-沈同学-人工智能学科-数据挖掘方向 3813-沈同学-人工智能学科-数据挖掘方向扫二维码继续学习二维码时效为半小时

(0评价)

价格：免费

学员(1)
课程(17)
分享

承诺服务

练
试
问
疑
动
业

排序：最新笔记
- 最新笔记
- 点赞最多

## 转换器与估计器

> 引入：实例化是一个转换器类，调用fit_transfrom

1411_Y_James · 2020-12-07 · 自由式学习 0

# 数据的划分和介绍

## 1、sklearn 数据集

### 数据集划分

- 训练集占大多数 70% 80% 75% 构建模型

- 测试集 30% 20% 25% 用于评估模型是否有效

sklearn.model_selection.train_test_split

1411_Y_James · 2020-12-07 · 自由式学习 0

## 机器学习算法分类以及开发流程

> 算法是核心，数据和计算是基础

> 找准定位，算法设计是算法工程师在做，我们要分析数据，分析业务，应用常见算法，特征工程，调参数，优化

- 学会分析问题，用算法解决问题

- 掌握算法基本思想

- 利用库和框架解决问题

### 算法分类

1、数据类型

- 离散型数据：由记录不同类别个体的数目所得到的数据，又称计数数据，不能再细分，也不能进一步地提高精确度。

- 连续型数据：可以在某个范围内取任意数，即变量的取值可以是连续的，如长度时间质量值等。通常是非整数，含有小数部分。

2、算法分类

1）监督学习（预测）特征值+目标值

- 分类 k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

- 回归线性回归岭回归

- 标注隐马尔科夫模型不做要求

2）无监督学习特征值无标签，无标准答案

- 聚类 k-means

> 分类：目标值离散型回归：目标值连续型

> 分类概念：分类是监督学习的一个核心问题，在监督学习中，当输出变量取有限个离散值时，预测问题变成为分类问题。最基础的便是二分类问题，即判断是非，从两个类别中选择一个作为预测结果。

> 应用：银行业务，图像处理，手写识别，文本分类

例子：

1、明天天气多少度：回归

2、明天天气是阴、晴还是雨：分类

3、人脸年龄预测：回归

4、人脸识别：分类

1411_Y_James · 2020-12-07 · 自由式学习 0

## 数据降维

> 维度：特征的数量

> 为什么要降维：删除一些不必要的特征

- 特征选择

- 主成分分析

### 特征选择

特征选择的原因

- 冗余：部分特征相关度高，容易消耗计算性能

- 噪声：部分特征对预测结果有影响

特征选择的主要方法

- filter 过滤式 variance threshold

- embedded 嵌入式正则化、决策树

- wrapper 包裹式

### 过滤式特征选择

sklearn.feature_selection.VarianceThreshold

> 特征之间容易相关对于高纬度数据来说

n_components:

- 小数百分比（0~1）保留多少信息一般取90~95%

- 整数减少到的特征数量

一般使用小数

1411_Y_James · 2020-12-06 · 自由式学习 0

sklearn.preprocessing.MinMaxScaler

1411_Y_James · 2020-12-06 · 自由式学习 0

### 特征的预处理: 对数据进行处理

### 特征预处理的方法

> 通过特定的统计方法，将数据转换成算法要求的数据

数值型数据：标准缩放：

- 归一化

- 标准化

类别型数据：one-hot编码

时间类型：时间的切分

### sklearn特征处理API

- sklearn.preprocessing

1411_Y_James · 2020-12-06 · 自由式学习 0

### tf_ idf分析

朴素贝叶斯

> tf: term frequency(词的频率) 出现的次数

> idf: 逆文档频率 inverse document frequency 公式：log(总文档数量/该词出现的文档数量)

log() 输入的数值越小，结果越小。

> tf*idf 重要性用以苹果一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。

sklearn.feature_extraction.text.TfidVectorizer

1411_Y_James · 2020-12-06 · 自由式学习 0

### 字典特征数据抽取

> 特征抽取：文本，字符串

> sklearn特征抽取API

- 字典特征抽取

sklearn.feature_extraction.Dictvectorizer

### Dictvectorizer语法

DictVectorizer.fit_transform(x)

返回sparse矩阵

### 流程

- 实例化DictVectorizer

- 输入数据并转换 fit_transform()

1411_Y_James · 2020-12-05 · 自由式学习 0

### 数据对于特征的处理

pandas：一个数据读取非常方便以及基本的处理格式的工具

- 缺失值

- 数据转换

- 重复值（机器学习中不需要进行去重）

sklearn：对于特征的处理提供了强大的接口

特征工程

> 概念：将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的预测准确性

> 意义：直接影响预测结果

### sklearn

> python语言的机器学习工具

> 机器学习算法的实现

- 数据的特征抽取

- 数据的特征预处理

- 数据的降维

1411_Y_James · 2020-12-05 · 自由式学习 0

链式赋值：x = y = 123

系列解包赋值：a,b,c = 1,2,3

变量互换:a,b = b,a

续航符：a = 'aaaaa/bbbb'
print（a)
<<<aaaaabbbb

切片操作：a = 'aasdffghhjjk'

a[1:2:3]

1175_Y_陈正伟 · 2020-07-08 · 自由式学习 0