3541-吴同学-人工智能学科-数据挖掘方向 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费

MinMaxScaler(feature_range=())

feature_range 可以指定在一定的数值范围内

[展开全文]

tf idf

tf:term frenquency词的频率 出现的次数

idf:inverse document frequency 逆文档频率

log(总文档数量/该词出现的文档数量)

 

重要性程度

 

[展开全文]

countvectorizer没有参数

文本都是放在列表里面的可迭代对象

[展开全文]

性能瓶颈,读取速度

格式不太符合机器学习要求数据的格式

 

可用数据集:

Kaggle

UCI

scikit-learn

 

 

[展开全文]

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

1. 解放生产力

2.解决专业问题

3.提供社会便利

[展开全文]

O 来自 order 大写:以多项式的最大的次项的次数 大O(n) 表示 f(x) =O(g(x))  f(x)的阶与g(x)的阶相同

小写O f(x)=o(g(x))  f(x)的阶小于g(x)的阶

[展开全文]

连续[2:5,1:4]跳跃[[2,1],[3,5]]

[展开全文]
Dino · 2021-05-09 · 自由式学习 0

让机器学习程序替换手动步骤,减少企业的成本,也提高企业的效率

[展开全文]

真是听过讲的最烂的,重点yong'yuan'tiao'guo

[展开全文]

# Machine learning

- make decisions

- go right/left 

- increse/decrease

[展开全文]

# 为什么使用tensorflow

- GPU加速 比cpu快很多

- 自动求导

- 神经网络API

> 给与cpu和gpu一个热身的时间:warm-up

[展开全文]

数据分析的流程:

  1. 提出问题
  2. 准备数据
  3. 分析数据
  4. 获得结论
  5. 成果可视化
[展开全文]

# 非监督学习

## k-means (聚类)

> 聚类做在分类之前

[展开全文]

# 分类算法:逻辑回归

> 逻辑回归:线性回归的式子作为输入,解决二分类问题, 也可以得出概率值

## 1、应用场景(基础分类问题:二分类)

- 广告点击率

- 是否为垃圾邮件

- 是否患病

- 金融诈骗

- 虚假账号

## 2、广告点击

- 点击

- 没点击

## 3、逻辑回归的输入与线性回归相同

[展开全文]

# 模型的保存和加载

from sklearn.externals import joblib

 

[展开全文]

## 过拟合与欠拟合

> 问题:训练集数据训练得很好,误差也不大,在测试集上有问题 原因:学习特征太少,导致区分标准太粗糙,不能准确识别处目标

- 欠拟合:特征太少

- 过拟合:特征过多

 

特征选择:

- 过滤式:低方差特征

- 嵌入式: 正则化,决策树,神经网络

 

[展开全文]