1712-小马马-算法方向-数据挖掘-就业:是 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费
  1. 1 贝叶斯, MLE的思想

假设1:p(Ai) 概率相似

P(D|Ai): 给定结论Ai下, 这个数据以多大的概率产生。 可以理解为x1..xn是未知的数据参数,θi是已知的参数,能够使  p(x1..xn|θi)最大的参数θi,就是我们想要估计的参数, 这里xi对应D,Ai对应参数θ

 

  1. 2 赔率分析

公平赔率; y = 1/p   y是赔率,p是赢的概率

赔率公式    y =a/p

 

计算庄家盈亏:

10.5% = 0.21 a / 2a

 

  1. 3 模糊查询与替换

 

2 PCA

2.1 原理

①求协方差矩阵

② 特征值排序

③ 方差最大的就认为是主要的方向,其中特征向量相互垂直,每一个特征向量就是一个方向,Aμi的方差最大,就认为是最主要的投影方向

①假定样本已经作了中心化,所以忽略均值E

Q 为什么特征值最大 等价于 求方差最大?

PCA中希望投影的方差最大,认为得到的信息最多。

目标函数:

加上等式约束  μTμ=1, 根据拉格朗日求解,

aJ/aμ = 2ATAμ +2λμ = 0 ,求得λ就是 ATA的特征值。

因此,方差最大 等价于 最大特征值

 

2.2 过拟合问题

使用高阶的特征x1^2, x2^2...,特征过多,虽然会得到弯曲的曲线进行分离,但是很有可能产生过拟合问题

 

决策树不需要做one-hot编码

 

6.1 Prime

计算素数:  

fliter(函数, x): 把数字放入x中,结果输出

 

 

[展开全文]
1787_Y_xzt · 2021-05-04 · 自由式学习 0

模型选择:了解每个模型;

EM算法无监督聚类燕尾花

GMM与图片分析

图像卷积

crawler 爬数据

 

[展开全文]
  1. 集合
  2. 元素
  3. 描述方式
  4. ​​​​​​​子集
  5.  
[展开全文]

让机器学习程序替换手动步骤,减少企业的成本,也提高企业的效率

[展开全文]

数据分析的流程:

  1. 提出问题
  2. 准备数据
  3. 分析数据
  4. 获得结论
  5. 成果可视化
[展开全文]

### 对于LightGBM:又轻又快

在不降低准确率的前提下,速度提升了10倍左右,占用内存下降了3倍左右。因为它是基于决策树算法的,它采用最优的==叶明智==策略分裂叶子节点,然而它的提升算法分裂树一般采用的是深度方向或者水平明智。因此,当增长到相同的叶子节点,叶明智算法比水平-wise算法减少更多得损失。因此导致更高的精度。

[展开全文]

### logistic函数:通过回归进行分类

### logistic回归的过程

- 1) 找到一个合适的预测函数,一般表示为h函数,该函数就是我们需要找的分类函数,它用来预测输入数据的判断结果。这个过程是非常关键的,需要对数据有一定的了解和分析,知道或者猜测预测函数的大概形式,比如是线性函数还是非线性函数。

- 2)构造一个loss损失函数,该函数表示预测的输出与训练数据类别之间的偏差。可以是二者之间的差或者是其他的形式。综合考虑所有训练数据的损失,将loss求和或者求平均,记为J(theta)函数,表示所有训练数据预测值与实际类别的偏差。

- 3)显然,J函数的值越小表示预测函数越准确。所以这一步需要做的是找到J函数的最小值。找到最小值有不同的方法。如梯度下降法。

[展开全文]

# 线性回归

## 方程y=Ax

## 最小二乘法(平方)Least Squares Method

\sum_(n=1)^N(y-y_i)^2

w\hat=(\pmb{X^T}\pmb{X})^-1\pmb{X^T}y

> 让平方误差最小

[展开全文]

集成算法

- bagging:套袋法

- boosting:提升算法:增大错误样本的权重同时减小正确样本的权重。与bagging对比boosting可以同时降低偏差和方差,而bagging只能降低模型的方差。但boosting更加容易过拟合。

- 随机森林:应用bagging和多颗决策树

- 梯度提升树

- adaboost:

> adaboost算法与boost算法不同,它是使用整个训练集来训练弱学习器,其中训练样本在每次迭代的过程中都会重新被赋予一个权重,在上一个弱学习器错误的基础熵进行学习来构建一个更加强大的分类器。

[展开全文]

# sklearn学习

## 介绍

-  数据分析和数据挖掘

- 用python进行机器学习

> 数据分析和数据挖掘==机器学习==人工智能

## 分类

- classification

- regression

- clustring

- dimensionality reduction

- model selection

- preprocessing

[展开全文]

控制流程:顺序、条件、循环

[展开全文]

# 回归

## 一、线性回归

- 离散型数据:分类

- 连续型数据:回归

### y=kx+b

### 多个变量的情况

[展开全文]

# 数据清洗和特征选择

## fuzzeywuzzy模糊查询

- 任何一次插入,修改和删除算作一次过程+1

 

[展开全文]

# 非监督学习

## k-means (聚类)

> 聚类做在分类之前

[展开全文]

# 分类算法:逻辑回归

> 逻辑回归:线性回归的式子作为输入,解决二分类问题, 也可以得出概率值

## 1、应用场景(基础分类问题:二分类)

- 广告点击率

- 是否为垃圾邮件

- 是否患病

- 金融诈骗

- 虚假账号

## 2、广告点击

- 点击

- 没点击

## 3、逻辑回归的输入与线性回归相同

[展开全文]

# 模型的保存和加载

from sklearn.externals import joblib

 

[展开全文]

## 过拟合与欠拟合

> 问题:训练集数据训练得很好,误差也不大,在测试集上有问题 原因:学习特征太少,导致区分标准太粗糙,不能准确识别处目标

- 欠拟合:特征太少

- 过拟合:特征过多

 

特征选择:

- 过滤式:低方差特征

- 嵌入式: 正则化,决策树,神经网络

 

[展开全文]

## 2、线性回归策略

> 预测结果与真实值有误差

> 回归:迭代的算法,知道误差,不断减小误差,

### 损失函数

 

 

- 最小二乘法之梯度下降

 

 

scikit-learn:

- 优点:封装好,建立模型简单,预测简单

- 缺点:算法的过程,有些参数都在算法API内部优化

[展开全文]

## 集成学习方法-随机森林

### 集成学习方法

> 通过建立几个模型组合来解决单一预测问题。工作原理是生成多个分类器/模型,各自独立地学习和做出预测,这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。

### 随机森林

> 在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。多个决策树来投票

### 随机森林建立多个决策树的过程

 

 

[展开全文]