2292-刘同学-算法方向-数据挖掘-就业:是 已关闭

2292-刘同学-算法方向-数据挖掘-就业:是 扫二维码继续学习 二维码时效为半小时

(0评价)
价格: 免费
  1. 线性回归
  • 极大似然估计解释最小二乘

假设: 误差ξ服从高斯分布(0, δ)

①最大化似然函数,对l(θ)进行简化

 

max l(θ)  等价于 min(J(θ))

  • 1 最小二乘的矩阵推导

 

注意:

(1)是关于θ的函数,最大化θ参数

(2)J(θ)是一个xTx的凸函数,因为xTx是半正定的,开口向上,xTxθTθ就是关于θ的开口向上的二次函数

  • 线性回归复杂度惩罚因子

(1)L2正则,进行对θ惩罚 -- Ridge回归

         L1正则,  --  Lasso回归

  • 解释为什么L1有特征选择能力:

1 拉格朗日角度进行解释

(1) 原本的目标: 希望θ=0就计0,不等于0就计为1,惩罚θ>0时候的数目,但是由于是无解的,因此用L1范数进行近似

推导看手稿:

2 几何解释:

L1约束使得某一个wi是0,稀疏约束

L2使得两个wi都比较小,约束

  • L1正则不可导如何解决?

(1)坐标轴下降法

(2)近端梯度近似法...  其余还有很多

  • 2 广义逆矩阵求解(伪逆)

(1)当x可逆, θx =y可以直接进行求解,不用进行目标函数最小化求解,因此可以利用SVD进行奇异值分解,求出伪逆矩阵后进行求解 

  • 3 梯度下降法求解
  1. Logistics 回归
  2. 多分类softmax回归
  3. 技术:
  • 梯度下降
  • 最大似然估计
  • 特征选择

 

[展开全文]
1787_Y_xzt · 2021-05-05 · 自由式学习 0
  1. 1 贝叶斯, MLE的思想

假设1:p(Ai) 概率相似

P(D|Ai): 给定结论Ai下, 这个数据以多大的概率产生。 可以理解为x1..xn是未知的数据参数,θi是已知的参数,能够使  p(x1..xn|θi)最大的参数θi,就是我们想要估计的参数, 这里xi对应D,Ai对应参数θ

 

  1. 2 赔率分析

公平赔率; y = 1/p   y是赔率,p是赢的概率

赔率公式    y =a/p

 

计算庄家盈亏:

10.5% = 0.21 a / 2a

 

  1. 3 模糊查询与替换

 

2 PCA

2.1 原理

①求协方差矩阵

② 特征值排序

③ 方差最大的就认为是主要的方向,其中特征向量相互垂直,每一个特征向量就是一个方向,Aμi的方差最大,就认为是最主要的投影方向

①假定样本已经作了中心化,所以忽略均值E

Q 为什么特征值最大 等价于 求方差最大?

PCA中希望投影的方差最大,认为得到的信息最多。

目标函数:

加上等式约束  μTμ=1, 根据拉格朗日求解,

aJ/aμ = 2ATAμ +2λμ = 0 ,求得λ就是 ATA的特征值。

因此,方差最大 等价于 最大特征值

 

2.2 过拟合问题

使用高阶的特征x1^2, x2^2...,特征过多,虽然会得到弯曲的曲线进行分离,但是很有可能产生过拟合问题

 

决策树不需要做one-hot编码

 

6.1 Prime

计算素数:  

fliter(函数, x): 把数字放入x中,结果输出

 

 

[展开全文]
1787_Y_xzt · 2021-05-04 · 自由式学习 0
  1. 集合
  2. 元素
  3. 描述方式
  4. ​​​​​​​子集
  5.  
[展开全文]

让机器学习程序替换手动步骤,减少企业的成本,也提高企业的效率

[展开全文]

数据分析的流程:

  1. 提出问题
  2. 准备数据
  3. 分析数据
  4. 获得结论
  5. 成果可视化
[展开全文]

控制流程:顺序、条件、循环

[展开全文]

# 回归

## 一、线性回归

- 离散型数据:分类

- 连续型数据:回归

### y=kx+b

### 多个变量的情况

[展开全文]

# 数据清洗和特征选择

## fuzzeywuzzy模糊查询

- 任何一次插入,修改和删除算作一次过程+1

 

[展开全文]

# 非监督学习

## k-means (聚类)

> 聚类做在分类之前

[展开全文]

# 分类算法:逻辑回归

> 逻辑回归:线性回归的式子作为输入,解决二分类问题, 也可以得出概率值

## 1、应用场景(基础分类问题:二分类)

- 广告点击率

- 是否为垃圾邮件

- 是否患病

- 金融诈骗

- 虚假账号

## 2、广告点击

- 点击

- 没点击

## 3、逻辑回归的输入与线性回归相同

[展开全文]

# 模型的保存和加载

from sklearn.externals import joblib

 

[展开全文]

## 过拟合与欠拟合

> 问题:训练集数据训练得很好,误差也不大,在测试集上有问题 原因:学习特征太少,导致区分标准太粗糙,不能准确识别处目标

- 欠拟合:特征太少

- 过拟合:特征过多

 

特征选择:

- 过滤式:低方差特征

- 嵌入式: 正则化,决策树,神经网络

 

[展开全文]

## 2、线性回归策略

> 预测结果与真实值有误差

> 回归:迭代的算法,知道误差,不断减小误差,

### 损失函数

 

 

- 最小二乘法之梯度下降

 

 

scikit-learn:

- 优点:封装好,建立模型简单,预测简单

- 缺点:算法的过程,有些参数都在算法API内部优化

[展开全文]

## 集成学习方法-随机森林

### 集成学习方法

> 通过建立几个模型组合来解决单一预测问题。工作原理是生成多个分类器/模型,各自独立地学习和做出预测,这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。

### 随机森林

> 在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。多个决策树来投票

### 随机森林建立多个决策树的过程

 

 

[展开全文]

# 分类算法:决策树、随机森林

## 1、认识决策树

### 决策树的划分

 

 

## 2、信息的度量和作用

> 信息的单位:比特

### 信息熵

> 信息和消除不确定性xiang'guan

[展开全文]

# 模型选择与调优

## 1、交叉验证

> 为了让被评估的模型更加准确可信\

> 将训练集再分为训练集和验证集 将所有数据分成n等分

 

##2、网格搜索:调参数

K-近邻:超参数

> 通常情况下,很多参数需要手动指定,如k值,这种叫超参数。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型

[展开全文]

# 分类模型的评估

> estimator.score()

- 一般最常见使用的是准确率,即预测结果正确的百分比

 

 

## 精确率和召回率

> 预测结果为正例样本中真实为正例的比例(查得准)

> 召回率:真实为正例的样本中预测结果为整理的比例(查的全,对正样本的区分能力)

 

[展开全文]

# 分类算法-朴素贝叶斯算法

## 一、概率基础

> 概率被定义为一件事件发生的可能性

## 二、联合概率和条件概率

> 联合概率:包含多个条件,且所有条件同时成立的概率 p(a,b)=p(a)xp(b)

> 条件概率:就是事件a在另外一个事件b已经发生条件下的发生概率 记作p(a|b),   p(a1,a2|b)=p(a1|b)p(a2|b), 次条件概率的成立,是由于a1,a2相互独立的结果

### 例题

 

## 三、朴素贝叶斯 : 特征之间需要相互独立

### 文档分类

- p(科技|文档) 文档1: 词1,词2,词3

- p(娱乐|文档) 文档2:词a,词b,词c

### 贝叶斯公式

 

 

[展开全文]

# 一、分类算法-K-近邻算法

> 通过邻居判断类别

## 一、定义

> 如果一个样本在特征空间中的 k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。

> 来源:KNN算法,一种分类算法

## 二、计算距离公式:欧式距离

> 相似的样本,特征之间的值都是相近的。

> 计算特征距离时,应该进行标准化。

## 三、算法API

 

 

## 四、k的取值

> k的取值会影响k的结果

## 五、实例:预测入住位置。

[展开全文]

## 转换器与估计器

> 引入:实例化是一个转换器类,调用fit_transfrom

 

[展开全文]