GAN: Generative Adversarial Network
since sliced bread
Disciminator
Step 1: Fix G, update D
Step 1: Fix D, update G
Can Generator learn by itself?
Auto-encoder
Decoder = Generator
Can Discriminator generate?
GAN: Generative Adversarial Network
since sliced bread
Disciminator
Step 1: Fix G, update D
Step 1: Fix D, update G
Can Generator learn by itself?
Auto-encoder
Decoder = Generator
Can Discriminator generate?
Why CNN for image
Filter: 3×3
stride 步长
Feature Map
几个 Filter 几个 image
Max Pooling
Deep dream: Exaggerate
Deep style:
Fat + Short vs. Thin +Tall
Deep ==> Modularization
Why Deep? Training Data 不够
GMM
Univerality Therorem
Analogy
End-to-end Learning
ReLU:
Maxout:
ReLU is a special case of Maxout.
Learnable activation function
RMSProp:
Momentum:
RMSProp + Momentum ==> Adam
Regularization:
Dropout
Backpropagation
to compute gradients efficiently
Chain Rule:
dz/dx = dz/dy × dy/dx
Fully Connected Feedforward Network
Output Layer = Multi-class Classifier
Example
Step 1: Function Set
Step 2: Goodness of a Function
Cross Entropy
Step 3: Find the best Function(Gradient Descent)
no squarre error
Discriminative 有时优于 Generative(几率模型:Naive Bayes)
Multi-class Classification
Softmax ==> 0<y<1
Limitation of Logistic Regression
Classificaiton as Regression
Generative Model:
P(x) =
Gaussian Distribution
Find Maximum Likelihood (mean*, covariance*)
All dimensions are independent ==> Naive Bayes Classifier
σ(z)=1/ (1+exp(-z))
On-line vs Off-line:
Momentum
Adagrad
RMSProp
Adam
Real Application
Adagrad
root mean square
g(gradient): 偏微分
best step: |First derivative| / Second derivative
Stochastic Gradient Descent
Feature Scaling
Taylor Series
error 来源:bias 和 variance
mean: μ
variance: σ^2
s^2 是 σ^2的估测值
E[f*] = f^-: f* 的期望值
简单的模型 Variance 较小,简单的模型受数据波动影响小
复杂模型的 Bias 更小
Regularization ==> 使曲线变平滑6
Cross Validation
x_i: features
input: x^n
output: y^^n
function: f_n
Loss function L(function 的 function):
Step3: Best Function
f* = arg min L(f)
w*, b* = arg min L(w, b)
Gradient Descent:
convex 凸面的 adj.
引入更复杂的函数:
x_cp^2
Overfitting
Back to Step 1: Redesign
Back to Step 2: Rularization(调整)
不考虑 b
select λ
几何概率:与构成事件的长、面积、体积 成比例;
几何概率特点:基本事件 的无限性(抽象)、等可能性;
古典概型特点:基本事件 的有限性(具象)、等可能性;
同时调整多个参数,模型运行非常慢。更换数据预处理的方式。
调参可以画学习曲线,或者进行网格搜索。模型调参,第一步找目标。
泛化误差:当模型在未知数据表现很差时,表明模型泛化能力不够。模型太简单和太复杂泛化误差都会很大。
偏差-方差困境。n_estimator增加,不影响单个模型的复杂度。调参方向:降低模型复杂度。
max_deph有增无减,模型复杂度增加。
当复杂度无法再降低时,就可以不用再tiaozhnegle
[*矩阵]查看列的索引。需要Ytest所带的索引,
使用随机森林填补缺失值。n个数据,特征T有缺失值,把特征T当作标签,作为训练集。遍历所有特征,缺失值最少的特征进行填补,因为一开始需要的缺失值最少。当进行到最后一行时,那么在弥补缺失值最多的数据时,就有足够多的准确数据了。
随机森林填补获取数据集时的缺失值。
sklearn.impute.SimpleImputer轻松填补数据缺失值。
随机森林的回归。
分类树与回归树,MSE均方误差。
回归树衡量指标mse、firedman_mse与MAE
sklearn使用负值的均方误差作为衡量指标,因为表示的是损失。
load_boston是一个标签连续型数据集。
regressor是模型
boston.data完整的矩阵、boston.target是标签。来回验证十次,scoring选择指标进行打分。