Fat + Short vs. Thin +Tall
Deep ==> Modularization
Why Deep? Training Data 不够
GMM
Univerality Therorem
Analogy
End-to-end Learning
Fat + Short vs. Thin +Tall
Deep ==> Modularization
Why Deep? Training Data 不够
GMM
Univerality Therorem
Analogy
End-to-end Learning
ReLU:
Maxout:
ReLU is a special case of Maxout.
Learnable activation function
RMSProp:
Momentum:
RMSProp + Momentum ==> Adam
Regularization:
Dropout
Backpropagation
to compute gradients efficiently
Chain Rule:
dz/dx = dz/dy × dy/dx
Fully Connected Feedforward Network
Output Layer = Multi-class Classifier
Example
Step 1: Function Set
Step 2: Goodness of a Function
Cross Entropy
Step 3: Find the best Function(Gradient Descent)
no squarre error
Discriminative 有时优于 Generative(几率模型:Naive Bayes)
Multi-class Classification
Softmax ==> 0<y<1
Limitation of Logistic Regression
Classificaiton as Regression
Generative Model:
P(x) =
Gaussian Distribution
Find Maximum Likelihood (mean*, covariance*)
All dimensions are independent ==> Naive Bayes Classifier
σ(z)=1/ (1+exp(-z))
On-line vs Off-line:
Momentum
Adagrad
RMSProp
Adam
Real Application
Adagrad
root mean square
g(gradient): 偏微分
best step: |First derivative| / Second derivative
Stochastic Gradient Descent
Feature Scaling
Taylor Series
error 来源:bias 和 variance
mean: μ
variance: σ^2
s^2 是 σ^2的估测值
E[f*] = f^-: f* 的期望值
简单的模型 Variance 较小,简单的模型受数据波动影响小
复杂模型的 Bias 更小
Regularization ==> 使曲线变平滑6
Cross Validation
x_i: features
input: x^n
output: y^^n
function: f_n
Loss function L(function 的 function):
Step3: Best Function
f* = arg min L(f)
w*, b* = arg min L(w, b)
Gradient Descent:
convex 凸面的 adj.
引入更复杂的函数:
x_cp^2
Overfitting
Back to Step 1: Redesign
Back to Step 2: Rularization(调整)
不考虑 b
select λ
字典元素添加、修改、删除
1.给字典新增“键值对”。如果“键”存在,则覆盖旧的键值对;如果“键”不存在,则新增“键值对”。
2.使用update()将新字典所有键值对全部添加到旧字典对象上。如果key有重复,则直接覆盖。
3.字典中元素的删除,可以使用del()方法;或clear()删除所有键值对;pop()指定键值对,并返回对应的“值对象”;
4.popitem():随机删除和返回改键值对。
字典元素的访问
1.通过【键】获得“值”。若键不存在,则抛出异常。
2.通过get()方法获得“值”。推荐使用。有点是:指定键不存在,返回None;也可以设定指定键不存在时默认返回的对象。推荐使用get()获取“值对象”。
3.列出所有的键值对
4.列出所有的键,列出所有的值
5.len()键值对的个数
6.检测一个“键”是否在字典中
字典的创建
1..通过{}、dict()来创建字典对象。
2.通过zip()创建字典对象
3.通过fromkeys创建值为空的字典
几何概率:与构成事件的长、面积、体积 成比例;
几何概率特点:基本事件 的无限性(抽象)、等可能性;
古典概型特点:基本事件 的有限性(具象)、等可能性;
元祖总结
1.元祖的核心:不可变序列
2.元祖的访问速度和处理速度比列表快
3.与整数和字符串一样,元祖可以作为字典的
元祖tuple
列表属于可变序列,可以任意修改列表中的元素。元祖属于不可变序列,不能修改元祖中的元素。因此,元祖没有增加元素,删除元素,修改元素相关的方法。
因此,我们只需要学习元祖的创建和删除,元祖中元素的访问和计数即可。元祖支持如下操作:
1.索引访问
2.切片操作
3.连接操作
4.成员关系操作
5.比较运算操作
6.计数:元祖长度len()、最大值min()、最小值min()、求和sum()等。
元祖的创建
1.通过()创建元祖。小括号可以忽略
2.通过tuple()创建元祖
t = pd.DataFrame(np.arange(12).reshape(3, 4), index=list("abc"), columns=list("WXYZ"))
切片操作