Early Stopping
我们要在过拟合之前停止
1、设置val set
2、监听在各个参数值下的val set的表现
3、在val 表现最好的时候停止——一定程度上需要有经验
Dropout——防止过拟合的一种方法
减少了隐藏层之间的神经元的连接量,Learning less to learn more,会使得曲线较为平缓且泛化
代码实现
需要特别说明的是
在torch里面,p代表的是断掉的概率,在tensorflow里面p代表的是保持连接的概率。
此外,我们约定了在test中,需要全部连接神经,需要手动切断dropout
关键的一句是:net_dropeed.eval( )
Stochastic Gradient Descent并不是完全随机的,而是符合某一个分布的
从train set里面抽取出来一个batch比如16、32、64、128等,计算其所有在某个x上的梯度求和再平均得到梯度值。优点:节约显存