[今日热搜]使用小批量梯度下降的优点[每日解析]

使用小批量梯度下降的优点

已邀请:
可以减少参数更新的波动,最终得到效果更好和更稳定的收敛。还可以使用最新的深层学习库中通用的矩阵优化方法,使计算小批量数据的梯度更加高效。通常来说,小批量样本的大小范围是从50到256,可以根据实际问题而有所不同。在训练神经网络时,通常都会选择小批量梯度下降算法。SGD方法中的高方差振荡使得网络很难稳定收敛,所以有研究者提出了一种称为动量(Momentum)的技术,通过优化相关方向的训练和弱化无关方向的振荡,来加速SGD训练。Nesterov梯度加速法,通过使网络更新与误差函数的斜率相适应,并依次加速SGD,也可根据每个参数的重要性来调整和更新对应参数,以执行更大或更小的更新幅度。AdaDelta方法是AdaGrad的延伸方法,它倾向于解决其学习率衰减的问题。Adadelta不是累积所有之前的平方梯度,而是将累积之前梯度的窗口限制到某个固定大小w。Adam算法即自适应时刻估计方法(Adaptive Moment Estimation),能计算每个参数的自适应学习率。这个方法不仅存储了AdaDelta先前平方梯度的指数衰减平均值,而且保持了先前梯度M(t)的指数衰减平均值,这一点与动量类似。Adagrad方法是通过参数来调整合适的学习率η,对稀疏参数进行大幅更新和对频繁参数进行小幅更新。因此,Adagrad方法非常适合处理稀疏数据。

要回复问题请先登录注册