关于随机梯度下降的疑问

关于随机梯度下降求教几个问题:1.虽然SGD每次选取一个样本求解θ,但它的损失函数是不是还和批梯度下降一样,用所有样本计算的J(θ)?
2.每次只选一个样本,那就不能保证每次都能使J(θ)减少,那是不是每次都要比较一下,如果J(θ)变大了,这次更新就不进行(但貌似算J(θ)又需要全部样本)?还是说不管J(θ)变大变小,都更新θ? 但这样做最后会收敛么?

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: fengyun123 小屁孩儿

这两个问题可以看成是一个问题:随机梯度下降的目标函数是全体样本的损失吗? 事实上,只是用的一个样本的损失。即: 如果是批量梯度下降,损失函数是:sigma_i(h(xi)-yi)^2;如果是随机梯度下降,损失函数是:(h(xi)-yi)^2。

要回复问题请先登录注册