[央视新闻]LR为什么要使用极大似然函数,交互熵作为损失函数?那为什么不选平方损失函数的呢[财经新闻]

LR为什么要使用极大似然函数,交互熵作为损失函数?那为什么不选平方损失函数的呢

已邀请:
更新速度只与真实的x和y相关,与激活函数无关,更新平稳比如mse就会导致更新速度与激活函数sigmoid挂钩,而sigmoid函数在定义域内的梯度大小都比较小(0.25>x),不利于快速更新mse下的lr损失函数非凸,难以得到解析解

要回复问题请先登录注册