极大似然 求解逻辑回归 情况下的 少量噪音样本的影响

请问老师:
当我们用传统的极大似然估计,求解逻辑回归问题
(比如使用牛顿法,或者拟牛顿法),
对于只有少量出现在正样本中的特征,其训练后的权重会很大吗?

比如说,某个特征A,只在极少量的正样本中出现,没有在负样本中出现;而且样本总量非常大;
训练出来的特征A的权重会比较大吗?
还是说,会由于极大似然统计的原因,其权重不会很大?
 
谢谢!

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: fish 风中摇曳SA

首先, 这个题目的问法是不对的。Logistic回归不是使用极大似然估计进行求解的。我先啰嗦一下Logistic回归的整体脉络: 我们只是使用极大似然估计和二项分布作为工具,推导出了Logistic回归本身。而Logistic回归的参数求解,实践中往往使用梯度下降(如批量梯度下降、随机梯度下降、mini-Batch梯度下降等)或者拟牛顿方法(如L-BFGS)来对参数计算局部极大值,而Logistic回归的目标函数是凹函数,保证了局部极大值就是全局极大值。   第二, 您的问题其实是:如果样本严重有偏,如样本中正例很少负例很多(这在实践中其实非常常见:如点击率、购买率,如饭馆的意见本——不信你去翻翻,那里面大部分是差评啦。)可以肯定的是:几乎所有的算法,都无法对抗样本有偏的问题。在实践中需要对样本预处理才可以。如 对正样本重复采样, 对负样本降采样, 给定正负样本的距离,模拟生成更多的样本, 加入更多的先验,调节超参数。   这是个非常开放的好问题,实践中特征选择、数据分析,往往需要最体现才能的就是这个环节。

LeonTown

赞同来自:

谢谢老师!   1. 用极大似然方法构造出目标函数,然后使用一阶或者二阶梯度的方法求极值。   2. 如果不做预处理,对于那些只出现在少量正样本,而没有出现在负样本中的特征,其训练权重可能确实会较大, 并导致实际预估时候的偏差。   3. 不知道在模型方面,是否能够降低这些“只在少量正样本中出现,而没有出现在负样本中的噪声影响”   4. 这让我想起卡方分布统计,如果某特征只出现某一个类别中,虽然数量很少,但也会获得较大的权重。 难道这两个模型都有类似的问题?

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自:

在模型方面是有这样的模型的,如随机森林或者GDBT的方法,构造多个分类器,能一定程度的降低样本有偏的影响。但仍然需要尽量预处理样本,如上面提到的那些方法。

要回复问题请先登录注册