残差为什么服从于正态分布? (解决大部分,剩余一点待指点)

旧问题:
为什么残差是服从与均值为0的正态分布.
视频里说到随机变量之和服从与正态分布(中心极限定理),然后画风一转所以epsilon服从正态分布.希望解释下"随机变量之和"和epsilon之间的关系,另外这里说的随机变量具体指什么
 
答1:若epsilon可以看做许多微小量(元误差,即上面问题中的随机变量)叠加起来的综合,那么根据CLT,epsilon服从于正态分布.
新问题1:这些微小量不满足IID时,CTL还成立么? 有其他使成立的条件么
新问题2:为什么误差服从的正态分布均值为0,如果通过调整theta才成立,那调整后theta不就固定下来了么?

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: Lnan95 fish is668com

这是《机器学习升级版III》中“回归和特征选择”章节的问题。 首先要说明的是:这里的所有都是“假设” 1、所谓假设,就是根据“常理”应该是正确的前提。比如,假定一个人的身高位于区间[150cm,220cm],这能够使得大多数情况都是对的,但很显然有些篮球运动员已经不属于这个区间。所以,假设的第一个性质:假设往往是正确的但不一定总是正确——我把它称为“假设的内涵性”。 2、再如,在自然语言处理中,往往使用词袋模型(Bag Of Words),即认为一篇文档的所有词是独立的——这样的好处是计算该文档的似然概率非常简洁,只需要每个词出现概率乘积即可。但所有人都知道这个假设是错的——如,一个文档前一个词是“正态”,则下一个词极有可能是“分布”,文档的词并非真的独立。这是假设的第2个性质:假设只是接近真实,往往需要做若干简化——我称之为“假设的简化性”。 3、再如,我们假定文本中的词都是独立的,通过朴素贝叶斯可以做分类(如垃圾邮件的判定——注:这个是咱们《机器学习》课程后面要详细分析和给出代码实现的内容之一)。我们发现一个“奇怪”的结论:即使我们给出这样明显不正确的假设,但它的分类效果竟然还不错,往往是在实践中堪用的。因此,假设的第3个性质是:在某个简化的假设下推导得到的结论,不一定只有在假设成立时结论才成立——我把它称为“假设的发散性”。   总结:假设具有内涵性、简化性和发散性。   回答题目本身,我们为了建立误差是什么分布的模型,认为这个误差是由众多随机现象独立影响的综合反应,因此这个误差应该能够近似服从正态分布。再次强调:这只是假设。 事实上,我们通过中心极限定理知道,即使N个随机变量不是独立的(如,它们满足马尔科夫性),最后得到的这N个随机变量的叠加仍然是正态分布。

要回复问题请先登录注册