数据挖掘课第六次课 线性回归分析 t分布的含义?

为什么昨晚线性回归会有t分布的结果,t分布不是只有涉及抽样才回出现么?线性回归的输入数据如果已经是全量数据哪t分布的那些结果是不是没有意义了?
 
更新问题:stats.linregress()函数最后三个返回值 pvalue 和 std,做什么用的? 我输入不是抽样数据为什么也会按抽样数据计算?

wgb - 机器学习与数据挖掘从业者

赞同来自: pj0523 光磊

建议下次提问时,可以把问题描述的更加清楚一点,让没有上过那门课程的人,也可以来回答这个问题。比如说明白“那些结果”是哪些结果。   简单说一下t分布: 在进行某些检验的时候(比如样本均值),如果样本量够大,则我们一般使用Z检验(检验统计量服从正态分布)就可以了,因为中心极限定理告诉我们,正态分布是各种分布的极限分布(在一定条件下)。   但是当样本量比较小的时候,用服从正态分布的检验统计量就不合适了。这时候就需要用到t统计量。   当然,t分布在其自由度n趋向于无穷时,会收敛到正态分布。

Eric_Jiang - 我是小象的搬运工!!!

赞同来自: pj0523

是的, 在当时统计发展的过程中, 都是以极限定理,来研究大样本,但是发展到19世纪,有些试验数据 并不符合这种情况,哥色特等人对小样本进行研究,哥色特为其中代表人物。他最著名的研究就是 student t-分布。这是适合小样本的。

bazookapb

赞同来自:

@wgb 不好意思,我问的不清楚, 我的意思是 我只需要最小二乘法对数据set画一条回归线并没有做任何抽样,为什么会出现t分布?

wgb - 机器学习与数据挖掘从业者

赞同来自:

不知道你说的出现t分布,是否指的是在回归结果中出现t统计量的值?如下图:(此处我用的是R语言做回归,Python也有类似的结果)
1.png
  实际上,上面出现的t统计量的值是对于某一个变量的系数做显著性检验的时候的检验统计量(即检验某一个系数beta=0成不成立,如果不成立则说明该变量不显著);而p值对应的也是相应的检验的p值。这里的t值与你使用抽样数据无关。建议你先去补习一下《数据科学中的统计基础》里关于线性模型或者回归分析那一块的内容。

绿树

赞同来自:

根据线性回归分析的原假设,线性参数的估计量是服从正态分布的,但其分布的方差由残差的样本方差做出估计,因此线性参数估计量标准化后,是服从t分布的,所以我们可以用t分布来对齐进行显著性检验。

要回复问题请先登录注册