邹博老师在决策树一节回答的问题,在有偏的情况下要“重采样”。为什么在不同类别数据不平均时,要重采样或降采样呢?直接用不行吗?直接用在影响决策树的哪个地方?谢谢!

不同类别的数据不平均时,要重采样或降采样呢?直接用不行吗?直接用在影响决策树的哪个地方?谢谢!比如说A类有10个,B类有1000个。直接用不行吗?

Eric_Jiang - 我是小象的搬运工!!!

赞同来自: fish 邹博 dangyue 楠木仰苍穹

在数据倾斜的情况下会出现下图的情况:
2.png
因为A类样本点很少,比如说灰色的方框,如果A类样本足够多,那么在灰色方形附近会有很多的样本点,在这种情况下,分割超平面也就更趋于真是的分界面。反之,A类样本点不够多,分割超平面会向A类方向偏移,影响分类的准确。 这时一般使用重采样,让两个样本量大小相等,或者让A类翻倍,但是有个问题,对于依赖于样本概率分布的分类方法是行不通的,因为让两个样本量相同,会影响B类的信息,让A类翻倍不会增加A类的信息。所以这个并不是一个很好的方法,不建议使用的。 你可以对线性支持向量机的目标函数进一步改进,修改下正则化因子得到:
1.png
+表示正例,-表示负例。思想就是分割超平面会倾斜不是因为样本点少,而是信息量不够,分布不够广,对分布广的施加惩罚因子,约束下。

要回复问题请先登录注册