想问个问题。从训练数据当中去掉相似样本能够降低过拟合么?

小康康

赞同来自:

你可以这么理解 过拟合是对训练集量身定制 放在验证集上效果就差很多了

左左c90

赞同来自:

但去掉相似样本有没有可能在某些算法当中确实能控制过拟合呢?例如svm这种用支撑向量的算法

时间不再回头 - 一句话介绍

赞同来自:

如果样本相似 但是 目标 y 却不同 我觉得去掉了确实可能控制过拟合,如果样本相似  目标 y 也相似  去掉了感觉只是数据去重吧。。。有影响么

爱疯才会赢

赞同来自:

过拟合是选取特征过多造成的吧,去掉样本意义应该不大,还是选择合适特征.样本相似也可能有他存在的价值,确定不了是不是多余。不能看人家样本相似,就去掉.主要还是参数选取,模型是不是太复杂了。样本相似,可能是人家本来出现频率就高,非要人为处理样本。最后得到的模型错的可能更厉害

左左c90

赞同来自:

我刚刚用泰坦尼克的数据测了下。。。添加了15条极度相似的数据,accuracy 82.49 变化到了 82.79.

要回复问题请先登录注册