文本分类,但是每一个类别的数据量差别很大,应该怎么处理,需要让所有类的文本数量都差不多吗?

假设训练集中
1类有1万个
2类有1千个
3类有5千个
训练集是不是每个类都只取一千个左右。

shixing

赞同来自: 莫尕坤 fish

方法一: 每个类都取1000个 方法二: 每个类赋予不同的weight,  weight_1 = 1.0 weight_2 = 10.0 weight_3 = 2.0. 就是在你算loss的时候加入这些weight   但是我的经验是,这种问题很难解决,个别类别的数据量太少就是先天的缺陷。最好的解决方法就是继续收集数据。。。 

要回复问题请先登录注册