更多的数据却无法进一步提升序列标注模型准确率

在利用CRF模型标注句子中的词时,当训练集达到一定量后,模型在测试集上的准确率随着训练集的增多不再提升,但是此时训练集还很小(仅有几千个句子),请问可能是哪些原因造成更多的数据却无法进一步提升模型准确率呢?

王昊奋 - 知识图谱从业者

赞同来自: HomeWave fish

这个问题属于机器学习的范畴。我简单说一下。 1. 你应该先关注你随着训练数据的增加,在训练数据上的准确性是否有继续提高。如果训练集上的准确性继续提高,但是测试集没有变化,建议看一下交叉验证是否具有相同的情况。如果是这样,就要考虑是否要overfitting了。 2. 检查测试数据和训练数据的数据分布,包括词典的重合情况。如果数据不是同分布的话,再增加再多不同分布的训练数据得到的模型只会让模型在训练集上过拟合而不会增加测试数据的预测准确性 3. 检查增加的额外的训练数据的多样性,可能增加了很多,但是多样性很差,包括用词或句式比较接近,其实训练的模型能针对的句子的表达方式就比较有限 4. 试图增加CRF特征,包括词性或更抽象的unigram特征,或增加高阶特征来看一下是否会有变化,检测其天花板;再下面就需要考虑模型的表达能力了。

要回复问题请先登录注册