请问老师用svm算法对文章进行分类是否可行?

由于项目的需要,要对文章进行分类,类别是已经规定好的,大概有60类(分别用1~60编号)。
样本文章有8000篇左右,文章的长度都不太长,大概和微博的长度差不多,每篇文章会有一个分类编号
现在我想到的做法是:
1.对每篇文章进行分词,停用词过滤,并只保留词性为名词的词
2.对分词的结果计算tf-idf
3.将tf-idf矩阵fit到LinerSVC中训练模型
 
目前的问题是,训练的模型的预测精确度始终很低,只有20%多,调整了C值,无论往大调,还是往小调都不能提高预测精度。
 
我自己的猜测了几个原因:
1.会不会是tf-idf矩阵的维数太高导致的呢?因为分词后生成的词袋的维度达到了几万维,会导致svm模型不work
2.样本数据噪声过多
3.样本数量过少
 
不知道老师是否能评价一下我的做法是否是可行的?如果想提高预测精确率则下一步的方向应该是什么?业界一般的文本分类方法是什么?
 
我是个菜鸟,如果问题中有纰漏的地方还请见谅,谢谢!

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: fish

首先,可以试试其他的分类器,比如Logistic Regression,随机森林,如果效果仍然不是很好,基本可以判断是数据上的问题。   其次,通过你的描述,样本的特征维度远远大于了样本数量,这种情况往往导致效果不是很好。一般情况下,样本的维度应该小于样本的数量。所以要可以考虑增加样本数量,或者减少特征维度。对于减少特征维度上,可以考虑只提取频率top100或top200的tf-idf值,这样特征维度会少很多。

小象老师

赞同来自:

请问是哪个课的问题?

要回复问题请先登录注册