文本分类问题

要做工单拟办意见推荐
我的思路是将拟办意见做为分类标签,对工单的内容做分词训练,计算TF-IDF值做为特征向量,训练模型,选择最优的模型保存
 
数据预测:
新来工单数据,对工单内容做分词训练,同样计算TF-IDF值,获取保存的模型,使用模型进行预测,或许分类标签值
 
请问:
1、用分类思想解决此问题是否正确?
2、在新工单数据预测时,计算TF-IDF值应该用transform还是fit_transform?使用transform提示没有fit,使用fit_transform提示特征维度不同?
3、每一条数据的分词个数是否需要保持一致?例如训练模型时每条工单内容分词的个数相同,而新工单预测时工单内容分词个数与训练模型时的分词个数保持一致
 
 

Robin_TY - PhD@CSU,研究方向:计算机视觉,模式识别

赞同来自: 小象老师 fish

1. 思路正确,是一个分类问题 2. 对于测试数据,应该使用transform(),但要注意,这里操作transform()的对象是之前在训练集上进行过fit_transform()的同一个对象(变量),不是一个新的对象 3. 不必要保证分词个数相同,sklearn中的tf-idf已经做了处理,保证了对文档进行特征提取后的维度相同

小象老师

赞同来自:

请问是哪个课的问题?

哈嘻嘿哼

赞同来自:

《Python人工智能——进阶篇》第一期 

要回复问题请先登录注册