如何对问题进行打标签?

现在想对一个“问答”中的问题做比较细致的打标签工作。 比如一个用户问: > 我是个男生,我和我女朋友上街吃了很多小吃,晚上起来不断地起冷汗,第二天肚子疼得不行,但是她却没事,这是什么原因啊? 我们有一些已经预设好的标签集合,例如 > 性别男, 性别女, 冒汗,眼肿,肚子不舒服,头痛,血压高,问病因,问药方 在这个情况下,这个问题应该可以被打上以下几个标签(对应句子中一些信息): > 性别男(我是个男生),冒汗(起冷汗),肚子不舒服(肚子疼得不行),问病因(这是什么原因) 使用什么样的模型能够较好地处理这一类打多个标签的问题? 我想用人力来做标注和训练,但是现在却不知道准备什么样的模型比较好? 希望史老师能给我一些提示和指引!
很多问题我自己没有处理过,所以可能不太有经验。 给问题打标签,其实是一个open-vocabulary的问题,就是你的标签种类有无限多种,提前不知道有哪些。 所以方法应该是无监督和监督结合起来: 1. 无监督可以试试tf-idf这种简单的feature来寻找关键词。应该有很多论文在做这些东西。  2. 监督的方法,可能需要标注,可能seq2seq是一个解决方案:我是个男生-->性别男。 或者用seq model, 然后在最后一步做分类。这个前提是你提前知道一共有多少种标签。  

L_zejie

赞同来自:

标签是固定的,数量也是固定的,每一类问题会有N个标签。 想用机器对这一类问题打上m个标签。(m<=N) 目前用的就是tf-idf, 建了一个隐藏层的NN,跑出来的结果基本能看. 但是目前想提高准确率,建立一套更好的标注体系、和准备一些标注数据。 我自己现在有1000多个这种问题,有120个标签,每个问题有1-4个左右标签。这种量级的数据做seq2seq会不会不够呢? 感谢您的回答, 这类问题是multi-label classification, 如果您有熟识的人做这方面的事情是否能给个邮箱我咨询一下 :) 感激不尽

要回复问题请先登录注册