深度学习对音频中涉黄、涉政话题的检测

1. 直接对音频进行涉黄、涉政话题检测,将音频转换成文本之后再进行涉黄、涉政话题的检测。那一个效果更好?
2. 如果是将音频转换成文本,使用现成的百度语音识别或科大讯飞的API,还是自己训练RNN模型。那一个效果更好?
3. 对于文本进行涉黄、涉政话题检测,市面上已经有相应的产品,比如网易云易盾等。自己训练RNN模型,可以做出什么样的突破。不同点在于,检测的文本为通过有噪声的音频转换成的文本,而并不是常规的网页。
 
@戎雪健
百度语音识别.png 网易云易盾.png

戎雪健

赞同来自: fish 向阳

1. 虽然语音已经包含音调信息,但转成文本后可以联系上下文进一步减少同音字/词的影响,与词库匹配的效果应该会更好。   2. 现在市面上的比较好的语音识别API效果应该都不错,做成终端app或服务的话调用API也会更方便。但现有的本地语音识别模型效果也非常好了,可以试试cmusphinx和kaldi这些。   3. 成熟的文本检测市场产品主要是在数据上的积累会更有优势,模型的话大家大差不差,多关注每年的ACL就会有发现。但相应的,自己训练语言模型的话,在更新维护相应词库上可以快速化/定制化,所以各有优势,建议根据自己的具体需求考虑。一些模型和方法可以参考这里:​ https://github.com/keon/awesome-nlp https://github.com/crownpku/awesome-chinese-nlp

向阳 - 工作过的在读硕士男

赞同来自:

如果进行语音识别的音频是生活娱乐类网络直播的音频,存在大量的音乐(背景、人的歌声)、少量人的普通话,那么语音识别API的效果就几乎没有了。可否对此类音频进行过滤,只留下正常人的声音(普通话)进行语音识别,这样的可行性如何?  百度和科大讯飞的API在语音识别效果上有一定的作用,免费版本要求时长限制为30s/60s,结果响应时间至少为3~5s。自己训练模型进行语音识别,音频训练集是一个大问题,识别效果(时长、实时性)也不一定比现成的API好?   涉黄、涉政话题的检测,衡量标准复杂。难以获得此类语料作为训练集和测试集。话题检测可行性如何?   @戎雪健

要回复问题请先登录注册