文本特征表示

整理了一下文本特征表示方法,问题1:请问老师是否全面以及是否有错误?
1.向量空间模型(也称词袋模型):其中的权重可用布尔权重、词频权重、tf-idf权重表示。
2.N-gram模型
3.共现矩阵
4.词向量模型:word2vec
问题2:还有个问题,表示出词的特征后,整个文档特征怎么表示?
两个问题,谢谢老师。

shixing

赞同来自: melody66 fish

1. 词袋模型不知道是不是叫做向量空间模型。除此之外,都是正确的。但是这些特征并不全面。有更多的语法相关的特征可以考虑(POS tag),甚至语义的特征可以考虑(词在wordnet里面的类别)。 而且根据不同的问题,可能会有很多特有的更好的特征存在。  2. 有了词的特征之后,整个文档的特征一般是通过一个模型来把这些词的特征组合起来:    1. 像词袋模型,n-gram模型,以及共现矩阵,往往本身已经是文档的特征了。     2. word2vec, 你可以简单的把每个词的embedding平均,或者输入到一个sequence model中得到整个文章的表示。 

melody66

赞同来自:

谢谢老师。 那一般像主题生成,主题词总结这样的任务,(就是给定语料,例如一些微博博文,分辨出有多少个主题,并为每个主题生成简单的简介),什么样的特征适用呢? 使用的算法的话,除了聚类、LSA的相关方法(SVD,LDA)等方法,还有什么方法吗?利用深度学习、seq2seq能不能实现呢? 搜了好多论文都没有找到,老师可以给提供个大概方向吗?谢谢老师。

melody66

赞同来自:

好的,谢谢老师!

要回复问题请先登录注册