请问如何计算文本之间的相似性?

我有大量的文本,成千上百万条那种。我如何计算文本相互之间的相似性呢?如果使用tf-idf作为词的权重,余弦计算相似性的话,由于文本数量太多要么内存溢出,要么耗时特别长。有没有其他方法可以计算文本之间的相似性吗?

shixing

赞同来自:

所以,你最后每个文章相当于一个高维向量了?如果是这种情况的话,你又用cosine distance.  推荐的解决方法是LSH. 你可以搜索一下。之后会讲到

要回复问题请先登录注册