如何判断两篇文章是否属于同一文章

网上有个方法:
================================
一个naive的方法:

  
文章一共m个词,每个词x_i出现m_i次,
经验分布 p(x_i) = m_i /m, for x_i\in X
  
算一算经验熵
H(X) = - \sum_{x_i\in X} p(x_i) \log p(x_i)
  
标准化到[0,1]
H(X) / log m
====================================
但是请问谁知道更好的办法呢?比如某种开源的工具包。

邹博 - 计算机科学博士,深谙机器学习算法原理

赞同来自: 陈闯王

可以考虑使用simHash的方式,最终得到每个文档的标识串,然后计算两个文档的标识串的海明距离——如果距离在3以内,往往判定它们是相似的。 或者,假定词典长度为V,则把每个文档都看成长度为V的超大向量,计算向量之间的余弦相似度。——也可以在这之前,使用LDA等方式先降维,然后再计算余弦相似度。 抛砖引玉。

要回复问题请先登录注册