深入内容:基于 SimHash 的相似度检测

有时候,网页内容虽然不完全一样,但本质相同。比如,两篇新闻只有发布时间和广告不同。传统的完全匹配算法无法识别这种“近重复”。此时,我们需要使用 SimHash 算法来生成指纹。 SimHash 可以将长文本转化为一个固定长度的特征值。通过计算两个特征值的�

read more