基于SimHash的文本相似检测算法研究

王添男; 冯锋

doi:10.16520/j.cnki.1000-8519.2019.15.031

登录

免费注册

赞收藏引用

科研之友

微信

新浪微博

Facebook

分享链接

基于SimHash的文本相似检测算法研究

作者：王添男; 冯锋

来源：电子测试, 2019, (15): 87-89.

DOI：10.16520/j.cnki.1000-8519.2019.15.031

摘要

simhash算法是针对处理海量数据包括文本、网页等去重问题的最重要的技术之一,本文基于传统的simhash算法去重时存在短文本准确率难以保证的问题提出一种改进的策略,通过使用多线程的方式达到指定的运算量级,对准确率的问题使用折中点的方式去解决,长短文本使用不同的汉明距离去判定文本的相似性,同时运用TF-IDF算法与标注重点相结合的方式,使得确定权重的方式在基于TF-IDF的算法下适应于更多的文本,让不同的文本确定权重变得更加的灵活。

全文

访问全文

收藏分享被引浏览

更新时间：2024-04-09 21:58

相似论文
引用论文
参考文献

产品服务

科研之友科研之友机构版科创云

站内浏览

科研成果科研人员科研机构

服务支持

帮助中心隐私政策服务条款

联系方式

在线客服：【立即咨询】客户热线：400-1616-289 电子邮箱：support@scholarmate.com

微信公众号