信息相似性下网络对抗文本重复数据分级索引

高晶; 曹福凯; 闫明; Muhd Khaizer Omar<sup>*</sup>

摘要

目前重复数据分级索引方法没有对数据进行预处理,存在分级效率低、准确率低和相似数据提取率低的问题。提出信息相似性下网络对抗文本重复数据分级索引方法。方法首先构建出向量空间模型,将所有文本转换成互联网可识别的特定模式,并算出数据特征项及其权重以此将数据进行一个简单分类,并利用编辑距离法详细计算出特征项之间的相似度,最终利用朴素贝叶斯分类器经过重重训练,实现重复数据分级索引。实验结果表明,信息相似性下网络对抗文本重复数据分级索引方法的分级效率较高,准确率较高,相似数据提取率高。

单位
华北理工大学冀唐学院; 华北理工大学

收藏分享被引浏览

更新时间：2024-04-17 11:56

信息相似性下网络对抗文本重复数据分级索引

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友