摘要
本发明公开了一种相似文本标定方法,包括:文档去噪处理并生成原始指纹向量;对原始指纹向量进行抽样;通过快速匹配算法比较两个抽样指纹向量,获得匹配指纹对及该指纹对在各自指纹向量中的位置,得到两个抽样指纹向量间所有的匹配指纹序号对;将所有匹配指纹序号对投影到二维坐标中;使用顺序近似聚类方法,将沿45度方向将符合近似条件的匹配指纹对进行聚类,形成类簇集合;使用斜率密度聚类方法,沿45度方向,对符合密度要求的类簇进行聚类;对聚类结果进行后处理,舍弃掉不符合斜率要求的类簇;计算各个类簇起止指纹的原始文档位置,形成两个文档间相似文本的标定结果。本发明具有极高的准确率,抗干扰能力强,能有效地提高相似文本标定的精确度。
-
单位华南理工大学; 赛尔网络有限公司