基于SimHash和混合相似度的多模式匹配方法

作者:曹卫东; 胡炜; 王家亮; 王静
来源:计算机应用研究, 2020, 37(01): 198-202.
DOI:10.19734/j.issn.1001-3695.2018.06.0462

摘要

为了解决多源异构民航旅客服务数据集成过程中存在多模式匹配的效率不高、精确性不足、完整模式信息获取难度较大等问题,提出了一种基于Sim Hash和混合相似度的多模式匹配方法。该方法首先基于PMI计算特征单元权重,并通过Sim Hash算法构造属性列的签名来表示属性特征,以降低特征维度,进而引入K-means++算法对属性聚类并生成候选匹配集。最后基于属性的混合相似度构建属性映射图,以直观的方式展示属性间的匹配关系,同时提高多模式匹配效率。实验结果表明该方法具有可行性,为高效地解决多源异构民航旅客服务数据集成中的模式冲突问题提供新的解决方案。

全文