一种面向科技文献元数据增量数据规范的多模式匹配算法

董美; 常志军; 张润杰

doi:10.11925/infotech.2096-3467.2020.1006

摘要

【目的】针对期刊文献元数据日增的小规模数据,设计一种基于Hash的多模式匹配算法,对其机构信息利用大规模的模式集进行规范化。【方法】使用Hash定位模式串,减少对系统内存的占用;抽取模式串的首个单词/字结合Word跳步匹配,减少匹配次数,加大跳转幅度,从而提升多模式匹配的效率。【结果】以CSCD机构库182万条数据作为模式集的实验中,该算法与Aho-Corasick(AC)算法对比,能够较为快速地构建模式集对应的字典;在字符集规模约为1万条时,有更优越的时间性能,尤其是英文语料下有9.39%时间性能的提升;与Wu-Manber(WM)算法相比,该算法不受最短模式串限制。【局限】针对不同的模式集和字符集,需要对算法或数据进行调整;该算法及其拓展的无首词模式,均不适用于模式集较小、字符集较大的场景。【结论】该算法可以应用于中文、英文、中英混合的文本,在模式集较大(106级)、字符集较小(1万左右)的情况下,有超越经典算法AC算法(0.08%-30.41%)和WM算法时间性能的表现。

单位
中国科学院文献情报中心; 中国科学院大学

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-27 16:52

一种面向科技文献元数据增量数据规范的多模式匹配算法

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友