一种基于汉字笔顺特征的关键词变体匹配方法

作者:王红雨; 杜刚; 朱艳云; 张晨; 杜雪涛
来源:电信工程技术与标准化, 2020, 33(12): 14-18.
DOI:10.13992/j.cnki.tetas.2020.12.003

摘要

近年来,垃圾短消息呈现出包含大量拆分字和形近字的现象,这种短消息可以绕过监控系统的关键词审查。由于拆分字和形近字数量众多,变化灵活,将其全部加入关键词库将令关键词库变得冗余。对此,本文提出了一种基于汉字笔顺特征的关键词变体匹配方法。基于汉字笔顺特征,首先合并垃圾短消息中的拆分字;然后通过建立索引表,快速查找出短消息中包含的疑似关键词;最后提出了"金字塔匹配法"匹配关键词。本文提出的方法有效降低了关键词库的冗余度,提高了关键词匹配效率。

全文