摘要

针对基于音形码或HowNet的中文词相似度检测算法无法同时考虑汉字的音、形、义特征,导致检测结果不准确等问题,提出改进音形码与HowNet相结合的中文词相似度检测算法。考虑缺少声母与韵母的情况,采用格雷码编码的音码进行改进。将形码的四角号码编码改为可较为细致描述汉字的笔顺编码。在加权编辑距离的基础上,改进字符串匹配方式。最后将改进的音形码与HowNet相结合。实验表明,无论从音形还是词义检测中文词相似度,算法有更高的准确度。

全文