摘要
字符匹配是数据清洗中提高数据质量的重要途径。针对中文名词简称的匹配问题,在分析现有中文匹配算法的基础上,提出一种基于数据库中各属性关联度的匹配算法,通过对匹配名词所处属性的关联属性的数据对比相似度,按照中文简称和全称数据量设置置信度,从而得到简称匹配度。实例实验表明,该算法具有较好的适用性和准确性。
-
单位中国人民解放军海军工程大学; 电子工程学院
字符匹配是数据清洗中提高数据质量的重要途径。针对中文名词简称的匹配问题,在分析现有中文匹配算法的基础上,提出一种基于数据库中各属性关联度的匹配算法,通过对匹配名词所处属性的关联属性的数据对比相似度,按照中文简称和全称数据量设置置信度,从而得到简称匹配度。实例实验表明,该算法具有较好的适用性和准确性。