摘要

目的选用文本相似度的计算方法和思路进行辅助,以期提高诊断名称数据标准化过程中人工判断的效率。方法以《疾病分类与代码国家临床版2.0》为例,利用余弦相似度计算文本相似度,用单字与单字组合的穷举分词和频数、逆文本频率指数加权的算法生成文本向量,使用Microsoft Office Excel 2016的函数完成对计算结果的校验。结果诊断名称数据中单字至9字组的数目中,在3字组之后,字组不再几何级数增长,5字组之后出现下降。通过计算频数和频数乘以逆文本频率指数两种方式构建的文本向量文本相似度得出Ⅰ至Ⅸ字组组合模式下两种文本向量的相似度最大值的结果。在9种字组组合模式下,共计210条诊断名称出现过282次文本相似度最大值的对象不是自身。结论文本相似度计算方法适用于诊断名称标准化过程,有助于提高数据标准化过程中人工判断的效率。