摘要
目的 基于单字和穷举分词的文本分类算法构建负例分析和类别相似度偏度分析方法,查找、发现和修正《国际医学术语词典》(MedDRA)可能存在的问题。方法 选择MedDRA 25.1中文版,使用单字和穷举分词生成术语的文本向量,采用逆频率指数和卡方加权生成类特征向量,采用余弦相似度计算文本向量与类特征向量的相似度。负例分析以相似度最大值作为术语类别判定标准。穷举分词向量取各术语前20位余弦相似度计算偏度,在两种类特征下余弦相似度分布均为负偏度,作为判定易混淆术语的指标。人工校验和分析计算结果。结果 负例分析发现低位语594个分类错误,其中346个为首选语一致的同义词,154个错误因罗马数字造成,94个因字符增减和字序变化造成,其中16个疑似为翻译错误和不准确。类别相似度偏度分析发现各术语层级字面上易混淆的医学术语共165个,其中以涉及卵巢生殖细胞、淋巴瘤的医学术语最为典型。结论 文本分类算法的负例分析可反推字典数据本身的错误,类别相似度偏度分析可发现字面易混淆的医学术语。
-
单位首都医科大学附属北京世纪坛医院