摘要
基于信息量(information content,IC)的医疗文本脱敏方法以互联网中医疗数据的稀疏性作为评判术语敏感与否的标准,而互联网中医疗数据的稀疏性受阶段性流行病与社会舆论指向的影响较大。针对此问题,本文提出一种基于医学术语系统命名法-临床术语(systematized nomenclature of medicine-clinical terms, SNOMEDCT)的语义相似度计算方法。该方法综合考虑了SNOMED-CT中概念之间的"继承"关系("ISA"关系,纵向关系)和"概念模型属性"关系(横向关系)两方面的因素来计算医疗术语之间的语义相似度。将该方法用于从维基百科(Wikipedia)选取的6类共42篇医疗文本脱敏的过程,实验结果表明,与基于信息量的脱敏方法相比,本文提出的方法在脱敏精度和实用度方面分别提高了4.97%和5.65%,能有效地用于医疗文本语义脱敏过程。
- 单位