摘要
针对传统的基于模板匹配、人工构建特征、语义匹配等解决术语标准化的方案,往往会存在术语映射准确率不高,难以对齐等问题.本文结合医疗领域的文本中术语口语化、表达多样化的特点,使用了多策略召回和蕴含语义评分排序模块来提升医学术语标准化效果.在多策略召回模块中使用了基于Jaccard相关系数、TF-IDF、历史召回方法进行召回,在蕴含语义评分模块使用了RoBERTa-wwm-ext作为判分语义模型.首次在医学专业人员标注的基于SNOMED CT标准的中文数据集上验证了可用性.实验证明,在医疗知识特征的处理中,本方法能够在医学术语标准化实际应用上达到不错的效果,具有很好的泛化性及实用价值.
- 单位