结合RoBERTa与多策略召回的医学术语标准化

韩振桥; 付立军; 刘俊明; 郭宇捷; 唐珂轲; 梁锐

doi:10.15888/j.cnki.csa.008757

摘要

针对传统的基于模板匹配、人工构建特征、语义匹配等解决术语标准化的方案,往往会存在术语映射准确率不高,难以对齐等问题.本文结合医疗领域的文本中术语口语化、表达多样化的特点,使用了多策略召回和蕴含语义评分排序模块来提升医学术语标准化效果.在多策略召回模块中使用了基于Jaccard相关系数、TF-IDF、历史召回方法进行召回,在蕴含语义评分模块使用了RoBERTa-wwm-ext作为判分语义模型.首次在医学专业人员标注的基于SNOMED CT标准的中文数据集上验证了可用性.实验证明,在医疗知识特征的处理中,本方法能够在医学术语标准化实际应用上达到不错的效果,具有很好的泛化性及实用价值.

单位
中国科学院大学; 山东大学; 中国科学院沈阳计算技术研究所

全文

访问全文

收藏分享被引浏览

更新时间：2025-03-27 16:59

结合RoBERTa与多策略召回的医学术语标准化

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友