摘要

【目的】针对命名实体边界识别困难问题,融入词信息以改进在线问诊记录中临床关键特征的识别与推断。【方法】基于MacBERT与条件随机场构建模型,对词位置和词性等词信息进行位置“软”嵌入,利用说话者角色嵌入引入对话文本信息。同时,引入加权多分类交叉熵解决实体类别不均衡问题。【结果】在春雨医生互联网在线问诊记录上开展实证研究,本文模型在命名实体识别任务上的F1值为74.35%,相比直接利用MacBERT模型提高近2个百分点。【局限】未设计专门对中文分词的模型。【结论】与直接利用MacBERT模型建模相比,融入词信息等更多维度特征能有效提升模型的识别能力。

全文