摘要

[目的]针对命名实体边界识别困难问题,本文融入词信息以改进在线问诊记录中临床关键特征的识别与推断。[方法]基于MacBERT与条件随机场构建模型,对词位置和词性等词信息进行位置“软”嵌入,利用说话者角色嵌入引入对话文本信息。同时,引入加权多分类交叉熵解决实体类别不均衡问题。[结果]在春雨医生互联网在线问诊记录上开展实证研究,所提模型在命名实体识别任务上的F_(1)值为74.35%,相比直接利用MacBERT模型提高近2%。[局限]未设计专门对中文分词的模型。[结论]与直接利用MacBERT模型建模相比,融入词信息等更多纬度特征能有效地提升模型对临床发现关键特征的识别能力。