摘要

开放域分词器对临床文本进行分词处理时,其性能受到了临床文本独特的子语言特性的极大限制,给后续医学实体边界识别造成了不少错误累积。本文针对该问题构建了面向临床文本的分词器,将该分词器用于医学实体识别模型的词特征提取来减少医学实体边界错误,还构建了字级别的条件随机场模型用于识别医学实体,避免了分词给实体边界识别造成的错误累积问题。