中文影像学报告中的命名实体识别研究

作者:张志强; 徐岩; 黄艳群; 王妮; 杨正汉; 陈卉; 刘红蕾*
来源:北京生物医学工程, 2020, 39(06): 609-614.
DOI:10.3969/j.issn.1002-3208.2020.06.009.

摘要

目的探索对中文影像学报告进行命名实体识别的方法,特别是条件随机场算法的识别效果。方法随机收集98份腹部CT影像学报告。与影像学专家共同确定报告中影像所见部分的5类实体部位、形态、大小、密度和增强,并进行人工标注。将98份报告按7∶3的比例随机分为训练集样本和测试集样本,使用条件随机场中的三种特征模板进行命名实体识别,并比较识别结果。结果 98份CT影像学报告的影像所见共32 332个汉字及字符,训练集23 224字,测试集9 108字。分别利用3种条件随机场特征模板时,实体的总体识别结果F1值平均0.948 7,实体大小的识别的F1值最高达0.981 8。结论条件随机场算法在中文影像学报告的命名实体识别任务中具有很高的准确性,所识别的实体可用于进行后续信息提取等自然语言处理任务。

  • 单位
    首都医科大学附属北京友谊医院; 生物医学工程学院; 首都医科大学

全文