摘要

命名实体识别技术是大数据处理中的最基本且最重要的问题之一,通过命名实体识别技术可以有效从医学文本中提取出关键性的医学命名实体,从而进一步进行医学研究分析。通过选取300篇入院记录进行研究,采用条件随机场(CRF)进行命名实体识别的基础模型构建,并且加入字典及规则方法进行准确率的提升,最终将模型中数量多的实体标签的交叉验证准确率提升至96%以上。实验结果表明,多方法结合的命名实体识别技术能够有效提升医学文本实体识别的准确性。