摘要

中医药文本命名实体识别在中医药文本挖掘中占有重要地位,本文通过BiLSTM-CRF方法实现对中医医案文本进行命名实体识别,不仅实现了基本命名实体识别,通过对数据集按照中草药、疾病和症状三个类别进行标记,还能够进行命名实体类别识别。对中医药相关医案进行规整的10292条句子进行序列标注,基于word2vec的向量构建,从而进行模型训练迭代,得到了准确率为97.23%,召回率为89.47%,F值为88.34%的中医药命名实体识别模型。各类别识别中,中草药类别识别精准率为94.41%,召回率为94.36%,F值为94.38%;疾病类别精准率为80.92%,召回率为80.92%,F值为80.92%;症状类别精准率为75.68%,召回率为81.68%,F值为78.56%,人工测试模型效果较好,能够对医案数据进行实体识别。命名实体识别模型较多,但用于中医药相关命名实体识别模型数量微乎其微,构建中医药相关命名实体识别模型,将更加有效的推动中医药文本挖掘发展。