《黄帝内经》文本语料库的构建与应用研究

作者:石玉敬; 刘伟*; 葛晓舒; 胡为; 刘弋莲; 易洋
来源:计算机时代, 2022, (12): 1-8.
DOI:10.16644/j.cnki.cn33-1094/tp.2022.12.001

摘要

针对当前优质中医古籍语料库较为缺乏的问题,对《黄帝内经》全书156,507字进行人工标注,构建集词性标注和分词一体的《黄帝内经》中医古籍语料库,并对《黄帝内经》开展系统性的中文分词研究。基于本文语料库,采用CRF、HMM、BiLSTM-CRF、BERT-BiLSTM-CRF、RoBERTa-wwm-BiLSTM-CRF等算法开展中文分词研究。经过对比验证得出RoBERTa-wwm-BiLSTM-CRF算法分词效果在各方面均有较大提升,准确率、召回率和F1值分别为93.86%、94.41%、94.13%,明显优于传统机器学习和主流深度学习方法。

全文