基于CmabBERT-BILSTM-CRF的针灸古籍分词技术研究

作者:钟昕妤; 李燕*; 徐丽娜; 陈月月; 帅亚琦
来源:计算机时代, 2023, (04): 11-15.
DOI:10.16644/j.cnki.cn33-1094/tp.2023.04.003

摘要

针灸古籍中含有大量通假字、歧义词和专业术语。基于深度学习的分词方法,因静态字向量固有表示和大规模且高质量语料缺乏等问题,限制了分词性能。为缓解上述问题,提出引入预训练策略,在ALBERT模型基础上,利用大量中医古籍再训练得到CmabBERT模型,并构建CmabBERT-BILSTM-CRF融合模型运用于针灸古籍分词任务。实验结果表明,在小样本语料基础下,对比Jieba分词器、BILSTM-CRF和ALBERT-BILSTM-CRF模型,该融合模型展现了更优越的分词性能。

全文