基于BERT的民间文学文本预训练模型

陶慧丹; 段亮<sup>*</sup>; 王笳辉; 岳昆

摘要

民间文学文本中含有大量生动形象的修辞手法；人名、地名极其复杂，难以判断词与词之间的边界；与现代汉语表达差别较大，预训练语言模型难以有效地学习其隐含知识，为机器自然语言理解带来困难。该文提出一种基于BERT的民间文学文本预训练模型MythBERT,使用民间文学语料库预训练，将BERT的字隐蔽策略改进为对中文词语隐蔽策略。对民间文学文本中解释字、词的注释词语重点隐蔽，减小BERT隐蔽的随机性并有利于学习词语语义信息。同时利用注释增强语言模型表示，解决一词多义、古今异义等问题。将MythBERT与BERT、BERT-WWM和RoBERTa等主流中文预训练模型在情感分析、语义相似度、命名实体识别和问答四个自然语言处理任务上进行比较。实验结果表明，注释增强的民间文学预训练模型MythBERT在民间文学文本任务上性能显著提升，与基线方法相比取得了最优的效果。

单位
云南大学

收藏分享被引浏览

更新时间：2024-03-20 20:00

基于BERT的民间文学文本预训练模型

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友