摘要
【目的】研究资源稀少语言中预训练模型的表现,为构建藏语知识图谱、语义检索提供帮助。【方法】本研究采集人民网、人民网藏文版等新闻网站中藏族传统节日的汉藏双语文本数据,并比较多种预训练语言模型与词向量在汉藏双语情景下对命名实体识别任务的表现,同时分析了命名实体识别模型的两种特征处理层(BiLSTM层与CRF层)对实验结果的影响。【结果】实验结果表明:相较于词向量,汉语以及藏语的预训练语言模型在该任务上的F1性能分别提升0.010 8及0.059 0。特别是在实体数量较少的情景下,预训练模型相比词向量可提取更多的文本信息,并且训练时间缩短40%。【局限】藏语数据与汉语数据并非平行语料,且藏语数据中的实体数量少于汉语数据。【结论】预训练语言模型不仅在汉语文本领域有显著效果,在藏语这种资源稀少的语种也能取得很好的表现。
- 单位