摘要

针对蒙古文问答系统研究较少,缺乏公开可用的蒙古文问答语料等问题,本文通过对现有中文问答语料进行收集、筛选、翻译、人工校正,构建了10万对蒙古文问答语料库。在此基础上,分别实现了基于循环神经网络和基于Transformer的蒙古文问答模型,对于因蒙古文自身的复杂性和训练语料较少而导致模型无法正确理解输入序列的问题,使用不同词切分方法对蒙古文问答语料进行了切分。实验结果表明,网络单元选择双向GRU并引入Attention机制的循环神经网络蒙古文问答模型效果最佳。相比循环神经网络模型,基于Transformer的蒙古文问答模型在困惑度指标上提高了37.71%~38.51%,回复的多样性也有了一定的提升。在几种切分方法对比中,基于Unigram词切分的Transformer模型在处理含有蒙古文构词结构复杂的句子时,效果最佳,生成的句子更完整。