摘要
本发明提供一种基于多粒度数据不确定性估计的文本生成模型的训练方法、系统、存储介质和电子设备,涉及文本生成技术领域。本发明中,通过建模词语和句子粒度的数据不确定性,即源词语不确定性、目标词语不确定性和句子不确定性;然后通过异质的方式,将三种数据不确融合到基于Transformer的生成模型训练过程中,最终起到减少不确定性数据可能误导训练过程的不良影响,增加了训练的鲁棒性。此外在以往的方法中,通常仅仅利用词频和互信息等简单的统计特征来估计不确定性,并不能真实反映数据不确定性的程度;而本发明借助预训练模型BERT的强大语言表征能力,同时预估词语和句子两个粒度的数据不确定性,大大提高了数据不确定性预估的能力。
- 单位