摘要

机器阅读理解是自然语言处理领域的一个重要任务,然而许多研究工作表明目前的模型在鲁棒性方面仍存在一些缺陷。文章针对机器阅读理解模型鲁棒性中的过敏感性问题和过稳定性问题,提出了一种基于数据增强的策略。首先使用回译数据增强法和传统的EDA数据增强法扩充数据,然后采用基于离群点检测的方法对扩充后的数据进行过滤,从而提高模型的鲁棒性。在DuReaderrobust数据集上的实验结果表明,本文方法可以提高模型在过敏感性和过稳定性方面的性能,F1值分别得到2.75%和1.18%的提升。

全文