摘要

机器阅读理解(MRC,Machine Reading Comprehension)是自然语言处理领域一个重要的研究方向.相关模型研究在直接提取篇章内容作为答案方面已经有了较大进展;现阶段研究重点是:在获取关键信息的基础上,如何整合外部知识,为人们提供更准确、更符合人类语言习惯的答案.本文对近几年机器阅读理解研究进展从四个方面进行综述,首先介绍了该任务构成要素和发展情况;其次梳理了四种类型数据集在数量、内容、难度上的变化;然后对预训练模型、注意力机制、记忆网络等方法进行介绍,比较了各个模型在不同类型数据集上的表现;最后,在上述内容基础上,对现有数据集的局限性、模型间的依赖性、未来研究热点等多方面提出思考.