基于深度学习的多文档机器阅读理解综述

作者:高峰; 倪建成; 高鹏; 周子力; 李艳艳
来源:中文信息学报, 2023, 37(08): 1-17.
DOI:10.3969/j.issn.1003-0077.2023.08.001

摘要

多文档机器阅读理解是利用计算机同时将多个文档的语义信息进行阅读理解、筛选糅合后进行问题作答的过程。与传统的单文档机器阅读理解相比,其更关注问题约束下的文档间语义逻辑关系理解,是自然语言处理领域中新兴的研究方向之一。该文首先选取了多文档机器阅读理解的重点数据集,涵盖多源信息型数据集、线性推理型数据集和细粒度半结构化型数据集等以分析任务发展趋势;其次调研了深度学习领域中主流的评价指标和研究方法,划分了具有代表性的四层阅读架构并分别展开了详细的讨论,特别在阅读理解层中选取了文档选择、Transformer语言模型、图卷积神经网络和外部知识融合等阅读方法以分析任务的研究现状;最后对多文档阅读理解的研究进行了总结与展望,提出了后续研究面临的问题与挑战。

全文