文本摘要常用数据集和方法研究综述

侯圣峦<sup>*</sup>; 张书涵; 费超群

摘要

成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。

单位
中国科学院大学; 中国科学院计算技术研究所

收藏分享被引浏览

更新时间：2024-04-11 10:21

文本摘要常用数据集和方法研究综述

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友