摘要
成为人们从互联网上海量文本信息中便捷获取知识的重要手段。现有方法都是在特定数据集上进行训练和效果评价,包括一些公用数据集和作者自建数据集。已有综述文献对现有方法进行全面细致的总结,但大多都是对方法进行总结,而缺少对数据集的详细描述。该文从调研数据集的角度出发,对文本摘要常用数据集及在该数据集上的经典和最新方法进行综述。对公用数据集的综述包括数据来源、语言及获取方式等,对自建数据集的总结包括数据规模、获取和标注方式等。对于每一种公用数据集,给出了文本摘要问题的形式化定义。同时,对经典和最新方法在特定数据集上的实验效果进行了分析。最后,总结了已有常用数据集和方法的现状,并指出存在的一些问题。
- 单位