藏文文本摘要数据集

作者:闫晓东*; 王羿钦; 黄硕; 杨金朋; 赵小兵
来源:中国科学数据(中英文网络版), 2022, 7(02): 43-49.

摘要

自动文本摘要是自然语言处理中的一个关键任务,高质量的数据集能有效推动摘要的研究。深度学习算法模型在中英开源数据集上都取得了显著的成绩,甚至超过了人类的表现。然而,公开的、高质量的大规模摘要数据集仍然非常稀少,且不容易人工构建。目前在藏文文本摘要任务中,由于公开数据集较少,藏文文本摘要任务还处于起步阶段。为了推动藏文信息化发展,本文人工构建了一个小型藏文多文本摘要数据集Ti-SUM,由1000篇真实藏文新闻组成,每一篇新闻都给出了简短的摘要。此外我们还针对每篇新闻构建了超过3500个文章关键词,用以辅助文本摘要任务。