面向机器阅读理解的藏文数据集TibetanQA

孙媛<sup>*</sup>; 旦正错; 刘思思; 赵小兵

摘要

机器阅读理解是自然语言处理的关键任务，旨在考察机器是否具有理解自然语言的能力。目前，中英文领域的机器阅读理解取得了很大的进展，模型的性能已经超过了人类的水平，其中公开数据集起到了非常重要的作用，如斯坦福大学的SQuAD数据集。而对于低资源语言，如藏文，由于缺乏大规模公开的数据集，机器阅读理解的相关研究还处于起步阶段。因此，本文构建了面向藏文机器阅读理解的数据集，数据集包含631篇文章，903个段落，形式为excel文件。其中，第一列为当前文章ID，第二列为文本标题，第三列为段落，第四列为问题，第五列为问题对应的答案。其文本数据来自云藏网，问题和答案是由20位藏语专业人员进行人工录入和标注，类型涉及自然、文化、教育等12个领域。本数据集的发布，对于促进藏文信息处理的发展具有重要的价值。

单位
中央民族大学

收藏分享被引浏览

更新时间：2024-03-19 13:45

面向机器阅读理解的藏文数据集TibetanQA

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友