摘要
机器阅读理解是自然语言处理的关键任务,旨在考察机器是否具有理解自然语言的能力。目前,中英文领域的机器阅读理解取得了很大的进展,模型的性能已经超过了人类的水平,其中公开数据集起到了非常重要的作用,如斯坦福大学的SQuAD数据集。而对于低资源语言,如藏文,由于缺乏大规模公开的数据集,机器阅读理解的相关研究还处于起步阶段。因此,本文构建了面向藏文机器阅读理解的数据集,数据集包含631篇文章,903个段落,形式为excel文件。其中,第一列为当前文章ID,第二列为文本标题,第三列为段落,第四列为问题,第五列为问题对应的答案。其文本数据来自云藏网,问题和答案是由20位藏语专业人员进行人工录入和标注,类型涉及自然、文化、教育等12个领域。本数据集的发布,对于促进藏文信息处理的发展具有重要的价值。
- 单位