少数民族语言分词技术评测数据集MLWS2021

作者:赵小兵; 高璐; 高定国; 包乌格徳勒; 米尔阿迪力江·麦麦提; 刘洋; 才智杰; 孙媛*
来源:中国科学数据(中英文网络版), 2022, 7(02): 6-14.

摘要

依据蒙古文、藏文和维吾尔文词汇的构词规律和特点,制定适合计算机信息处理的蒙古文、藏文和维吾尔文分词评测标准,构建蒙古文、藏文和维吾尔文的分词标注语料,形成标准评测数据集(MLWS2021),为解决自动分词、词性标注、信息检索、语料库构建等研究课题提供依据。MLWS2021共包含2.5万句藏文、6.5万句蒙古文、6.5万句维吾尔文。本评测数据集将面向社会,提供免费评测服务,逐步建成权威的少数民族语言分词技术评测平台,推动少数民族语言信息处理技术的发展。