THUUyMorph:维吾尔语形态切分语料库

作者:哈里旦木·阿布都克里木; 孙茂松; 刘洋; 阿布都克力木·阿布力孜
来源:中文信息学报, 2018, 32(02): 81-86.

摘要

THUUyMorph(Tsinghua University Uyghur Morphology Segmentation Corpus)是由清华大学自然语言处理与社会人文计算实验室构建的维吾尔语形态切分语料库。原始语料从2016年的天山网维文版(1)下载,题材内容包含新闻、法律、财经、生活等。语料库构建步骤为:爬虫、校对原始语料、分句、校对分句、人工和自动形态切分结合、人工标注语音和谐变化现象、人工校对形态切分和语音和谐变化现象。语料库包含10 596个文档、69 200个句子,词语类型为89 923个,分为词级和句子级两类标注,开源网址为http://thuuymorph.thunlp.org/。该研究不仅对维吾尔语语料库的建设具有参考意义,而且为维吾尔语自然语言处理的研究提供了有益的资源。

  • 单位
    清华大学; 智能技术与系统国家重点实验室; 清华信息科学与技术国家实验室