摘要
语料库的构建是自然语言处理领域的重要工作。但是,双语平行语料库的规模和领域并不能满足实际的需求,尤其是在维吾尔语信息处理中表现得更加明显。因此,从互联网上挖掘汉维双语资源的工作,对于汉维双语资源的建设、促进民族之间的交流具有十分重要的作用。本文针对维吾尔语复杂多变以及汉维语言形态差异大等特点,研究并设计了汉维可比语料挖掘系统。本系统主要包括汉维网页正文抽取,汉维可比语料候选获取以及跨语言相似度计算等几个部分。目前已经有5000个汉维可比语料篇章,主要是新闻领域语料和政府公文等。该语料库对于少数民族语言分析与教学,汉维机器翻译等领域具有十分重要的作用。为了使用的便利,本数据集对汉语和维吾尔语进行了进一步的加工和规范化操作。
-
单位中国科学院合肥智能机械研究所; 中国科学院,合肥智能机械研究所; 中国科学技术大学