汉维可比语料数据集

冯韬; 李淼<sup>*</sup>; 曹宜超; 曾伟辉

摘要

语料库的构建是自然语言处理领域的重要工作。但是,双语平行语料库的规模和领域并不能满足实际的需求,尤其是在维吾尔语信息处理中表现得更加明显。因此,从互联网上挖掘汉维双语资源的工作,对于汉维双语资源的建设、促进民族之间的交流具有十分重要的作用。本文针对维吾尔语复杂多变以及汉维语言形态差异大等特点,研究并设计了汉维可比语料挖掘系统。本系统主要包括汉维网页正文抽取,汉维可比语料候选获取以及跨语言相似度计算等几个部分。目前已经有5000个汉维可比语料篇章,主要是新闻领域语料和政府公文等。该语料库对于少数民族语言分析与教学,汉维机器翻译等领域具有十分重要的作用。为了使用的便利,本数据集对汉语和维吾尔语进行了进一步的加工和规范化操作。

单位
中国科学院合肥智能机械研究所; 中国科学院，合肥智能机械研究所; 中国科学技术大学

收藏分享被引浏览

更新时间：2024-04-12 12:06

汉维可比语料数据集

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友