摘要
面向司法领域的藏汉机器翻译面临严重的数据稀疏问题。该文从两个方面展开研究:第一,相较通用领域,司法领域的藏语需要有更严谨的逻辑表达和更多的专业术语。然而,目前藏语资源在司法领域内缺乏对应的语料、稀缺专业术语词以及句法结构。第二,藏语的特殊词汇表达方式和特定句法结构使得通用语料构建方法难以构建藏汉平行语料库。因此,该文提出一种针对司法领域藏汉平行语料的轻量级构建方法。首先,采取人工标注的方法获取一个中等规模的司法领域藏汉专业术语表作为先验知识库,以避免领域越界而产生的语料逻辑表达问题和领域术语缺失问题;其次,从全国的地方法庭官网采集实例语料数据,例如,裁判文书。优先寻找藏文实例数据,其次是汉语,以避免后续构造藏语句子而丢失特殊的词汇表达和句式结构。基于以上原则采集藏汉语料构建高质量的藏汉平行语料库,具体方法包括:爬虫获取语料,规则断章对齐检测,语句边界识别,语料库自动清洗。最终,该文构建了16万级规模的藏汉司法领域语料库,并通过多种翻译模型和交叉实验验证了构建的语料库具有高质量和鲁棒性等特点。另外,此语料库会开源以便相关研究人员用于科研工作。
- 单位