汉语-哈萨克语平行语料库构建及技术研究

作者:古丽孜热·艾尼外; 旷志寰
来源:山西大学学报(自然科学版), 2023, 46(03): 537-545.
DOI:10.13451/j.sxu.ns.2023058

摘要

机器翻译是人工智能领域的热点问题。在实际应用过程中,平行语料库的收集和构建直接影响机器翻译的效果。随着我国数字业务的快速发展,以及“一带一路”背景下国际交流频率的不断增加,中哈互译需求凸显。针对汉哈文机器翻译个性化的技术要求,结合哈萨克语的特点,本文提出一种基于信息内容比例的段落对齐方法,开发设计了辅助工具软件Corpus,利用该工具对汉-哈文之间的段落对齐进行可视化,并利用段落对齐方法进行数据的编排存储。实验结果表明,基于本文提出的方法,汉-哈平行篇章与段落手工对齐正确率达到94.5%,95.2%;自动对齐正确率达到87.5%,89.3%,能够提升平行文本的对齐质量,成功建立篇章与段落对齐的汉-哈平行语料库。

全文