摘要

针对汉藏政府公文机器翻译的数据稀疏和构建大规模的语料库等关键问题,提出了一种基于规则的句级语料对齐技术。所提出的技术以汉藏政府公文的句子特点为依据,结合了基于长度和词汇的混合式对齐方法,在国家和省级层面的5个汉藏政府公文数据集上进行了测试,测试结果表明,准确率在66%到75%之间,减少了句级语料对齐所需的人力、物力和财力,同时在构建大规模语料上取得了较好的效果。