摘要

汉维机器翻译面临着汉维语言构词、语序差异性大,短语表冗余、不合理信息较多,双语资源匮乏以及相应形态分析工具性能欠佳等挑战,严重影响了汉维机器翻译译文质量。针对汉维短语表中出现较多的不合理短语对,影响翻译性能及解码效率这一问题,提出一种融合汉维短语对循环神经网络特征和汉维短语对上下文特征等深度学习特征,以及汉维短语对平均词共现特征这一浅层特征的汉维短语表过滤模型。该模型基于短语对循环神经网络特征、上下文特征以及平均词共现特征,并将各个特征概率及训练实例输入到基于朴素贝叶斯分类器的短语表过滤模型进行训练。该模型结合了汉维候选短语之间更为丰富的语义及上下文信息。实验结果表明,提出的短语表过滤方法能够有效地去除汉维短语表中的不合理短语,汉维机器翻译性能及其解码效率都有所提高。