摘要

自动语音翻译(AST)是将源语言语音转换为目标语言文字的技术。目前,端到端的语音翻译成为AST的研究主流,但面临数据稀缺问题。该文首先利用机器翻译和人工检验构建了20h的维吾尔语-汉语AST语音翻译数据集。其次,为提高端到端语音翻译模型的性能,使用语料相对丰富的目标语言语音识别数据集预训练模型,不仅解决了数据稀缺造成的模型无法收敛问题,而且能让模型学到目标语言的语言学知识;再次,在预训练解码器前添加映射模块,使其学到源语言到目标语言知识的映射关系,由此构建了端到端语音翻译模型。最后,使用CTC与Attention联合解码,强制语音标签对齐,提高翻译效果。实验结果表明,在维汉语音翻译数据集上达到了61.45 BLEU值。