针对翻译机器人人机交互的智能化需求,提出一种语音识别的翻译机器人交互系统。其中,为提高语音识别的质量,在语音信号预处理基础上,分别采用DNN-HMM和WaveNet卷积网络对语音进行识别和合成,然后采用Seq2Seq模型和GPT-2神经网络实现人机的单轮交互和多轮交互。结果表明,通过以上的综合方案,语音识别的准确率平均为97%;单轮和多轮交互训练取得良好效果,其中多轮交互的精确率、召回率提升至85%以上;最后将以上方案部署到系统中进行测试,能满足翻译的人机交互需求。