摘要

针对使用卷积神经网络结构结合循环神经网络结构的模型在手语翻译任务中难以关注到手语视频序列中关键帧的问题,提出了一种结合全局注意力机制的手语翻译模型.该模型在长短时记忆网络中嵌入全局注意力机制,通过计算当前隐藏状态和源隐藏状态之间的相似度并得出对齐向量,让模型学习对齐权重,使模型关注到长手语视频序列中的关键帧,从而提升模型翻译的准确率.实验结果表明:加入全局注意力机制的模型在DEVISIGN_D数据集上的准确率优于3DCNN、CNN+LSTM等主流模型,并且在100分类的短手语词和长手语词数据集上,分别与未使用注意力机制的模型进行了对比,其准确率提升0.87%和1.60%,证明该注意力机制可以有效地提升模型翻译的准确率.