摘要

本发明公开了一种基于数据自驱动的多阶特征动态融合手语翻译方法,包括:首先提取输入手语视频的多种视觉与动作特征,根据特征之间的多元相关性构建特征池,并根据模型在各特征下的识别概率选择最优特征;再使用数据自驱动的注意力机制进行特征优化,得到视觉与动作注意力特征;接着进行第一阶动态特征融合得到融合特征,以挖掘视觉特征与动作特征之间的互补信息;然后进行第二阶动态特征融合,根据任务状态动态计算不同特征下隐状态的得分融合权重,最后通过得分融合得到手语翻译句子。本发明能够实现对手语视频的连续句子翻译,并提高手语识别的准确性。