摘要
本发明公开了一种基于非对称多层LSTM的连续手语视频自动翻译方法,包括:建立三层LSTM网络结构,网络结构分为编码和解码两个阶段;提取手语视频特征并构建单词表;对视频特征进行关键帧挖掘,并分为关键块与非关键块;将视频特征输入第一层LSTM,对非关键块输出进行pooling池化操作,并与关键块输出组成视素特征;将视素特征输入第二层LSTM得到视素特征编码,并输入第三层LSTM得到视觉表达;在解码阶段,利用解码部分对视觉表达进行解码,得到单词序列,组成句子。本发明能够有效克服手语者的形体、手语习惯不同的复杂情况的影响,以实现对于手语句子的翻译,并提高手语翻译的精确性,增强手语翻译的鲁棒性。 1
- 单位