摘要

基于视觉的连续手语识别旨在从图像序列中识别出对应的手语词序列,可以为手语使用者提供一种便利的辅助工具.现有的连续手语识别方法大多需要从图像序列中,逐帧提取视觉和时序特征,而相邻帧中存在的相似视觉信息带来了大量的冗余计算.本文通过分析帧率对连续手语识别算法的影响,发现降低帧率可以显著地提升计算效率,但也会带来一定的性能损失.为了在降低帧率的同时保留更多手语关键信息,本文提出了自适应动态池化层(adaptive dynamic temporal pooling, ADTP),ADTP基于序列特征的自相似性对序列进行动态下采样.在此基础上,本文进一步提出了一种两阶段的训练方式,以更充分地利用原始帧率中的时空信息.具体而言,该训练方式在第一阶段只训练基于原始帧率的手语识别模型,并以此模型为教师网络,通过知识蒸馏的方式引导第二阶段含ADTP模块的模型训练.实验结果表明,本文所提的方法在损失少量性能的情况下,可以大幅度减少识别所需的计算量.此外,本文所提出的ADTP也可用于手语视频结构分析,生成简略直观的手语视频摘要.