摘要

实时识别动态手势是一项艰巨的任务,因为系统永远无法知道手势在视频流中何时或从何处开始和结束。由于其各种应用,许多研究人员一直致力于基于视觉的手势识别。提出了一种基于3D卷积神经网络(3D-CNN)和长短期记忆(LSTM)网络相结合的深度学习框架,整个架构同时融合了注意力机制(CBAM)。所提出的架构从视频序列输入中提取时空信息,同时避免大量计算。3D-CNN用于提取光谱和空间特征,然后将特征图像提供给注意力机制模块,在增强图像特定区域的表征能力的同时加强特征的表达,最后通过LSTM网络进行分类。实验结果表明,所提方法能很好地识别动态手势,识别率达到了95.58%,验证了所提方法的有效性和可能性。