摘要

手语识别的研究对于改善聋哑人生活质量具有重要意义,同时促进着人机交互领域的发展。针对手语视频中存在大量无关帧,手语识别过程中手部细节信息提取不足,难以精确定位手语动作的位置和时间信息导致识别率不高的问题,提出了一种基于关键帧和交互式注意力残差网络的手语识别方法。该方法分为两部分,数据预处理部分提出了基于图像相似度和模糊程度的关键帧提取算法,用于从基于Farneback光流法获取的大量候选关键帧中确定最终的关键帧,减少无关冗余信息。网络部分以3D-ResNet为基础框架,首先构建一种小卷积模块,用来增强网络对手语视频中细粒度特征的提取能力;其次设计一种在捷径分支中采用池化卷积下采样方式的残差结构,减小特征图失真程度;最后提出了一种融合通道注意力和空间注意力的交互式四重注意力模块,强化对目标区域关键特征的提取。在CSL和DEVISIGN数据集上对提出的算法进行了实验验证,结果表明该方法在CSL和DEVISIGN数据集上分别取得了92.0%和92.2%的准确率,均高于其他手语识别方法。

全文