摘要

连续手语识别是将视频序列转为符号序列的典型的弱监督问题,它只提供了句子级标签,没有提供有时间边界的帧级标签。为了克服这一问题,就需要使用连接时态分类(CTC),这也是目前应用最广泛的方法。实验在特征提取阶段引入时间—空间(CBAM)注意力机制,并增加辅助对齐模块,利用ACE散度(Agregation Cross-Entropy)损失对特征提取部分进行训练。该模型采用端到端方式,结合ACE散度进行片段级特征学习和CTC 进行全局序列特征学习的联合训练,此外,提出的随机掉帧机制还可以进一步缓解过拟合问题。在中文手语数据集CSLR上验证了改进方法的有效性,在验证集上获得了6.9%错误率,在测试集上获得了4.3%错误率。