摘要
针对唇语识别模型的性能受到数据集大小限制的问题,提出一种跨模态知识蒸馏方法 C2KD.C2KD将语音识别模型的多尺度上下文相关性知识蒸馏到唇语识别模型中.首先,利用Transformer模型的自注意力模块得到上下文相关性知识;其次,使用层映射策略来决定从语音识别模型的哪一层提取知识;最后,使用自适应训练策略来根据唇语识别模型的性能动态地进行知识的传递. C2KD在数据集LRS2和LRS3上取得了优异的表现,词错误率分别比基线方法低2.0%和2.7%.
-
单位浙江大学; 之江实验室