基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别

王一鸣; 陈恳; 萨阿卜杜萨拉木·艾海提拉木

摘要

提出一种端到端的视听语音识别算法。在该算法中,通过具有瓶颈结构的深度信念网络(deep belief network,DBN)中引入混合的l1/2范数和l1范数构建一种稀疏DBN(sparse DBN,SDBN)来提取稀疏瓶颈特征,从而实现对数据的特征降维,然后用双向长短期记忆网络(bidirectional long short-term memory,BLSTM)在时序上对特征进行模态处理,之后利用一种注意力机制将经过模态处理的唇部视觉信息和音频听觉信息进行自动对齐、融合,最后将融合的视听觉信息通过一个附加了Softmax层的BLSTM进行分类识别。实验表明,该算法能有效地识别视听觉信息,在同类算法中有很好的识别率和顽健性。

单位
宁波大学

收藏分享被引(9) 浏览

更新时间：2024-04-11 15:36

基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友