基于端到端句子级别的中文唇语识别研究

张晓冰; 龚海刚; 杨帆; 戴锡笠<sup>*</sup>

doi:10.13328/j.cnki.jos.005709

摘要

近年来,随着深度学习的广泛应用,唇语识别技术也取得了快速的发展.与传统的方法不同,在基于深度学习的唇语识别模型中,通常包含使用神经网络对图像进行特征提取和特征理解两个部分.根据中文唇语识别的特点,将识别过程划分为两个阶段——图片到拼音(P2P)以及拼音到汉字(P2CC)的识别.分别设计两个不同子网络针对不同的识别过程,当两个子网络训练好后,再把它们放在一起进行端到端的整体架构优化.由于目前没有可用的中文唇语数据集,因此采用半自动化的方法从CCTV官网上收集了6个月20.95GB的中文唇语数据集CCTVDS,共包含14 975个样本.此外,额外采集了269 558条拼音汉字样本数据对拼音到汉字识别模块进行预训练.在CCTVDS数据集上的实验结果表明,所提出的Ch Lip Net可分别达到45.7%的句子识别准确率和58.5%的拼音序列识别准确率.此外,ChLipNet不仅可以加速训练、减少过拟合,并且能够克服汉语识别中的歧义模糊性.

单位
电子科技大学

全文

访问全文

收藏分享被引(15) 浏览

更新时间：2024-04-12 11:07

基于端到端句子级别的中文唇语识别研究

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友