摘要

针对传统英语对话机器人的发音检测模型发音错误检测准确性低,导致发音标准性检测效果不佳的问题,提出基于唇部角度融合的多模态端到端模型BiLSTM-CTC。获取英语对话机器人原始对话数据后,分别对音频数据和视频数据进行预处理,获取音视频特征后对其进行归一化和增强,之后利用BiLSTM网络进行特征学习,由Softmax输出序列概率;最后通过CTC算法作为输出层生成预测输出序列。实验结果表明,在无噪音和SNR=10 dB的试验环境下,基于角度特征融合的多模态语音识别方法分别在86次和125次时实现收敛,语音识别率为98.73%和91.15%,在圆展唇音和总体发音标准性检测方面,本方法的检错准确率分别为95.66%、94.86%和92.34%、91.38%,均优于另外两种模型。由此可知,本模型的收敛速度更快,对于音频信号的发音识别率和错误检测率更高,可实现英语对话机器人的发音标准性检测。

全文