摘要
近年来,深度神经网络模型在语音识别领域成为热门研究对象。然而,深层神经网络的构建依赖庞大的参数和计算开销,过大的模型体积也增加了其在边缘设备上部署的难度。针对上述问题,提出了基于Transformer的轻量化语音识别模型。首先使用深度可分离卷积获得音频特征信息;其次构建了双半步剩余权重前馈神经网络,即Macaron-Net结构,并引入低秩矩阵分解,实现了模型压缩;最后使用稀疏注意力机制,提升了模型的训练速度和解码速度。为了验证模型,在Aishell-1和aidatatang_200zh数据集上进行了测试。实验结果显示,与Open-Transformer相比,所提模型在字错误率上相对下降了19.8%,在实时率上相对下降了32.1%。
- 单位