摘要

语音唤醒词检测是语音交互中的关键技术。选择合适大小的检测窗对唤醒词检测性能的影响很大。本文提出一种新的多模型融合方法。通过融合小检测窗和大检测窗的检测结果来提高唤醒词检测性能。多模型融合方法包含两个分类模型,分别使用小检测窗和大检测窗,均基于轻量化的SE-Res2Net网络,即Ghost-SE-Res2Net。SE-Res2Net网络结构的多尺度机制显著提升了唤醒词检测能力。在Ghost-SE-Res2Net中,首先使用Ghost卷积替换SE-Res2Net中的普通卷积以降低了模型参数量,然后使用注意力池化层替换SE-Res2Net中的全局平均池化层进一步提升唤醒词检测能力。实际检测时融合连续三个小检测窗模型的检测结果中的最大值和一个大检测窗模型的检测结果来判断唤醒词是否被触发。本文在训练时引入困难样本挖掘算法,选择性的学习较难检测的唤醒词信息以提高分类模型的检测性能。在包含两个唤醒词的Mobvoi数据集上评估系统性能。实验结果表明,在每小时0.5次错误唤醒的情况下,该系统在两个唤醒词上的错误拒绝率为0.46%和0.43%,实现了与最先进基线相似的性能,并且系统参数量比基线小31%。

全文