摘要
说话人识别系统中轻量卷积神经网络的特征提取能力弱、识别效果差。而为了提升特征提取能力,许多方法使用了更深、更宽、更复杂的网络结构,使得参数量和推理时间成倍增加。文中将目标检测任务中的轻量网络Res2Net引入到说话人识别任务中,验证了它在说话人识别任务中的有效性和鲁棒性。并改进提出了FullRes2Net,它拥有更多、更大的感受野组合。在几乎没有增加参数量的情况下,相比于Res2Net,性能提升了17%。同时,为了解决现有注意力方法存在的问题改善卷积本身的缺点,进一步提升卷积神经网络的特征提取能力,提出了混合时频通道注意力。它可以对音频特征的时间、频率、通道维度进行交互,捕捉特征间的依赖,从而有效增强卷积神经网络的特征提取能力。在Voxceleb数据集上进行了实验,结果表明本文提出的方法有效的提升了系统的特征提取能力和泛化能力,相较于Res2Net性能提升了34%,并优于使用复杂结构的先进说话人识别系统,是一种参数量更少、效率更高的端到端结构,适合在现实场景中的应用。
- 单位