摘要
在说话人识别领域中,通过深度神经网络学习深层说话人特征的方法成为了研究热点。然而,针对人类听觉系统是如何处理声音信息的研究,却没有得到说话人识别研究人员足够的重视。这些生物学的研究表明,人类大脑是通过一种利用了多维时间尺度的处理模式对声音信息进行解析的。基于这些研究,本文提出了一种双通道神经网络模型,其中一条通道处理短时间尺度(即局部)特征,另一条处理长时间尺度(即全局)特征。两种局部特征融合形成可用于说话人识别的声纹特征,称之为t-vector。在RSR2015 Part3文本相关数据集上进行的检测说话人识别系统性能的实验结果表明,不同时间尺度的特征可以互补,并且融合的t-vector特征也优于i-vector和d-vector特征。
- 单位