摘要

基于总体空间差异模型的身份认证矢量(即i-vector)已经在说话人识别任务中得到了广泛应用。本文提出了一种基于受限玻尔兹曼机(RBM)的说话人特征向量提取方法来替代总体差异建模的特征提取方法。该方法通过训练得到RBM的模型参数,之后利用隐层输出来表征输入语音超向量的说话人信息。文中比较了不同结构和模块(包括构建RBM的2种单元分布、线性判别分析等)对说话人确认性能的影响。所提方法作为一种新的i-vector特征表示方法,在NIST SRE 2008上取得了和ivector说话人基线系统相当的性能。通过与i-vector基线系统进行融合,系统性能进一步提升。在NIST SRE 2008女性电话语音测试集和男性电话语音测试集上的等错误率分别降至6.83%和4.73%。

全文