摘要
本发明提供的基于多尺度特征聚集的说话人认证方法,包括:提取Fbank特征;建立声纹特征向量提取模型以提取声纹特征向量;构建损失函数来训练声纹特征向量提取模型;确定认证阈值;提取用户注册语音样本的Fbank特征;将用户注册样本的Fbank特征输入声纹特征向量提取模型,获得注册样本的声纹特征向量;将用户认证样本的Fbank特征输入声纹特征向量提取模型,获得认证样本的声纹特征向量;将用户认证样本的声纹特征向量逐个与注册库中每个用户的声纹特征向量计算余弦相似度,根据余弦相似度确定是否认证通过。还提供了相应的认证系统。通过采用多尺度特征聚合器,使得能够在噪声语音或短时长语音中充分提取说话人的信息。
- 单位