摘要
为适应开放场景下说话人识别短时语音的应用需要,本文将优化说话人识别模型,提升模型的准确率和鲁棒性。为了实现对重要频率特征的筛选,提出基于重加权的特征增强层及网络,起到增强特征表达的作用。将人脸识别领域的误分类样本损失函数首次引入到说话人识别领域,提高对困难样本的挖掘能力。提出基于误分类样本挖掘的分类损失与基于小样本学习框架的余弦角度原型损失的组合损失函数,解决了分类损失函数与说话人识别实际评测需求不匹配和度量函数对采样策略依赖性强的问题。实验结果显示,与基准模型相比,性能指标等误率(EER)降低12.45%,最小检测代价函数(minDCF)降低14.09%,取得现有说话人识别领域的优异效果。
-
单位华南理工大学; 机电工程学院; 广东交通职业技术学院