摘要
本发明公开了一种基于注意力机制的多说话人聚类系统及方法,系统包括:噪声去除模块,用于去除音频中噪声;语音活动检测模块,用于检测声音的起始结束位置,分离语音部分和非语音部分;基于自注意力机制的深层次特征向量生成网络,用于提取音频片段的深层次特征向量;基于双向长短期记忆网络Bi-LSTM以及自注意力机制的全监督聚类网络,用于聚类深层次特征向量并输出聚类结果。本发明的基于注意力机制的多说话人聚类方法,去除了噪声对聚类结果的影响,而且基于自注意力机制的特征向量生成模块能够学习音频的全局结构特征,生成具有判别特性的特征向量。基于Bi-LSTM及自注意力机制的全监督聚类网络能更好地学习时序以及判别特征,让聚类效果更好。
- 单位