摘要
基于transformer端到端音频分类方法在许多场景下证明可以达到优于二维卷积的效果.针对目前常用的transformer音频分类方法只关注不同时序间的特征重要性,而对同时序间的特征重要程度刻画程度不足的问题,提出一种无参注意力结合自监督特征构建的方法改善音频分类效果.通过在同时序特征中构造无参多局部极值注意力机制,拟合特征多局部极值分布,刻画同时序间的特征重要性;通过对输入的音频频谱图在时域和频域上随机掩码,加入自监督信息,有效地学习音频频谱细节及分类信息.采用audio set数据集, esc50数据集以及Speech Command数据集进行对比实验,实验结果表明,该算法比基准方法在识别准确率指标上提升了0.46%~1.20%.
- 单位