摘要
基于深度学习的声音事件定位与检测网络存在输入特征的关键信息丢失的问题,导致声音事件定位与检测更加困难,提出了一种基于注意力机制的简单无参数网络模型(simple and parameter-free network, SimNet)。首先在残差块后引入简单无参注意力模块(simple and parameter-free attention module, SimAM),通过能量函数帮助网络聚焦特征图中各神经元的深度特征,以此增强模型对更丰富的特征信息的辨别能力。此外为促进模型朝更精准的方向训练,还采用了一种均方根绝对误差(root mean square absolute error, RMSAE)损失函数,有助于模型准确搜索更全面的空间信息。实验结果表明,在TAU-NIGENS Spatial Sound Events 2021数据集中,提出的网络算法相比原基线网络性能有较大程度的提升,错误率(error rate, ER)和定位误差(localization error, LE)降低到0.394和12.03°,F1分数(F1-score)和定位召回(localization recall, LR)提升到72.6%和73.8%。
- 单位