摘要

声音事件通常发生在非结构化环境中,在这些环境中,它们的频率内容和时间结构都有很大的变化。卷积神经网络(convolutional neural network, CNN)能够提取对局部光谱和时间变化不变的更高层次特征但缺乏时间和频率不变性和时间上下文信息。递归神经网络(recurrent neural networks, RNN)在学习音频信号中的长期时间上下文方面功能强大。基于此,提出了一种将两种方法相结合的卷积递归神经网络模型(convolutional recurrent neural network, CRNN),并将其应用于声音事件检测任务。首先针对已知音频序列提取梅尔倒谱系数(Mel-frequency cepstral coeffi cients, MFCCs),然后将提取到的特征输入到CRNN神经网络进行识别;最后阈值化做出事件活动预测。通过在公开数据集ESC-50和TUT-soundevents-2016-devlopment进行的实验表明,本文提出的模型可以明显提高声音识别分类准确率。