针对不同类型事件设计多状态跳转模型,结合两种深度神经网络实现对传统音频事件检测框架的改进。实验表明,在DCASE2017任务2的开发集数据上,改进后的DNN-HMM系统相比于基线系统取得F值8.9%的相对提升和错误率19%的绝对下降;基于多状态跳转模型聚类的卷积神经网络模型(SC-CNN),相比于基线系统取得F值18%的相对提升和错误率30%的绝对下降。