摘要
针对前融合的特征融合方式不利于卷积神经网络提取高阶特征的问题,提出一种基于双输入卷积神经网络的特征融合框架。该特征融合框架将两种声学特征分别经过不同的卷积和池化策略进行高阶特征提取,将高阶特征进行拼接并送入输出层输出分类结果。这种方式不仅为不同的特征匹配不同的卷积和池化策略,还避免了单位或尺度不同的特征拼接在一起干扰卷积核的特征提取。经公开数据集的评估结果显示,该多特征融合框架相比单一特征和现有的融合方式性能更优。此外,将此框架应用于实际场景下的汽车鸣笛声的识别,结果显示,查全率达到87.7%,查准率达到84.7%,F1度量达到86.2%,优于其他方法,验证了该方法在实际应用中的可行性。
- 单位