摘要

音乐旋律提取领域的研究普遍存在整体准确率(OA)难以提升、虚警率(VFA)高的问题。此外,在该领域应用深度学习方法时,还存在可用训练数据少、训练时间长的问题。针对以上问题,以语义分割模型(Segmentation)为基础,提出使用多特征融合的压缩-激励模型(SENet),以改进旋律提取的效果。将训练数据转换为GC和GCOS为原始数据,加入梅尔倒谱系数(MFCC)和色度特征(Chroma Feature)。为进一步发挥多特征融合的优点,将SENet中的压缩-激励模块(SEBlock)加入Segmentation模型中。实验表明,加入特征可以提升音高准确率、音级准确率(RPA,RCA),并且收敛速度提升,使用70%的数据便可接近基线算法的效果;加入SEBlock后可以在进一步提升准确率的同时降低虚警率,更好地发挥多特征融合的优势。