摘要

本发明公开了一种基于多模态的音乐标签自动分类方法、装置及介质,其中方法包括以下步骤:获取待分类乐曲的音频数据和MIDI文件数据;根据音频数据获取梅尔声谱图;将MIDI文件数据分成多个音乐片段,并获取音乐片段的表示向量;对音频数据和MIDI文件数据进行切分,获得带有梅尔声谱图的音频数据切片和带有表示向量的MIDI数据切片;将音频数据切片和MIDI数据切片输入基于多模态的分类模型进行音乐标签预测,获得所有切片的分类结果;根据分类结果对待分类乐曲进行标签分类。本发明提出的方法充分处理了两种不同模态的信息,得到了丰富的抽象特征,通过多模态融合的方法,提高了音乐标签分类的性能,可广泛应用于音乐标签分类领域。