摘要
信息传播正逐渐从文本、图像、音频、视频等单模态形式过渡到相互融合的多模态形式,且数据量飞速扩张。大规模数据需要庞大的存储空间,如何对海量的文本、图像等多模态数据进行有效分类变得至关重要。文章提出一种基于深度学习的多模态语义特征分类模型,解决图像文本形式的多模态数据的分类问题。在该模型中,利用BiLSTM(双向长短期记忆模型)设计文本特征提取模型,利用VGG16卷积神经网络设计图像特征提取模型,将两类深度神经网络提取出的文本特征与图像特征进行特征融合,进而实现多模态信息的分类。在NUS-WIDE公开数据集上的实验结果证明了该方法的有效性。
-
单位南京理工大学; 经济管理学院