基于BiLSTM-VGG16的多模态信息特征分类研究

作者:蒋雨肖; 丁晟春; 吴鹏
来源:情报理论与实践, 2021, 44(11): 180-179.
DOI:10.16353/j.cnki.1000-7490.2021.11.024

摘要

信息传播正逐渐从文本、图像、音频、视频等单模态形式过渡到相互融合的多模态形式,且数据量飞速扩张。大规模数据需要庞大的存储空间,如何对海量的文本、图像等多模态数据进行有效分类变得至关重要。文章提出一种基于深度学习的多模态语义特征分类模型,解决图像文本形式的多模态数据的分类问题。在该模型中,利用BiLSTM(双向长短期记忆模型)设计文本特征提取模型,利用VGG16卷积神经网络设计图像特征提取模型,将两类深度神经网络提取出的文本特征与图像特征进行特征融合,进而实现多模态信息的分类。在NUS-WIDE公开数据集上的实验结果证明了该方法的有效性。

全文