摘要

文本、图像、视频、音频等多种媒体数据具有多源异构的特性,这导致"语义鸿沟"问题的出现。现有文献采用的方法中大多数是针对文本和图像两种媒体数据展开研究,难以实现更多类型媒体数据的关联分析。因此,本文融入多种媒体数据的语义特征和分布特征,来对跨媒体关联分析方法进行深入研究,以实现文本、图像、视频、音频等多种媒体数据的一致性表示。首先,对多种媒体数据进行向量化表示,并输入模型;其次,利用双向长短期记忆网络(bidirectional long short-term memory,BiLSTM)挖掘输入数据的上下文信息,得到各种媒体数据的特征向量;最后,融合特征向量的语义特征和分布特征进行跨媒体关联分析,进而得到跨媒体的一致性表示。自建数据集上的比较实验结果表明,本文的研究方法较之CCA (canonical correlation analysis)、KCCA (kernel canonical correlation analysis)、Deep-SM (deep semantic match)等已有方法具有更高的关联分析准确率,这表明本文的研究方法能够较为准确地发现各种媒体数据之间的语义关联关系。希望本文的研究对跨媒体关联分析研究具有一定的指导和借鉴作用。

  • 单位
    泉州信息工程学院; 北京语言大学