摘要

互联网的快速发展和社交媒体规模的不断扩大,带来丰富的社会事件资讯,社会事件分类任务越来越具有挑战性。充分利用图像级和文本级信息是社会事件分类的关键所在。然而,现存的方法大多存在以下局限性:1)现有的多模态方法大多都有一个理想的假设,即每种模态的样本都是充分和完整的,但在实际生活应用中这个假设并不总是成立,会存在事件某个模态缺失的情况;2)大部分方法只是简单地将社会事件的图像特征和文本特征串联起来,以此得到多模态特征来对社会事件进行分类,忽视了模态之间的语义鸿沟。为了应对这些挑战,提出了一种能同时处理完备与不完备社会事件分类的对偶变分多模态注意力网络(DVMAN)。在DVMAN网络中,提出了一个新颖的对偶变分自编码器网络来生成社会事件的公共表示,并进一步重构不完备社会事件学习中缺失的模态信息。通过分布对齐和交叉重构对齐,对图像和文本潜在表示进行双重对齐,以减小不同模态之间的差距,并对缺失的模态信息进行重构,合成其潜在表示。除此之外,设计了一个多模态融合模块对社会事件的图像和文本细粒度信息进行整合,以此实现模态之间信息的互补和增强。在两个公开的事件数据集上进行了大量的实验,与现有先进方法相比,DVMAN的准确率提升了4%以上,证明了所提方法对于社会事件分类的优越性能。