摘要
要:提出了一种基于Pre-LN Transformer的静态多模态情感分类模型。该模型首先利用Pre-LN Transformer结构中的编码器提取评论文本中的语义特征,其中编码器的多头自注意力机制允许模型在不同的子空间内学到相关情感信息。然后根据ResNet提取评论的图像特征,在特征水平融合的基础上通过视觉方面注意力机制来指导文本的情感分类,实现在线评论的静态多模态情感分析。最后在Yelp数据集上执行情感分类的实验结果表明:所提出的模型在准确率上相比于BiGRU-mVGG、Trans-mVGG模型分别提高了1.34%、1.10%,验证了该方法的有效性和可行性。
- 单位