摘要
为了将标签间的语义相关性引入多标签图像分类模型中,传统的方法例如ML-GCN通过设置单阈值将标签条件概率矩阵二值化为标签共现矩阵,然而,仅设置单阈值很难归纳所有的标签语义关系情况。针对这一问题,提出一种融合标签间强相关性的多标签图像分类方法—MGAN(Multiple Graph Convolutional Attention Networks),通过设置多个阈值,将传统的标签条件概率矩阵按照不同的相关性程度分割为多个子图;同时,为了提升多标签分类性能,也引入图像区域空间相关性。另外,针对传统的“CNN+GCN”方法将标签与特征的融合张量视为预测分数缺乏可解释性问题,将标签与特征的融合张量视为注意力分数;在MS-COCO和PASCAL VOC数据集上与其他主流多标签图像分类方法进行了对比实验,平均准确率分别达到了94.9%和83.7%,相较于经典ML-GCN模型,分别获得了0.9%和0.8%准确率提升,且在“Binary”和“Re-weighted”邻接矩阵模式下,MGAN都有较好的表现,验证了新的融合方法可以缓解图卷积神经网络过平滑问题对多标签图像分类的影响。
- 单位