摘要
针对Web图像标注问题,提出一种基于深度半监督跨模态学习的Web图像标注方法。该方法引入了堆栈式自编码网络(SAE)作为整体训练框架中的基分类器,首先,在有标签数据集上分别基于图像和文本训练得到各自的分类器,接着,通过多模态融合方法对图像和文本分类器进行融合得到一个多模态分类器,并利用该分类器预测出无标签的样本数据的类别标签,最后,将预测标签加入到原始数据集中,共同基于图像进行训练,得到一个单模态图像分类器,该分类器能够预测不含任何其它模态信息的单一图片数据的语义。实验结果表明,该方法有效地提高了图像标注效果且优于传统图像标注方法。
- 单位