摘要

超大规模训练数据及数据标注的高额代价是基于深度学习的目标检测算法面临的挑战之一,随着可检测目标类别数目的增加,情况变得尤其严重。YOLO9000提出一种目标检测和图像分类联合训练的方法,对COCO检测数据集和ImageNet分类数据集合并使用,提供了充足的训练数据,检测对象类别达到9000种。文章探讨YOLO9000中采用的数据集合并方法,即利用知识图谱WordNet信息,在两个不同类别的大型数据集上实现无冲突的图像标注策略。此方法以WordNet为语义检索,构建WordTree数据结构,辅以在层级间进行局域概率计算的多域Softmax函数设计,使得YOLO9000可以检测没有任何标记的检测数据的对象类别,大大提高了目标检测系统的检测数量,同时依然保持良好的实时性。本文论述的方法对于不同来源的数据集实施合并具有重要的指导意义。

全文