摘要
数据集独立同分布(Independent and identically distributed, IID)的假设和数据集是否干净,分别对应组合域标签噪声领域数据集非独立同分布(Non-independent and identically distributed, Non-IID)和标签噪声问题。该文提出多标签图像多分类模型(Multi-label image multi-classification model, MIMM)预处理方法应对上述问题。为了缓和数据集独立同分布假设,该文证明组合域方法的迁移误差上界,并使用最大关键特征(Maximum key feature, MKF)函数和关键秩匹配分解(Key rank matching decomposition, KRMD)算法实现源域向组合同构数据的目标域迁移。为了保证数据集干净,引入干净的第三方数据微调模型参数,排除标签真实数量不确定导致训练集类别不平衡的情况。在Pascal/COCO数据集上进行实验,结果证明MIMM方法已达到准确率与运行效率的最佳平衡。
- 单位