摘要
多源在线迁移学习利用多个源域的标记数据来增强目标域的分类性能,针对不平衡的数据集,提出一种可以在源域和目标域的特征空间中过采样的多源在线迁移学习算法。该算法包含两部分:对多个源域过采样和对在线的目标域过采样。对源域过采样阶段,在支持向量机(SVM)的特征空间中过采样来生成少数类样本,新的样本是通过在源域特征空间中的邻域信息来扩增原始的Gram矩阵得到的。对在线的目标域过采样阶段,目标域的样本分批次到达,当前批次的少数类样本从前面已经到达的多个批次中寻找特征空间中的k近邻,利用生成的新样本和当前批次中的原始样本一同训练目标域函数。通过核函数将源域和目标域的样本映射到同一特征空间中进行过采样,使用类别分布相对平衡的源域和目标域数据训练相应的决策函数,从而提升算法的整体性能。在四个真实数据集上进行了全面的实验,在Office-Home数据集的任务上相较其他基线算法,准确率提升了0.031 1,G-mean值提升了0.070 2。
- 单位