摘要

传统机器学习算法都假定训练数据(源域)和应用场景数据(目标域)服从同一分布,而这种假设在实际应用中往往是不成立的。如果源域和目标域的分布差异较大,那么训练得到的分类器在目标域中性能将会降低,而为目标域数据收集所有标签并重新训练需要消耗大量资源。为了解决上述问题,本文提出了一种基于主动学习的半监督领域自适应方法,该方法首先利用已标记源域数和未标记目标域数据训练一个初始模型,然后利用主动学习从目标域中选择少量最具代表性的样本进行标记,并迭代训练已有模型,直到预先设置终点。本文在SVHN、MNIST和USPS数据集上分别进行了实验,实验结果表明,相比同类方法本文方法能更好地让源域上学习得到的分类器适用于目标域。