摘要
迁移学习能以相关领域中的标注数据为基础,提升目标领域的学习效果。当领域间的数据分布差异很大时,会导致严重的负迁移问题。如何充分捕获源域和目标域之间的相似性,进一步挖掘更多有效信息,最终提高目标域的预测精度,是一个值得探索的问题。该文从细粒度主动迁移的视角,提出一种深度子领域迁移学习(Deep subdomain transfer learning, DSTL)算法,能迭代优化源域和目标域之间的相似性,提升模型预测性能。该文首先提出一种伪标签生成策略,对所有样本进行子领域的划分;制定中心+边缘的主动查询策略,获得关键代表性实例的真实标签;设计一种迭代分布优化策略,实现源域和目标域的子领域对齐,避免负迁移。将DSTL算法与传统迁移学习算法以及当前最新的深度迁移学习算法在主流的基准数据集上进行了测试。统计分析的结果表明,该文所提算法能实现性能的有效提升,扩大模型在实际应用中的适用范围。
- 单位