摘要
【目的】构建一个基于两阶段迁移学习的多标签分类模型,以解决现有模型中多标签数据采样困难与跨领域迁移学习共性特征较少的问题。【方法】提出"通用领域-目标领域单标签数据-多标签数据"的两阶段迁移学习模型,首先在通用领域上训练,之后迁移到使用上采样方法均衡后的目标领域单标签数据进行微调,最后迁移到多标签数据,实现多标签分类。【结果】以医学文献图像标注为例,实证结果表明:所提模型对于图像多标签分类和文本多标签分类任务均有较好效果,F1值在一阶段迁移学习模型的基础上提升超过50%。【局限】如何根据不同任务优选基础模型和采样方法还有待研究。【结论】本研究可供存在数据集受限的领域大数据标注、检索与利用等研究借鉴。
- 单位