摘要
传统的机器学习经常采用数据中心化的方式进行训练,然而由于实际应用中的传输开销或者隐私保护限制,数据越来越呈现分散化、隔离化的趋势。分布式训练学习技术为分散在信息孤岛上的数据融合提供了一种解决方案。然而,由于分散化数据本身具有天然异质性,本地数据分布经常是非独立同分布的(NonIID),这给分布式训练带来了挑战。首先,为了应对单一模型难以适配所有异质客户端的难题,在分布式训练的基础上引入了模型重用技术,提出了分布式模型重用框架(DMR)。然后,通过理论分析指出集成学习可以为异构数据提供有效的解决方案,并在此基础之上提出了使用多分类器的分布式模型重用技术(McDMR)。最后,为了减少实际应用过程中的存储、计算和传输开销,继而提出了两种具体的优化方案:使用多头分类器的分布式模型重用(McDMR-MH)和使用随机分类器采样的分布式模型重用(McDMR-SC)。在多个公开数据集上进行实验,实验结果验证了所提方法的有效性。
-
单位南京大学; 计算机软件新技术国家重点实验室