摘要

随着数据的爆炸式增长以及企业和个人对隐私问题的关注,传统的集中式机器学习已经不能满足现有的需求.联邦学习是一种新兴的分布式机器学习框架,旨在不分享私有数据的前提下利用分散的客户端训练一个全局模型,解决数据隐私和数据孤岛问题.然而,由于联邦学习的分布式和隐私保护特性,其容易受到各种各样的攻击,后门攻击则是联邦学习系统受到的攻击之一.目前,业界已提出大量的鲁邦算法来抵抗联邦学习系统遭受的后门攻击.然而,现有的鲁棒算法大多有较强的假设,例如受到不同客户端数据分布和恶意后门客户端数量的限制.我们的研究表明了现有的鲁棒算法不能解决在非独立同分布场景下,大量后门客户端共同攻击的问题.为解决这一难题,本文提出了一种鲁棒算法Poly.Poly算法包含两部分:一部分利用相似度矩阵和聚类算法进行聚类分析;另一部分则基于余弦相似度选择最优的类去聚合全局模型.由于Poly算法能完全去除恶意后门模型,从而完全避免了后门污染全局模型.为了验证Poly算法的性能,实验利用了MNIST、Fashion-MNIST、CIFAR-10和Reddit四种数据集,考虑了数据不平衡和类别不平衡两种非独立同分布场景以及独立同分布场景.此外,后门客户端的数量以10%为单位从50%递增到90%,以实现大量后门客户端攻击的场景,同时也对Poly算法在后门客户端少于正常客户端的场景进行了测试.实验结果显示,Poly能够完全抵抗不同场景下的后门攻击,后门攻击成功率只有1%左右(在一些场景下为0%)的同时,获得了较好的主任务精度.相较之下,几种现有经典算法则完全失效,大都使得后门攻击成功率为100%,这些表明了Poly算法的优越性.