摘要
联邦学习(Federated Learning)是为了解决机器学习中以隐私保护为前提的数据碎片化和隔离问题。各客户端节点在本地训练数据,将训练的模型参数信息上传到中央服务器,由参数服务器聚合参数信息以达到共同训练的目的。由于现实环境中,各节点数据之间的分布往往不一致,通过分析非独立同分布数据对联邦学习准确率的影响,来证明传统联邦学习方法得到的模型精度较低。因此,采用多样化抽样策略模拟数据倾斜度分布,提出了基于DBSCAN(Density-Based Spatial Clustering of Applications with Noise)聚类的集群联邦学习算法(DBSCAN Based Cluster Federated Learning, DCFL),解决了联邦学习中不同节点的数据非独立同分布降低了学习准确率的问题。在Mnist和Cifar-10标准数据集上进行了实验,相比传统的联邦学习算法,基于DBSCAN聚类的集群联邦学习算法对模型的准确率有较大的提升。
- 单位