摘要

信息技术给人们生活带来便利的同时也会泄露个人隐私.联邦学习是一种可以保护数据隐私的机器学习技术,不同于现有的机器学习方法,联邦学习中数据不出参与方本地,通常面临着数据非独立同分布的问题(non-identically Independently Distributions, non-IID),因而现有的机器学习方法在联邦学习non-IID问题上效果大大降低.文章针对联邦学习中的non-IID问题,在联邦平均算法的基础上进行改进,对MNIST数据集进行non-IID划分并分发到各参与方,计算各参与方数据的EMD(Earth Mover’s Distance, EMD)距离,以四分位距为上界,主动去掉EMD距离过大的参与方以保证联邦整体的效果.实验结果表明,文章采用的方法比联邦平均算法提高了约5%的准确率,减少了联邦学习训练过程的通信开销,提高了整体效率,引入EMD距离还可以为衡量各参与方的贡献值提供度量依据.