摘要
深度学习技术在图像识别、自然语言处理、金融预测等领域具有广泛应用,其分析结果一旦存在偏见将给个人和群体带来负面影响,因此在保障深度学习模型的性能不受影响的前提下提高模型的公平性至关重要。针对数据的偏见信息不只是敏感属性,属性之间的关联性使非敏感属性也会带有偏见信息,因此只考虑敏感属性的去偏算法依然存在偏见问题。为了消除数据中关联属性的敏感信息对深度学习的分类结果带来偏见,提出一种基于生成式对抗网络的数据去偏方法,模型的损失函数结合公平性约束及准确性损失两种约束优化,利用对抗式编码消除偏见信息,生成去偏数据集;并通过生成器与判别器的交替博弈训练,减少数据集无偏信息的损失,在保证主任务分类准确率的同时消除数据中的偏见,从而提高后续分类任务的公平性。最终,在多个真实数据集上展开数据去偏实验,验证了该去偏算法的有效性。
- 单位