针对双人博弈问题,在学习Q-learning算法的基础上,利用神经网络参数逼近的方式更新状态值函数,选取自适应梯度优化算法进行参数更新,并通过纳什均衡思想调节两个智能体的行为。同时为提高模型的保护效果,对结果添加差分隐私保护,保证智能体博弈过程中数据的安全性。最后,实验结果验证了算法的可用性,其能够训练两个智能体在多回合之后稳定抵达各自目标点。