针对线性离散时间系统的非零和博弈问题,提出一种非策略Q学习算法。首先,提出非零和博弈优化问题,并且严格证明根据每个个体性能指标定义的值函数为线性二次型。然后,基于动态规划和Q学习方法,给出非策略Q学习算法,得到非零和博弈的近似最优解,实现系统的全局纳什均衡。此算法不要求系统模型参数已知,完全利用可测数据学习纳什均衡解。最后,算例仿真验证了方法的有效性。