针对模型自由的随机线性离散时间系统,通过Q学习算法求解无限时间随机线性二次最优控制问题。首先根据贝尔曼最优性原理定义Q函数,通过值迭代算法的思想构造Q学习算法;其次给出Q学习算法的等价形式并证明其收敛性;最后通过一个仿真实例说明Q学习算法的有效性。