在强化学习(Reinforcement Learning)算法理论中,最近有学者提出了一个新的估值算法Q(σ),这里σ是采样度(degree of sampling),这是一个介于全采样(full-sampling)和非采样(no-sampling)的新方法。Q(σ)统一了Sarsa和Expected Sarsa等传统算法,但是Q(σ)的提出者只在实验上验证了算法的有效性。该文对Q(σ)的收敛性作了理论分析,证明了在一定条件下Q(σ)是收敛的。