根据马尔科夫决策过程和Q-learning算法,通过简化处理求解电梯群控系统在上行峰值期间的最优配置问题。给出电梯群控系统最优配梯的步骤、框图和量化计算求解例;提出对应的报酬R即目标函数所包括的5项分函数;给出在候梯期间和电梯运行期间的到达人数和到达概率公式及工程意义;指出候梯时间可以用"部分"运行周期即返回时间来表示。由此扩大了Basset公式的应用,为深入研究电梯群控系统打下了基础。