摘要
传统酒店动态定价研究大多考虑改进需求预测方法或考虑需求环境已知,而现实生活中需求分布通常是未知的.本文考虑需求分布未知的情境,建立基于马尔可夫决策过程的酒店客房多周期动态定价模型,并利用强化学习方法,提出基于SARSA(λ)的改进算法对客房动态定价模型进行求解.为提升算法的求解能力和收敛速度,提出了基于改进ε-greedy策略的ε-SARSA(λ)算法和基于改进模拟退火策略的ISA-SARSA(λ)算法.通过数值实验对比SARSA(λ), ε-SARSA(λ), SA-SARSA(λ)和ISA-SARSA(λ)四种算法的收益优化结果,验证了改进算法的有效性,结果显示, ISA-SARSA(λ)算法求解性能最好.
- 单位