摘要
作为量子机器学习的一个新兴子领域,量子深度强化学习旨在利用量子神经网络构建一个量子智能体,使其通过与环境进行不断交互习得一个最优策略,以达到期望累积回报最大化。然而,现有量子深度强化学习方法在训练过程中需要与经典环境进行大量交互,从而导致大量多次调用量子线路。为此,该文提出了一种基于情景记忆的量子深度强化学习模型,称为量子情景记忆深度Q网络,该模型利用情景记忆来加速量子智能体的训练过程。具体来说,该模型将历史上出现的拥有高奖励值的经验记录到情景记忆中,使得在当前环境的状态与情景记忆中的某状态相似时,量子智能体可以根据该历史状态快速地获得想要的动作,从而减少了算法优化的迭代次数。在5个经典的雅达利游戏上的数值模拟表明,该文提出的方法可以显著地减少训练量子智能体的迭代次数,进而可以获得比其他量子深度强化学习方法更高的分数。
- 单位