摘要
深度强化学习使用深度神经网络在解决复杂决策任务上取得显著进步.然而,其推理成本明显增加,导致实用性降低,减少推理代价为该技术落地的重要挑战.本文研究发现,任务中并非所有状态都是难以决策的.受此启发,本文提出状态自适应推理框架,保证策略质量并显著降低策略推理成本.本文设计了动态策略训练算法:首先,为加速简单状态下的推理,生成不同大小的子策略网络.然后,训练元策略以根据状态难易动态选择合适的子策略.为进一步降低元策略推理成本,本文共享子策略与元策略网络的部分参数,并基于扩展的马尔可夫决策过程训练元策略.最后在gym平台上进行的实验表明,自适应推理框架在保证策略质量的前提下浮点数计算量少3.4倍.
- 单位