A3C深度强化学习模型压缩及知识抽取

张晶; 王子铭; 任永功

摘要

异步优势演员评论家(asynchronous advantage actor-critic，A3C)构建一主多从异步并行深度强化学习框架，其在最优策略探索中存在求解高方差问题，使主智能体难以保证全局最优参数更新及最佳策略学习．同时，利用百万计算资源构建的大规模并行网络，难以部署在低功耗近端平台．针对上述问题，提出紧凑异步优势演员评论家模型(Compact＿A3C)，实现模型压缩及知识抽取．该模型冻结并评价A3C框架中所有子智能体学习效果，将评价结果转化为主智能体更新概率，保证全局最优策略获取，提升大规模网络资源利用率．进一步，模型将优化主智能体作为“教师网络”，监督小规模“学生网络”前期探索与策略引导，并构建线性衰减损失函数鼓励“学生网络”对复杂环境自由探索，强化自主学习能力，实现大规模A3C模型知识抽取及网络压缩．建立不同压缩比“学生网络”，在流行Gym Classic Control与Atari 2600环境中达到了与大规模“教师网络”一致的学习效果．模型代码公布在https://github．com/meadewaking/Compact＿A3C．

单位
辽宁师范大学

收藏分享被引浏览

更新时间：2023-02-11 12:38

A3C深度强化学习模型压缩及知识抽取

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友