摘要

针对Exposure框架图像增强模型的增强结果存在过曝、颜色失真等问题,提出critic正则化相对对抗优势行动者-评论家(relativistic adversarial advantage actor-critic with critic-regulatization, RA3C-CR)框架.通过引入相对均值生成对抗网络对强化学习框架中的奖励函数进行近似建模,增强生成对抗网络判别器的鉴别能力.同时,将行动者-评论家(actor-critic, AC)算法中价值网络的目标函数作为策略梯度算法的惩罚项约束策略网络的学习行为,以提升算法的稳定性和表现能力.实验结果表明,该框架能较好地还原出图像的真实颜色分布,增强图像在主观效果与客观指标上均优于对比方法.

全文