摘要

针对现有生成模型难以直接从复杂语义标签生成高分辨率图像的问题,提出了融合语义标签和噪声先验的生成对抗网络(SLNP-GAN)。首先,直接输入语义标签(包含形状、位置和类别等信息),使用全局生成器对其进行编码,并结合噪声先验来学习粗粒度的全局属性,初步合成低分辨率图像;然后,基于注意力机制,使用局部细化生成器来查询低分辨率图像子区域对应的高分辨率子标签,获取细粒度信息,从而生成纹理清晰的复杂图像;最后,采用改进的引入动量的Adam算法(AMM)算法来优化对抗训练。实验结果表明,与现有方法text2img相比,所提方法的像素精确度(PA)在COCOStuff和ADE20K数据集上分别提高了23. 73%和11. 09%;相较于Adam算法,AMM算法收敛速度提升了约一倍,且损失值波幅较小。可见,SLNP-GAN能高效地获取全局特征和局部纹理,生成细粒度、高质量的图像。