摘要

针对现有文本生成图像模型存在训练效率低下、生成图像分辨率较低以及图像不真实等问题,本文提出一种基于条件增强和注意力机制的深度融合生成对抗网络模型。该模型由文本处理网络和生成对抗网络两部分组成。文本处理网络采用双向长短期记忆网络对文本进行编码,通过条件增强模块增加文本词语对应的特征数据,丰富文本语义特征。在生成对抗网络中,文本特征与视觉特征进行融合,通过使用注意力机制从通道和空间两个维度对输出特征进行调整,使生成网络关注文本描述的重要特征并抑制不必要特征,最终得到生成图像。通过判别器对生成图像与真实图像进行判别,并设计对抗损失函数对网络模型进行优化。在MSCOCO和CUB birds 200两个数据集上进行训练与测试,实验结果表明,与其他模型相比该模型具有明显优势。

  • 单位
    电子工程学院