摘要
本发明公开了一种基于门控交叉单词-视觉注意力驱动的文本生成图像方法,包括以下步骤:从文本描述中提取句子特征向量和单词特征矩阵,并将句子特征向量通过条件增强处理得到条件特征向量,然后和随机噪声向量输入视觉特征转换器和生成器,得到低分辨率图像;将单词特征矩阵和视觉特征矩阵输入门控交叉单词-视觉注意力单元,得到细化的单词特征矩阵和细化的视觉特征矩阵,然后将细化的视觉特征矩阵输入视觉特征转换器和生成器,得到高分辨率图像;重复以上步骤,得到更高分辨率的图像;引入改进的目标函数,增强生成图像的真实性和与文本描述的语义一致性,并将分辨率最高的图像作为最终生成图像。通过本发明的方法,可以生成质量更高的图像。
- 单位