基于门控交叉单词-视觉注意力驱动的文本生成图像方法

赖博润; 马丽红; 韦岗; 张中豪

摘要

本发明公开了一种基于门控交叉单词-视觉注意力驱动的文本生成图像方法,包括以下步骤：从文本描述中提取句子特征向量和单词特征矩阵,并将句子特征向量通过条件增强处理得到条件特征向量,然后和随机噪声向量输入视觉特征转换器和生成器,得到低分辨率图像；将单词特征矩阵和视觉特征矩阵输入门控交叉单词-视觉注意力单元,得到细化的单词特征矩阵和细化的视觉特征矩阵,然后将细化的视觉特征矩阵输入视觉特征转换器和生成器,得到高分辨率图像；重复以上步骤,得到更高分辨率的图像；引入改进的目标函数,增强生成图像的真实性和与文本描述的语义一致性,并将分辨率最高的图像作为最终生成图像。通过本发明的方法,可以生成质量更高的图像。

单位
华南理工大学

收藏分享被引浏览

更新时间：2024-10-25 01:32

基于门控交叉单词-视觉注意力驱动的文本生成图像方法

摘要

产品服务

站内浏览

服务支持

联系方式

科研之友