针对堆叠式生成对抗网络中生成样本细节表述质量不高,多样性不足的问题,提出一种结合最大化皮尔逊相关系数的文本到图像生成模型。该模型通过改进判别器,使其能进行编码和判别,利用判别器对生成样本进行特征提取,计算输入向量与特征向量之间的皮尔逊相关系数,并将其作为重构项加入损失中进行最大化优化。另外,为增强不同尺度生成样本间的编码一致性,提出了多尺度联合损失。在CUB数据集上的实验验证了该方法能有效提高生成样本的多样性和图像质量。