摘要
基于文本的图像编辑是多媒体领域的一个研究热点并具有重要的应用价值.由于它是根据给定的文本编辑源图像,而文本和图像的跨模态差异很大,因此它是一项很具有挑战的任务.在对编辑过程的直接控制和修正上,目前方法难以有效地实现,但图像编辑是用户喜好导向的,提高可控性可以绕过或强化某些编辑模块以获得用户偏爱的结果.针对该问题,提出一种基于自动编码器的文本图像编辑模型.为了提供便捷且直接的交互配置和编辑接口,该模型在多层级生成对抗网络中引入自动编码器,该自动编码器统一多层级间高维特征空间为颜色空间,从而可以对该颜色空间下的中间编辑结果进行直接修正.其次,为了增强编辑图像细节及提高可控性,构造了对称细节修正模块,它以源图像和编辑图像为对称可交换输入,融合文本特征以对前面输入编辑图像进行修正.在MSCOCO和CUB200数据集上的实验表明,该模型可以有效地基于语言描述自动编辑图像,同时可以便捷且友好地修正编辑效果.
- 单位