摘要

虚拟人生成技术对于虚拟现实和影视制作等领域有重要意义。针对现有虚拟人生成需要大量数据和制作成本等问题,提出一种基于扩散模型的零样本文本驱动的三维虚拟人生成方法,包括条件人体生成和迭代纹理细化2个阶段。第一阶段,首先利用神经网络初始化三维人体的隐式表示,然后,使用一个基于文本提示的深度条件扩散模型来引导神经隐式场生成用户所需的虚拟人模型。第二阶段,利用扩散模型进行去噪还原,针对第一阶段人体模型提供的纹理先验进行高精度的纹理图推理更新,进而迭代细化虚拟人的纹理表示,生成最终结果。使用该方法,用户可以创建一个生动的具有任意文本描述的虚拟人,而无需使用任何参考照片。实验结果表明,该方法可以在给定的文本提示条件下生成具有真实感的高质量、生动的虚拟人。