,其中 T 是给定目标文本的 token 数,d 是 token 嵌入维数。然后,研究者对生成扩散模型 f_θ的参数进行冻结,并利用去噪扩散目标(denoising diffusion objective)优化目标文本嵌入 e_tgt
其中,x 是输入图像,
是 x 的一个噪声版本,θ为预训练扩散模型权值。这样使得文本嵌入尽可能地匹配输入图像。此过程运行步骤相对较少,从而保持接近最初的目标文本嵌入,获得优化嵌入 e_opt。
模型微调
这里要注意的是,此处所获得的优化嵌入 e_opt 在通过生成扩散过程时,不一定会完全和输入图像 x 相似,因为它们只运行了少量的优化步骤(参见图 5 中的左上图)。因此,在第二个阶段,作者通过使用公式 (2) 中提供的相同损失函数优化模型参数 θ 来缩小这一差距,同时冻结优化嵌入。
文本嵌入插值
Imagic 的第三个阶段是在 e_tgt 和 e_opt 之间进行简单的线性插值。对于给定的超参数