本技术涉及一种图像处理技术,包括获取图像处理任务条件信号和信息提取模型,构建损失函数,并选择预训练扩散模型进行图像生成。
背景技术
随着媒体技术的不断进步,扩散模型在生成任务中表现出优于现有生成模型的优势,如生成对抗网络(GANs)、变分自编码器(VAEs)和归一化流(Normalizing Flows)。扩散模型凭借其强大的生成能力,推动了其在众多下游任务中的广泛应用研究。在这些应用中,条件生成因其能够在给定条件下进行可控生成,成为了一个备受瞩目的领域。许多条件扩散模型已针对不同的条件进行了优化,包括类别标签、文本提示、退化图像、参考图像、分割图以及风格图像等。
利用扩散模型进行条件生成的方法通常分为基于训练的方法和无需训练的方法。基于训练的策略需要根据给定条件对模型进行再训练。这类方法虽然能带来优异的生成性能,但缺乏灵活性,尤其是在面对新条件时,重新训练或微调模型代价高昂,适应性较差。相比之下,免训练的条件生成方法旨在克服额外训练带来的挑战。这些方法利用现成的损失函数与预训练的(无条件或有条件的)扩散模型结合,以指导采样过程。例如,在2023年Conference on Computer Vision and Pattern Recognition(CVPR)会议上发表的“FreeDoM:Training-Free Energy-Guided Conditional Diffusion Model”,以及2023年International Conference on Machine Learning(ICML)会议上的“Loss-GuidedDiffusion Models for Plug-and-Play Controllable Generation”和“UniversalGuidance for Diffusion Models”等方法,都通过扩散模型的隐式先验和条件损失函数引导条件采样,解决了条件不确定的图像生成问题,无需重新训练模型。然而,这些方法仍存在一致性和可靠性方面的不足,生成的图像可能无法充分符合给定的条件。这是由于它们对条件分数函数的启发式近似(如拉普拉斯近似)可能引入了误差。
实现思路