本技术介绍了一种创新的图像合成技术,依托于扩散模型的原理,旨在图像处理领域实现高效图像生成。该技术首先构建并初始化一个适用于图像合成的扩散模型,随后对该模型进行二值化处理,以优化模型性能。通过这一方法,可以实现图像的高质量合成,提升图像处理的效率和效果。
背景技术
扩散模型(Diffusion Models,DMs)由于其高质量和多样化的生成能力,在图像生成领域引起了极大的关注和应用。扩散模型可以通过多达1000步的去噪步骤,从随机噪声生成图像。虽然一些加速采样方法能够有效减少生成任务所需的步骤数量,但每个时间步的昂贵浮点计算仍然限制了该类图像生成模型在资源受限场景中的广泛应用。因此,对扩散模型的压缩成为其更广泛应用的关键步骤,以在保持图像生成的准确性的同时减少存储和计算成本。
在图像处理领域,量化被认为是一种非常有效的模型压缩技术,通过将权重和/或激活量化为低位整数或二值化,实现紧凑存储和推理中的高效计算,实现高效轻量的图像生成。二值化被认为是能起到最高加速效果的形式,一些现有的工作已尝试将图像生成领域的扩散模型量化为1位,但它们的探索主要集中在权重上,在完全二值化时面临显著崩溃。在保障精度的前提下实现扩散模型二值化将有望显著提升图像生成的效率,实现图像生成的高效轻量化。
扩散模型(DMs)已在图像生成领域中展现了卓越的生成能力。然而,它们的大规模模型架构和多步推理所需的高计算成本限制了其实际应用。为了应对这一问题,已有许多方法被提出用于加速推理过程,包括无需重新训练的采样加速方法和蒸馏方法。近期的一种方法,称为DeepCache,通过缓存高维特征来避免大量冗余计算,并与典型的采样加速方法兼容。基于采样加速的方法无法克服单步推理中的内存瓶颈和效率限制,模型依然无法部署于存储资源受限的场景中,导致图像生成领域的模型的应用范围依然受到限制。
量化是广泛验证的压缩技术,通过将权重和激活从常规的32位压缩到1-8位,从而实现压缩和加速。因此,量化也被研究用于扩散模型。其中二值化,作为量化的最极端形式,通常将权重和激活表示为±1,允许模型实现最大的压缩和加速。在计算机视觉领域,二值化工作主要集中在判别式模型上,例如CNN或ViTs。由于图像生成模型的独特难度,大多数后训练量化(PTQ)方法只能将模型量化到4位或更高,而更精确的量化感知训练(QAT)方法在3位以下时遇到了性能瓶颈。而二值化在生成模型上的研究较少。尽管ResNet VAE和Flow++已实现了VAE的完全二值化,但它们的生成性能无法与当前先进的模型相媲美。BinaryLatent Diffusion对LDM的潜在空间进行了二值化,但未能改善模型的空间占用或推理效率。最新的工作BinaryDM将DMs量化至接近W1A4,但没有解决激活量化问题。
实现思路