打破常规:无需向量量化的自回归图像生成 Autoregressive Image Generation without Vector Quantization

自回归图像生成是一种利用序列模型按顺序预测图像中每个像素或像素块的方法。传统上,这类模型在图像生成中需要将连续的图像数据转换为离散的标记,这一过程涉及到向量量化(Vector Quantization, VQ)。然而,最近的研究提出了一种新的图像生成方法,这种方法消除了向量量化步骤,允许模型在连续值空间中进行操作,从而避免了离散化带来的限制 [1][2]。

这项工作的核心是使用一种新的扩散过程来对每个标记的概率分布进行建模,这一过程不依赖于离散化的标记。通过定义一种新的扩散损失(Diffusion Loss)来代替传统的分类交叉熵损失,扩散损失通过模拟数据的扩散过程来定义概率分布,允许模型在连续空间中进行操作 [1]。

在传统的自回归图像生成模型中,通常会使用向量量化(Vector Quantization, VQ)来处理图像数据。向量量化是一种将连续的向量空间划分为有限数量的离散区域的方法,每个区域用一个代表向量或码字来标识。然而,这种方法在处理图像数据时存在一些限制,比如量化误差和离散化步骤带来的信息损失。

在这篇论文中,作者提出了一种新颖的方法,通过扩散过程来建模每个标记的概率分布,从而无需进行向量量化。这种方法的核心思想是利用扩散模型(Diffusion Models)的原理来表示任意概率分布。下面详细介绍这种方法的工作原理和涉及的关键公式。

扩散过程(Diffusion Process)

扩散过程是一种生成模型,它通过逐步引入噪声并在逆过程中去除噪声来生成数据。这个过程可以用下面的公式来描述:

[ x_t = \sqrt{\alpha_t} x + \sqrt{1 - \alpha_t} \epsilon ]

其中:

  • ( x_t ) 是第 ( t ) 步的噪声数据。
  • ( x ) 是原始数据。
  • ( \alpha_t ) 定义了噪声水平,通常按照某种策略(如余弦退火)随时间 ( t ) 变化。
  • ( \epsilon ) 是从标准正态分布 ( \mathcal{N}(0, I) ) 中采样的噪声向量。

扩散损失(Diffusion Loss)

扩散损失是本文提出的关键概念,用于代替传统的分类交叉熵损失。它通过最小化模型预测的噪声向量和实际噪声向量之间的差异来训练模型。扩散损失的公式如下:

[ \mathcal{L}(z, x) = \mathbb{E}{\epsilon, t} \left[ | \epsilon - \epsilon\theta(x_t | t, z) |^2 \right] ]

这里:

  • ( \mathcal{L} ) 是扩散损失函数。
  • ( z ) 是由自回归模型生成的条件向量。
  • ( x ) 是目标数据。
  • ( \epsilon_\theta(x_t | t, z) ) 是模型预测的噪声向量,参数化为 ( \theta )。
  • ( \mathbb{E} ) 表示对噪声 ( \epsilon ) 和时间步 ( t ) 的期望。

反向扩散过程(Reverse Diffusion Process)

在推理时,模型需要从条件向量 ( z ) 中生成数据 ( x )。这是通过执行反向扩散过程来完成的,其公式如下:

[ x_{t-1} = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1 - \alpha_t}{\sqrt{1 - \bar{\alpha}t}} \epsilon\theta(x_t | t, z) \right) + \sigma_t \delta ]

这里:

  • ( x_{t-1} ) 是逆过程中的前一步骤数据。
  • ( \sigma_t ) 是第 ( t ) 步的噪声水平。
  • ( \delta ) 是从正态分布 ( \mathcal{N}(0, I) ) 中采样的。

温度采样(Temperature Sampling)

为了控制生成样本的多样性,作者还引入了温度采样的概念,类似于在语言模型中控制温度以影响生成文本的多样性。温度 ( \tau ) 通过以下方式影响扩散过程:

[ \epsilon = \epsilon_\theta(x_t | t, z) + \omega \cdot (\epsilon_\theta(x_t | t, z_c) - \epsilon_\theta(x_t | t, z_u)) ]

这里:

  • ( z_c ) 是类条件向量。
  • ( z_u ) 是无类条件向量。
  • ( \omega ) 是引导比例。

通过这种方式,无需向量化,自回归模型可以直接在连续值空间中生成图像,从而克服了传统方法的局限性。

此外,这项研究还提供了 PyTorch 的官方实现代码,以及在 ImageNet 数据集上预训练的模型 [3]。代码库中包含了简单的 PyTorch 实现、预训练模型以及一个自包含的 Colab 笔记本,用于运行各种预训练的模型 [3]。

这项工作不仅提高了图像生成的质量,还因为消除了离散化步骤,而享有序列模型的快速速度优势。作者希望这项工作能激发在其他连续值领域和应用中使用自回归生成的动力 [2]。

对于想要进一步了解这项研究的读者,可以访问论文的原文链接 [5],其中详细介绍了这项工作的方法和实验结果。论文的摘要也提供了对这项工作的基本理解,说明了如何通过扩散过程在连续值空间中应用自回归模型,并定义了扩散损失函数来建模每个标记的概率 [5]。

以下是使用 Markdown 格式列出的参考文献:

  1. Li, Tianhong et al. "Autoregressive Image Generation without Vector Quantization." arXiv preprint arXiv:2406.11838 (2024). Link
  2. Wu, Tong et al. "AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation." arXiv preprint arXiv:2305.09515 (2023). Link
  3. Karras, Tero et al. "Elucidating the Design Space of Diffusion-Based Generative Models." arXiv preprint arXiv:2206.00364 (2022). Link

打破常规:无需向量量化的自回归图像生成

在人工智能领域,图像生成一直是一个引人入胜的话题。最近,一项突破性的研究为我们打开了新的视野——一种无需向量量化的自回归图像生成方法。这项研究由 MIT CSAIL、Google DeepMind 和清华大学的科学家们共同完成,并发表在 arXiv 上,题为“Autoregressive Image Generation without Vector Quantization”。

传统方法的局限

在传统上,自回归模型在图像生成中需要依赖向量量化(Vector Quantization, VQ)来将连续的图像数据转换为离散的标记。这个过程虽然在理论上可行,但实际操作中却存在诸多限制。向量量化的标记难以训练,且对梯度近似策略敏感,其重建质量常常不尽人意。

创新的扩散过程

这项研究的核心在于提出了一种新的扩散过程,用以对每个标记的概率分布进行建模。这一过程在连续值空间中操作,不再依赖于离散化的标记。通过定义一种新的损失函数——扩散损失(Diffusion Loss),研究者们成功地在连续空间中应用自回归模型。

扩散损失的优势

扩散损失函数的引入,不仅消除了对离散值标记的需求,还使得模型能够更有效地学习和生成图像。这种方法不仅提高了图像生成的质量,还因为消除了离散化步骤,而享有序列模型的快速速度优势。

实验结果

研究者们在包括标准自回归模型和广义掩码自回归(Masked Autoregressive, MAR)变体的多种情况下评估了这种方法的有效性。实验结果表明,通过去除向量量化,图像生成器在保持序列建模速度优势的同时取得了强大的结果。在 ImageNet 256×256 的实验中,该方法能够以每秒不到 0.3 秒的速度生成图像,同时达到 2.0 以下的 FID(Fréchet Inception Distance)。

未来展望

这项工作不仅为图像生成领域带来了新的可能,也为其他连续值领域和应用中使用自回归生成的方法提供了灵感。随着这项技术的不断发展和完善,我们有理由相信,未来在文本生成、视频生成等其他领域,自回归生成方法将发挥更大的作用。

结语

无需向量量化的自回归图像生成技术,不仅是对现有技术的一次重大突破,更是对未来人工智能发展的一次有力推动。随着这项技术的不断进步,我们期待它能够在更广泛的应用场景中展现出其独特的价值和魅力。

  • 算法
    428 引用 • 254 回帖 • 24 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...