站在巨人肩膀上的自我复制：生成模型的迭代再训练之路

生成模型这位"数字造物主"正在以惊人的速度进化。从最初的模糊不清到如今以假乱真,它们能创造出的内容已经让人类难以分辨真假。然而,随着合成内容充斥网络,未来的生成模型将不可避免地在混合数据集上接受训练 - 既有真实数据,也有人工生成的数据。那么问题来了:这种"自我消化"式的训练会对模型性能产生什么影响呢?

迭代再训练:生成模型的自我进化之路

想象一下这样一个场景:我们有一个初始的生成模型,它已经在真实数据上训练得相当不错了。现在我们想继续提升它的性能,但手头的真实数据已经用完了。这时,一个看似聪明的想法冒了出来 - 为什么不让模型生成一些新数据,然后用这些"人造数据"继续训练呢?

这个过程可以简单描述为:

用现有模型生成一批合成数据
将合成数据与剩余的真实数据混合
用混合数据集重新训练模型
重复步骤 1-3

听起来很有道理,对吧?但事情真的这么简单吗?

高斯分布的警示:当"自我消化"走向极端

让我们先看一个简单的例子 - 多元高斯分布。假设我们的初始模型是一个拟合得很好的高斯分布。如果我们只用它生成的样本来反复训练,会发生什么?

结果令人吃惊:模型会逐渐"崩溃"! 具体来说,协方差矩阵会以线性速度收缩到 0。这意味着分布会越来越"瘦",最终退化成一个点。

用数学语言来描述:存在一个\alpha < 1,使得

E(\sqrt{\Sigma_t}) \preceq \alpha^t \sqrt{\Sigma_0} \to 0 当 t \to \infty

这里\Sigma_t是第 t 次迭代后的协方差矩阵。

这个结果告诉我们,如果一个生成模型只依赖自己生成的数据来学习,它最终会失去所有的多样性,变成一个"固执己见"的模型。这就像一个画家只临摹自己的作品,最终会失去所有创造力一样。

稳定性的曙光:混合数据集的魔力

幸运的是,现实世界中我们通常不会走向如此极端。那么,如果我们在每次训练时都保留一部分真实数据,情况会如何呢?

理论分析表明,只要满足两个条件,迭代再训练就能保持稳定:

初始模型要足够"优秀",即与真实数据分布足够接近
每次训练时保留足够多的真实数据

用数学来精确描述这个结果:假设\theta^*是最优参数(即在真实数据上训练得到的理想模型),那么如果

\lambda(1 + \frac{L\varepsilon}{\alpha}) < \frac{1}{2}

这里\lambda是合成数据的比例,\varepsilon是初始模型与真实分布的 Wasserstein 距离,L和\alpha是一些技术条件。

满足这个条件时,迭代过程的雅可比矩阵范数严格小于 1:

\|J_\theta G^\infty_\lambda(\theta^*)\|_2 \leq \frac{\lambda(\alpha + \varepsilon L)}{\alpha - \lambda(\alpha + \varepsilon L)} < 1

这保证了迭代过程在\theta^*附近是稳定的。换句话说,只要我们保持适量的真实数据,模型就不会"走歪"。

实践验证:CIFAR10 和 FFHQ 上的实验

理论很美好,但实践如何呢?研究者们在 CIFAR10 和 FFHQ 这两个广泛使用的图像数据集上进行了实验,使用了包括连续归一化流(OTCFM)、去噪扩散概率模型(DDPM)和阐明扩散模型(EDM)在内的多种先进生成模型。

实验结果令人振奋:当保持足够比例的真实数据时,模型质量确实能够保持稳定。甚至在使用 50% 合成数据的情况下,生成的图像质量与纯粹使用真实数据训练的结果相当。

这就像是给植物浇水 - 适量的"人造雨水"(合成数据)可以帮助植物生长,但完全用人造水替代自然雨水则会导致植物枯萎。

深度思考:生成模型的未来之路

这项研究为我们揭示了生成模型发展的一个潜在方向。随着互联网上的合成内容越来越多,未来的模型不可避免地要在混合数据上训练。了解这种训练方式的稳定性条件,对于保持模型性能至关重要。

但这也引发了一些深层次的问题:

我们如何在实践中判断真实数据的"足够"比例?
长期来看,这种"自我消化"式的训练会不会导致模型逐渐偏离真实分布?
是否存在某种机制,能让模型在纯合成数据上也保持稳定?

这些问题不仅关乎技术,还涉及伦理和哲学。随着生成模型继续发展,我们需要时刻警惕"数字回音室"效应,确保模型不会在自我强化中失去与现实世界的联系。

生成模型的未来之路充满挑战,但也充满机遇。通过深入理解其行为,我们有望培育出更强大、更稳定、更富创造力的"数字造物主"。让我们拭目以待,看看这场人工智能的"创世纪"将如何继续演进。

参考文献

Bertrand, Q., et al. (2024). On the Stability of Iterative Retraining of Generative Models on Their Own Data. ICLR 2024.
Shumailov, I., et al. (2023). The Curse of Recursion: Training on Generated Data Makes Models Forget.
Alemohammad, S., et al. (2023). On Model Collapse in Iterative Generation.
Tong, A., et al. (2023). Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport.
Ho, J., et al. (2020). Denoising Diffusion Probabilistic Models.
Karras, T., et al. (2022). Elucidating the Design Space of Diffusion-Based Generative Models.

站在巨人肩膀上的自我复制：生成模型的迭代再训练之路

迭代再训练:生成模型的自我进化之路

高斯分布的警示:当"自我消化"走向极端

稳定性的曙光:混合数据集的魔力

实践验证:CIFAR10 和 FFHQ 上的实验

深度思考:生成模型的未来之路

参考文献

相关帖子

恐龙也能懂的在 siyuan 上使用 ChatGPT 教程

AI 本地搜索会不会取代笔记软件的标签、链接、传统搜索和数据库功能？

为什么说依靠人工整理的笔记工具快到头了？

有没有什么同步比较快的办法

手机有思源，电脑上没有思源，电脑可通过游览器打开思源吗？

思源笔记丨写了一个插件，用块引实现脚注和备注

将数据添加到数据库过程中存在的一点小问题

欢迎来到这里！