在人工智能的发展历程中,多模态内容的理解和创作一直是一个极具挑战性的难题。就像爱因斯坦曾说过的:"想象力比知识更重要。知识是有限的,而想象力却能环绕整个世界。"如今,随着大型语言模型(LLM)的出现,我们似乎离这个梦想又近了一步。然而,现有的多模态大型语言模型(MLLM)虽然在理解方面取得了长足进步,但在创作能力上仍显不足。更重要的是,它们忽视了理解与创作之间潜在的协同效应。
近日,来自西安交通大学、清华大学等机构的研究人员提出了一个名为 DREAMLLM 的创新框架,首次在多模态大型语言模型中实现了理解与创作的协同增强。这项突破性研究已被 ICLR 2024 会议接收,引起了学术界的广泛关注。
DREAMLLM 的核心理念可以用两句话来概括:"如其所是地生成一切"和"交错生成式预训练"。这听起来似乎很简单,但背后蕴含的技术创新却是颇为深刻的。
首先,"如其所是地生成一切"意味着 DREAMLLM 直接在原始多模态空间中进行采样,而不是像其他模型那样生成中间表示。这种方法避免了使用外部特征提取器(如 CLIP)所带来的信息损失,从而获得了更全面的多模态理解。具体来说,DREAMLLM 引入了一组可学习的"梦境查询"(dream queries)嵌入,这些嵌入封装了 MLLM 编码的语义信息。原始图像则通过条件化的 Stable Diffusion(SD)图像解码器根据这些语义信息进行解码。这样,预训练的 SD 实际上充当了一个评分函数,而图像后验分布则通过在像素空间中的直接采样来建模,这个过程是通过评分蒸馏(score distillation)来实现的。
其次,"交错生成式预训练"(I-GPT)使 DREAMLLM 能够生成交错的多模态语料库,既编码又解码交错的图像-文本多模态输入。与仅编码多模态输入相比,解码交错的多模态输出面临着更大的挑战,因为它需要处理复杂的交错布局结构和图像所需的长上下文。DREAMLLM 通过使用独特的标记来预测图像在文本中的放置,从而解决了交错布局学习的问题。利用 DREAMLLM 的因果性质,所有内容都可以在任意长度的历史多模态上下文中生成。这种交错生成式预训练本质上形成了文档中图像和文本的所有联合、边缘和条件分布,从而产生了学习协同效应,使 DREAMLLM 的理解能力植根于创作,反之亦然。
这种新颖的方法带来了显著的性能提升。在各种视觉-语言理解、内容创作和纯语言任务的广泛实验中,DREAMLLM 展现出了作为零样本多模态通才的卓越表现。例如,DREAMLLM-7B 在 MS-COCO 数据集上实现了 8.46 的 FID 分数,并在 MMBench 和 MM-Vet 评估中分别创下了 49.1 和 35.9 的新纪录。这些成绩充分证明了 DREAMLLM 在多模态任务中的强大能力。
更令人兴奋的是,DREAMLLM 展现了出色的上下文生成能力。经过 I-GPT 预训练后,DREAMLLM 能够根据人类提示生成交错文档,这是在使用 GPT-4 策划的指令跟随数据进行监督微调之后实现的。据研究人员所知,这是首次使 MLLM 能够创建自由形式的交错内容,同时在理解和创作两个方面实现学习协同效应。
DREAMLLM 的成功不仅仅在于其惊人的性能,更在于它为多模态学习开辟了一条新的道路。作为一个基础学习框架,DREAMLLM 可以适应各种模态,为未来的多模态学习研究奠定了坚实的基础。正如研究人员所言:"我们的工作展示了多模态理解与创作之间存在着深刻的协同关系。通过同时关注这两个方面,我们可以构建出更加智能、更具创造力的 AI 系统。"
然而,DREAMLLM 的出现也引发了一些值得思考的问题。例如,如何确保生成的内容在保持创造性的同时不会偏离事实或产生误导性信息?如何在提高模型性能的同时控制计算成本?这些都是未来研究需要解决的挑战。
尽管如此,DREAMLLM 无疑为多模态 AI 的发展带来了一股新的春风。它不仅展示了理解与创作协同增强的可能性,还为构建更加智能、更具创造力的 AI 系统指明了方向。正如费曼所说:"我不能创造的,我就不理解。"DREAMLLM 正是将这一理念付诸实践的绝佳范例。
随着技术的不断进步,我们有理由相信,未来的 AI 系统将能够更好地理解和创造多模态内容,为人类的创造力提供更强大的辅助工具。DREAMLLM 的出现,无疑是朝着这个目标迈出的重要一步。
参考文献:
Dong, R., Han, C., Peng, Y., Qi, Z., Ge, Z., Yang, J., ... & Yi, L. (2024). DREAMLLM: Synergistic Multimodal Comprehension and Creation. In International Conference on Learning Representations.
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于