梦想成真:大型语言模型的多模态理解与创作协同突破

本贴最后更新于 201 天前,其中的信息可能已经东海扬尘

在人工智能的发展历程中,多模态内容的理解和创作一直是一个极具挑战性的难题。就像爱因斯坦曾说过的:"想象力比知识更重要。知识是有限的,而想象力却能环绕整个世界。"如今,随着大型语言模型(LLM)的出现,我们似乎离这个梦想又近了一步。然而,现有的多模态大型语言模型(MLLM)虽然在理解方面取得了长足进步,但在创作能力上仍显不足。更重要的是,它们忽视了理解与创作之间潜在的协同效应。

近日,来自西安交通大学、清华大学等机构的研究人员提出了一个名为 DREAMLLM 的创新框架,首次在多模态大型语言模型中实现了理解与创作的协同增强。这项突破性研究已被 ICLR 2024 会议接收,引起了学术界的广泛关注。

DREAMLLM 的核心理念可以用两句话来概括:"如其所是地生成一切"和"交错生成式预训练"。这听起来似乎很简单,但背后蕴含的技术创新却是颇为深刻的。

首先,"如其所是地生成一切"意味着 DREAMLLM 直接在原始多模态空间中进行采样,而不是像其他模型那样生成中间表示。这种方法避免了使用外部特征提取器(如 CLIP)所带来的信息损失,从而获得了更全面的多模态理解。具体来说,DREAMLLM 引入了一组可学习的"梦境查询"(dream queries)嵌入,这些嵌入封装了 MLLM 编码的语义信息。原始图像则通过条件化的 Stable Diffusion(SD)图像解码器根据这些语义信息进行解码。这样,预训练的 SD 实际上充当了一个评分函数,而图像后验分布则通过在像素空间中的直接采样来建模,这个过程是通过评分蒸馏(score distillation)来实现的。

其次,"交错生成式预训练"(I-GPT)使 DREAMLLM 能够生成交错的多模态语料库,既编码又解码交错的图像-文本多模态输入。与仅编码多模态输入相比,解码交错的多模态输出面临着更大的挑战,因为它需要处理复杂的交错布局结构和图像所需的长上下文。DREAMLLM 通过使用独特的标记来预测图像在文本中的放置,从而解决了交错布局学习的问题。利用 DREAMLLM 的因果性质,所有内容都可以在任意长度的历史多模态上下文中生成。这种交错生成式预训练本质上形成了文档中图像和文本的所有联合、边缘和条件分布,从而产生了学习协同效应,使 DREAMLLM 的理解能力植根于创作,反之亦然。

这种新颖的方法带来了显著的性能提升。在各种视觉-语言理解、内容创作和纯语言任务的广泛实验中,DREAMLLM 展现出了作为零样本多模态通才的卓越表现。例如,DREAMLLM-7B 在 MS-COCO 数据集上实现了 8.46 的 FID 分数,并在 MMBench 和 MM-Vet 评估中分别创下了 49.1 和 35.9 的新纪录。这些成绩充分证明了 DREAMLLM 在多模态任务中的强大能力。

更令人兴奋的是,DREAMLLM 展现了出色的上下文生成能力。经过 I-GPT 预训练后,DREAMLLM 能够根据人类提示生成交错文档,这是在使用 GPT-4 策划的指令跟随数据进行监督微调之后实现的。据研究人员所知,这是首次使 MLLM 能够创建自由形式的交错内容,同时在理解和创作两个方面实现学习协同效应。

DREAMLLM 的成功不仅仅在于其惊人的性能,更在于它为多模态学习开辟了一条新的道路。作为一个基础学习框架,DREAMLLM 可以适应各种模态,为未来的多模态学习研究奠定了坚实的基础。正如研究人员所言:"我们的工作展示了多模态理解与创作之间存在着深刻的协同关系。通过同时关注这两个方面,我们可以构建出更加智能、更具创造力的 AI 系统。"

然而,DREAMLLM 的出现也引发了一些值得思考的问题。例如,如何确保生成的内容在保持创造性的同时不会偏离事实或产生误导性信息?如何在提高模型性能的同时控制计算成本?这些都是未来研究需要解决的挑战。

尽管如此,DREAMLLM 无疑为多模态 AI 的发展带来了一股新的春风。它不仅展示了理解与创作协同增强的可能性,还为构建更加智能、更具创造力的 AI 系统指明了方向。正如费曼所说:"我不能创造的,我就不理解。"DREAMLLM 正是将这一理念付诸实践的绝佳范例。

随着技术的不断进步,我们有理由相信,未来的 AI 系统将能够更好地理解和创造多模态内容,为人类的创造力提供更强大的辅助工具。DREAMLLM 的出现,无疑是朝着这个目标迈出的重要一步。

参考文献:
Dong, R., Han, C., Peng, Y., Qi, Z., Ge, Z., Yang, J., ... & Yi, L. (2024). DREAMLLM: Synergistic Multimodal Comprehension and Creation. In International Conference on Learning Representations.

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 工具

    子曰:“工欲善其事,必先利其器。”

    295 引用 • 749 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 402 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    20 引用 • 193 回帖
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 688 关注
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 292 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    58 引用 • 22 回帖 • 1 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    56 引用 • 85 回帖
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 641 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 83 关注
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 644 关注
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    6 引用 • 63 回帖 • 4 关注
  • 又拍云

    又拍云是国内领先的 CDN 服务提供商,国家工信部认证通过的“可信云”,乌云众测平台认证的“安全云”,为移动时代的创业者提供新一代的 CDN 加速服务。

    20 引用 • 37 回帖 • 566 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 383 关注
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 3 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 70 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 7 关注
  • 创业

    你比 99% 的人都优秀么?

    82 引用 • 1395 回帖
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 3 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 6 关注
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    12 引用 • 54 回帖 • 166 关注
  • 书籍

    宋真宗赵恒曾经说过:“书中自有黄金屋,书中自有颜如玉。”

    76 引用 • 389 回帖
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 285 关注
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖 • 7 关注
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    945 引用 • 1460 回帖 • 1 关注