大语言模型的神秘 "偏差": 从 9.11>9.9 看输出顺序对推理的影响

近期,人工智能界掀起了一场关于大语言模型(LLM)推理能力的热烈讨论。一个看似简单的数字比较问题,却让诸多顶尖模型纷纷"栽跟头"。当被问及"9.11 和 9.9 哪个更大?"时,几乎所有的大语言模型都给出了错误答案:9.11 更大。这个令人费解的现象不仅引发了学术界的广泛关注,也让我们对这些"超级智能"模型的可靠性产生了新的思考。

来自中国的研究者 Zikai Xie 在最新发表的论文《Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models》中,对这一现象进行了深入探究,并提出了创新性的解决方案。这项研究不仅揭示了大语言模型推理过程中的一个关键缺陷,还为提高模型可靠性提供了实用的方法。

输出顺序:隐藏的"蝴蝶效应"

Xie 的研究团队发现,大语言模型在生成答案时的顺序会显著影响其推理的一致性。具体来说,当模型先给出答案再提供推理过程时,与先给出推理过程再得出结论相比,结果可能会截然不同。这一发现颇具启发性,因为它揭示了大语言模型内部推理机制的一个重要特性。

为什么输出顺序会如此重要?研究者认为,这与大语言模型的工作原理密切相关。这些模型在生成文本时是按顺序进行的,每一个新生成的词都依赖于之前的上下文。这意味着,当模型首先给出答案时,它还没有"看到"后续的推理过程。相反,如果先进行推理,模型就有机会在得出结论前全面考虑各种因素。

Xie 解释道:"大语言模型的输出阶段通常是一个顺序递归的过程:第 K+1 个输出标记是基于每层 K 个隐藏向量生成的,每个向量对应一个前置标记。这种机制虽然能确保生成文本的上下文连贯性,但也意味着模型在生成前面的文本时无法考虑到后续可能出现的特殊情况。"

基于这一洞察,Xie 团队提出了一种新的评估大语言模型一致性的基准方法:"推理顺序基准"(Reasoning Order as Benchmark)。这种方法通过比较模型在不同输出顺序下的回答来衡量其推理的自洽性。如果模型在两种顺序下给出一致的答案,则表明其推理过程更加可靠;反之,如果答案不一致,则可能暴露出模型推理中的潜在问题。

反思式提示:让 AI"三思而后行"

在揭示问题的同时,Xie 团队还提出了一种创新的解决方案:"反思式提示"(Reflexive Prompting)。这是一种两步走的提示策略,旨在缓解大语言模型的幻觉问题。

第一步,研究者会同时使用"答案优先"和"逻辑优先"两种提示方式,获取模型可能产生的两个不同答案。第二步,他们会让模型分析这两个答案,从而得出最终结论。这种方法借鉴了人类思考的方式,鼓励模型从多个角度审视问题,以达成更加可靠的判断。

Xie 表示:"反思式提示的可行性主要来自两个方面。首先,它为语言模型提供了明确的后续逻辑推理信息,使模型能够从多个角度重新评估其推理过程。其次,由不同推理和答案顺序导致的结果变化可以被视为一种集成学习方法,模型自身充当元模型,对潜在的不同响应进行整合。"

实验结果令人鼓舞。研究团队在多个推理数据集上测试了这种方法,包括 LogiQA、TruthfulQA 和 MMLU。结果显示,反思式提示策略在各种大语言模型上都取得了显著的性能提升。以 Llama 模型为例,在 TruthfulQA 数据集上,使用反思式提示后的准确率从 65.9% 提高到了 72.6%,提升幅度超过 10%。

更值得注意的是,研究发现推理顺序基准的一致性结果与模型在各种提示策略下的准确率有很强的相关性。这不仅证实了该基准方法的有效性,也为评估和改进大语言模型的推理能力提供了新的思路。

深层原因:训练数据与模型架构的双重影响

虽然 9.11>9.9 这个错误看似简单,但其背后的原因可能相当复杂。研究者提出了几种可能的解释:

  1. 由于 9/11 恐怖袭击事件的影响,"9.11"这个模式通常被视为一个日期。从时间顺序的角度来看,9.11 确实大于 9.9。
  2. 在软件开发版本号的语境中,9.11 被认为是高于 9.9 的版本号。模型可能从训练数据中学习到了这种排序方式。
  3. 模型可能将小数点前后的数字作为独立的量进行比较,导致了错误的判断。

然而,Xie 指出,这些解释并不能完全解释所有模型的行为,尤其是那些能够给出正确比较逻辑但最终结论错误的情况。这促使研究团队将注意力转向了语言模型的输出逻辑本身。

大语言模型的顺序生成特性意味着,在生成答案时,模型还没有"看到"后续的推理部分。这可能导致模型基于训练数据中的类似模式给出错误答案,然后再生成支持这个答案的推理。这种"先入为主"的倾向可能是导致幻觉现象的重要原因之一。

解决之道:思考和反思的平衡

Xie 团队的研究不仅揭示了大语言模型推理过程中的一个重要缺陷,还为如何改进这些模型提供了新的思路。反思式提示策略的成功表明,通过模拟人类的思考方式——先从多个角度考虑问题,再综合得出结论——可以显著提高模型的推理准确性。

这种方法的优势在于,它不需要对模型进行重新训练,而是通过巧妙的提示设计来激发模型的潜力。这对于那些无法直接访问或修改大型语言模型的研究者和开发者来说,提供了一种实用的优化途径。

然而,研究者也指出了这种方法的局限性。例如,反思式提示需要多次查询模型,这可能会增加计算成本和响应时间。此外,虽然这种方法在多个数据集上都显示出了改进,但其在不同类型的任务上的效果可能会有所不同。

未来展望:走向更可靠的 AI

Xie 的研究为大语言模型的评估和改进开辟了新的方向。"推理顺序基准"不仅可以用来评估模型的一致性,还可能成为开发更可靠 AI 系统的重要工具。

未来的研究可能会探索如何将这种方法扩展到更广泛的任务类型,或者如何将其集成到模型的训练过程中。此外,深入研究不同输出顺序对模型推理的影响机制,可能会为设计更先进的神经网络架构提供重要启示。

总的来说,这项研究不仅揭示了大语言模型中一个鲜为人知的"盲点",还为提高 AI 系统的可靠性和透明度提供了实用的解决方案。随着人工智能技术继续深入各个领域,确保这些系统能够进行一致、可靠的推理将变得越来越重要。Xie 团队的工作无疑为这一目标的实现做出了重要贡献。

参考文献:

  1. Xie, Z. (2024). Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models. arXiv preprint arXiv:2408.05093v1.
  2. Vaswani, A., et al. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  3. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35, 24824-24837.
  4. Brown, T., et al. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
  5. Hendrycks, D., et al. (2020). Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300.

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    176 引用 • 815 回帖
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 212 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    8 引用 • 30 回帖 • 408 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖 • 1 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 99 关注
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 51 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 54 回帖 • 63 关注
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    15 引用 • 122 回帖
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖
  • 工具

    子曰:“工欲善其事,必先利其器。”

    286 引用 • 729 回帖
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 3 关注
  • Sphinx

    Sphinx 是一个基于 SQL 的全文检索引擎,可以结合 MySQL、PostgreSQL 做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。

    1 引用 • 210 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 48 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    944 引用 • 943 回帖
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    47 引用 • 25 回帖 • 1 关注
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 762 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖 • 1 关注
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 700 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    5 引用 • 107 回帖
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 21 关注
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 40 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 73 关注
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    12 引用 • 54 回帖 • 164 关注
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 742 关注