大语言模型的神秘 "偏差": 从 9.11>9.9 看输出顺序对推理的影响

近期,人工智能界掀起了一场关于大语言模型(LLM)推理能力的热烈讨论。一个看似简单的数字比较问题,却让诸多顶尖模型纷纷"栽跟头"。当被问及"9.11 和 9.9 哪个更大?"时,几乎所有的大语言模型都给出了错误答案:9.11 更大。这个令人费解的现象不仅引发了学术界的广泛关注,也让我们对这些"超级智能"模型的可靠性产生了新的思考。

来自中国的研究者 Zikai Xie 在最新发表的论文《Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models》中,对这一现象进行了深入探究,并提出了创新性的解决方案。这项研究不仅揭示了大语言模型推理过程中的一个关键缺陷,还为提高模型可靠性提供了实用的方法。

输出顺序:隐藏的"蝴蝶效应"

Xie 的研究团队发现,大语言模型在生成答案时的顺序会显著影响其推理的一致性。具体来说,当模型先给出答案再提供推理过程时,与先给出推理过程再得出结论相比,结果可能会截然不同。这一发现颇具启发性,因为它揭示了大语言模型内部推理机制的一个重要特性。

为什么输出顺序会如此重要?研究者认为,这与大语言模型的工作原理密切相关。这些模型在生成文本时是按顺序进行的,每一个新生成的词都依赖于之前的上下文。这意味着,当模型首先给出答案时,它还没有"看到"后续的推理过程。相反,如果先进行推理,模型就有机会在得出结论前全面考虑各种因素。

Xie 解释道:"大语言模型的输出阶段通常是一个顺序递归的过程:第 K+1 个输出标记是基于每层 K 个隐藏向量生成的,每个向量对应一个前置标记。这种机制虽然能确保生成文本的上下文连贯性,但也意味着模型在生成前面的文本时无法考虑到后续可能出现的特殊情况。"

基于这一洞察,Xie 团队提出了一种新的评估大语言模型一致性的基准方法:"推理顺序基准"(Reasoning Order as Benchmark)。这种方法通过比较模型在不同输出顺序下的回答来衡量其推理的自洽性。如果模型在两种顺序下给出一致的答案,则表明其推理过程更加可靠;反之,如果答案不一致,则可能暴露出模型推理中的潜在问题。

反思式提示:让 AI"三思而后行"

在揭示问题的同时,Xie 团队还提出了一种创新的解决方案:"反思式提示"(Reflexive Prompting)。这是一种两步走的提示策略,旨在缓解大语言模型的幻觉问题。

第一步,研究者会同时使用"答案优先"和"逻辑优先"两种提示方式,获取模型可能产生的两个不同答案。第二步,他们会让模型分析这两个答案,从而得出最终结论。这种方法借鉴了人类思考的方式,鼓励模型从多个角度审视问题,以达成更加可靠的判断。

Xie 表示:"反思式提示的可行性主要来自两个方面。首先,它为语言模型提供了明确的后续逻辑推理信息,使模型能够从多个角度重新评估其推理过程。其次,由不同推理和答案顺序导致的结果变化可以被视为一种集成学习方法,模型自身充当元模型,对潜在的不同响应进行整合。"

实验结果令人鼓舞。研究团队在多个推理数据集上测试了这种方法,包括 LogiQA、TruthfulQA 和 MMLU。结果显示,反思式提示策略在各种大语言模型上都取得了显著的性能提升。以 Llama 模型为例,在 TruthfulQA 数据集上,使用反思式提示后的准确率从 65.9% 提高到了 72.6%,提升幅度超过 10%。

更值得注意的是,研究发现推理顺序基准的一致性结果与模型在各种提示策略下的准确率有很强的相关性。这不仅证实了该基准方法的有效性,也为评估和改进大语言模型的推理能力提供了新的思路。

深层原因:训练数据与模型架构的双重影响

虽然 9.11>9.9 这个错误看似简单,但其背后的原因可能相当复杂。研究者提出了几种可能的解释:

  1. 由于 9/11 恐怖袭击事件的影响,"9.11"这个模式通常被视为一个日期。从时间顺序的角度来看,9.11 确实大于 9.9。
  2. 在软件开发版本号的语境中,9.11 被认为是高于 9.9 的版本号。模型可能从训练数据中学习到了这种排序方式。
  3. 模型可能将小数点前后的数字作为独立的量进行比较,导致了错误的判断。

然而,Xie 指出,这些解释并不能完全解释所有模型的行为,尤其是那些能够给出正确比较逻辑但最终结论错误的情况。这促使研究团队将注意力转向了语言模型的输出逻辑本身。

大语言模型的顺序生成特性意味着,在生成答案时,模型还没有"看到"后续的推理部分。这可能导致模型基于训练数据中的类似模式给出错误答案,然后再生成支持这个答案的推理。这种"先入为主"的倾向可能是导致幻觉现象的重要原因之一。

解决之道:思考和反思的平衡

Xie 团队的研究不仅揭示了大语言模型推理过程中的一个重要缺陷,还为如何改进这些模型提供了新的思路。反思式提示策略的成功表明,通过模拟人类的思考方式——先从多个角度考虑问题,再综合得出结论——可以显著提高模型的推理准确性。

这种方法的优势在于,它不需要对模型进行重新训练,而是通过巧妙的提示设计来激发模型的潜力。这对于那些无法直接访问或修改大型语言模型的研究者和开发者来说,提供了一种实用的优化途径。

然而,研究者也指出了这种方法的局限性。例如,反思式提示需要多次查询模型,这可能会增加计算成本和响应时间。此外,虽然这种方法在多个数据集上都显示出了改进,但其在不同类型的任务上的效果可能会有所不同。

未来展望:走向更可靠的 AI

Xie 的研究为大语言模型的评估和改进开辟了新的方向。"推理顺序基准"不仅可以用来评估模型的一致性,还可能成为开发更可靠 AI 系统的重要工具。

未来的研究可能会探索如何将这种方法扩展到更广泛的任务类型,或者如何将其集成到模型的训练过程中。此外,深入研究不同输出顺序对模型推理的影响机制,可能会为设计更先进的神经网络架构提供重要启示。

总的来说,这项研究不仅揭示了大语言模型中一个鲜为人知的"盲点",还为提高 AI 系统的可靠性和透明度提供了实用的解决方案。随着人工智能技术继续深入各个领域,确保这些系统能够进行一致、可靠的推理将变得越来越重要。Xie 团队的工作无疑为这一目标的实现做出了重要贡献。

参考文献:

  1. Xie, Z. (2024). Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models. arXiv preprint arXiv:2408.05093v1.
  2. Vaswani, A., et al. (2017). Attention is all you need. Advances in neural information processing systems, 30.
  3. Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35, 24824-24837.
  4. Brown, T., et al. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
  5. Hendrycks, D., et al. (2020). Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300.

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    285 引用 • 4482 回帖 • 661 关注
  • OnlyOffice
    4 引用 • 16 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    207 引用 • 358 回帖
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 19 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 611 关注
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 47 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖 • 1 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    58 引用 • 22 回帖 • 9 关注
  • 自由行
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 703 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    324 引用 • 1395 回帖 • 1 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 523 关注
  • Solidity

    Solidity 是一种智能合约高级语言,运行在 [以太坊] 虚拟机(EVM)之上。它的语法接近于 JavaScript,是一种面向对象的语言。

    3 引用 • 18 回帖 • 362 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 6 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖 • 1 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    334 引用 • 621 回帖
  • abitmean

    有点意思就行了

    35 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 11 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖 • 5 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 420 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 2 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    131 引用 • 1114 回帖 • 134 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    9 引用 • 32 回帖 • 128 关注
  • B3log

    B3log 是一个开源组织,名字来源于“Bulletin Board Blog”缩写,目标是将独立博客与论坛结合,形成一种新的网络社区体验,详细请看 B3log 构思。目前 B3log 已经开源了多款产品:SymSoloVditor思源笔记

    1081 引用 • 3459 回帖 • 244 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖 • 3 关注