登录注册

大语言模型的神秘 "偏差": 从 9.11>9.9 看输出顺序对推理的影响

近期,人工智能界掀起了一场关于大语言模型(LLM)推理能力的热烈讨论。一个看似简单的数字比较问题,却让诸多顶尖模型纷纷"栽跟头"。当被问及"9.11 和 9.9 哪个更大?"时,几乎所有的大语言模型都给出了错误答案:9.11 更大。这个令人费解的现象不仅引发了学术界的广泛关注,也让我们对这些"超级智能"模型的可靠性产生了新的思考。

来自中国的研究者 Zikai Xie 在最新发表的论文《Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models》中,对这一现象进行了深入探究,并提出了创新性的解决方案。这项研究不仅揭示了大语言模型推理过程中的一个关键缺陷,还为提高模型可靠性提供了实用的方法。

输出顺序:隐藏的"蝴蝶效应"

Xie 的研究团队发现,大语言模型在生成答案时的顺序会显著影响其推理的一致性。具体来说,当模型先给出答案再提供推理过程时,与先给出推理过程再得出结论相比,结果可能会截然不同。这一发现颇具启发性,因为它揭示了大语言模型内部推理机制的一个重要特性。

为什么输出顺序会如此重要?研究者认为,这与大语言模型的工作原理密切相关。这些模型在生成文本时是按顺序进行的,每一个新生成的词都依赖于之前的上下文。这意味着,当模型首先给出答案时,它还没有"看到"后续的推理过程。相反,如果先进行推理,模型就有机会在得出结论前全面考虑各种因素。

Xie 解释道:"大语言模型的输出阶段通常是一个顺序递归的过程:第 K+1 个输出标记是基于每层 K 个隐藏向量生成的,每个向量对应一个前置标记。这种机制虽然能确保生成文本的上下文连贯性,但也意味着模型在生成前面的文本时无法考虑到后续可能出现的特殊情况。"

基于这一洞察,Xie 团队提出了一种新的评估大语言模型一致性的基准方法:"推理顺序基准"(Reasoning Order as Benchmark)。这种方法通过比较模型在不同输出顺序下的回答来衡量其推理的自洽性。如果模型在两种顺序下给出一致的答案,则表明其推理过程更加可靠;反之,如果答案不一致,则可能暴露出模型推理中的潜在问题。

反思式提示:让 AI"三思而后行"

在揭示问题的同时,Xie 团队还提出了一种创新的解决方案:"反思式提示"(Reflexive Prompting)。这是一种两步走的提示策略,旨在缓解大语言模型的幻觉问题。

第一步,研究者会同时使用"答案优先"和"逻辑优先"两种提示方式,获取模型可能产生的两个不同答案。第二步,他们会让模型分析这两个答案,从而得出最终结论。这种方法借鉴了人类思考的方式,鼓励模型从多个角度审视问题,以达成更加可靠的判断。

Xie 表示:"反思式提示的可行性主要来自两个方面。首先,它为语言模型提供了明确的后续逻辑推理信息,使模型能够从多个角度重新评估其推理过程。其次,由不同推理和答案顺序导致的结果变化可以被视为一种集成学习方法,模型自身充当元模型,对潜在的不同响应进行整合。"

实验结果令人鼓舞。研究团队在多个推理数据集上测试了这种方法,包括 LogiQA、TruthfulQA 和 MMLU。结果显示,反思式提示策略在各种大语言模型上都取得了显著的性能提升。以 Llama 模型为例,在 TruthfulQA 数据集上,使用反思式提示后的准确率从 65.9% 提高到了 72.6%,提升幅度超过 10%。

更值得注意的是,研究发现推理顺序基准的一致性结果与模型在各种提示策略下的准确率有很强的相关性。这不仅证实了该基准方法的有效性,也为评估和改进大语言模型的推理能力提供了新的思路。

深层原因:训练数据与模型架构的双重影响

虽然 9.11>9.9 这个错误看似简单,但其背后的原因可能相当复杂。研究者提出了几种可能的解释:

由于 9/11 恐怖袭击事件的影响,"9.11"这个模式通常被视为一个日期。从时间顺序的角度来看,9.11 确实大于 9.9。
在软件开发版本号的语境中,9.11 被认为是高于 9.9 的版本号。模型可能从训练数据中学习到了这种排序方式。
模型可能将小数点前后的数字作为独立的量进行比较,导致了错误的判断。

然而,Xie 指出,这些解释并不能完全解释所有模型的行为,尤其是那些能够给出正确比较逻辑但最终结论错误的情况。这促使研究团队将注意力转向了语言模型的输出逻辑本身。

大语言模型的顺序生成特性意味着,在生成答案时,模型还没有"看到"后续的推理部分。这可能导致模型基于训练数据中的类似模式给出错误答案,然后再生成支持这个答案的推理。这种"先入为主"的倾向可能是导致幻觉现象的重要原因之一。

解决之道:思考和反思的平衡

Xie 团队的研究不仅揭示了大语言模型推理过程中的一个重要缺陷,还为如何改进这些模型提供了新的思路。反思式提示策略的成功表明,通过模拟人类的思考方式——先从多个角度考虑问题,再综合得出结论——可以显著提高模型的推理准确性。

这种方法的优势在于,它不需要对模型进行重新训练,而是通过巧妙的提示设计来激发模型的潜力。这对于那些无法直接访问或修改大型语言模型的研究者和开发者来说,提供了一种实用的优化途径。

然而,研究者也指出了这种方法的局限性。例如,反思式提示需要多次查询模型,这可能会增加计算成本和响应时间。此外,虽然这种方法在多个数据集上都显示出了改进,但其在不同类型的任务上的效果可能会有所不同。

未来展望:走向更可靠的 AI

Xie 的研究为大语言模型的评估和改进开辟了新的方向。"推理顺序基准"不仅可以用来评估模型的一致性,还可能成为开发更可靠 AI 系统的重要工具。

未来的研究可能会探索如何将这种方法扩展到更广泛的任务类型,或者如何将其集成到模型的训练过程中。此外,深入研究不同输出顺序对模型推理的影响机制,可能会为设计更先进的神经网络架构提供重要启示。

总的来说,这项研究不仅揭示了大语言模型中一个鲜为人知的"盲点",还为提高 AI 系统的可靠性和透明度提供了实用的解决方案。随着人工智能技术继续深入各个领域,确保这些系统能够进行一致、可靠的推理将变得越来越重要。Xie 团队的工作无疑为这一目标的实现做出了重要贡献。

参考文献：

Xie, Z. (2024). Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models. arXiv preprint arXiv:2408.05093v1.
Vaswani, A., et al. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35, 24824-24837.
Brown, T., et al. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
Hendrycks, D., et al. (2020). Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300.

LLM

30 引用

linker 4 个月前上海位置

36 10 26

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

注册关于

请输入回帖内容 ...

linker

Arbeit macht frei! 上海

回帖

401

帖子

473

积分

45934

近期热议

推荐标签标签

Swagger

Swagger 是一款非常流行的 API 开发工具，它遵循 OpenAPI Specification（这是一种通用的、和编程语言无关的 API 描述规范）。Swagger 贯穿整个 API 生命周期，如 API 的设计、编写文档、测试和部署。
26 引用 • 35 回帖 • 5 关注
SQLServer

SQL Server 是由 [微软] 开发和推广的关系数据库管理系统（DBMS），它最初是由微软、Sybase 和 Ashton-Tate 三家公司共同开发的，并于 1988 年推出了第一个 OS/2 版本。
21 引用 • 31 回帖 • 4 关注
RabbitMQ

RabbitMQ 是一个开源的 AMQP 实现，服务器端用 Erlang 语言编写，支持多种语言客户端，如：Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息，在易用性、扩展性、高可用性等方面表现不俗。
49 引用 • 60 回帖 • 361 关注
flomo

flomo 是新一代「卡片笔记」，专注在碎片化时代，促进你的记录，帮你积累更多知识资产。
5 引用 • 107 回帖
OAuth

OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息（如用户名与密码），即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权，因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。
36 引用 • 103 回帖 • 17 关注
RESTful

一种软件架构设计风格而不是标准，提供了一组设计原则和约束条件，主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁，更有层次，更易于实现缓存等机制。
30 引用 • 114 回帖 • 3 关注
DNSPod

DNSPod 建立于 2006 年 3 月份，是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析，让电信用户访问电信的服务器，网通的用户访问网通的服务器，教育网的用户访问教育网的服务器，达到互联互通的效果。
6 引用 • 26 回帖 • 518 关注
Elasticsearch

Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于 RESTful 接口。Elasticsearch 是用 Java 开发的，并作为 Apache 许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。
117 引用 • 99 回帖 • 209 关注
微服务

微服务架构是一种架构模式，它提倡将单一应用划分成一组小的服务。服务之间互相协调，互相配合，为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建，能够被独立的部署。
96 引用 • 155 回帖
旅游

希望你我能在旅途中找到人生的下一站。
93 引用 • 899 回帖 • 1 关注
禅道

禅道是一款国产的开源项目管理软件，她的核心管理思想基于敏捷方法 scrum，内置了产品管理和项目管理，同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能，在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来，完整地覆盖了项目管理的核心流程。
5 引用 • 15 回帖 • 101 关注
DevOps

DevOps（Development 和 Operations 的组合词）是一组过程、方法与系统的统称，用于促进开发（应用程序/软件工程）、技术运营和质量保障（QA）部门之间的沟通、协作与整合。
51 引用 • 25 回帖
Sillot
汐洛彖夲肜矩阵（Sillot T☳Converbenk Matrix），致力于服务智慧新彖乄，具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架（Sillot-Gibbet）基于自思源笔记（siyuan-note），前身是思源笔记汐洛版（更早是思源笔记汐洛分支），是智慧新录乄终端（多端融合，移动端优先）。

主仓库地址：Hi-Windom/Sillot

文档地址：sillot.db.sc.cn

注意事项：
1. ⚠️ 汐洛仍在早期开发阶段，尚不稳定
2. ⚠️ 汐洛并非面向普通用户设计，使用前请了解风险
3. ⚠️ 汐洛绞架基于思源笔记，开发者尽最大努力与思源笔记保持兼容，但无法实现 100% 兼容
29 引用 • 25 回帖 • 86 关注
Ant-Design

Ant Design 是服务于企业级产品的设计体系，基于确定和自然的设计价值观上的模块化解决方案，让设计者和开发者专注于更好的用户体验。
17 引用 • 23 回帖 • 4 关注
Eclipse

Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言，它只是一个框架和一组服务，用于通过插件组件构建开发环境。
75 引用 • 258 回帖 • 624 关注
区块链

区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法。
91 引用 • 751 回帖 • 1 关注
Oracle

Oracle（甲骨文）公司，全称甲骨文股份有限公司（甲骨文软件系统有限公司），是全球最大的企业级软件公司，总部位于美国加利福尼亚州的红木滩。1989 年正式进入中国市场。2013 年，甲骨文已超越 IBM，成为继 Microsoft 后全球第二大软件公司。
105 引用 • 127 回帖 • 370 关注
机器学习

机器学习（Machine Learning）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。
83 引用 • 37 回帖
RIP

愿逝者安息！
8 引用 • 92 回帖 • 363 关注
Typecho

Typecho 是一款博客程序，它在 GPLv2 许可证下发行，基于 PHP 构建，可以运行在各种平台上，支持多种数据库（MySQL、PostgreSQL、SQLite）。
12 引用 • 65 回帖 • 446 关注
Vditor
Vditor 是一款浏览器端的 Markdown 编辑器，支持所见即所得、即时渲染（类似 Typora）和分屏预览模式。它使用 TypeScript 实现，支持原生 JavaScript、Vue、React 和 Angular。
- Vditor 使用指南
- 在线试用
354 引用 • 1823 回帖 • 1 关注
开源中国

开源中国是目前中国最大的开源技术社区。传播开源的理念，推广开源项目，为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。
7 引用 • 86 回帖
PWL
组织简介

用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织，“用爱发电”象征开源与贡献精神，加入组织，代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入：用爱发电组织邀请帖。
用爱发电组织官网：https://programmingwithlove.stackoverflow.wiki/

用爱发电组织的核心驱动力：
- 遵守开源守则，体现开源&贡献精神：以分享为目的，拒绝非法牟利。
- 自我保护：使用适当的 License 保护自己的原创作品。
- 尊重他人：不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露；以礼相待，尊重所有对社区做出贡献的开发者；通过他人的分享习得知识，要留下足迹，表示感谢。
- 热爱编程、热爱学习：加入组织，热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友，也同样欢迎默默成就的朋友。
- 倾听：正确并恳切对待、处理问题与建议，及时修复开源项目的 Bug ，及时与反馈者沟通。不抬杠、不无视、不辱骂。
- 平视：不诋毁、轻视、嘲讽其他开发者，主动提出建议、施以帮助，以和谐为本。只要他人肯努力，你也可能会被昔日小看的人所超越，所以请保持谦虚。
- 乐观且活跃：你的努力决定了你的高度。不要放弃，多年后回头俯瞰，才会发现自己已经成就往日所仰望的水平。积极地将项目开源，帮助他人学习、改进，自己也会获得相应的提升、成就与成就感。
1 引用 • 487 回帖 • 2 关注
正则表达式

正则表达式（Regular Expression）使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。
31 引用 • 94 回帖 • 2 关注
SEO

发布对别人有帮助的原创内容是最好的 SEO 方式。
35 引用 • 200 回帖 • 27 关注
代码片段

代码片段分为 CSS 与 JS 两种代码，添加在 [设置 - 外观 - 代码片段] 中，这些代码会在思源笔记加载时自动执行，用于改善笔记的样式或功能。

用户在该标签下分享代码片段时需在帖子标题前添加 [css] 或 [js] 用于区分代码片段类型。
90 引用 • 562 回帖 • 1 关注
快应用

快应用是基于手机硬件平台的新型应用形态；标准是由主流手机厂商组成的快应用联盟联合制定；快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台；以平台化的生态模式对个人开发者和企业开发者全品类开放。
15 引用 • 127 回帖 • 1 关注

大语言模型的神秘 "偏差": 从 9.11>9.9 看输出顺序对推理的影响

相关帖子

思源笔记书签无法排序调整顺序

请问思源笔记的模板如何修改？

思源从 AI 复制出来的数学符号无法识别渲染的一种解决方法

有时启动时为啥还要点刷新按钮而且刷了还不奏效

从 CiteSpace 思考双链知识图谱的可能改进方向

写思源插件

思源安装问题

欢迎来到这里！

近期热议

推荐标签标签

组织简介

用爱发电组织的核心驱动力：

最新标签

大语言模型的神秘 "偏差": 从 9.11>9.9 看输出顺序对推理的影响

相关帖子

思源笔记书签无法排序调整顺序

请问思源笔记的模板如何修改？

思源从 AI 复制出来的数学符号无法识别渲染的一种解决方法

有时启动时为啥还要点刷新按钮而且刷了还不奏效

从 CiteSpace 思考双链知识图谱的可能改进方向

写思源插件

思源安装问题

欢迎来到这里！

近期热议

推荐标签 标签

组织简介

用爱发电组织的核心驱动力：

最新标签

推荐标签标签