近期,人工智能界掀起了一场关于大语言模型(LLM)推理能力的热烈讨论。一个看似简单的数字比较问题,却让诸多顶尖模型纷纷"栽跟头"。当被问及"9.11 和 9.9 哪个更大?"时,几乎所有的大语言模型都给出了错误答案:9.11 更大。这个令人费解的现象不仅引发了学术界的广泛关注,也让我们对这些"超级智能"模型的可靠性产生了新的思考。
来自中国的研究者 Zikai Xie 在最新发表的论文《Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models》中,对这一现象进行了深入探究,并提出了创新性的解决方案。这项研究不仅揭示了大语言模型推理过程中的一个关键缺陷,还为提高模型可靠性提供了实用的方法。
输出顺序:隐藏的"蝴蝶效应"
Xie 的研究团队发现,大语言模型在生成答案时的顺序会显著影响其推理的一致性。具体来说,当模型先给出答案再提供推理过程时,与先给出推理过程再得出结论相比,结果可能会截然不同。这一发现颇具启发性,因为它揭示了大语言模型内部推理机制的一个重要特性。
为什么输出顺序会如此重要?研究者认为,这与大语言模型的工作原理密切相关。这些模型在生成文本时是按顺序进行的,每一个新生成的词都依赖于之前的上下文。这意味着,当模型首先给出答案时,它还没有"看到"后续的推理过程。相反,如果先进行推理,模型就有机会在得出结论前全面考虑各种因素。
Xie 解释道:"大语言模型的输出阶段通常是一个顺序递归的过程:第 K+1 个输出标记是基于每层 K 个隐藏向量生成的,每个向量对应一个前置标记。这种机制虽然能确保生成文本的上下文连贯性,但也意味着模型在生成前面的文本时无法考虑到后续可能出现的特殊情况。"
基于这一洞察,Xie 团队提出了一种新的评估大语言模型一致性的基准方法:"推理顺序基准"(Reasoning Order as Benchmark)。这种方法通过比较模型在不同输出顺序下的回答来衡量其推理的自洽性。如果模型在两种顺序下给出一致的答案,则表明其推理过程更加可靠;反之,如果答案不一致,则可能暴露出模型推理中的潜在问题。
反思式提示:让 AI"三思而后行"
在揭示问题的同时,Xie 团队还提出了一种创新的解决方案:"反思式提示"(Reflexive Prompting)。这是一种两步走的提示策略,旨在缓解大语言模型的幻觉问题。
第一步,研究者会同时使用"答案优先"和"逻辑优先"两种提示方式,获取模型可能产生的两个不同答案。第二步,他们会让模型分析这两个答案,从而得出最终结论。这种方法借鉴了人类思考的方式,鼓励模型从多个角度审视问题,以达成更加可靠的判断。
Xie 表示:"反思式提示的可行性主要来自两个方面。首先,它为语言模型提供了明确的后续逻辑推理信息,使模型能够从多个角度重新评估其推理过程。其次,由不同推理和答案顺序导致的结果变化可以被视为一种集成学习方法,模型自身充当元模型,对潜在的不同响应进行整合。"
实验结果令人鼓舞。研究团队在多个推理数据集上测试了这种方法,包括 LogiQA、TruthfulQA 和 MMLU。结果显示,反思式提示策略在各种大语言模型上都取得了显著的性能提升。以 Llama 模型为例,在 TruthfulQA 数据集上,使用反思式提示后的准确率从 65.9% 提高到了 72.6%,提升幅度超过 10%。
更值得注意的是,研究发现推理顺序基准的一致性结果与模型在各种提示策略下的准确率有很强的相关性。这不仅证实了该基准方法的有效性,也为评估和改进大语言模型的推理能力提供了新的思路。
深层原因:训练数据与模型架构的双重影响
虽然 9.11>9.9 这个错误看似简单,但其背后的原因可能相当复杂。研究者提出了几种可能的解释:
- 由于 9/11 恐怖袭击事件的影响,"9.11"这个模式通常被视为一个日期。从时间顺序的角度来看,9.11 确实大于 9.9。
- 在软件开发版本号的语境中,9.11 被认为是高于 9.9 的版本号。模型可能从训练数据中学习到了这种排序方式。
- 模型可能将小数点前后的数字作为独立的量进行比较,导致了错误的判断。
然而,Xie 指出,这些解释并不能完全解释所有模型的行为,尤其是那些能够给出正确比较逻辑但最终结论错误的情况。这促使研究团队将注意力转向了语言模型的输出逻辑本身。
大语言模型的顺序生成特性意味着,在生成答案时,模型还没有"看到"后续的推理部分。这可能导致模型基于训练数据中的类似模式给出错误答案,然后再生成支持这个答案的推理。这种"先入为主"的倾向可能是导致幻觉现象的重要原因之一。
解决之道:思考和反思的平衡
Xie 团队的研究不仅揭示了大语言模型推理过程中的一个重要缺陷,还为如何改进这些模型提供了新的思路。反思式提示策略的成功表明,通过模拟人类的思考方式——先从多个角度考虑问题,再综合得出结论——可以显著提高模型的推理准确性。
这种方法的优势在于,它不需要对模型进行重新训练,而是通过巧妙的提示设计来激发模型的潜力。这对于那些无法直接访问或修改大型语言模型的研究者和开发者来说,提供了一种实用的优化途径。
然而,研究者也指出了这种方法的局限性。例如,反思式提示需要多次查询模型,这可能会增加计算成本和响应时间。此外,虽然这种方法在多个数据集上都显示出了改进,但其在不同类型的任务上的效果可能会有所不同。
未来展望:走向更可靠的 AI
Xie 的研究为大语言模型的评估和改进开辟了新的方向。"推理顺序基准"不仅可以用来评估模型的一致性,还可能成为开发更可靠 AI 系统的重要工具。
未来的研究可能会探索如何将这种方法扩展到更广泛的任务类型,或者如何将其集成到模型的训练过程中。此外,深入研究不同输出顺序对模型推理的影响机制,可能会为设计更先进的神经网络架构提供重要启示。
总的来说,这项研究不仅揭示了大语言模型中一个鲜为人知的"盲点",还为提高 AI 系统的可靠性和透明度提供了实用的解决方案。随着人工智能技术继续深入各个领域,确保这些系统能够进行一致、可靠的推理将变得越来越重要。Xie 团队的工作无疑为这一目标的实现做出了重要贡献。
参考文献:
- Xie, Z. (2024). Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models. arXiv preprint arXiv:2408.05093v1.
- Vaswani, A., et al. (2017). Attention is all you need. Advances in neural information processing systems, 30.
- Wei, J., et al. (2022). Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35, 24824-24837.
- Brown, T., et al. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
- Hendrycks, D., et al. (2020). Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300.
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于