逻辑顺序对大型语言模型(LLMs)幻觉问题的影响

引言

自大型语言模型(LLMs)问世以来,它们在自然语言处理(NLP)领域引起了广泛关注。由于其卓越的生成和推理能力,LLMs 在教育、医疗和金融等多个领域得到了广泛应用。然而,这些模型也面临着"幻觉问题",即它们生成的输出虽然在语法和逻辑上是连贯的,但却缺乏事实准确性或完全是虚构的。这种现象尤其在数字比较中表现得尤为明显,例如,几乎所有 LLMs 都错误地推断出“9.11 >>> 9.9”。最近的研究表明,LLMs 生成答案和推理的顺序会显著影响它们的一致性。这一发现促使我们提出了一种新的基准方法——逻辑顺序作为基准,以评估 LLMs 的一致性。

幻觉问题的根源

幻觉问题的主要成因可以归结为以下三点:

  1. 数据问题:数据不足和噪声数据可能限制跨模态特征的对齐,导致幻觉问题的出现。
  2. 知识缺口:输入格式在预训练和微调阶段的变化导致知识缺口,给模型的记忆和检索证据平衡带来了复杂挑战。
  3. 优化过程:训练和测试阶段之间的暴露偏差会导致 LLMs 的幻觉,特别是在生成较长响应时。

研究表明,LLMs 通过逐步生成文本来输出结果,但在生成前一个文本时并未考虑后续文本的特殊情况。这种特性可能会导致幻觉现象的发生。

思考,先行

为了改善 LLMs 的输出质量,研究者们提出了多种提示方法。通过修改提示策略来缓解幻觉问题是一种更具经济可行性的替代方案。例如,自我反思提示方法通过一个交互式的自我反思循环,结合知识获取和答案生成,以提高生成的准确性。

逻辑顺序作为基准

我们提出的逻辑顺序作为基准方法的核心思想是,通过比较“答案优先”和“逻辑优先”两种提示生成的输出,评估 LLMs 的一致性。具体来说,我们为每个问题生成两个提示:一个要求模型首先输出答案,再给出推理;另一个则要求模型先给出推理,再得出答案。实验结果显示,这种方法有效地揭示了 LLMs 在推理过程中的不一致性,从而指向幻觉现象的存在。

算法 1:逻辑顺序作为基准

输入: LLM $\mathcal{M}$, 基准测试数据集 $\mathcal{D}$
1:  一致对 $c=0$
2:  对于每个问题 $q \in \mathcal{D}$:
3:      生成“答案优先”提示 $q_1$
4:      测试 $\mathcal{M}$ 使用 $q_1$ 并得到结果 $r_1$
5:      生成“逻辑优先”提示 $q_2$
6:      测试 $\mathcal{M}$ 使用 $q_2$ 并得到结果 $r_2$
7:      如果 $r_1 \equiv r_2$:
8:          $c = c + 1$
9:      结束
10:  返回一致性 $\frac{c}{|\mathcal{D}|}$

反思提示的提出

在此基础上,我们提出了一种新的提示策略——反思提示。该方法将查询过程从单步直接询问转变为两步程序。首先生成“答案优先”和“逻辑优先”提示,获取相应结果;然后将原始问题及两个结果一并输入 LLM,以反思的方式做出最终决策。

算法 2:反思提示

输入: LLM $\mathcal{M}$, 查询问题 $q$
1:  生成“答案优先”提示 $q_1$
2:  查询 $\mathcal{M}$ 使用 $q_1$ 并得到结果 $r_1$
3:  生成“逻辑优先”提示 $q_2$
4:  查询 $\mathcal{M}$ 使用 $q_2$ 并得到结果 $r_2$
5:  生成反思提示 $q_r(q,r_1,r_2)$
6:  查询 $\mathcal{M}$ 使用 $q_r$ 并得到最终结果 $r$
7:  返回 $r$

实验和结果分析

我们在多个推理数据集上评估了逻辑顺序作为基准和反思提示的有效性。实验结果显示,反思提示在几乎所有任务中普遍优于其他提示方法,验证了其在提升推理表现方面的可行性。

结论与局限性

在本文中,我们探讨了“9.11 >>> 9.9”问题的潜在原因,并介绍了逻辑顺序作为基准和反思提示的方法。实验结果表明,这两种方法能够在一定程度上缓解 LLMs 的幻觉问题,提高其推理性能。然而,由于预算限制,我们未能在更大数据集或更多 LLMs 上进行实验,未来的研究可以进一步探讨如何优化模型的解码器,从而更有效地解决幻觉问题。

参考文献

  1. Achiam, J. et al. (2023). Gpt-4 technical report. arXiv preprint arXiv:2303.08774.
  2. Agarwal, A. et al. (2018). Hallucinations in Neural Machine Translation. In ICLR.
  3. Dhuliawala, S. et al. (2023). Chain-of-verification reduces hallucination in large language models. arXiv preprint arXiv:2309.11495.
  4. Goyal, S. et al. (2023). Think before you speak: Training language models with pause tokens. arXiv preprint arXiv:2310.02226.
  5. Hendrycks, D. et al. (2020). Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300.

这篇文章探讨了 LLMs 中存在的幻觉问题及其解决办法,展示了逻辑顺序对模型推理一致性的影响,提供了未来研究的方向。

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...