谎言面纱之下: 语言模型如何处理虚假示范

‍

大型语言模型具有惊人的模仿能力,可以通过少量示例学习完成复杂任务。然而,这种模仿能力也可能导致模型复制不准确甚至有害的内容。本文通过深入分析模型的内部表征,揭示了两个相关的现象:过度思考和虚假归纳头。

🧠 过度思考:真相的迷思

研究人员首先比较了模型在正确和错误示例下的表现。他们发现,在早期层中,两种情况下模型行为相似,但在某个"临界层"之后会出现明显分歧:

有趣的是,在错误示例的情况下,模型表现出"过度思考"现象 - 在中间层停止计算反而能获得更好的结果。这说明模型在后期层过度拟合了错误信息。

🔍 虚假归纳头:错误信息的传播者

为了解释过度思考现象,研究人员深入分析了注意力机制,发现了一些"虚假归纳头"。这些注意力头主要分布在后期层,它们会关注并复制之前示例中的错误信息。

研究人员通过一个巧妙的实验验证了这一发现:他们识别出 5 个最可能是虚假归纳头的注意力头,并将其删除。结果表明,这种简单的操作就能显著减少模型对错误示例的敏感性,平均降低了 38.9%,同时对正确示例的表现几乎没有影响。

💡 启示:揭开模型内部的面纱

这项研究为我们理解和改进语言模型提供了新的视角:

模型的有害行为往往发生在计算的后期阶段。
特定的模型组件(如虚假归纳头)在传播错误信息中起关键作用。
研究模型的中间计算过程可能是理解和防范有害行为的有效途径。

总的来说,这项工作强调了深入研究模型内部机制的重要性。通过揭示模型如何逐步构建其输出,我们可以更好地理解并改进其行为。未来的研究方向可能包括设计更精细的干预方法,以及探索如何在模型训练阶段就避免形成这些有害的计算模式。

这项研究不仅推进了我们对语言模型的科学认知,也为构建更安全、更可靠的 AI 系统指明了方向。随着大型语言模型在各个领域的广泛应用,确保它们能够准确、负责任地处理信息变得越来越重要。本研究为解决这一挑战提供了宝贵的洞见。

参考文献:

Halawi, D., Denain, J. S., & Steinhardt, J. (2024). Overthinking the Truth: Understanding How Language Models Process False Demonstrations. ICLR 2024.
Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
Olsson, C., et al. (2022). In-context Learning and Induction Heads. arXiv preprint arXiv:2209.11895.
Min, S., et al. (2022). Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? EMNLP 2022.
Nostalgebraist. (2020). Interpreting GPT: the logit lens. https://www.lesswrong.com/posts/AcKRB8wDpdaN6v6ru/interpreting-gpt-the-logit-lens

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

开篇：奖励模型挺重要，但不好搞啊！为啥要聊奖励模型？现在大语言模型（LLM）是越来越火，能力也越来越强。但光能打还不行，还得听话，得知道啥是对的、啥是好的，不能瞎来。这就是所谓的“对齐”（Alignment）。要让 LLM 听话，强化学习（RL），特别是有人在旁边指点的强化学习（RLHF），就成了关键技术。在这个过 ..

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

DeepSeek-V3-0324 发布之后我注意到这个模型显然比原本的 V3 更加发散（据说是用 R1 辅助训练的，可能是学到了 R1 的坏毛病）。看了一眼官方文档，有两个重点：推荐的默认温度是 0.3 重点：Deepseek 官方为了适配大家常用的习惯，实现了一个奇葩的温度缩放机制，见 https://huggi ..

v3.1.27 选中数据库单元格并直接切换页面，且切换后页面有块加入了该数据库时，易发生鼠标光标自动跳转至页面顶部的现象

[视频] 这个问题对于使用数据库又常在列表中编辑的我来说影响很大，多次输入的内容莫名其妙跳转顶部后，火气一下就上来了。排查了一周插件和代码片段，最终发现问题来源于思源本体。希望能尽快解决！！！

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

谎言面纱之下: 语言模型如何处理虚假示范

相关帖子

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

v3.1.27 选中数据库单元格并直接切换页面，且切换后页面有块加入了该数据库时，易发生鼠标光标自动跳转至页面顶部的现象

数据库关联有问题

粘贴时丢链接

为文档创建标签时，标签的开头会多出“新建”二字

标签无法搜索了

欢迎来到这里！

近期热议

推荐标签标签

最新标签

谎言面纱之下: 语言模型如何处理虚假示范

相关帖子

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

v3.1.27 选中数据库单元格并直接切换页面，且切换后页面有块加入了该数据库时，易发生鼠标光标自动跳转至页面顶部的现象

数据库关联有问题

粘贴时丢链接

为文档创建标签时，标签的开头会多出“新建”二字

标签无法搜索了

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签