谎言面纱之下: 语言模型如何处理虚假示范

本贴最后更新于 232 天前,其中的信息可能已经时移世异

大型语言模型具有惊人的模仿能力,可以通过少量示例学习完成复杂任务。然而,这种模仿能力也可能导致模型复制不准确甚至有害的内容。本文通过深入分析模型的内部表征,揭示了两个相关的现象:过度思考和虚假归纳头。

🧠 过度思考:真相的迷思

研究人员首先比较了模型在正确和错误示例下的表现。他们发现,在早期层中,两种情况下模型行为相似,但在某个"临界层"之后会出现明显分歧:

正确示例
错误示例
正确示例
错误示例
正确示例
错误示例
早期层
临界层
后期层
相似行为
准确度提高
准确度下降
高准确度
低准确度

有趣的是,在错误示例的情况下,模型表现出"过度思考"现象 - 在中间层停止计算反而能获得更好的结果。这说明模型在后期层过度拟合了错误信息。

🔍 虚假归纳头:错误信息的传播者

为了解释过度思考现象,研究人员深入分析了注意力机制,发现了一些"虚假归纳头"。这些注意力头主要分布在后期层,它们会关注并复制之前示例中的错误信息。

研究人员通过一个巧妙的实验验证了这一发现:他们识别出 5 个最可能是虚假归纳头的注意力头,并将其删除。结果表明,这种简单的操作就能显著减少模型对错误示例的敏感性,平均降低了 38.9%,同时对正确示例的表现几乎没有影响。

💡 启示:揭开模型内部的面纱

这项研究为我们理解和改进语言模型提供了新的视角:

  1. 模型的有害行为往往发生在计算的后期阶段。
  2. 特定的模型组件(如虚假归纳头)在传播错误信息中起关键作用。
  3. 研究模型的中间计算过程可能是理解和防范有害行为的有效途径。

总的来说,这项工作强调了深入研究模型内部机制的重要性。通过揭示模型如何逐步构建其输出,我们可以更好地理解并改进其行为。未来的研究方向可能包括设计更精细的干预方法,以及探索如何在模型训练阶段就避免形成这些有害的计算模式。

这项研究不仅推进了我们对语言模型的科学认知,也为构建更安全、更可靠的 AI 系统指明了方向。随着大型语言模型在各个领域的广泛应用,确保它们能够准确、负责任地处理信息变得越来越重要。本研究为解决这一挑战提供了宝贵的洞见。

参考文献:

  1. Halawi, D., Denain, J. S., & Steinhardt, J. (2024). Overthinking the Truth: Understanding How Language Models Process False Demonstrations. ICLR 2024.
  2. Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
  3. Olsson, C., et al. (2022). In-context Learning and Induction Heads. arXiv preprint arXiv:2209.11895.
  4. Min, S., et al. (2022). Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? EMNLP 2022.
  5. Nostalgebraist. (2020). Interpreting GPT: the logit lens. https://www.lesswrong.com/posts/AcKRB8wDpdaN6v6ru/interpreting-gpt-the-logit-lens
  • LLM
    35 引用 • 1 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    345 引用 • 742 回帖
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    6 引用 • 140 回帖
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 54 关注
  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    171 引用 • 3848 回帖 • 2 关注
  • 安全

    安全永远都不是一个小问题。

    203 引用 • 818 回帖
  • MongoDB

    MongoDB(来自于英文单词“Humongous”,中文含义为“庞大”)是一个基于分布式文件存储的数据库,由 C++ 语言编写。旨在为应用提供可扩展的高性能数据存储解决方案。MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似 JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。

    90 引用 • 59 回帖 • 7 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 10 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖
  • 倾城之链
    23 引用 • 66 回帖 • 162 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    588 引用 • 3538 回帖
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖 • 1 关注
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    56 引用 • 85 回帖
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    173 引用 • 414 回帖 • 367 关注
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 28 关注
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 5 关注
  • gRpc
    11 引用 • 9 回帖 • 93 关注
  • 一些有用的避坑指南。

    69 引用 • 93 回帖 • 1 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 61 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖 • 2 关注
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 316 关注
  • abitmean

    有点意思就行了

    36 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 85 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 71 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    89 引用 • 1243 回帖 • 411 关注
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    85 引用 • 165 回帖 • 1 关注