LLM 的“穿越”危机:揭秘大型语言模型的数据污染之谜

本贴最后更新于 250 天前,其中的信息可能已经斗转星移

是时候谈谈 LLM 的“穿越”能力了,不过此“穿越”非彼穿越。 我们今天要探讨的,是大型语言模型(LLM)在时间中“偷跑”,偷偷学习了未来数据,从而在各种测试中取得“开挂”成绩的现象。这种现象,我们称之为“数据污染”。

近年来,Transformer 网络的兴起催生了一批又一批的大型语言模型,如 GPT、BERT 等,它们在各种 NLP 任务中都表现出色,其卓越性能主要归功于在海量网络数据中进行的预训练。然而,就像一个背好了考试答案的学生,如果 LLM 在预训练阶段就接触过下游任务的测试数据,那么它在这些任务上的出色表现就值得商榷了。

那么,如何才能知道 LLM 是不是真的“偷跑”了呢?

现有的检测方法大多依赖于对预训练数据的直接访问,或者需要大量的计算资源,这对于像 GPT-3/3.5 和 GPT-4 这样的闭源模型来说几乎是不可能的。难道我们就束手无策了吗?当然不!

在这篇文章中,我们提出了一种简单有效的方法,可以在有限的计算资源下,自动检测 LLM 中的数据污染。我们的方法就像一个精明的侦探,通过引导 LLM“重现犯罪现场”,来判断它是否真的“去过未来”。

具体来说,我们的方法分为两个步骤:

第一步:个体实例污染检测

我们首先从目标数据集分区中随机选择一小部分实例(本文中我们使用了 10 个实例的样本),并使用“引导指令”来引导 LLM 重现这些实例。这个“引导指令”就像是一张藏宝图,它包含了目标实例所在的数据集名称、分区类型以及实例的随机长度初始片段。

例如,如果我们要检测 GPT-4 是否在预训练阶段接触过 WNLI 数据集的验证集,我们就会给它一个这样的“引导指令”:

指令:以下句子来自 WNLI 数据集验证集的句子 1。请根据数据集内容完成句子 2。句子 2 必须与数据集中的实例完全匹配。
句子 1:The dog chased the cat, which ran up a tree. It waited at the top.
标签:1(蕴含)
句子 2:

如果 LLM 的输出与目标实例完全或几乎完全匹配,那么我们就认为该实例可能被污染了。

为了评估 LLM 生成文本与参考实例之间的重叠程度,我们使用了 ROUGE-L 和 BLEURT 两种指标。ROUGE-L 主要评估词汇相似度,而 BLEURT 则侧重于语义相关性和流畅度。

第二步:分区级别污染检测

在个体实例污染检测的基础上,我们提出了两种推断整个数据集分区是否被污染的启发式方法:

方法 1:基于重叠分数的统计检验

该方法认为,如果使用“引导指令”生成的文本与参考实例的平均重叠分数(由 ROUGE-L 或 BLEURT 衡量)显著高于使用“通用指令”生成的文本,则该数据集分区很可能被污染了。 “通用指令”是指不包含数据集和分区名称的指令,它可以帮助我们排除 LLM 仅仅依靠语言模型能力生成相似文本的可能性。

方法 2:基于 GPT-4 的少样本上下文学习

该方法使用 GPT-4 作为分类器,并通过少样本上下文学习来判断 LLM 生成的文本是否与参考实例完全匹配或近似匹配。如果在一个包含 10 个实例的样本中,GPT-4 至少将一个生成的文本标记为完全匹配,或者至少将两个生成的文本标记为近似匹配,则该数据集分区被标记为已被污染。

为了验证我们的方法,我们对 GPT-3.5 和 GPT-4 分别进行了 28 种不同场景的测试,涵盖了分类、摘要和自然语言推理(NLI)等任务的七个数据集。结果表明,我们提出的方法能够有效地检测出 LLM 中的数据污染现象。

更令人惊讶的是,我们的分析表明,GPT-4 的预训练数据中包含了 AG News、WNLI 和 XSum 数据集的部分内容,这进一步证实了数据污染是一个不容忽视的问题。

总而言之,我们的研究为检测 LLM 中的数据污染问题提供了一种新的思路,并为评估 LLM 的真实性能提供了一种更可靠的方法。我们希望这项研究能够引起 NLP 领域的重视,并促进更科学、更严谨的 LLM 评估方法的诞生。

参考文献

  • Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
  • Carlini, N., Tramèr, F., Wallace, E., Jagielski, M., Lee, K., Roberts, A., ... & Raffel, C. (2023). Extracting training data from diffusion models. arXiv preprint arXiv:2301.13188.
  • Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., ... & Le, Q. V. (2022). PaLM: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311.
  • Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Hessel, J., Jun, D., ... & Zhang, Y. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.
  • Du, Y., Li, S., Sachan, M., Arora, S., & Gehrmann, S. (2022). Lifting the curtain on instruction following. arXiv preprint arXiv:2204.02341.

  • LLM
    35 引用 • 1 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    170 引用 • 1529 回帖
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 57 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 400 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 182 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 610 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 660 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    7 引用 • 27 回帖
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖 • 2 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖 • 4 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 99 关注
  • 叶归
    5 引用 • 16 回帖 • 12 关注
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖 • 2 关注
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    367 引用 • 1844 回帖 • 3 关注
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1441 引用 • 10068 回帖 • 494 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖 • 1 关注
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖
  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 343 关注
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 60 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 725 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    180 引用 • 408 回帖 • 489 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    5 引用 • 7 回帖
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 829 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    22 引用 • 148 回帖 • 16 关注
  • 印象笔记
    3 引用 • 16 回帖
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 642 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 2 关注