LLM 的“穿越”危机：揭秘大型语言模型的数据污染之谜

是时候谈谈 LLM 的“穿越”能力了，不过此“穿越”非彼穿越。 我们今天要探讨的，是大型语言模型（LLM）在时间中“偷跑”，偷偷学习了未来数据，从而在各种测试中取得“开挂”成绩的现象。这种现象，我们称之为“数据污染”。

近年来，Transformer 网络的兴起催生了一批又一批的大型语言模型，如 GPT、BERT 等，它们在各种 NLP 任务中都表现出色，其卓越性能主要归功于在海量网络数据中进行的预训练。然而，就像一个背好了考试答案的学生，如果 LLM 在预训练阶段就接触过下游任务的测试数据，那么它在这些任务上的出色表现就值得商榷了。

那么，如何才能知道 LLM 是不是真的“偷跑”了呢？

现有的检测方法大多依赖于对预训练数据的直接访问，或者需要大量的计算资源，这对于像 GPT-3/3.5 和 GPT-4 这样的闭源模型来说几乎是不可能的。难道我们就束手无策了吗？当然不！

在这篇文章中，我们提出了一种简单有效的方法，可以在有限的计算资源下，自动检测 LLM 中的数据污染。我们的方法就像一个精明的侦探，通过引导 LLM“重现犯罪现场”，来判断它是否真的“去过未来”。

具体来说，我们的方法分为两个步骤：

第一步：个体实例污染检测

我们首先从目标数据集分区中随机选择一小部分实例（本文中我们使用了 10 个实例的样本），并使用“引导指令”来引导 LLM 重现这些实例。这个“引导指令”就像是一张藏宝图，它包含了目标实例所在的数据集名称、分区类型以及实例的随机长度初始片段。

例如，如果我们要检测 GPT-4 是否在预训练阶段接触过 WNLI 数据集的验证集，我们就会给它一个这样的“引导指令”：

指令：以下句子来自 WNLI 数据集验证集的句子 1。请根据数据集内容完成句子 2。句子 2 必须与数据集中的实例完全匹配。
句子 1：The dog chased the cat, which ran up a tree. It waited at the top.
标签：1（蕴含）
句子 2：

如果 LLM 的输出与目标实例完全或几乎完全匹配，那么我们就认为该实例可能被污染了。

为了评估 LLM 生成文本与参考实例之间的重叠程度，我们使用了 ROUGE-L 和 BLEURT 两种指标。ROUGE-L 主要评估词汇相似度，而 BLEURT 则侧重于语义相关性和流畅度。

第二步：分区级别污染检测

在个体实例污染检测的基础上，我们提出了两种推断整个数据集分区是否被污染的启发式方法：

方法 1：基于重叠分数的统计检验

该方法认为，如果使用“引导指令”生成的文本与参考实例的平均重叠分数（由 ROUGE-L 或 BLEURT 衡量）显著高于使用“通用指令”生成的文本，则该数据集分区很可能被污染了。 “通用指令”是指不包含数据集和分区名称的指令，它可以帮助我们排除 LLM 仅仅依靠语言模型能力生成相似文本的可能性。

方法 2：基于 GPT-4 的少样本上下文学习

该方法使用 GPT-4 作为分类器，并通过少样本上下文学习来判断 LLM 生成的文本是否与参考实例完全匹配或近似匹配。如果在一个包含 10 个实例的样本中，GPT-4 至少将一个生成的文本标记为完全匹配，或者至少将两个生成的文本标记为近似匹配，则该数据集分区被标记为已被污染。

为了验证我们的方法，我们对 GPT-3.5 和 GPT-4 分别进行了 28 种不同场景的测试，涵盖了分类、摘要和自然语言推理（NLI）等任务的七个数据集。结果表明，我们提出的方法能够有效地检测出 LLM 中的数据污染现象。

更令人惊讶的是，我们的分析表明，GPT-4 的预训练数据中包含了 AG News、WNLI 和 XSum 数据集的部分内容，这进一步证实了数据污染是一个不容忽视的问题。

总而言之，我们的研究为检测 LLM 中的数据污染问题提供了一种新的思路，并为评估 LLM 的真实性能提供了一种更可靠的方法。我们希望这项研究能够引起 NLP 领域的重视，并促进更科学、更严谨的 LLM 评估方法的诞生。

参考文献

Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
Carlini, N., Tramèr, F., Wallace, E., Jagielski, M., Lee, K., Roberts, A., ... & Raffel, C. (2023). Extracting training data from diffusion models. arXiv preprint arXiv:2301.13188.
Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., ... & Le, Q. V. (2022). PaLM: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311.
Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Hessel, J., Jun, D., ... & Zhang, Y. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.
Du, Y., Li, S., Sachan, M., Arora, S., & Gehrmann, S. (2022). Lifting the curtain on instruction following. arXiv preprint arXiv:2204.02341.

‍

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

开篇：奖励模型挺重要，但不好搞啊！为啥要聊奖励模型？现在大语言模型（LLM）是越来越火，能力也越来越强。但光能打还不行，还得听话，得知道啥是对的、啥是好的，不能瞎来。这就是所谓的“对齐”（Alignment）。要让 LLM 听话，强化学习（RL），特别是有人在旁边指点的强化学习（RLHF），就成了关键技术。在这个过 ..

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

DeepSeek-V3-0324 发布之后我注意到这个模型显然比原本的 V3 更加发散（据说是用 R1 辅助训练的，可能是学到了 R1 的坏毛病）。看了一眼官方文档，有两个重点：推荐的默认温度是 0.3 重点：Deepseek 官方为了适配大家常用的习惯，实现了一个奇葩的温度缩放机制，见 https://huggi ..

开屏广告毁了 iOS

之前一直是用的苹果手机，后面直到现在转安卓啦，在如今开屏广告盛行的时代，使用苹果简直就是折磨。得益于苹果的墓碑机制，软件不需要清理后台，可以快速启动，我觉得这是苹果的优点，也是我使用苹果手机的主要原因，但是随着开屏广告的盛行，一些毒瘤 app，你把它放在后台，过一会在打开它，尽管 app 没有被杀掉后台，也会重新显示 ..

基于 Query&View 挂件实现的文档字数统计可视化功能

写在前面：效果如图，文档名为可跳转链接，有单篇文档字数和汇总字数。[图片] 查询的文档可以 1.基于 sql 进行查询 2.自定义文档 id 进行查询 3.查询该文档下的一级子文档。代码非常丑，不简洁不优雅（基于 deepseek 及破烂 js 基础的成品），有 js 基础的建议瞄两眼思路，自己重新写一版。针对于 ..

[js] 这个功能可以封神！openAny 教程之快速打开（可自定义的命令面板）

不知不觉，openAny 又迎来了几个版本更新，目前是 0.0.5。增加 toolbar 出现事件；改进事件传递机制，默认捕获阶段触发；增加鼠标监听和模拟事件（包括鼠标左中右按键，鼠标 + 按键，甚至 mouseover 事件等，从此貌似任何手动操作的功能都可以代码执行了）；增加与本地文件的交互等；setKeymap ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

LLM 的“穿越”危机：揭秘大型语言模型的数据污染之谜

相关帖子

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

开屏广告毁了 iOS

手机和电脑都同步失败？

基于 Query&View 挂件实现的文档字数统计可视化功能

[js] 这个功能可以封神！openAny 教程之快速打开（可自定义的命令面板）

公式解析错误

欢迎来到这里！

近期热议

推荐标签标签

最新标签

LLM 的“穿越”危机：揭秘大型语言模型的数据污染之谜

相关帖子

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

开屏广告毁了 iOS

手机和电脑都同步失败？

基于 Query&View 挂件实现的文档字数统计可视化功能

[js] 这个功能可以封神！openAny 教程之快速打开（可自定义的命令面板）

公式解析错误

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签