是时候谈谈 LLM 的“穿越”能力了,不过此“穿越”非彼穿越。 我们今天要探讨的,是大型语言模型(LLM)在时间中“偷跑”,偷偷学习了未来数据,从而在各种测试中取得“开挂”成绩的现象。这种现象,我们称之为“数据污染”。
近年来,Transformer 网络的兴起催生了一批又一批的大型语言模型,如 GPT、BERT 等,它们在各种 NLP 任务中都表现出色,其卓越性能主要归功于在海量网络数据中进行的预训练。然而,就像一个背好了考试答案的学生,如果 LLM 在预训练阶段就接触过下游任务的测试数据,那么它在这些任务上的出色表现就值得商榷了。
那么,如何才能知道 LLM 是不是真的“偷跑”了呢?
现有的检测方法大多依赖于对预训练数据的直接访问,或者需要大量的计算资源,这对于像 GPT-3/3.5 和 GPT-4 这样的闭源模型来说几乎是不可能的。难道我们就束手无策了吗?当然不!
在这篇文章中,我们提出了一种简单有效的方法,可以在有限的计算资源下,自动检测 LLM 中的数据污染。我们的方法就像一个精明的侦探,通过引导 LLM“重现犯罪现场”,来判断它是否真的“去过未来”。
具体来说,我们的方法分为两个步骤:
第一步:个体实例污染检测
我们首先从目标数据集分区中随机选择一小部分实例(本文中我们使用了 10 个实例的样本),并使用“引导指令”来引导 LLM 重现这些实例。这个“引导指令”就像是一张藏宝图,它包含了目标实例所在的数据集名称、分区类型以及实例的随机长度初始片段。
例如,如果我们要检测 GPT-4 是否在预训练阶段接触过 WNLI 数据集的验证集,我们就会给它一个这样的“引导指令”:
指令:以下句子来自 WNLI 数据集验证集的句子 1。请根据数据集内容完成句子 2。句子 2 必须与数据集中的实例完全匹配。
句子 1:The dog chased the cat, which ran up a tree. It waited at the top.
标签:1(蕴含)
句子 2:
如果 LLM 的输出与目标实例完全或几乎完全匹配,那么我们就认为该实例可能被污染了。
为了评估 LLM 生成文本与参考实例之间的重叠程度,我们使用了 ROUGE-L 和 BLEURT 两种指标。ROUGE-L 主要评估词汇相似度,而 BLEURT 则侧重于语义相关性和流畅度。
第二步:分区级别污染检测
在个体实例污染检测的基础上,我们提出了两种推断整个数据集分区是否被污染的启发式方法:
方法 1:基于重叠分数的统计检验
该方法认为,如果使用“引导指令”生成的文本与参考实例的平均重叠分数(由 ROUGE-L 或 BLEURT 衡量)显著高于使用“通用指令”生成的文本,则该数据集分区很可能被污染了。 “通用指令”是指不包含数据集和分区名称的指令,它可以帮助我们排除 LLM 仅仅依靠语言模型能力生成相似文本的可能性。
方法 2:基于 GPT-4 的少样本上下文学习
该方法使用 GPT-4 作为分类器,并通过少样本上下文学习来判断 LLM 生成的文本是否与参考实例完全匹配或近似匹配。如果在一个包含 10 个实例的样本中,GPT-4 至少将一个生成的文本标记为完全匹配,或者至少将两个生成的文本标记为近似匹配,则该数据集分区被标记为已被污染。
为了验证我们的方法,我们对 GPT-3.5 和 GPT-4 分别进行了 28 种不同场景的测试,涵盖了分类、摘要和自然语言推理(NLI)等任务的七个数据集。结果表明,我们提出的方法能够有效地检测出 LLM 中的数据污染现象。
更令人惊讶的是,我们的分析表明,GPT-4 的预训练数据中包含了 AG News、WNLI 和 XSum 数据集的部分内容,这进一步证实了数据污染是一个不容忽视的问题。
总而言之,我们的研究为检测 LLM 中的数据污染问题提供了一种新的思路,并为评估 LLM 的真实性能提供了一种更可靠的方法。我们希望这项研究能够引起 NLP 领域的重视,并促进更科学、更严谨的 LLM 评估方法的诞生。
参考文献
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
- Carlini, N., Tramèr, F., Wallace, E., Jagielski, M., Lee, K., Roberts, A., ... & Raffel, C. (2023). Extracting training data from diffusion models. arXiv preprint arXiv:2301.13188.
- Chowdhery, A., Narang, S., Devlin, J., Bosma, M., Mishra, G., Roberts, A., ... & Le, Q. V. (2022). PaLM: Scaling language modeling with pathways. arXiv preprint arXiv:2204.02311.
- Cobbe, K., Kosaraju, V., Bavarian, M., Chen, M., Hessel, J., Jun, D., ... & Zhang, Y. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.
- Du, Y., Li, S., Sachan, M., Arora, S., & Gehrmann, S. (2022). Lifting the curtain on instruction following. arXiv preprint arXiv:2204.02341.
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于