突破长文本瓶颈: 并行编码助力语言模型处理更长输入

导语
随着大型语言模型(LLM)的快速发展,如何有效处理长文本输入成为一个亟待解决的问题。普林斯顿大学研究人员提出了一种名为"并行编码的上下文扩展"(CEPE)的新方法,可以显著提升 LLM 处理长文本的能力,同时保持较

‍

一、CEPE 方法简介

CEPE 的核心思想是在现有的仅解码器 LLM 基础上,增加一个小型编码器和交叉注意力模块。具体来说:

小型编码器:将长文本输入分块并行处理,生成紧凑的表示。
交叉注意力:在解码器的每一层中插入,使解码器能够关注编码器的输出。
训练策略:仅微调编码器和交叉注意力模块,保持大型解码器冻结不变。

这种设计使 CEPE 具备以下优势:

长度泛化能力:不受位置编码限制,可处理远超训练长度的输入。
高效性:并行处理和紧凑表示大幅降低计算和内存开销。
低成本:只需微调少量参数,训练成本远低于完整模型微调。

二、实验结果

研究人员在多个任务上评估了 CEPE 的性能:

长文本语言建模:
- 在 ArXiv、Books 等数据集上,CEPE 在 128K tokens 输入长度下仍能持续提升困惑度。
- 与全参数微调方法相比,CEPE 在相似或更优性能下,内存使用量降低 83%,推理速度提升近 10 倍。
检索增强应用:
- 在检索增强语言建模任务中,CEPE 有效利用额外检索文档,性能优于现有方法。
- 在开放域问答任务上,CEPE 随检索文档数量增加持续提升准确率,而基线方法则出现性能下降。
上下文学习:
- CEPE 能够有效利用更多示例,在分类任务上显著提升性能。
指令微调模型扩展:
- 研究人员提出 CEPE-Distilled (CEPED)变体,仅使用无标注数据即可扩展指令微调模型的上下文窗口。
- 在 ZeroSCROLLS 长文本理解基准测试中,CEPED-LLAMA-2-CHAT 在多项任务上超越了原始模型。

三、潜在影响

CEPE 为扩展 LLM 处理长文本能力提供了一种轻量级、高效的解决方案。这一突破可能带来以下影响:

应用场景拓展:使 LLM 能够处理更长的文档,如书籍总结、长篇报告分析等。
检索增强能力提升:允许模型利用更多检索文档,提高开放域问答等任务的性能。
降低长文本处理成本:相比完整模型微调,CEPE 大幅降低了计算和存储开销。
推动长文本理解研究:为研究人员提供了一个便捷的工具,探索 LLM 在长文本场景下的能力。

结语
CEPE 方法为解决 LLM 长文本处理瓶颈提供了一种 promising 的方案。随着这一技术的发展,我们有望看到更多能够理解和生成长篇复杂内容的 AI 应用出现。然而,如何进一步提升模型的长程依赖建模能力,以及如何在更多下游任务中发挥长文本处理的优势,仍然是值得探索的方向。

参考文献

Yen, H., Gao, T., & Chen, D. (2024). Long-Context Language Modeling with Parallel Context Encoding. arXiv preprint arXiv:2402.16617

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

开篇：奖励模型挺重要，但不好搞啊！为啥要聊奖励模型？现在大语言模型（LLM）是越来越火，能力也越来越强。但光能打还不行，还得听话，得知道啥是对的、啥是好的，不能瞎来。这就是所谓的“对齐”（Alignment）。要让 LLM 听话，强化学习（RL），特别是有人在旁边指点的强化学习（RLHF），就成了关键技术。在这个过 ..

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

DeepSeek-V3-0324 发布之后我注意到这个模型显然比原本的 V3 更加发散（据说是用 R1 辅助训练的，可能是学到了 R1 的坏毛病）。看了一眼官方文档，有两个重点：推荐的默认温度是 0.3 重点：Deepseek 官方为了适配大家常用的习惯，实现了一个奇葩的温度缩放机制，见 https://huggi ..

关于搭建思源 wiki 可行性的讨论

我在想能否在链滴下面增设思源 wiki 这个栏目，在基于用户指南的基础上，整合散落在 b 站、语雀以及链滴各处的思源笔记的教程与用法，使之体系化，完善从入门到进阶的过程，列出常见问题，打造类似与 Arch wiki 的教程。 wiki 的内容每个用户都可以参与编写，且能够根据贡献得到积分的反馈，每月或者每个季度有偿招募 ..

巴特综合征的诊断与管理：欧洲罕见肾病参考网络肾小管疾病工作组的共识与建议执行摘要

疾病概述巴特综合征（BS）是一种罕见的遗传性盐丢失性肾小管疾病，表现为继发性高醛固酮血症伴低钾低氯代谢性碱中毒、血压正常或偏低核心病理机制：亨氏袢升支粗段（TAL）盐重吸收缺陷 → 激活肾素-血管紧张素系统基因异质性：已发现 5 种致病基因（表 1），临床表型与基因型相关分子机制基因-表型关联（图 1）： B ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

突破长文本瓶颈: 并行编码助力语言模型处理更长输入

相关帖子

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

高亮后再高亮内容错位

关于搭建思源 wiki 可行性的讨论

图片分辨率内存太大怎么解决

升级后 IOS18.3 打开 siyuan 跳出“请输入访问授权码”解锁界面

巴特综合征的诊断与管理：欧洲罕见肾病参考网络肾小管疾病工作组的共识与建议执行摘要

欢迎来到这里！

近期热议

推荐标签标签

最新标签

突破长文本瓶颈: 并行编码助力语言模型处理更长输入

相关帖子

用 SPCT 给奖励模型来次“升级”：能自省、会点评，还能越算越准

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

高亮后再高亮内容错位

关于搭建思源 wiki 可行性的讨论

图片分辨率内存太大怎么解决

升级后 IOS18.3 打开 siyuan 跳出“请输入访问授权码”解锁界面

巴特综合征的诊断与管理：欧洲罕见肾病参考网络肾小管疾病工作组的共识与建议执行摘要

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签