长文本生成模型 LongWriter 教程

在当今的自然语言处理领域,大型语言模型(LLMs) 已经可以处理长达 100,000 个 token 的输入。然而,尽管输入长度不再是问题,生成超过 2,000 个词的输出 依旧是一个挑战。这主要是因为模型的最大输出长度受限于监督微调(SFT)期间所见的样本。现有的 SFT 数据集中缺乏长输出的例子,导致模型在生成超过 2,000 个词的输出时表现不佳。

为了解决这一问题,清华大学和智谱 AI 研究团队 提出了 AgentWrite 方法,通过构建长文本数据集并结合 SFT 和 DPO 训练,成功扩展了模型的输出长度。

1. 现有模型的输出长度限制

现有的大型语言模型在生成长文本时,通常会在 2,000 个 token 左右遇到限制。研究团队通过对四个开源模型和四个闭源模型进行实验,发现模型生成的文本长度基本都停留在这一范围。这种限制主要源于 SFT 数据集中输出长度的不足。

速记句: 模型生成长文本的能力受限于 SFT 数据中的样本长度。

2. AgentWrite 方法的提出

为了突破模型生成长文本的瓶颈,研究团队设计了 AgentWrite 方法。该方法通过将长文本输出任务分解成多个子任务,每个子任务生成一段内容,然后将这些内容组合形成最终的长文本数据。这种方法大大扩展了 SFT 数据集中的长输出数据量。

速记句: AgentWrite 通过任务拆解生成长文本数据,扩展了 SFT 数据集的输出长度。

3. LongWriter 模型的训练

研究团队基于 GLM-4-9B 和 Llama-3.1-8B 模型进行了 SFT 训练,并采用打包训练和损失加权策略以提高训练效率。训练后的模型分别命名为 LongWriter-9BLongWriter-8B

这些模型通过 SFT 训练后,还进行了 DPO 训练,使用 GLM-4 的聊天 DPO 数据和针对长形式写作指令的数据进一步增强了模型的输出质量和长度。

速记句: LongWriter 通过 SFT 和 DPO 训练,显著提高了长文本生成的能力。

4. LongWriter-6k 数据集的构建

为了进一步优化模型性能,研究团队从 GLM-4 的 SFT 数据和 WildChat-1M 数据集中选择了 6,000 个需要长输出的用户指令。这些指令主要涉及中文和英文,要求输出长度超过 2,000 词。使用 AgentWrite 方法生成的这些数据,形成了 LongWriter-6k 数据集,有效补充了现有 SFT 数据集中长输出数据的稀缺性。

速记句: LongWriter-6k 数据集专为长文本生成而设计,填补了 SFT 数据集的空白。

5. LongWriter 模型的性能评估

LongBench-Write 基准上,LongWriter 模型能够生成超过 10,000 词的输出,显著优于其他现有模型。尤其在[4k, 20k)范围内,LongWriter 的输出长度得分显著提高,显示出其在“广度和深度”方面的显著提升。

速记句: LongWriter 在长文本生成的广度和深度上表现突出。

6. 消融实验的发现

在消融实验中,研究团队发现添加 LongWriter-6k 数据集后,模型在生成长输出时表现显著提升,尤其在 2k 到 4k 词范围内的输出质量提升了 5%。此外,写作计划与生成内容相结合的数据并未显著提高任务性能,表明模型已经内化了规划过程。

速记句: LongWriter-6k 数据集显著提升了模型在长文本生成中的表现。

7. AgentWrite 方法的未来研究方向

未来,研究团队计划进一步扩展 AgentWrite 框架,以构建更长输出的数据,进一步扩展 LLMs 的输出窗口大小,并优化 AgentWrite 框架以实现更高质量的长输出数据。此外,如何在保持推理效率的同时生成更长文本,也是未来研究的重要方向。

速记句: 未来的研究方向包括 AgentWrite 框架的扩展和优化,以实现更长的高质量输出。

8. LongWriter 模型的应用与体验

目前,基于 LongWriter-llama3.1-8bLongWriter-glm4-9b 的模型已经在始智 AI wisemodel 社区 上开源,用户可以直接创建在线体验和 API 服务,体验长文本生成的强大能力。

速记句: LongWriter 模型可在始智 AI wisemodel 社区体验长文本生成。

9. 实验结果的意义

通过一系列实验,研究团队验证了 LongWriter 模型在长文本生成能力上的显著提升,不仅在输出长度上更具优势,还在输出质量上保持了高水准。这样的研究成果为未来的自然语言生成任务提供了强有力的技术支持。

速记句: LongWriter 在长文本生成的长度和质量上都表现优异。

10. 结语与展望

LongWriter 的成功展示了通过优化 SFT 数据集和使用 AgentWrite 方法,可以显著提升大型语言模型在长文本生成任务中的表现。随着技术的不断进步,未来可以期待更多模型在长文本生成领域取得突破,并应用于更广泛的场景中。

速记句: LongWriter 开拓了长文本生成的新领域,未来应用前景广阔。


总结

本教程介绍了清华大学和智谱 AI 研究团队提出的 LongWriter 模型及其核心 AgentWrite 方法,详细解析了模型的训练过程、数据集构建、性能评估和未来研究方向。通过这一系列优化,LongWriter 模型 在长文本生成任务中表现出色,不仅突破了输出长度的限制,还在质量上保持了高水准。未来,随着模型的进一步优化和应用扩展,长文本生成技术将迎来更加广阔的前景。

参考文献

  1. Bai, Y., Zhang, J., Lv, X., Zheng, L., Zhu, S., Hou, L., Dong, Y., Tang, J., & Li, J. (2024). LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs. arXiv preprint arXiv:2408.07055.
  2. LongWriter on GitHub: https://github.com/THUDM/LongWriter
  3. LongWriter on Wisemodel: https://wisemodel.cn/models/ZhipuAI/LongWriter-llama3.1-8b

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...