突破性進展:AI 模型有望生成超長文本

在人工智能快速發展的今天,大型語言模型(LLM)的能力不斷刷新我們的認知。然而,即便是最先進的長文本 LLM,在生成超長文本時仍面臨著瓶頸。清華大學和智譜 AI 的研究人員近日在一項開創性研究中,成功突破了這一限制,使 AI 模型能夠生成超過 10,000 字的連貫文本。這一突破不僅展示了 AI 在長文本生成領域的巨大潛力,也為未來 AI 輔助寫作開闢了新的可能性。

當前長文本模型的局限性

儘管最新的長文本 LLM 已經能夠處理超過 100,000 個標記的輸入,但它們在生成長文本時卻顯得力不從心。研究團隊對多個先進模型進行了測試,發現它們普遍難以生成超過 2,000 字的文本。

"我們發現,即便要求模型寫一篇 10,000 字的文章,它們通常也只能生成 2,000 字左右就停止了,"論文的第一作者白宇石表示,"這與模型的理論輸出能力相去甚遠。"

這一現象引發了研究人員的好奇:是什麼限制了這些強大模型的輸出長度?

探究根源:訓練數據的關鍵作用

為了找出答案,研究團隊對 GLM-4-9B 模型進行了一系列對照實驗。他們發現,模型的最大輸出長度與其監督微調(SFT)數據集中的最長樣本長度高度相關。

"這就像是'一個人說話的長度取決於他讀過的最長的文章',"論文的共同第一作者張嘉杰解釋道,"即使模型在預訓練階段接觸過非常長的文本,如果 SFT 數據中沒有足夠長的輸出樣本,它就無法生成超長文本。"

這一發現解釋了為何當前模型普遍存在 2,000 字的輸出限制——因為現有的 SFT 數據集中很少有超過這個長度的樣本。

AgentWrite:突破長度限制的創新方法

為了克服這一限制,研究團隊開發了名為 AgentWrite 的創新方法。這種方法採用"分而治之"的策略,將長文本生成任務分解為多個子任務。

AgentWrite 的工作流程分為兩個主要步驟:

規劃:根據用戶的寫作指令,AI 首先制定一個詳細的寫作計劃,包括每個段落的結構和目標字數。
寫作:按照計劃,AI 逐段生成內容,並確保各段之間的連貫性。

"AgentWrite 就像是一個智能寫作助手,"項目負責人侯磊教授解釋道,"它模仿了人類寫作長文的過程——先構思大綱,再逐段完成。這種方法使得 AI 能夠生成高達 20,000 字的連貫文本。"

LongWriter-6k:解鎖模型的長文本潛力

利用 AgentWrite,研究團隊構建了 LongWriter-6k 數據集,包含 6,000 條長度在 2,000 到 32,000 字之間的 SFT 數據。他們將這些數據整合到模型訓練中,成功將現有模型的輸出長度擴展到了 10,000 多字,同時保持了輸出質量。

"這證明了現有的長文本 LLM 其實已經具備更大輸出窗口的潛力,"論文的共同作者呂昕說,"關鍵在於在模型對齊階段提供足夠長的輸出樣本。"

LongBench-Write:全面評估超長文本生成能力

為了全面評估模型的超長文本生成能力,研究團隊開發了 LongBench-Write 基準測試。這個測試包含了多樣化的用戶寫作指令,要求的輸出長度從 500 字以下到 4,000 字以上不等。

在 LongBench-Write 上的評估顯示,研究團隊訓練的 9B 參數模型達到了最先進的性能,甚至超越了一些更大的專有模型。

"我們的模型不僅能夠生成更長的文本,而且在遵循長篇寫作指令和生成高質量內容方面表現出色,"張嘉杰補充道。

未來展望:AI 輔助寫作的新篇章

這項研究為 AI 輔助寫作開闢了新的可能性。隨著模型能夠生成更長、更連貫的文本,它們在學術寫作、創意写作、新聞報導等領域的應用潛力將大大增加。

"我們相信,這項技術將為作家、研究人員和內容創作者提供強大的輔助工具,"侯磊教授展望道,"它不是要取代人類寫作,而是為人類提供更多靈感和支持。"

然而,研究人員也強調了進一步改進的必要性。例如,如何更好地控制生成內容的質量,以及如何確保生成的長文本始終保持連貫性和邏輯性,都是未來研究需要解決的問題。

隨著這項技術的不斷完善,我們可以期待在不久的將來,AI 不僅能夠理解和分析長文本,還能夠創作出結構完整、內容豐富的長篇大作。這無疑將為人機協作寫作開啟一個嶄新的時代。

參考文獻:

Bai, Y., Zhang, J., Lv, X., et al. (2023). LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs. arXiv:2408.07055v1.

万字探讨 Agent 发展真方向：模型即产品，Agent 的未来要靠模型而不是 Workflow

AI 智能体的未来：模型即产品，强化学习与推理为核心 1. 模型即产品的趋势突破瓶颈：通用大模型（如 GPT-4）的算力需求与性能提升不成正比，定向训练（如强化学习）成为关键。成本下降：推理成本骤降，模型供应商需转向高价值层，直接提供智能体能力而非 API 接口。案例：OpenAI 的 DeepResearch ..

20250328 设计师必备 AI 工具箱

人工智能带来的技术爆发给各行各业带来了效率提升，AI 处于技术爆发的初期，很多行业的应用都处于探索期，对于没有 IT 基础的设计师朋友使用起来还是需要一定的学习门槛和基础的 IT 技术。同时市场上各种工具繁杂在选择上是否适合自己也让选择困难症患者们难以抉择。前期的选择投入与后期使用成本都需要考虑。我们一直在整理适合设计 ..

个人有关 AI 的趋势

不知道各位有没有觉得，AI 现在真的越来越强了。两年前 chatgpt 编程逻辑基本还是一团乱麻，必须需要大量的提示词投喂才能得到想要的代码逻辑。两年后的今天 DeepSeek 和通义千问，只需要给他详尽的代码逻辑，他就能通过自身的知识库搓出来一个能用的程序。两年前的 AI 绘画人设搞不明白，色泽杂乱无章，一眼 ..

思源笔记 +NoteBookLLM+Claude+CherryStudio= 项目式学习

首先定义我认为的项目式学习(Project-based Learning,PBL) 和在学校的学习方法不同，项目式学习方法侧重于从用中学这种学习方法在我三年前才感受到，但是需要做学校的比赛项目，然而我很多编程知识与硬件知识未知但是又不能先系统化学习再做项目于是在做项目的过程中，边做边学这种方法的好处是什么快速 ..

思源笔记自动分类工具

因为我迁移到思源笔记后，有几千条笔记放在笔记本下没有分类，人工分类太麻烦，所以写一个借助 deepseek 做自动分类的工具，现在开源出来。主要功能自动分析文档内容并进行智能分类支持人工反馈修正分类结果基于人工反馈持续优化分类准确性批量处理大量文档断点续传，支持中断后继续处理还是有很多功能问题，但是用是可 ..

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于