-
论文:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism
deepseek v1 提出的问题和解决办法
文章通过以下具体方法解决了提出的问题,涵盖理论建模、训练优化、评测验证等多个方面:
1. 解决缩放规律(Scaling Laws)问题
方法:
-
引入非嵌入 FLOPs/Token(M) :
传统方法用参数数量(N)表示模型规模,但忽略了注意力计算的开销。作者提出更精确的模型规模表示:
其中包含注意力计算的 FLOPs,显著减少小规模模型的误差(表 3 显示误差从 50% 降至 5% 以内)。 -
IsoFLOP 实验设计:
在 8 种计算预算(1e17~3e20 FLOPs)下,测试不同模型与数据规模的组合,拟合出最优分配策略:
发现高质量数据(如 OpenWebText2)更倾向于扩大模型规模(系数 a 从 0.45 提升至 0.578)。 -
学习率和 batch 与 计算量
compute budget 𝐶.
的关系其中C是Chinchilla论文里面提出来的,`𝐶 = 6𝑁𝐷`, 作者提出改进:`𝐶 = 𝑀𝐷`,N是模型参数量,M是 `non-embedding FLOPs/token 𝑀`,D是训练解规模即`the number of tokens`
效果:
- 准确预测了 DeepSeek 7B/67B 的性能(图 5),验证了缩放定律的普适性。
- 解释了早期研究(如 Chinchilla 与 OpenAI)结论差异的根源:数据质量影响最优分配策略。
2. 超参数优化与训练效率
方法:
- 多阶段学习率调度器:
替换传统的余弦调度器,采用三阶段学习率(80% tokens 时降至 31.6%,90% 时降至 10%),在保持性能的同时支持断点续训(图 1)。 - 批量大小与学习率的幂律拟合:
通过网格搜索和小规模实验(图 2),总结出计算预算 C 与最优超参数的关系:
直接指导了 7B 和 67B 模型的训练(表 2)。
效果:
- 7B 和 67B 模型在相同计算预算下达到最优收敛速度,训练稳定性显著提升。
3. 数据与架构优化
方法:
-
数据预处理:
- 去重:跨 91 个 Common Crawl 转储去重,去除 89.8% 重复文档(表 1)。
- 过滤与混合:结合语言和语义评估提升质量,调整领域分布平衡性。
-
架构改进:
- 67B 模型采用**分组查询注意力(GQA)**降低推理成本。
- 通过增加深度(95 层)而非宽度提升性能(表 2),区别于 LLaMA 的宽度扩展策略。
效果:
- 2 万亿 Token 的双语数据训练,模型在代码和数学任务上显著优于 LLaMA-2(表 5)。
4. 对齐与安全优化
方法:
-
两阶段微调:
- SFT 阶段:使用 150 万条中英文指令数据(46.6% 数学、22.2% 代码),7B 模型训练 4 轮,67B 模型 2 轮(防过拟合)。
- DPO 阶段:基于偏好数据优化生成质量,减少重复率(从 2.0% 降至 1.4%)。
-
安全评测:
构建 2400 条涵盖歧视、侵权等类别的测试集,人工标注安全响应率(表 10),在“Do-Not-Answer”评测中得分 97.8,超过 GPT-4(表 11)。
效果:
- 67B 聊天模型在 MT-Bench 中得分 8.76,接近 GPT-4(表 8),中文评测 AlignBench 超越 GPT-3.5(表 7)。
5. 评测与验证
方法:
-
多样化评测集:
- 传统基准:MMLU、GSM8K 等,采用困惑度或生成式评估。
- 开放生成评测:AlignBench(中文)、MT-Bench(英文)。
- 新发布测试集:LeetCode 周赛题、匈牙利高考数学题,防止数据污染。
-
系统 Prompt 优化:
大模型(67B)能更好理解系统 Prompt,提升生成质量(表 14)。
效果:
- DeepSeek 67B 在代码(HumanEval 73.8%)、数学(GSM8K 84.1%)任务上显著领先(表 16),且安全响应率超过 97%(表 10)。
6. 未来改进方向
- 数据扩展:构建更大规模、多语言的高质量数据集。
- 能力增强:通过 MoE 和强化学习提升复杂推理能力。
- 安全对齐:研究多轮对话中的价值观一致性。
总结
文章通过理论创新(缩放定律)+ 工程实践(数据/架构优化)+ 严格评测,系统性地解决了开源 LLM 规模化训练中的核心问题,并为后续研究提供了可复现的基线。最终模型在性能、安全性和多语言能力上均达到开源领域的领先水平。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于