DeepSeek V1

DeepSeek Chat with DeepSeek AI. chat.deepseek.com
论文：DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

代码：https://github.com/deepseek-ai/DeepSeek-LLM

deepseek v1 提出的问题和解决办法

文章通过以下具体方法解决了提出的问题，涵盖理论建模、训练优化、评测验证等多个方面：

1. 解决缩放规律（Scaling Laws）问题

方法：

引入非嵌入 FLOPs/Token（M） ：
传统方法用参数数量（N）表示模型规模，但忽略了注意力计算的开销。作者提出更精确的模型规模表示：
$M = 72 n_{layer} d_{model}^{2} + 12 n_{layer} d_{model} l_{seq}$ 其中包含注意力计算的 FLOPs，显著减少小规模模型的误差（表 3 显示误差从 50% 降至 5% 以内）。
IsoFLOP 实验设计：
在 8 种计算预算（1e17~3e20 FLOPs）下，测试不同模型与数据规模的组合，拟合出最优分配策略：
$M_{opt} \propto C^{0.524}, D_{opt} \propto C^{0.476}$ 发现高质量数据（如 OpenWebText2）更倾向于扩大模型规模（系数 a 从 0.45 提升至 0.578）。

学习率和 batch 与计算量 compute budget 𝐶.的关系


   其中C是Chinchilla论文里面提出来的，`𝐶 = 6𝑁𝐷`， 作者提出改进：`𝐶 = 𝑀𝐷`，N是模型参数量，M是 `non-embedding FLOPs/token 𝑀`，D是训练解规模即`the number of tokens`

𝜂_{o pt} = 0.3118 \cdot C^{0.1250} B_{o pt} = 0.2920 \cdot C^{0.3271}

效果：

准确预测了 DeepSeek 7B/67B 的性能（图 5），验证了缩放定律的普适性。
解释了早期研究（如 Chinchilla 与 OpenAI）结论差异的根源：数据质量影响最优分配策略。

2. 超参数优化与训练效率

方法：

多阶段学习率调度器：
替换传统的余弦调度器，采用三阶段学习率（80% tokens 时降至 31.6%，90% 时降至 10%），在保持性能的同时支持断点续训（图 1）。
批量大小与学习率的幂律拟合：
通过网格搜索和小规模实验（图 2），总结出计算预算 C 与最优超参数的关系：
$Batch Size \propto C^{0.22}, Learning Rate \propto C^{- 0.13}$ 直接指导了 7B 和 67B 模型的训练（表 2）。

效果：

7B 和 67B 模型在相同计算预算下达到最优收敛速度，训练稳定性显著提升。

3. 数据与架构优化

方法：

数据预处理：
- 去重：跨 91 个 Common Crawl 转储去重，去除 89.8% 重复文档（表 1）。
- 过滤与混合：结合语言和语义评估提升质量，调整领域分布平衡性。
架构改进：
- 67B 模型采用**分组查询注意力（GQA）**降低推理成本。
- 通过增加深度（95 层）而非宽度提升性能（表 2），区别于 LLaMA 的宽度扩展策略。

效果：

2 万亿 Token 的双语数据训练，模型在代码和数学任务上显著优于 LLaMA-2（表 5）。

4. 对齐与安全优化

方法：

两阶段微调：
- SFT 阶段：使用 150 万条中英文指令数据（46.6% 数学、22.2% 代码），7B 模型训练 4 轮，67B 模型 2 轮（防过拟合）。
- DPO 阶段：基于偏好数据优化生成质量，减少重复率（从 2.0% 降至 1.4%）。
安全评测：
构建 2400 条涵盖歧视、侵权等类别的测试集，人工标注安全响应率（表 10），在“Do-Not-Answer”评测中得分 97.8，超过 GPT-4（表 11）。

效果：

67B 聊天模型在 MT-Bench 中得分 8.76，接近 GPT-4（表 8），中文评测 AlignBench 超越 GPT-3.5（表 7）。

5. 评测与验证

方法：

多样化评测集：
- 传统基准：MMLU、GSM8K 等，采用困惑度或生成式评估。
- 开放生成评测：AlignBench（中文）、MT-Bench（英文）。
- 新发布测试集：LeetCode 周赛题、匈牙利高考数学题，防止数据污染。
系统 Prompt 优化：
大模型（67B）能更好理解系统 Prompt，提升生成质量（表 14）。

效果：

DeepSeek 67B 在代码（HumanEval 73.8%）、数学（GSM8K 84.1%）任务上显著领先（表 16），且安全响应率超过 97%（表 10）。

6. 未来改进方向

数据扩展：构建更大规模、多语言的高质量数据集。
能力增强：通过 MoE 和强化学习提升复杂推理能力。
安全对齐：研究多轮对话中的价值观一致性。

总结

文章通过理论创新（缩放定律）+ 工程实践（数据/架构优化）+ 严格评测，系统性地解决了开源 LLM 规模化训练中的核心问题，并为后续研究提供了可复现的基线。最终模型在性能、安全性和多语言能力上均达到开源领域的领先水平。

deepseek v1 提出的问题和解决办法

1. 解决缩放规律（Scaling Laws）问题

方法：

2. 超参数优化与训练效率

方法：

效果：

3. 数据与架构优化

方法：

效果：

4. 对齐与安全优化

方法：

效果：

5. 评测与验证

方法：

效果：

6. 未来改进方向

总结

相关帖子

现在流行的 deepseek，各种多模态大模型与传统的机器学习和深度学习（sklearn 和 pytorch）是一回事吗？

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

思源笔记自动分类工具

v3.1.24 接入 DeepSeek 官方 API 始终报错

deepseek 写的末日小说

Deepseek 恢复充值了

DeepSeek 辅助的学术论文写作

欢迎来到这里！

DeepSeek V1

deepseek v1 提出的问题和解决办法

1. 解决缩放规律（Scaling Laws）问题

​方法​：

2. 超参数优化与训练效率

​方法​：

​效果​：

3. 数据与架构优化

​方法​：

​效果​：

4. 对齐与安全优化

​方法​：

​效果​：

5. 评测与验证

​方法​：

​效果​：

6. 未来改进方向

总结

相关帖子

现在流行的 deepseek，各种多模态大模型与传统的机器学习和深度学习（sklearn 和 pytorch）是一回事吗？

DeepSeek-V3-0324 推荐温度为 0.3，以及奇葩的温度缩放机制

思源笔记自动分类工具

v3.1.24 接入 DeepSeek 官方 API 始终报错

deepseek 写的末日小说

Deepseek 恢复充值了

DeepSeek 辅助的学术论文写作

欢迎来到这里！

方法：

方法：

效果：

方法：

效果：

方法：

效果：

方法：

效果：