DeepSeek V1

deepseek v1 提出的问题和解决办法

文章通过以下具体方法解决了提出的问题,涵盖理论建模、训练优化、评测验证等多个方面:


1. 解决缩放规律(Scaling Laws)问题

方法​:

  • 引入非嵌入 FLOPs/Token(M) ​:
    传统方法用参数数量(N)表示模型规模,但忽略了注意力计算的开销。作者提出更精确的模型规模表示:
    其中包含注意力计算的 FLOPs,显著减少小规模模型的误差(表 3 显示误差从 50% 降至 5% 以内)。

  • IsoFLOP 实验设计​:
    在 8 种计算预算(1e17~3e20 FLOPs)下,测试不同模型与数据规模的组合,拟合出最优分配策略:
    发现高质量数据(如 OpenWebText2)更倾向于扩大模型规模(系数 a 从 0.45 提升至 0.578)。

  • 学习率和 batch 与 计算量 compute budget 𝐶.​的关系

    其中C是Chinchilla论文里面提出来的,`𝐶 = 6𝑁𝐷`​, 作者提出改进:`𝐶 = 𝑀𝐷`​,N是模型参数量,M是 `non-embedding FLOPs/token 𝑀`​,D是训练解规模即`the number of tokens`​

效果

  • 准确预测了 DeepSeek 7B/67B 的性能(图 5),验证了缩放定律的普适性。
  • 解释了早期研究(如 Chinchilla 与 OpenAI)结论差异的根源:​数据质量影响最优分配策略​。

2. 超参数优化与训练效率

方法​:

  • 多阶段学习率调度器​:
    替换传统的余弦调度器,采用三阶段学习率(80% tokens 时降至 31.6%,90% 时降至 10%),在保持性能的同时支持断点续训(图 1)。
  • 批量大小与学习率的幂律拟合​:
    通过网格搜索和小规模实验(图 2),总结出计算预算 C 与最优超参数的关系:
    直接指导了 7B 和 67B 模型的训练(表 2)。

效果​:

  • 7B 和 67B 模型在相同计算预算下达到最优收敛速度,训练稳定性显著提升。

3. 数据与架构优化

方法​:

  • 数据预处理​:

    • 去重​:跨 91 个 Common Crawl 转储去重,去除 89.8% 重复文档(表 1)。
    • 过滤与混合​:结合语言和语义评估提升质量,调整领域分布平衡性。
  • 架构改进​:

    • 67B 模型采用**分组查询注意力(GQA)**降低推理成本。
    • 通过增加深度(95 层)而非宽度提升性能(表 2),区别于 LLaMA 的宽度扩展策略。

效果​:

  • 2 万亿 Token 的双语数据训练,模型在代码和数学任务上显著优于 LLaMA-2(表 5)。

4. 对齐与安全优化

方法​:

  • 两阶段微调​:

    • SFT 阶段​:使用 150 万条中英文指令数据(46.6% 数学、22.2% 代码),7B 模型训练 4 轮,67B 模型 2 轮(防过拟合)。
    • DPO 阶段​:基于偏好数据优化生成质量,减少重复率(从 2.0% 降至 1.4%)。
  • 安全评测​:
    构建 2400 条涵盖歧视、侵权等类别的测试集,人工标注安全响应率(表 10),在“Do-Not-Answer”评测中得分 97.8,超过 GPT-4(表 11)。

效果​:

  • 67B 聊天模型在 MT-Bench 中得分 8.76,接近 GPT-4(表 8),中文评测 AlignBench 超越 GPT-3.5(表 7)。

5. 评测与验证

方法​:

  • 多样化评测集​:

    • 传统基准​:MMLU、GSM8K 等,采用困惑度或生成式评估。
    • 开放生成评测​:AlignBench(中文)、MT-Bench(英文)。
    • 新发布测试集​:LeetCode 周赛题、匈牙利高考数学题,防止数据污染。
  • 系统 Prompt 优化​:
    大模型(67B)能更好理解系统 Prompt,提升生成质量(表 14)。

效果​:

  • DeepSeek 67B 在代码(HumanEval 73.8%)、数学(GSM8K 84.1%)任务上显著领先(表 16),且安全响应率超过 97%(表 10)。

6. 未来改进方向

  • 数据扩展​:构建更大规模、多语言的高质量数据集。
  • 能力增强​:通过 MoE 和强化学习提升复杂推理能力。
  • 安全对齐​:研究多轮对话中的价值观一致性。

总结

文章通过​理论创新(缩放定律)+ 工程实践(数据/架构优化)+ 严格评测​,系统性地解决了开源 LLM 规模化训练中的核心问题,并为后续研究提供了可复现的基线。最终模型在性能、安全性和多语言能力上均达到开源领域的领先水平。

相关帖子

回帖

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...