当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek V3到V3.2的进化之路，一文看全

4个月前 (12-08)Deepseek最新资讯178

　　几天过去，热度依旧不减，解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读，其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。

　　与 DeepSeek V3 的发布策略如出一辙，DeepSeek 团队再次选择在一个美国主要节假日周末发布了他们的新旗舰模型。

　　鉴于 DeepSeek V3.2 展现出了极佳的性能水平（在基准测试中对标 GPT-5 和 Gemini 3.0 Pro），加之它本身也是一个开放权重模型，这无疑值得重点关注。

　　我曾在文章《大型 LLM 架构对比》的开篇介绍过它的前身 ——DeepSeek V3。随着新架构的不断涌现，我在过去几个月里一直在持续更新那篇文章。

　　原本，我刚和家人度完感恩节假期回来，计划「只是」在原文章中增加一个新章节来简单介绍这次新发布的 DeepSeek V3.2。但随后我意识到，这次更新包含太多有趣的信息和细节，仅仅一个章节无法涵盖。因此，我决定将其写成一篇篇幅较长的独立文章。

　　虽然 DeepSeek V3 在 2024 年 12 月刚发布时并没有立刻引起轰动，但随后推出的 DeepSeek R1 推理模型（基于相同的架构，使用 DeepSeek V3 作为基础模型）改变了局面。它帮助 DeepSeek 成为了最受欢迎的开放权重模型之一，并成为了 OpenAI、Google、xAI 和 Anthropic 等公司专有模型的有力替代方案。

　　那么，自 V3/R1 以来有什么新变化吗？我相信 DeepSeek 团队今年一定非常忙碌。然而，自 DeepSeek R1 发布后的过去 10 到 11 个月里，并没有出现重大的版本发布。

　　就我个人而言，我认为花大约一年的时间来发布一个主要的 LLM 版本是合理的，因为这涉及海量的工作。然而，我在各种社交媒体平台上看到人们宣称该团队已经「凉了」。

　　最后，这并不代表他们什么都没发布。今年其实陆续有一些较小的发布，例如 DeepSeek V3.1 和 V3.2-Exp。

　　正如我在九月份所预测的那样，DeepSeek V3.2-Exp 的发布旨在为托管刚刚发布的 V3.2 模型准备生态系统和推理基础设施。

　　V3.2-Exp 和 V3.2 使用了一种非标准的稀疏注意力（Sparse Attention）变体，这需要定制代码，我们稍后会详细介绍这种机制。

　　在进一步讨论模型细节之前，有必要先探讨一下整体的模型类型。最初，DeepSeek V3 是作为一个基础模型发布的，而 DeepSeek R1 则增加了额外的后训练，以开发成一个专用的推理模型。这一过程总结在下图中。

　　在 DeepSeek 推进的同时，其他团队今年也发布了许多非常强大的开放权重推理模型。今年最强的开放权重模型之一是 Qwen3。最初，它是作为一个混合推理模型发布的，这意味着用户可以在同一个模型中切换推理模式和非推理模式。（在 Qwen3 的案例中，这种切换是通过分词器添加 / 省略标签来实现的。）

　　从那时起，LLM 团队发布了专用推理模型和指令 / 推理混合模型（有些团队甚至在这两者之间反复横跳），如下图的时间线所示。

　　例如，Qwen3 最初是混合模型。但随后，Qwen 团队分别发布了独立的指令（Instruct）模型和推理（Reasoning）模型，因为这两种模型开发起来更容易，且在各自的用例中性能表现更好。

　　有些模型（如 OpenAI 的 gpt-oss）仅提供混合变体，用户可以通过系统提示词（System Prompt）选择推理力度（我怀疑 GPT-5 和 GPT-5.1 也是类似的处理方式）。

　　而在 DeepSeek 的案例中，他们似乎反其道而行之，从专用推理模型（R1）转向了混合模型（V3.1 和 V3.2）。不过，我怀疑 R1 主要是作为一个研究项目，旨在开发推理方法和验证当时最好的推理模型。V3.2 的发布可能更多是为了开发针对不同用例的最佳整体模型。（在这里，R1 更像是一个测试平台或原型模型。）

　　我也猜想，虽然 DeepSeek 团队开发了具有推理能力的 V3.1 和 V3.2，但他们可能仍在开发专门的 R2 模型。

　　在更详细地讨论新的 DeepSeek V3.2 发布之前，我认为先概述一下从 V3 到 V3.1 的主要变化会很有帮助。

　　总结一下要点，DeepSeek V3 是一个基础模型，它使用了两个值得注意的架构特性：混合专家模型（MoE）和多头潜在注意力（MLA）。

　　另一个值得注意的亮点是 MLA 的使用。MLA 已被用于 DeepSeek V2、V3 和 R1，它提供了一种节省内存的策略，特别适合与 KV 缓存搭配使用。MLA 的核心思想是在将键（Key）和值（Value）张量存储到 KV 缓存之前，先将它们压缩到一个低维空间中。

　　在推理时，这些压缩的张量在使用前会被投影回其原始大小，如下图所示。这虽然增加了一次额外的矩阵乘法，但显著减少了内存使用。

　　上图阐述了 MLA 背后的主要思想：键和值首先被投影到一个潜在向量中，该向量可以存储在 KV 缓存中以减少内存需求。这需要稍后进行向上投影（Up-projection）回到原始的键 - 值空间，但总体上它提高了效率（类比一下，你可以将其想象为 LoRA 中的降维和升维投影）。

　　顺便说一句，正如前面提到的，MLA 在 DeepSeek V3 中并不是新事物，因为它的前身 DeepSeek V2 也使用了（甚至引入了）它。

　　DeepSeek R1 使用了与上述 DeepSeek V3 相同的架构。区别在于训练配方。即，使用 DeepSeek V3 作为基础模型，DeepSeek R1 专注于「带可验证奖励的强化学习」（RLVR）方法，以提高模型的推理能力。

　　RLVR 的核心思想是让模型从可以进行符号化或编程验证的响应中学习，例如数学和代码（但这当然也可以扩展到这两个领域之外）。

　　GRPO算法，全称「群相对策略优化」（Group Relative Policy Optimization），本质上是「近端策略优化」（PPO）算法的一个简化变体。PPO 在用于 LLM 对齐的「带人类反馈的强化学习」（RLHF）中非常流行。

　　图 8：LLM 训练中强化学习设置的比较。传统的带 PPO 的 RLHF 使用奖励模型（基于人类偏好训练）和评论家（价值模型）来指导学习。GRPO 取消了评论家模型。带 GRPO 的 RLVR 更进一步，移除了奖励模型，转而依赖来自符号工具（如计算器或编译器）的可验证奖励。

　　遗憾的是，DeepSeek 团队没有发布任何具体信息来描述这是如何实现的；然而，他们表示这部分源于后训练流程的优化。此外，根据已分享的信息，我认为该模型的托管版本在推理时可能会使用更多的计算资源（即进行更长时间的推理）。

　　DeepSeek V3.1 是一个兼具通用聊天（指令）和推理能力的混合模型。也就是说，不再开发两个独立的模型，而是现在有一个模型，用户可以通过聊天提示模板切换模式（类似于最初的 Qwen3 模型）。

　　最初，DeepSeek V3.2-Exp 在发布时并没有霸榜基准测试，这也是为什么当时围绕这个模型的兴奋度不高的原因。然而，正如我在九月份推测的那样，这很可能是一个早期的实验性发布，旨在为更大规模的发布准备基础设施（特别是推理和部署工具），因为 DeepSeek V3.2-Exp 中有一些架构上的变化。更大的发布是 DeepSeek V3.2（不是 V4），这一部分稍后会详细介绍。

　　为了解释它是如何工作的，让我们从滑动窗口注意力开始。例如，滑动窗口注意力这种技术（最近被 Gemma 3 和 Olmo 3 使用）会将注意力窗口限制为固定大小，如下图所示。

　　DSA 基于与滑动窗口注意力相同的想法：只能关注一部分过去的 Token。然而，DSA 不是通过固定宽度的滑动窗口来选择可关注的 Token，而是拥有一个索引器和 Token 选择器来决定哪些过去的 Token 可以被关注。换句话说，可被关注的 Token 选择更加随机，如下图所示。

　　然而，虽然我上面说了「随机」，但选择哪些过去 Token 的模式实际上并不是随机的，而是学习得到的。

　　实际上，DSA 使用其所谓的 lightning indexer 基于所有先前的 Token 为每个新的查询 Token 计算相关性分数。对于此计算，lightning indexer 使用 DeepSeek 多头潜在注意力 (MLA) 中的压缩 Token 表示，并计算与其他 Token 的相似度。相似度分数基本上是通过 ReLU 函数的查询向量和键向量之间的缩放点积。

　　如果你对数学细节感兴趣，下面展示了（摘自论文的）该 lightning indexer 相似度分数的方程：

　　这里，w 是一个学习得到的每头（per-head）加权系数，决定每个索引器头对最终相似度分数的贡献程度。q 指的是查询向量，k 指的是键向量。下面是不同下标的列表：

　　j：不同索引器头的索引（为了简单起见，图 10 仅显示了一个头），所以 q_{t,j} 意思是「索引器头 j 中当前 Token t 的查询向量」。

　　你可能会注意到索引器仅针对查询，而不针对键。这是因为模型只需要决定每个新查询应该考虑哪些过去的 Token。键已经被压缩并存储在 KV 缓存中，因此索引器不需要再次对它们进行评分或压缩。

　　这里的 ReLU 函数，因为它是 f(x) = max(x, 0)，会将负的点积位置归零，这理论上可以实现稀疏性。但由于存在对不同头的求和，索引器分数实际上为 0 的可能性很小。稀疏性主要来自于单独的 Token 选择器。

　　单独的 Token 选择器仅保留少量高分 Token（例如，top-k 位置），并构建一个稀疏注意力掩码，掩盖掉未包含在选定子集中的其他 Token。（注意这里的 k 是 top-k 中的 k，不要与上面方程中用于键的 k 混淆，这是一个超参数，在 DeepSeek 团队分享的模型代码中设置为 2048。）

　　总结一下，索引器和 Token 选择器的结果是，每个 Token 只关注模型习得的认为最相关的几个过去 Token，而不是所有 Token 或固定的局部窗口。

　　这里的目标不是为了超越 DeepSeek V3.1-Terminus 的性能，而是在减少性能衰减（由于稀疏注意力机制）的同时，受益于效率的提升。

　　总的来说，DSA 将注意力机制的计算复杂度从二次的 O(L²) 降低到了线性的 O(Lk)，其中 L 是序列长度，k 是选定 Token 的数量。

　　讨论完 DeepSeek V3.2-Exp，我们越来越接近本文的主题：DeepSeek V3.2。然而，还有一个拼图需要先讨论。

　　该模型是专门为数学开发的，并在多个数学竞赛中获得了金牌级的分数。本质上，我们可以将其视为 DeepSeek V3.2 的概念验证模型，它引入了另一项技术。

　　这里的关键在于，推理模型（如 DeepSeek R1 和其他模型）是使用外部验证器训练的，模型学会了在得出最终答案之前自行编写解释。然而，这些解释可能是不正确的。

　　[…] 许多数学任务（如定理证明）需要严格的逐步推导而不是数值答案，这使得最终答案奖励并不适用。

　　主模型，一个证明生成器（Proof-Generator），它使用基于 LLM 的验证器作为奖励模型（而不是符号验证器）。

　　除了上述通过 LLM 进行自我验证外，他们还使用了自我修正，让 LLM 迭代地改进其自己的答案。

　　过程奖励模型的挑战在于，检查中间奖励是否正确并不容易，这也可能导致奖励黑客攻击（reward hacking）。

　　在 2025 年 1 月的 DeepSeek R1 论文中，他们没有使用过程奖励模型，因为他们发现：

　　在此文中，他们以自我验证的形式成功地重新审视了这一点。其动机是，即使不存在参考答案，人类在阅读证明和发现问题时也能进行自我纠正。

　　因此，为了开发一个更好的撰写数学证明的模型（下图中的 LLM 1）deepseek，他们开发了一个证明验证器（下图中的 LLM 2），它可以用作「LLM 即裁判」（LLM-as-a-judge）来对证明者（LLM 1）的输出进行评分。

　　对于证明验证器模型，他们从 DeepSeek V3.2-Exp-SFT 开始，这是他们基于 DeepSeek V3.2-Exp 通过在推理数据（数学和代码）上进行监督微调而创建的模型。然后，他们使用格式奖励（检查解决方案是否符合预期格式）和基于预测分数与实际分数（由人类数学专家标注）接近程度的分数奖励，对该模型进行进一步的强化学习训练。

　　证明验证器 (LLM 2) 的目标是检查生成的证明 (LLM 1)，但谁来检查证明验证器呢？为了使证明验证器更加稳健并防止其产生幻觉问题，他们开发了第三个 LLM，即元验证器（Meta-verifier）。

　　元验证器 (LLM 3) 也是通过强化学习开发的，类似于 LLM 2。虽然使用元验证器不是必须的，但 DeepSeek 团队报告称：

　　由元验证器评估的验证器证明分析的平均质量得分从 0.85 提高到了 0.96，同时保持了相同的证明评分预测准确性。

　　这实际上是一个相当有趣的设置。如果你熟悉生成对抗网络 (GAN)，你可能会在这里看到类比。例如，证明验证器（将其视为 GAN 判别器）改进了证明生成器，而证明生成器生成了更好的证明，进一步推动了证明验证器的进步。

　　元分数（Meta score）用于验证器 (LLM 2) 和生成器 (LLM 1) 的训练期间。它并不用于推理时的自我修正循环，我们将在下一节讨论这一点。

　　在上一节中，我们谈到了自我验证，即分析解决方案的质量。其目的是为了实现自我修正，这意味着 LLM 可以根据反馈采取行动并修改其答案。

　　传统上，在自我修正这种成熟且流行的推理扩展技术中，我们会使用同一个 LLM 来生成解决方案并对其进行验证，然后再进行修正。换句话说，在前面的图 12 和 13 中，LLM 1 和 LLM 2 将是同一个 LLM。因此，传统的自我修正过程如下所示：

　　图 14：一个经典的自我修正迭代，同一个 LLM 生成初始响应（Output 1），对其进行评估（Eval），并生成修正后的答案（Output 2）。

　　然而，DeepSeek 团队观察到在实践中使用同一个 LLM 既进行生成又进行验证存在一个关键问题：

　　当被提示一次性生成并分析其自己的证明时，生成器往往会声称正确，即使外部验证器很容易发现缺陷。换句话说，虽然生成器可以根据外部反馈修正证明，但它无法像专用验证器那样严谨地评估自己的工作。

　　作为逻辑推论，人们会假设他们使用独立的证明生成器 (LLM 1) 和证明验证器 (LLM 2)。因此，这里使用的自我修正循环变得类似于下图所示。请注意，我们省略了 LLM 3，它仅在开发验证器 (LLM 2) 期间使用。

　　然而，在实践中，与图 15 不同的是，DeepSeek 团队使用的生成器和验证器 LLM 与图 14 中的经典自我修正循环是同一个：

　　换句话说，独立的验证器对于训练是必不可少的——可用于改进生成器，但在生成器足够强大之后，在推理期间就不再使用（或不需要）它了。与简单的单模型自我修正的关键区别在于，最终的证明者是在更强大的验证器和元验证器的指导下训练出来的，因此它学会了将这些评分标准应用于自己的输出。

　　此外，在推理期间使用这种合二为一的 DeepSeekMath V2 验证器在资源和成本方面也是有利的，因为它比运行第二个 LLM 进行证明验证增加了更少的复杂性和计算需求。

　　回到图 14 和 15 中展示的一般自我修正概念，这两张图都显示了 2 次迭代的自我修正（初始迭代和修正后的答案）。当然，我们可以向此过程添加更多迭代。这是一个经典的推理扩展权衡：我们添加的迭代越多，生成答案的成本就越高，但整体准确性也会越高。

　　图 16：额外的自我修正迭代提高了准确性。来自 DeepSeekMath V2 论文，并加上了注释。Best@32 多数投票方法也被称为自我一致性（Self-consistency）。

　　它是一个非常有趣的概念验证，通过自我验证和自我修正技术进一步推动了「带可验证奖励的强化学习」（RLVR）理念；

　　但在我们进入这部分之前，先来看看 DeepSeek V3.2 的总体概况。这个模型之所以重要，是因为它与当前的旗舰模型相比表现非常出色。

　　与 DeepSeek 的其他几款模型类似，V3.2 也附带了一份很棒的技术报告，我将在接下来的章节中进行讨论。

　　当然，该模型的主要动机是提高整体模型性能。例如，像 DeepSeekMath V2 一样，它在数学基准测试中获得了金牌级的表现。然而，该模型在训练时也考虑到了工具的使用，并且在其他任务（例如代码和智能体任务）上也表现良好。

　　同时，DeepSeek 团队将计算效率视为一个巨大的驱动因素。这就是为什么他们使用了 V2 和 V3 中的多头潜在注意力 (MLA) 机制，以及他们在 V3.2 中添加的 DeepSeek 稀疏注意力 (DSA) 机制。事实上，论文中提到「DeepSeek-V3.2 使用了与 DeepSeek-V3.2-Exp 完全相同的架构」，这我们在前面的章节中已经讨论过了。

　　正如我之前提到的，DeepSeek V3.2-Exp 的发布很可能是为了让生态系统和推理基础设施准备好托管刚刚发布的 V3.2 模型。

　　由于架构与 DeepSeek V3.2-Exp 相同，有趣的细节在于训练方法，我们将在接下来的章节中讨论。

　　总的来说，DeepSeek 团队采用了类似于 DeepSeek R1 的「带可验证奖励的强化学习」（RLVR）程序，使用了群体相对策略优化（GRPO）算法。但是，有一些有趣的更新值得讨论。

　　对于推理和智能体任务，我们采用基于规则的结果奖励、长度惩罚和语言一致性奖励。对于通用任务，我们采用生成式奖励模型，其中每个提示都有自己的评估标准。

　　例如，他们移除了格式奖励，但为智能体任务添加了长度惩罚。然后，对于没有符号验证器（数学）或代码解释器来验证答案的通用任务，他们使用奖励模型（另一个训练用于输出奖励分数的 LLM）。

　　所以，听起来这个流程不再是像 DeepSeek R1 那样纯粹的基于验证器的 RLVR，而是 RLVR（用于可验证领域）和更标准的「LLM 即裁判」奖励建模（用于其他所有领域）的混合体。

　　对于数学领域，他们表示额外「整合了来自 DeepSeekMath-V2 的数据集和奖励方法」，这我们在本文前面已经讨论过了。

　　关于 RLVR 流程内部的学习算法 GRPO 本身，自 DeepSeek R1 论文中的原始版本以来，他们也做了一些更改。

　　如果不深入 GRPO 的数学细节，简单来说，DAPO 修改了 GRPO，采用了非对称裁剪、动态采样、Token 级损失和显式的基于长度的奖励整形。Dr. GRPO 更改了 GRPO 目标本身，以移除长度和标准差归一化。

　　零梯度信号过滤：我们移除奖励完全相同的实例组（即优势标准差为零的批次），以避免在提供零梯度的样本上进行训练，类似于 DAPO (Yu et al., 2025)。[DAPO]

　　主动采样：尽管进行了零梯度过滤，我们仍使用一种新颖、更高效的动态采样版本维持一致的批次大小 (Yu et al., 2025)。详见 OlmoRL Infra。[DAPO]

　　更高裁剪阈值：我们将损失中的上限裁剪项设置为比下限略高的值，以允许对 Token 进行更大的更新，正如 Yu et al. (2025) 提议的那样。[DAPO]

　　截断重要性采样：为了调整推理引擎和训练引擎之间对数概率的差异，我们将损失乘以截断的重要性采样比率，遵循 Yao et al. (2025)。

　　无标准差归一化：在计算优势时，我们不对组的标准差进行归一化，遵循 Liu et al. (2025b)。这消除了难度偏差，即奖励标准差低的问题（例如太难或太容易）其优势会被归一化项显著放大。[Dr. GRPO]

　　特定领域的 KL 强度（包括数学为零）： DeepSeek V3.2 没有像 DAPO 和 Dr. GRPO 那样对数学类 RL 总是放弃 KL，而是在目标中保留 KL 项，但根据每个领域调整其权重。然而，他们也指出，非常弱甚至为零的 KL 通常对数学效果最好。（但不是完全移除它，而是变成了一个超参数。）

　　无偏 KL 估计：如上所述，DeepSeek V3.2 没有移除 KL 惩罚。除了将其视为调节旋钮外，他们还提出了对 GRPO 中 KL 惩罚估计方式的修正，即用用于主损失的相同重要性比率重新加权 KL 项，因此 KL 梯度实际上与样本来自旧策略而不是当前策略的事实相匹配。

　　异策略序列掩码（Off-policy sequence masking）：当他们在许多梯度步骤中重用 rollout 数据（rollout 只是模型生成的完整序列的术语）时，DeepSeek V3.2 测量当前策略在每个完整答案上偏离 rollout 策略的程度，并简单地丢弃那些既具有负优势又「过于偏离策略」的序列。因此，这防止了模型从过度偏离策略或陈旧的数据中学习。

　　保留 MoE 模型的路由：对于混合专家骨干网络，他们记录了 rollout 期间激活了哪些专家，并在训练期间强制使用相同的路由模式，以便梯度更新针对那些产生采样答案的专家。

　　保留 top-p /top-k 的采样掩码：当 rollout 使用 top-p 或 top-k 采样时，DeepSeek V3.2 存储选择掩码并在计算 GRPO 损失和 KL 时重新应用它，以便训练时的动作空间与采样期间实际可用的动作空间相匹配。

　　保留原始 GRPO 优势归一化： Dr. GRPO 表明 GRPO 的长度和每组标准差归一化项会使优化偏向于过长的错误答案，并过度加权非常容易或非常难的问题。Dr. GRPO 通过移除这两个项并回到无偏的 PPO 风格目标来解决这个问题。相比之下，DAPO 转向 Token 级损失，这也改变了长答案与短答案的加权方式。然而，DeepSeek V3.2 保留了原始的 GRPO 归一化，而是专注于其他修正，例如上面的那些。

　　所以，总的来说，DeepSeek V3.2 比最近的其他一些模型更接近原始的 GRPO 算法，但增加了一些逻辑上的微调。

　　DeepSeek V3.2 还有一个极端的、扩展思维（extended-thinking）的变体，称为DeepSeek V3.2-Speciale，它在 RL 阶段仅在推理数据上进行训练（更类似于 DeepSeek R1）。除了仅在推理数据上训练外，他们还在 RL 期间减少了长度惩罚，允许模型输出更长的响应。

　　在这篇文章中，我没有涵盖 DeepSeek V3.2 训练方法的所有细节，但我希望与之前的 DeepSeek 模型的比较有助于阐明主要观点和创新。

　　主要的架构调整是他们添加了来自 DeepSeek V3.2-Exp 的稀疏注意力机制以提高效率；

　　训练流程有几项改进，例如 GRPO 稳定性更新（注意论文还涉及围绕蒸馏、长上下文训练、集成类似于 gpt-oss 的工具使用等其他几个方面，我们在本文中没有涵盖）。

　　无论 DeepSeek 模型与其他较小的开放权重模型或像 GPT-5.1 或 Gemini 3.0 Pro 这样的专有模型相比的市场份额如何，有一件事是肯定的：DeepSeek 的发布总是很有趣，而且从随开放权重模型检查点一起发布的技术报告中总有很多值得学习的东西。原文出处：DeepSeek V3到V3.2的进化之路，一文看全，感谢原作者，侵权必删！

标签: deepseek