当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek的小更新，暴打了OpenAI，追上了Gemini。

6个月前 (12-03)Deepseek最新资讯134

　　前者和 GPT-5 能打的有来有回，后面的高性能版更是直接把 GPT 爆了，开始和闭源模型天花板 —— Gemini 打了个五五开。

　　还在IMO 2025（国际数学奥林匹克）、CMO 2025（中国数学奥林匹克）等一系列比赛中拿下金牌。

　　这东西在之前的 V3.2-EXP 版本里出现过，当时只是测了一下 DSA 会不会影响模型的性能，现在是真的把这玩意给放到了主力模型上。

　　这是因为大模型原生的注意力机制导致的问题，在这套老逻辑的影响下，每个 token 出来，都要和前面的每一个 token 互相算在一起做一次计算。

　　这就导致了句子增长一倍，模型的计算量就得增加到原来的四倍，如果边长到原来的三倍，计算量就变成了原来的九倍，非常麻烦。

　　DeepSeek 想这样不行啊，于是就给大模型里加了固定页数的目录（稀疏注意力），相当于帮模型划重点了。

　　而在有了目录之后，以后每次只需要计算这个 token 和这些目录的关系就行了，相当于就是看书先读目录，看完目录，对哪一章感兴趣，再去仔细看这章的内容就好。

　　大模型这一套从预训练开始，到考试打分的过程，其实有点像是我们人类从小学开始，一路读书读到高考的过程。

　　前面的大规模预训练，相当于从小学到高二，把所有课本、练习册、卷子全过一遍，这一步大家都差不多，不管是闭源模型，还是开源模型，都在老老实实的念书。

　　但到了高考冲刺阶段就不一样了，在模型的后训练阶段，闭源模型一般都会请名师，猛刷题，开始搞起各种强化学习，最后让模型来考一个不错的成果。

　　但开源模型在这块花的心思就比较少了，按照 DeepSeek 的说法，过去的开源模型在训练后阶段计算投入普遍偏低deepseek。

　　于是，DeepSeek 决定这次自己也要上名师辅导班，设计了一套新的强化学习协议，在预训练结束后，花了超过总训练算力的 10% 来给模型开小灶，把之前缺的这块给补上。

　　过去的大模型因为上下文长度有限制，所以在训练的时候都会做一些标注惩罚的工作，如果模型深度思考的内容太长了，那就会扣分。

　　而到了 DeepSeek V3.2 Speciale 这儿，所以 DeepSeek 干脆取消掉了这个扣分项，反而鼓励模型想思考多久就思考多久，想怎么思考就怎么思考。

　　一方面，为了提高模型的基础能力，DeepSeek 构建了一个虚拟环境，合成了成千上万条数据来辅助训练。

　　模型一旦去调用外部工具，前面那段思考基本就算写完收工了，等工具查完结果再回来，它往往又要重新铺一遍思路。

　　这就导致一种很蠢的体验——哪怕只是去查一下“今天几月几号” 这种小事，模型也会从头开始重建整套推理链，非常浪费时间。。。

　　现在的规则变成：在一整串工具调用的过程中，模型的“思考过程”会一直保留下来，只有当用户发来一条新的提问时，才会重置这一轮推理；而工具的调用记录和结果，会像聊天记录一样一直留在上下文里。

　　通过这修改模型架构，重视后训练，强化 Agent 能力的三板斧，DeepSeek 才终于让自己的新模型，有了能和世界顶尖开源模型再次一战的能力。

　　我自己也测试了一下，从“人类的最终考试” 的题库里随便抽了道题目，同时丢给 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 这两个模型。

　　而 DeepSeek 的各种节省算力，节约数据的操作，其实让我想到了上个月，一场关于 Ilya Sutskever 的访谈。

　　AlexNet只用了两块GPU。Transformer刚出现时的实验规模，大多在8～64块GPU范围内。按今天的标准看，那甚至相当于几块GPU的规模，ResNet也一样。没有哪篇论文靠庞大的集群才能完成。原文出处：DeepSeek的小更新，暴打了OpenAI，追上了Gemini。，感谢原作者，侵权必删！

标签: deepseek