当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek的小更新,暴打了OpenAI,追上了Gemini。

6个月前 (12-03)Deepseek最新资讯134

  前者和 GPT-5 能打的有来有回,后面的高性能版更是直接把 GPT 爆了,开始和闭源模型天花板 —— Gemini 打了个五五开。

  还在IMO 2025(国际数学奥林匹克)、CMO 2025(中国数学奥林匹克)等一系列比赛中拿下金牌。

  这东西在之前的 V3.2-EXP 版本里出现过,当时只是测了一下 DSA 会不会影响模型的性能,现在是真的把这玩意给放到了主力模型上。

  这是因为大模型原生的注意力机制导致的问题,在这套老逻辑的影响下,每个 token 出来,都要和前面的每一个 token 互相算在一起做一次计算。

  这就导致了句子增长一倍,模型的计算量就得增加到原来的四倍,如果边长到原来的三倍,计算量就变成了原来的九倍,非常麻烦。

  DeepSeek 想这样不行啊,于是就给大模型里加了固定页数的目录(稀疏注意力),相当于帮模型划重点了。

  而在有了目录之后,以后每次只需要计算这个 token 和这些目录的关系就行了,相当于就是看书先读目录,看完目录,对哪一章感兴趣,再去仔细看这章的内容就好。

  大模型这一套从预训练开始,到考试打分的过程,其实有点像是我们人类从小学开始,一路读书读到高考的过程。

  前面的大规模预训练,相当于从小学到高二,把所有课本、练习册、卷子全过一遍,这一步大家都差不多,不管是闭源模型,还是开源模型,都在老老实实的念书。

  但到了高考冲刺阶段就不一样了,在模型的后训练阶段,闭源模型一般都会请名师,猛刷题,开始搞起各种强化学习,最后让模型来考一个不错的成果。

  但开源模型在这块花的心思就比较少了,按照 DeepSeek 的说法,过去的开源模型在训练后阶段计算投入普遍偏低deepseek

  于是,DeepSeek 决定这次自己也要上名师辅导班,设计了一套新的强化学习协议,在预训练结束后,花了超过总训练算力的 10% 来给模型开小灶,把之前缺的这块给补上。

  过去的大模型因为上下文长度有限制,所以在训练的时候都会做一些标注惩罚的工作,如果模型深度思考的内容太长了,那就会扣分。

  而到了 DeepSeek V3.2 Speciale 这儿,所以 DeepSeek 干脆取消掉了这个扣分项,反而鼓励模型想思考多久就思考多久,想怎么思考就怎么思考。

  一方面,为了提高模型的基础能力,DeepSeek 构建了一个虚拟环境,合成了成千上万条数据来辅助训练。

  模型一旦去调用外部工具,前面那段思考基本就算写完收工了,等工具查完结果再回来,它往往又要重新铺一遍思路。

  这就导致一种很蠢的体验——哪怕只是去查一下“今天几月几号” 这种小事,模型也会从头开始重建整套推理链,非常浪费时间。。。

  现在的规则变成:在一整串工具调用的过程中,模型的“思考过程”会一直保留下来,只有当用户发来一条新的提问时,才会重置这一轮推理;而工具的调用记录和结果,会像聊天记录一样一直留在上下文里。

  通过这修改模型架构,重视后训练,强化 Agent 能力的三板斧,DeepSeek 才终于让自己的新模型,有了能和世界顶尖开源模型再次一战的能力。

  我自己也测试了一下,从“人类的最终考试” 的题库里随便抽了道题目,同时丢给 Gemini 3 Pro 和 DeepSeek V3.2 Speciale 这两个模型。

  而 DeepSeek 的各种节省算力,节约数据的操作,其实让我想到了上个月,一场关于 Ilya Sutskever 的访谈。

  AlexNet只用了两块GPU。Transformer刚出现时的实验规模,大多在8~64块GPU范围内。按今天的标准看,那甚至相当于几块GPU的规模,ResNet也一样。没有哪篇论文靠庞大的集群才能完成。原文出处:DeepSeek的小更新,暴打了OpenAI,追上了Gemini。,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek的小更新,暴打了OpenAI,追上了Gemini。” 的相关文章

您的AI智能工作台已升级!鸿蒙版ima率先接入DeepSeek V3.1,效率飞

您的AI智能工作台已升级!鸿蒙版ima率先接入DeepSeek V3.1,效率飞

  8月21日DeepSeek正式发布V3.1并宣布开源。鸿蒙版ima第一时间接入了DeepSeek-V3.1deepseek,为用户带来更强大、更智能的AI使用体验。...

DeepSeek V4爆春节登场!四大杀招突袭全球编程王座,Claude危

DeepSeek V4爆春节登场!四大杀招突袭全球编程王座,Claude危

  一款开源「推理」模型,把「先思考、再作答」变成显性过程,用相对克制的训练成本,实现了复杂问题上的惊人稳定性。   接下来的一年中,DeepSeek进行了多次模型版本迭...

QM发布2025年AI应用榜:豆包、DeepSeek、元宝、阿福、千问排前五

QM发布2025年AI应用榜:豆包、DeepSeek、元宝、阿福、千问排前五

  3月3日,研究机构Quest Mobile发布的《2025年AI应用层发展核心报告》显示,截至2025年12月,全市场AI原生App中,月活跃用户排名前五的是豆包、DeepSeek、元...

以自主可控人工智能点亮千行百业,科大讯飞亮相2025世界智能产业博览会

以自主可控人工智能点亮千行百业,科大讯飞亮相2025世界智能产业博览会

  9月5日,2025世界智能产业博览会(以下简称“智博会”)在重庆开幕。本届智博会由重庆市人民政府和天津市人民政府共同主办,聚焦“人工智能+”和“智能网联新能源汽车”主题,吸引600余家...

谁家AI用一万美元赚翻了?DeepSeek第一,GPT 5垫底

谁家AI用一万美元赚翻了?DeepSeek第一,GPT 5垫底

  这几天,各大AI社群被一场“投资直播”刷屏。网友们实时追踪六大AI模型的交易表现,讨论的热情程度甚至超过研究自己炒股,这是一场用真金白银进行的AI投资对决。   这场...

继“DeepSeek时刻”之后 中国AI又迎来“千问周期”

继“DeepSeek时刻”之后 中国AI又迎来“千问周期”

  中国科技行业的春节档如期而至。去年春节,国产大模型DeepSeek横空出世,以既好又省且开源的创新成果震动国际科技圈,并推动了AI在国内的认知破圈,人称“DeepSeek时刻”。今年春...