当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek V3.2爆火,Agentic性能暴涨40%解密

6个月前 (12-04)Deepseek最新资讯178

  当你试图用当今最先进的大模型帮你完成一个复杂的长假规划,比如「带全家老小去云南玩七天」时,往往很可能会遭遇一个令人崩溃的时刻:

  但随着对话进行到第十轮,你们为了选酒店修改了五次方案,又为了某顿晚餐争论了半天后,它突然「失智」了。

  在最新的行程表里,它竟然兴致勃勃地建议:「第四天清晨:全家早起徒步攀登玉龙雪山,欣赏日照金山,全程耗时4小时……」

  MiniMax等部分厂商也将其称作Interleaved Thinking(交错思维链),从示意图即可看出,二者本质上是等价的。这是一个更贴近技术的称呼。

  如图所示,交错思维链即模型在推理(thinking)和工具调用(action)之间来回交替,并持续保留和复用每一轮的推理状态,从而实现稳定、可累积的长程规划。

  要理解交错思维链为什么是「神技」,我们得先看看它的前任——早期的ReAct(Reasoning+Acting)范式是如何遇到瓶颈的。

  在很长一段时间里,我们构建AI Agent的逻辑非常线性:观察->思考->行动。

  这看起来很符合直觉,但在实际的工程实现(如OpenAI的Function Calling(函数调用))中,这个过程往往被简化成了「模型直接输出工具调用指令」。

  但当工具执行完毕,返回了数千行的代码或网页内容后,模型进入下一轮生成时,它面临着巨大的环境扰动。

  想象一下,你是一个程序员,每写一行代码,就有人把你打晕,清除你的短期记忆,然后把刚才的运行日志扔给你,让你继续写。

  模型的思考过程隐藏在权重里,一旦被打断(Turn-based interaction),这些思维火花就烟消云散了。

  在每一次调用工具之前,模型必须先输出一段被包裹在reasoning_details(或类似的tag)中的自然语言。

  在常规的SWE-Bench Verified(软件工程)榜单上,开启交错思维链带来了3.3%的提升(从67.2升至69.4)。这个提升虽然不错,但还算温和。

  然而deepseek,在BrowseComp(网页浏览任务)上,提升幅度达到了惊人的40%(从31.4飙升至44.0);在Tau²这种复杂推理任务上,提升了36%。

  模型通过显式的思考,在接收到庞杂的网页信息后,先进行一轮「信息清洗」和「逻辑校准」:「我刚才搜索了X,结果里有很多无关信息,只有第三段是我需要的,接下来我应该根据这个线索去查Y。」

  早期业界普遍认为,只要让模型学会使用更多的工具(Scaling Tools),Agent就泛化了。

  一个模型可能在Claude Code这种脚手架里表现完美,但换到Cline或者命令行里就一塌糊涂。

  即使换了一个陌生的IDE环境,只要「思考-行动」的闭环还在,模型就能通过显式的逻辑推理来适应新环境,而不是依赖死记硬背的提示词模板。

  这也是为什么MiniMax M2能够在xBench、GAIA等多个异构榜单上全面开花的技术根源。

  虽然Anthropic最早提出了Extended Thinking的概念,但由于其闭源特性,社区并未形成统一标准。

  这就导致了一个灾难性的后果:用户在使用M2时,习惯性地把API返回的reasoning_details字段当成垃圾信息丢掉了。

  在过去的一段时间里,MiniMax的工程师们化身开源社区的「包工头」,向全球主流的Agent开发工具和平台发起了密集的PR(Pull Request,合并请求)攻势。

  最近引发轰动的DeepSeek V3.2,其核心特性之一「Thinking in Tool-Use」(使用工具中思考),在本质上与MiniMax倡导的交错思维链是完全一致的。

  DeepSeek的技术文档中明确指出:模型在调用工具时,会保持思维链的连续性,直到收到新的用户消息才会重置。

  虽然两家在具体的API字段命名上可能略有不同(MiniMax使用reasoning_details,DeepSeek使用reasoning_content,Anthropic使用thinking_blocks等),但在系统设计哲学上,大家已经达成了一致:显式的、交错的、持久化的思考,是智能体进化的必经之路。

  它正在从那个只会根据提示词模板机械执行命令的「复读机」(Copilot),进化为能够在复杂的真实世界中,面对无数未知的扰动和噪音,依然能够停下来思考、自我修正、并坚定地执行长链路任务的「思想者」(Autopilot)。原文出处:DeepSeek V3.2爆火,Agentic性能暴涨40%解密,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek V3.2爆火,Agentic性能暴涨40%解密” 的相关文章

DeepSeek的“掀桌”:一场关于算力定价权的终极反击

DeepSeek的“掀桌”:一场关于算力定价权的终极反击

  昨晚英伟达股价大跌5.46%,北美算力板块全线崩溃。这并非源于财报暴雷,而是因为DeepSeek在发布V4模型前,拒绝向英伟达提供早期优化权限,转而将首发适配权全盘交给了华为等国产芯片...

DeepSeek预测:拜仁慕尼黑vs圣保利!凯恩领衔狂轰5球,南大王主场碾压升班

DeepSeek预测:拜仁慕尼黑vs圣保利!凯恩领衔狂轰5球,南大王主场碾压升班

  德甲第12轮焦点战,拜仁慕尼黑将在安联球场迎战升班马圣保利。南大王目前以场均3.1球的恐怖火力领跑德甲(41球,赛事第1),而圣保利仅打入9球(赛事第17),两队进攻端相差4.5倍!拜...

扇贝单词2026届考研用户学习行为报告

扇贝单词2026届考研用户学习行为报告

  (专利号: ZL 2024 1 1008490.X),能够根据词汇量测试结果deepseek,智能识别和过滤已经掌握的单词,真正把时间花在刀刃上。原文出处:扇贝单词2026届考研用户学...

“不忘来路,始知归处”红色资源育人实践队 赴云南大理白族自治州支队开展“彩云之约

“不忘来路,始知归处”红色资源育人实践队 赴云南大理白族自治州支队开展“彩云之约

  为积极响应团中央青年志愿者行动指导中心开展“七彩假期”活动的号召,引导新时代青年学生在社会实践中受教育、长才干、作贡献,2025年7月13日至27日,南京师范大学中北学院“不忘来路,始...

招商证券深陷DeepSeek母公司利益输送漩涡

招商证券深陷DeepSeek母公司利益输送漩涡

  去年11月,市场盛传“某头部量化机构的员工因涉及头部券商的返佣问题被调查”一事,有了最新进展。   提起幻方量化,虽不为大众所熟知,却是量化私募领域的头部公司。今年年...

1月10日DeepSeek预测:火箭vs开拓者,杜兰特对决阿夫迪亚,火箭客场复仇

1月10日DeepSeek预测:火箭vs开拓者,杜兰特对决阿夫迪亚,火箭客场复仇

  北京时间1月10日11点,NBA常规赛将上演西部焦点战,排名第6的火箭(22胜12负)客场挑战第9的开拓者(18胜20负)。双方在1月8日刚完成一场1分险胜的较量,此番背靠背对决火药味...