DeepSeek V3.2发布,推理能力接近GPT-5,AI首次拿下奥数金牌!
12月1日,国产大模型厂商DeepSeek正式发布了两款新模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale。其中,V3.2版已全面上线至网页端、App和API,正式取代之前的测试版本;而Speciale版则作为临时API向社区开放,用于评测和研究。
DeepSeek-V3.2主打日常使用,重点提升了推理能力与输出效率。据小事哥了解,在公开的推理类Benchmark中,DeepSeek-V3.2表现已接近GPT-5,仅略低于Google的Gemini-3.0-Pro。相比Kimi-K2-Thinking,它的输出更短,节省了大量计算资源和等待时间。这让它在问答、代码生成和多轮对话等场景中表现更加稳定。
而Speciale版本可以说是DeepSeek的一次极限挑战。它在V3.2的基础上,加入了更强的推理和数学证明能力,结合了DeepSeek-Math-V2的定理验证模块。这个模型不仅能更好地理解复杂指令,还在多个国际顶级竞赛中取得出色成绩。
据官方披露,Speciale版模型在2025年的IMO(国际数学奥林匹克)、CMO(中国数学奥林匹克)、ICPC全球总决赛和IOI信息学奥赛中均获得金牌。特别是在ICPC和IOI比赛中,其成绩甚至超过绝大多数人类选手,分别达到第二名和第十名的水平。
不过,DeepSeek也坦言,Speciale版模型虽然强大,但资源消耗极高,目前仅供科研使用,不建议用于日常对话或写作。它暂时也不支持工具调用功能。
但在标准版V3.2中,DeepSeek首次实现了“思考”和“工具调用”的结合。以往大模型在进入思考模式后往往无法调用工具,这次V3.2打破了这个限制,用户可以在模型推理的同时使用外部工具,比如搜索、计算器等。这项功能对提升Agent任务表现非常关键deepseek,比如在多步规划、复杂问答中更灵活。
DeepSeek还公布了它们的训练方法。他们自研了一种大规模Agent训练数据合成方式,生成了超过1800个环境和8.5万个复杂指令任务。这类“难解答、易验证”的任务大幅提升了模型泛化能力。原文出处:DeepSeek V3.2发布,推理能力接近GPT-5,AI首次拿下奥数金牌!,感谢原作者,侵权必删!




