当前位置：首页 > Deepseek最新资讯 > 正文内容

GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌

6个月前 (11-28)Deepseek最新资讯155

　　【新智元导读】沉寂许久的DeepSeek又回来了！今天，DeepSeekMath-V2重磅登场，一举夺下IMO 2025金牌，实力媲美甚至超越了谷歌的IMO金牌模型，开源AI再次扳回一局。

　　当前，已官宣拿下金牌的两大模型，一款来自谷歌Gemini Deep Think，另一款便来自OpenAI的内部模型。

　　论文中，团队训练了一个基于LLM验证器（Verifier）作为奖励函数，并以此训练模型以自主解决问题。

　　这不仅让它在最难的数学竞赛中横扫人类顶尖选手，更重要的是，它揭示了通往更高级AI的一条必经之路——学会自我反思。

　　在过去，训练AI做数学题的方法很简单：给它一道题，如果它算出的答案和标准答案一致，就给它奖励。

　　以前的AI在这里经常是个「大忽悠」，它能胡编乱造一通看起来很专业的数学黑话，最后强行得出一个结论。虽然它可能蒙对了结果，但过程全是漏洞。

　　DeepSeekMath-V2决定从根本上改变规则，不仅要奖励正确的答案，更要奖励严谨的「自我找茬」过程。

　　为了实现这种「自我反思」，DeepSeek设计了一套精妙的「左右互搏」系统，就像在AI的大脑里住了三个人：

　　但与以往不同，它被训练成不仅要写答案，还要写一段「自我评价」。它必须诚实地说：「这步我有点不确定，可能是错的。」

　　这是DeepSeek专门训练的一个评分模型。它不看答案对不对，而是专门盯着证明过程挑刺。它会像阅卷老师一样，给证明打分（0分、0.5分、1分），并指出具体的逻辑漏洞。

　　于是DeepSeek又引入了一个「元验证」机制，专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误，它会被「审计员」打手板。

　　用元验证器来评估验证器输出分析的平均质量分数，从0.85提升到了0.96，同时保持了原有的打分准确率。

　　在这三者的配合下，DeepSeekMath-V2甚至能做到在没有标准答案的情况下，自己给自己出题、自己做、自己批改、自己重做。

　　在最后两轮训练迭代中，这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明，自动生成的标签与人类专家的判断高度一致。

　　这一令人惊叹的成绩背后，是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。

　　如果剥离掉所有复杂的反复思考和验证过程，只看模型的「第一直觉」——也就是所谓的One-Shot能力，DeepSeekMath-V2依然表现出了统治级的实力。

　　研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML（难度对标中国高中数学联赛）。

　　在面对IMO候选题（Shortlist）这种级别的难题时，模型往往无法一次性写出完美的证明。

　　实验显示，如果允许模型进行「自我验证」——即生成答案后，自己挑毛病，然后带着问题重新生成deepseek，奇迹就发生了：

　　更有趣的是，如果让模型从自己生成的32个解法中挑一个最好的（Best@32），它的评分准确度极高，得分直接跃升至0.42。

　　前文提到的普特南数学竞赛118分（接近满分）的「神迹」，并非仅靠运气，而是得益于一种「高算力搜索」（High-Compute Search）策略。

　　正是这种「千锤百炼」的策略，让模型解决了IMO 2025中6道题里的5道，以及在CMO 2024中拿下金牌水平。

　　实验数据还揭示了一个有趣的现象：对于那些它没做出来的题，模型通常能准确地找出自己证明中的漏洞；而对于做出来的题，则是真真切切地通过了所有考验。

　　DeepSeekMath-V2的成功告诉我们，AI正在从「模仿人类说话」进化到「模仿人类思考」。

　　当我们看到AI开始在输出最终结果前，懂得停下来，对自己说一句「这看起来不太对，我再算一遍」时，那才是它真正超越工具属性的时刻。原文出处：GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：DeepSeek回答“搜巴黎奥运男乒冠军不是樊振东”：我的知识储备截止到2024

下一篇：DeepSeek强势回归，开源IMO金牌级数学模型

“GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌” 的相关文章

2025年10月deepseek关键词排名优化推荐：高性价比解决方案指南

　　当用户在搜索框输入“deepseek关键词排名优化”时，往往带着三重焦虑：一是GEO（生成式引擎优化）规则更新太快，内部团队跟不上节奏；二是多平台（DeepSeek、豆包、通义千问、元...

2026 年 DeepSeek 优化服务商 TOP5 盘点：从技术底层到效果落地

　　据权威第三方 Gartner 预测，到 2026 年搜索引擎访问量将下降 25%，近四分之一搜索流量流向 AI 聊天等新载体（来源：第一财经），GEO（地理与 AI 搜索优化）已成为企...

DeepSeek预测：都灵vsAC米兰，红黑军团客场碾压？莱奥+普利西奇双星闪耀

　　意甲第14轮即将迎来一场焦点战，都灵将在主场迎战领头羊AC米兰。目前都灵排名第13，距离降级区仅有4分优势，而AC米兰则以28分与那不勒斯并列榜首。这场比赛对于双方来说都至关重要，都灵...

恒扬数据携手华为发布智能计算新品共筑算力新生态

　　[中国，深圳，2025年8月15日]以“鲲鹏昇腾无处不在，成就商业好生意”为主题的2025华为深圳政企&恒扬数据新品推介会暨展车体验活动成功举办，百余位行业嘉宾齐聚一堂，共同探...

DeepSeek新模型“Model 1”曝光，疑似“高效推理模型”

　　新浪科技讯 1月21日下午消息，DeepSeek于官方GitHub仓库更新了一系列FlashMLA代码，在这些更新中，一个名为“Model 1”的模型引起了广泛关注。...

Deepseek新模型降价50%，AI人工智能ETF(512930)涨超2.1%

　　消息面上，9月29日，DeepSeek发布DeepSeek-V3.2-Exp模型deepseek，并表示，这是一个实验性（Experimental）的版本。作为迈向新一代架构的中间步骤...

GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌

“GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌” 的相关文章

2025年10月deepseek关键词排名优化推荐：高性价比解决方案指南

2026 年 DeepSeek 优化服务商 TOP5 盘点：从技术底层到效果落地

DeepSeek预测：都灵vsAC米兰，红黑军团客场碾压？莱奥+普利西奇双星闪耀

恒扬数据携手华为发布智能计算新品共筑算力新生态

DeepSeek新模型“Model 1”曝光，疑似“高效推理模型”

Deepseek新模型降价50%，AI人工智能ETF(512930)涨超2.1%

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌

“GPT-5危了！DeepSeek开源世界首个奥数金牌AI，正面硬刚谷歌” 的相关文章

2025年10月deepseek关键词排名优化推荐：高性价比解决方案指南

2026 年 DeepSeek 优化服务商 TOP5 盘点：从技术底层到效果落地

DeepSeek预测：都灵vsAC米兰，红黑军团客场碾压？莱奥+普利西奇双星闪耀

恒扬数据携手华为发布智能计算新品 共筑算力新生态

DeepSeek新模型“Model 1”曝光，疑似“高效推理模型”

Deepseek新模型降价50%，AI人工智能ETF(512930)涨超2.1%

Powered By Z-BlogPHP. Theme by TOYEAN.

恒扬数据携手华为发布智能计算新品共筑算力新生态