当前位置:首页 > Deepseek最新资讯 > 正文内容

GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌

6个月前 (11-28)Deepseek最新资讯155

  【新智元导读】沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一局。

  当前,已官宣拿下金牌的两大模型,一款来自谷歌Gemini Deep Think,另一款便来自OpenAI的内部模型。

  论文中,团队训练了一个基于LLM验证器(Verifier)作为奖励函数,并以此训练模型以自主解决问题。

  这不仅让它在最难的数学竞赛中横扫人类顶尖选手,更重要的是,它揭示了通往更高级AI的一条必经之路——学会自我反思。

  在过去,训练AI做数学题的方法很简单:给它一道题,如果它算出的答案和标准答案一致,就给它奖励。

  以前的AI在这里经常是个「大忽悠」,它能胡编乱造一通看起来很专业的数学黑话,最后强行得出一个结论。虽然它可能蒙对了结果,但过程全是漏洞。

  DeepSeekMath-V2决定从根本上改变规则,不仅要奖励正确的答案,更要奖励严谨的「自我找茬」过程。

  为了实现这种「自我反思」,DeepSeek设计了一套精妙的「左右互搏」系统,就像在AI的大脑里住了三个人:

  但与以往不同,它被训练成不仅要写答案,还要写一段「自我评价」。它必须诚实地说:「这步我有点不确定,可能是错的。」

  这是DeepSeek专门训练的一个评分模型。它不看答案对不对,而是专门盯着证明过程挑刺。它会像阅卷老师一样,给证明打分(0分、0.5分、1分),并指出具体的逻辑漏洞。

  于是DeepSeek又引入了一个「元验证」机制,专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误,它会被「审计员」打手板。

  用元验证器来评估验证器输出分析的平均质量分数,从0.85提升到了0.96,同时保持了原有的打分准确率。

  在这三者的配合下,DeepSeekMath-V2甚至能做到在没有标准答案的情况下,自己给自己出题、自己做、自己批改、自己重做。

  在最后两轮训练迭代中,这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明,自动生成的标签与人类专家的判断高度一致。

  这一令人惊叹的成绩背后,是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。

  如果剥离掉所有复杂的反复思考和验证过程,只看模型的「第一直觉」——也就是所谓的One-Shot能力,DeepSeekMath-V2依然表现出了统治级的实力。

  研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML(难度对标中国高中数学联赛)。

  在面对IMO候选题(Shortlist)这种级别的难题时,模型往往无法一次性写出完美的证明。

  实验显示,如果允许模型进行「自我验证」——即生成答案后,自己挑毛病,然后带着问题重新生成deepseek,奇迹就发生了:

  更有趣的是,如果让模型从自己生成的32个解法中挑一个最好的(Best@32),它的评分准确度极高,得分直接跃升至0.42。

  前文提到的普特南数学竞赛118分(接近满分)的「神迹」,并非仅靠运气,而是得益于一种「高算力搜索」(High-Compute Search)策略。

  正是这种「千锤百炼」的策略,让模型解决了IMO 2025中6道题里的5道,以及在CMO 2024中拿下金牌水平。

  实验数据还揭示了一个有趣的现象:对于那些它没做出来的题,模型通常能准确地找出自己证明中的漏洞;而对于做出来的题,则是真真切切地通过了所有考验。

  DeepSeekMath-V2的成功告诉我们,AI正在从「模仿人类说话」进化到「模仿人类思考」。

  当我们看到AI开始在输出最终结果前,懂得停下来,对自己说一句「这看起来不太对,我再算一遍」时,那才是它真正超越工具属性的时刻。原文出处:GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌,感谢原作者,侵权必删!

标签: deepseek

“GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌” 的相关文章

2025年10月deepseek关键词排名优化推荐:高性价比解决方案指南

2025年10月deepseek关键词排名优化推荐:高性价比解决方案指南

  当用户在搜索框输入“deepseek关键词排名优化”时,往往带着三重焦虑:一是GEO(生成式引擎优化)规则更新太快,内部团队跟不上节奏;二是多平台(DeepSeek、豆包、通义千问、元...

2026 年 DeepSeek 优化服务商 TOP5 盘点:从技术底层到效果落地

2026 年 DeepSeek 优化服务商 TOP5 盘点:从技术底层到效果落地

  据权威第三方 Gartner 预测,到 2026 年搜索引擎访问量将下降 25%,近四分之一搜索流量流向 AI 聊天等新载体(来源:第一财经),GEO(地理与 AI 搜索优化)已成为企...

DeepSeek预测:都灵vsAC米兰,红黑军团客场碾压?莱奥+普利西奇双星闪耀

DeepSeek预测:都灵vsAC米兰,红黑军团客场碾压?莱奥+普利西奇双星闪耀

  意甲第14轮即将迎来一场焦点战,都灵将在主场迎战领头羊AC米兰。目前都灵排名第13,距离降级区仅有4分优势,而AC米兰则以28分与那不勒斯并列榜首。这场比赛对于双方来说都至关重要,都灵...

恒扬数据携手华为发布智能计算新品 共筑算力新生态

恒扬数据携手华为发布智能计算新品 共筑算力新生态

  [中国,深圳,2025年8月15日]以“鲲鹏昇腾无处不在,成就商业好生意”为主题的2025华为深圳政企&恒扬数据新品推介会暨展车体验活动成功举办,百余位行业嘉宾齐聚一堂,共同探...

DeepSeek新模型“Model 1”曝光,疑似“高效推理模型”

DeepSeek新模型“Model 1”曝光,疑似“高效推理模型”

  新浪科技讯 1月21日下午消息,DeepSeek于官方GitHub仓库更新了一系列FlashMLA代码,在这些更新中,一个名为“Model 1”的模型引起了广泛关注。...

Deepseek新模型降价50%,AI人工智能ETF(512930)涨超2.1%

Deepseek新模型降价50%,AI人工智能ETF(512930)涨超2.1%

  消息面上,9月29日,DeepSeek发布DeepSeek-V3.2-Exp模型deepseek,并表示,这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤...