当前位置:首页 > Deepseek最新资讯 > 正文内容

GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌

5个月前 (11-28)Deepseek最新资讯153

  【新智元导读】沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一局。

  当前,已官宣拿下金牌的两大模型,一款来自谷歌Gemini Deep Think,另一款便来自OpenAI的内部模型。

  论文中,团队训练了一个基于LLM验证器(Verifier)作为奖励函数,并以此训练模型以自主解决问题。

  这不仅让它在最难的数学竞赛中横扫人类顶尖选手,更重要的是,它揭示了通往更高级AI的一条必经之路——学会自我反思。

  在过去,训练AI做数学题的方法很简单:给它一道题,如果它算出的答案和标准答案一致,就给它奖励。

  以前的AI在这里经常是个「大忽悠」,它能胡编乱造一通看起来很专业的数学黑话,最后强行得出一个结论。虽然它可能蒙对了结果,但过程全是漏洞。

  DeepSeekMath-V2决定从根本上改变规则,不仅要奖励正确的答案,更要奖励严谨的「自我找茬」过程。

  为了实现这种「自我反思」,DeepSeek设计了一套精妙的「左右互搏」系统,就像在AI的大脑里住了三个人:

  但与以往不同,它被训练成不仅要写答案,还要写一段「自我评价」。它必须诚实地说:「这步我有点不确定,可能是错的。」

  这是DeepSeek专门训练的一个评分模型。它不看答案对不对,而是专门盯着证明过程挑刺。它会像阅卷老师一样,给证明打分(0分、0.5分、1分),并指出具体的逻辑漏洞。

  于是DeepSeek又引入了一个「元验证」机制,专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误,它会被「审计员」打手板。

  用元验证器来评估验证器输出分析的平均质量分数,从0.85提升到了0.96,同时保持了原有的打分准确率。

  在这三者的配合下,DeepSeekMath-V2甚至能做到在没有标准答案的情况下,自己给自己出题、自己做、自己批改、自己重做。

  在最后两轮训练迭代中,这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明,自动生成的标签与人类专家的判断高度一致。

  这一令人惊叹的成绩背后,是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。

  如果剥离掉所有复杂的反复思考和验证过程,只看模型的「第一直觉」——也就是所谓的One-Shot能力,DeepSeekMath-V2依然表现出了统治级的实力。

  研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML(难度对标中国高中数学联赛)。

  在面对IMO候选题(Shortlist)这种级别的难题时,模型往往无法一次性写出完美的证明。

  实验显示,如果允许模型进行「自我验证」——即生成答案后,自己挑毛病,然后带着问题重新生成deepseek,奇迹就发生了:

  更有趣的是,如果让模型从自己生成的32个解法中挑一个最好的(Best@32),它的评分准确度极高,得分直接跃升至0.42。

  前文提到的普特南数学竞赛118分(接近满分)的「神迹」,并非仅靠运气,而是得益于一种「高算力搜索」(High-Compute Search)策略。

  正是这种「千锤百炼」的策略,让模型解决了IMO 2025中6道题里的5道,以及在CMO 2024中拿下金牌水平。

  实验数据还揭示了一个有趣的现象:对于那些它没做出来的题,模型通常能准确地找出自己证明中的漏洞;而对于做出来的题,则是真真切切地通过了所有考验。

  DeepSeekMath-V2的成功告诉我们,AI正在从「模仿人类说话」进化到「模仿人类思考」。

  当我们看到AI开始在输出最终结果前,懂得停下来,对自己说一句「这看起来不太对,我再算一遍」时,那才是它真正超越工具属性的时刻。原文出处:GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌,感谢原作者,侵权必删!

标签: deepseek

“GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌” 的相关文章

2月27日DeepSeek预测:火箭vs魔术,杜兰特率队客场取胜

2月27日DeepSeek预测:火箭vs魔术,杜兰特率队客场取胜

  北京时间2月27日早8:30,NBA常规赛将迎来一场东西部强队对话,西部第三的休斯顿火箭客场挑战东部第七的奥兰多魔术。作为联盟新贵deepseek,魔术队近年来在班凯罗和瓦格纳兄弟带领...

2025年度全球50家聪明公司榜单发布,DeepSeek、华为等中国企业入选

2025年度全球50家聪明公司榜单发布,DeepSeek、华为等中国企业入选

  DeepSeek、宇树科技、华为deepseek、小米、比亚迪、科大讯飞等多家中国企业成功入选,展现中国创新力量!   “聪明公司”不仅以技术驱动未来,更以商业智慧实...

90后清华博士屈拓任漳州市国资委副主任,曾讲授DeepSeek政务课程

90后清华博士屈拓任漳州市国资委副主任,曾讲授DeepSeek政务课程

  近日,漳州市政府网站发布一则人事任免消息:屈拓任漳州市人民政府国有资产监督管理委员会副主任,免去其漳州市发展和改革委员会科技副主任职务。   2023年,屈拓任漳州市...

开源中国马越:除了DeepSeek,多数不是真开源

开源中国马越:除了DeepSeek,多数不是真开源

  在今年的一个饭局上,开源中国董事长马越跟一位“AI六小虎”创始人开玩笑,评价他撤出大模型争夺战的决定,是壮士断腕,急流勇退,“super smart(超级聪明)”。...

DeepSeek预测:摩纳哥vs尤文图斯!斑马军团客场碾压?巴洛贡PK麦肯尼引爆

DeepSeek预测:摩纳哥vs尤文图斯!斑马军团客场碾压?巴洛贡PK麦肯尼引爆

  法甲劲旅摩纳哥目前以2胜3平2负积9分排名第21位,距离附加赛区仅3分差距。但8个进球(赛事第27)与14个失球(赛事第23)的数据,暴露了攻防两端的失衡。尤其上轮1-6惨败皇马后,球...

NeurIPS 2025 DynaAct:DeepSeek R1之外,探索大模型

NeurIPS 2025 DynaAct:DeepSeek R1之外,探索大模型

  针对这个问题,来自蚂蚁和香港大学自然语言组的研究团队(后简称「团队」)给出了 TTS 的另一种思路:   与传统 token-by-token 式的 CoT 不同,D...