当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek强势回归,开源IMO金牌级数学模型

6个月前 (11-28)Deepseek最新资讯199

  顾名思义,这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时,这个模型只用 7B 参数量,就达到了 GPT-4 和 Gemini-Ultra 性能相当的水平。相关论文还首次引入了 GRPO,显著提升了数学推理能力。

  论文开篇,DeepSeek 就指出了当前 AI 在数学推理方面的研究局限:以正确的最终答案作为奖励,过于追求最终答案准确度。

  这种做法虽然能让推理模型在 AIME 和 HMMT 等基准上达到更高水平,乃至达到饱和,但 DeepSeek 表示这并不能解决核心问题:正确答案并不保证推理过程正确。此外,许多数学任务(如定理证明)需要严谨的逐步推导,而不仅仅是数值答案,这使得基于最终答案的奖励方法不适用。

  为了实现可自我验证的数学推理,DeepSeek 研究了如何训练一个准确且可信赖的基于 LLM 的定理证明验证器。然后,他们使用该验证器作为奖励模型来训练证明生成器,并激励生成器在最终完成证明前尽可能发现并解决自身证明中的问题。

  为了在生成器能力增强时保持生成 - 验证差距,DeepSeek 提出扩展验证计算能力,以自动标注新的难以验证的证明,从而生成训练数据进一步提升验证器性能。

  简单来说,DeepSeek 这篇论文的核心目标不仅仅是让 AI 做对题,而是让 AI 「不仅会做,还能自己检查,甚至能诚实地承认自己哪里做错了」。

  为了实现这一点,他们设计了一套由三个关键角色组成的系统,我们可以用一个「学生 — 老师 — 督导」的类比来理解:

  过去训练 AI 数学模型,通常只看最后的答案对不对。但在高等数学证明题(如奥数)中,过程严谨比答案更重要。因此,DeepSeek 团队首先训练了一个专门的验证器(Verifier),也就是「阅卷老师」。这个老师不只是打钩打叉,而是学会了像人类专家一样把证明过程分为三档 :

  DeepSeek 发现了一个问题:阅卷老师有时候会胡乱扣分,它可能给了个低分,但指出的错误其实根本不存在(也就是产生了幻觉)。

  为了解决这个问题,他们引入了元验证(Meta-Verification)机制,相当于给老师配了个「督导」。督导的任务不是看考卷,而是专门检查老师写的「评语」是否合理。这样可以双重确认:督导会检查老师指出的错误是否真实存在,以及扣分是否符合逻辑deepseek。效果上,通过训练模型既能当老师又能当督导,AI 评估证明的准确性和可信度大幅提升。

  有了好的阅卷系统,接下来就是训练做题的「学生」(生成器)。这里有一个非常关键的创新:诚实奖励机制。也就是说,它不仅做题,还要自评:模型在输出解题过程后,必须马上跟上一段「自我评价」,自己给自己打分(0、0.5 或 1)。

  相反,如果它做错了却硬说自己是对的(盲目自信),或者试图「蒙混过关」,就会受到惩罚(得不到高奖励)。

  这样做的目的是可以迫使 AI 在输出答案前进行深度思考,试图发现并修正自己的错误,直到它认为自己真的做对了为止 。

  人类专家没法给成千上万道奥数题写详细的步骤评分,所以 DeepSeek 设计了一套自动化流程,让系统「左右互搏」来自我进化 :

  集体投票:让「老师」对这些解法进行多次评估。如果大多数评估都认为某个解法有问题,那就判定为有问题;如果没有发现任何漏洞,才判定为正确 。

  以战养战:通过这种方式,系统自动筛选出那些很难判卷或很难做对的题目,变成新的教材,重新训练「老师」和「学生」。这样,随着「学生」解题能力变强,「老师」的眼光也越来越毒辣 。

  总之,DeepSeekMath-V2 的方法本质上是从「结果导向」转向了「过程导向」。它不依赖大量的数学题答案数据,而是通过教会 AI 如何像数学家一样严谨地审查证明过程(包括审查它自己),从而在没有人类干预的情况下,也能不断提升解决高难度数学证明题的能力 。

  DeepSeek 表示:「虽然仍有大量工作需要推进,但这些结果表明,可自我验证的数学推理是一个可行的研究方向,有望推动更强大数学 AI 系统的发展。」

  这一自我验证的数学推理框架可以说突破了传统强化学习(RL)的限制,让模型不再依赖最终答案正确性作为唯一奖励,而是关注推理过程的严谨性。此外,DeepSeekMath-V2 中的验证器 - 生成器协同的双向改进循环带来了全面和严谨的数学推理能力,大幅减少了大模型幻觉。原文出处:DeepSeek强势回归,开源IMO金牌级数学模型,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek强势回归,开源IMO金牌级数学模型” 的相关文章

前DeepSeek研究员罗福莉加入小米,要实现她的愿景挑战有多大?

前DeepSeek研究员罗福莉加入小米,要实现她的愿景挑战有多大?

  AGI这玩意儿,一旦从“语言”走向“物理世界” ,它就彻底脱离了形而上的哲学辩论,变成了一个赤裸裸的、关于资本投入和物理工程的硬核生意。   OpenAI的AGI标准...

11月18日DeepSeek预测:雄鹿vs骑士,字母哥带伤出战难敌米切尔火力全开

11月18日DeepSeek预测:雄鹿vs骑士,字母哥带伤出战难敌米切尔火力全开

  北京时间11月18日早8点,NBA常规赛将迎来一场东部焦点战,目前排名东部第7的密尔沃基雄鹿(8胜6负)将客场挑战高居东部第3的克利夫兰骑士(9胜5负)。此役对于双方排名至关重要——若...

Deepseek推荐全国旅游百强县市第96名:安徽宁国市

Deepseek推荐全国旅游百强县市第96名:安徽宁国市

  日前,全国县镇发展研究课题组、天和经济研究所县镇发展研究院联合发布了2024《全国县镇发展报告》,报告评价篇对全国县市以及包含乡村人口的市辖区旅游发展水平进行了综合评价,并发布了天和2...

腾讯版“小龙虾”WorkBuddy正式上线,国内版无缝切换DeepSeek、GL

腾讯版“小龙虾”WorkBuddy正式上线,国内版无缝切换DeepSeek、GL

  据腾讯云官微消息,今天,腾讯版“小龙虾”来了。3月9日,腾讯旗下全场景AI智能体WorkBuddy正式上线,完全兼容OpenClaw的技能,同时还做到了更易用、更安全、更懂办公。...

两个一级部门合并!小鹏汽车成立“通用智能中心”!何小鹏:要第一个抓住自动驾驶的“

两个一级部门合并!小鹏汽车成立“通用智能中心”!何小鹏:要第一个抓住自动驾驶的“

  2月3日,有消息称,小鹏汽车在近日将两个智能化一级部门自动驾驶中心、智能座舱中心合并为通用智能中心。新部门由原自动驾驶负责人刘先明主导,直接向小鹏汽车董事长、CEO何小鹏汇报。《每日经...

中方回应美称DeepSeek可能违反出口管制

中方回应美称DeepSeek可能违反出口管制

  有记者提问,据一位美国政府高级官员称deepseek,DeepSeek的AI模型据说是使用英伟达最先进的AI芯片进行训练的。这可能违反美国的出口管制,美方认为DeepSeek需要将相关...