当前位置:首页 > Deepseek应用场景 > 正文内容

DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆

12个月前 (05-01)Deepseek应用场景602

IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。

IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。

相关阅读:

《DeepSeek-Prover-V2-671B 新模型开源发布》


“DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆” 的相关文章

编辑谈DeepSeek丨数智化浪潮中编辑的“智能觉醒”与转型

编辑谈DeepSeek丨数智化浪潮中编辑的“智能觉醒”与转型

  当前,数字洪流与人工智能技术正重构着当代出版业的面貌,出版人也正站在千年出版文明与智能革命的交汇点上。山东出版(601019)集团提出的“数智五化”战略,正如一把打开未来之门的钥匙,在内容生产及形...

助力构建智能政务生态!梅州12345热线全市率先“牵手”DeepSeek

助力构建智能政务生态!梅州12345热线全市率先“牵手”DeepSeek

日前,梅州市政务服务和数据管理局联手中国电信梅州分公司部署接入DeepSeek,探索DeepSeek先进技术的政务化应用,构建智能政务生态。其中,梅州12345热线21日全市率先实现DeepSeek赋...

深度求索“DeepSeek”详细解释“DeepSeek”可以应用哪些场景

深度求索“DeepSeek”详细解释“DeepSeek”可以应用哪些场景

“DeepSeek”详细解释“DeepSeek”可以应用哪些场景?DeepSeek是基于深度学习的智能语音搜索器,能够通过语音输入快速理解复杂的语言信息,并查找相关资料或信息。以下是一些可能的应用场景...

中海物业接入DeepSeek大模型,推出“海宝AI助手”

中海物业接入DeepSeek大模型,推出“海宝AI助手”

乐居财经 李兰 3月11日,中海物业通过官方微信公众号宣布,正式接入DeepSeek大模型,推出智能化服务平台“海宝AI助手”。该产品通过AI技术深度赋能物业服务全链条,旨在提升运营效率与标...

捷顺科技公司捷停车接入DeepSeek

捷顺科技公司捷停车接入DeepSeek

捷顺科技公司捷停车接入DeepSeek每经AI快讯,有投资者在投资者互动平台提问:贵公司有和deepseek合作吗?如果没有的话,接下来有意向合作吗?捷顺科技(002609.SZ)3月26日在投资者互...

安徽移动铜陵分公司推动DeepSeek大模型本地化部署卓有成效

安徽移动铜陵分公司推动DeepSeek大模型本地化部署卓有成效

今年以来,DeepSeek大模型风靡全球,在国内外科技领域掀起了AI热潮,为响应人工智能技术快速迭代趋势,推动AI大模型在本地普及和应用落地,安徽移动铜陵分公司(以下简称:铜陵移动)积极推动DeepS...