当前位置:首页 > Deepseek应用场景 > 正文内容

DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆

1年前 (2025-05-01)Deepseek应用场景605

IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。

IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。

相关阅读:

《DeepSeek-Prover-V2-671B 新模型开源发布》


“DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆” 的相关文章

广西中烟实现DeepSeek大模型国产化本地化部署

广西中烟实现DeepSeek大模型国产化本地化部署

为积极推进人工智能技术的应用,助力公司数字化转型进程,近日,广西中烟信息中心迅速调配资源,组织技术团队深入攻关,成功实现DeepSeek-r1国产大模型的国产化、本地化部署。该公司技术团队经过约一周时...

“卖的就是信息差”!借DeepSeek做社群月入18万?“教程”标价10万……紧急声明

“卖的就是信息差”!借DeepSeek做社群月入18万?“教程”标价10万……紧急声明

某热门DeepSeek社区会员费为61元,总会员数超过3600人,在DeepSeek爆红的近一个月里,仅会员费收入就超过18万元。今年春节,国产AI公司深度求索开发的大模型DeepSeek成为爆款。据...

湘潭政务服务开启DeepSeek新节奏

湘潭政务服务开启DeepSeek新节奏

AI赋能数字湘潭建设湘潭政务服务开启DeepSeek新节奏(记者 陈颖 通讯员 葛亚芬 朱欣)3月10日,基于DeepSeek-R1满血版大模型建设的“湘潭政务推理大模型”正式上线,这是湘潭市探索以A...

“DeepSeek宿州版”部署上线

“DeepSeek宿州版”部署上线

 日前,在宿州市大数据公司子公司宿州市广云智算科技有限公司建设的淮海智算中心,随着大模型完成本地化部署并上线,国内领先的人工智能大模型正式登陆云都宿州,为助力高质量发展打开了人工智能应用之门。  De...

DeepSeek“开源周”点燃大模型开闭源之争

DeepSeek“开源周”点燃大模型开闭源之争

本报记者 秦枭 北京报道DeepSeek 近期举办的“开源周”,宛如一颗重磅炸弹,在全球AI领域激起千层浪。然而,DeepSeek“开源周”带来的影响远不止技术层面,它如同导火索,引发了大模型开源与闭...

韩国:暂停DeepSeek下载

韩国:暂停DeepSeek下载

据韩联社17日报道,韩国政府当天表示,已经临时暂停基于中国人工智能企业深度求索(DeepSeek)大模型的应用程序在韩国的服务,理由是所谓的“数据收集担忧”。报道称,韩国个人信息保护委员会(PIPC)...