当前位置:首页 > Deepseek最新资讯 > 正文内容

NeurIPS 2025 DynaAct:DeepSeek R1之外,探索大模型

6个月前 (11-29)Deepseek最新资讯151

  针对这个问题,来自蚂蚁和香港大学自然语言组的研究团队(后简称「团队」)给出了 TTS 的另一种思路:

  与传统 token-by-token 式的 CoT 不同,DynaAct 提出以 Action Space Optimization 为核心的 TTS 范式:在每一步推理中动态构建可选动作集合,并通过学习算法从中选择最优动作,从而让推理路径更高效、更具结构化。

  当前主流 TTS 方法通过「更长的思维链」来提升性能,但随之而来的,是搜索空间爆炸与冗余思考。团队认为,推理效率的瓶颈并不在「算得不够多」,而在「选得不够好」。

  DynaAct 将推理过程类比为决策序列:每一步的关键不是「生成什么」,而是「选择什么去执行」。

  DynaAct 核心思想是将动作空间学习问题转化为集合选择问题,并通过子模优化(Submodular Optimization)来实现线性复杂度的算法。

  子模优化的关键在于定义合适的子模函数(Submodular Function)。由于子模函数具备「集合越大,新增元素收益越小」的性质deepseek,因此可以贪心地构建一个子集,实现子集性质近似最优,同时算法复杂度维持在线性。

  具体来说,DynaAct 定义的子模函数包括 utility 和 diversity 两个部分。前者度量动作空间与当前状态的相似度;而后者则刻画动作空间中动作的冗余度:

  这样定义下的子模函数学习等价于学习动作和状态的 embedding。DynaAct 采用 Q-learning 来优化,希望利用学到的子模函数能最终选出最大化推理回报(reward)的动作空间。

  在系统实现层面,团队开源了基于 vLLM 的高性能 MCTS 框架。该实现显著提升了节点扩展、Rollout 与 Reward 计算效率,为后续 TTS 研究提供了通用加速方案。

  在 6 项推理基准上,DynaAct 显著优于 CoT、RAP 与 rStar 等方法,验证了动态动作空间的有效性。原文出处:NeurIPS 2025 DynaAct:DeepSeek R1之外,探索大模型推理的另一条道路,感谢原作者,侵权必删!

标签: deepseek

“NeurIPS 2025 DynaAct:DeepSeek R1之外,探索大模型” 的相关文章

AI算力爆发叠加数据资产风口,铂拉锐科技布局去中心化数字生态

AI算力爆发叠加数据资产风口,铂拉锐科技布局去中心化数字生态

  当前,数字经济进入高质量发展新阶段,CDN流量算力与数据资产并表已成为资本市场聚焦的核心赛道,双重风口叠加下,行业正迎来前所未有的发展机遇。随着ChatGPT、DeepSeek等大模型...

就说换做你是特根,离队这事怎么处理?

就说换做你是特根,离队这事怎么处理?

  我觉得我会今年先申请租借如果可以的话,手握两年合同世界杯后还想拼就离队,不想拼就躺着拿钱,按照刚开始报道俱乐部应该能接受特狮租借离队   我觉得我...

DeepSeek预测:富勒姆vs阿森纳!枪手火力全开,哲凯赖什能否再破农场主防线

DeepSeek预测:富勒姆vs阿森纳!枪手火力全开,哲凯赖什能否再破农场主防线

  英超第8轮即将上演一场伦敦德比,排名第14的富勒姆将在克拉文农场球场迎战领头羊阿森纳。富勒姆目前2胜2平3负积8分,距离降级区仅有4分优势;而阿森纳则以5胜1平1负积16分的战绩领跑积...

DeepSeek新模型真的要来了?“MODEL1”曝光

DeepSeek新模型真的要来了?“MODEL1”曝光

  在DeepSeek-R1发布一周年之际,新模型“MODEL1”的项目名在开源社区悄然出现。近日,DeepSeek官方在GitHub更新了一系列FlashMLA代码,项目文件有数十处都提...

2025年11月18日DeepSeek概念涨停板梳理

2025年11月18日DeepSeek概念涨停板梳理

  2025年11月18日,DeepSeek概念受到利好消息的刺激下,整个板块掀起了涨停潮。共12家涨停,7家连板。2家一字板deepseek。原文出处:2025年11月18日DeepSe...

全球首个!蜜丝婷开启美妆抗光损DeepSeek时刻

全球首个!蜜丝婷开启美妆抗光损DeepSeek时刻

  以“AI御光,不止防晒”为主题,防晒头部品牌MISTINE蜜丝婷线粒体抗光损科技国际学术研讨会暨第四届光生物学峰会在此启幕。会上,MISTINE蜜丝婷正式发布诺奖共研全球首创AI线粒体...