当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态

9个月前 (09-01)Deepseek最新资讯381

  当前,业界顶尖的大模型正竞相挑战“过度思考”的难题,即无论问题简单与否,它们都采用 “always-on thinking” 的详细推理模式。无论是像 DeepSeek-V3.1 这种依赖混合推理架构提供需用户“手动”介入的快慢思考切换,还是如 GPT-5 那样通过依赖庞大而高成本的“专家路由”机制提供的自适应思考切换。它们距离真正意义上的“智能思考”仍有距离。这些方案或将判断压力转移给用户,或受限于复杂的系统架构和高昂的部署成本。因此,研发一款轻量化、支持多模态且能实现更智能自适应思考的大模型,将为用户提供更加流畅的交互体验。

  近期,由腾讯混元团队与中科院自动化所合作的一项最新研究推出 R-4B 多模态大模型,通过自适应思考(auto-thinking)机制,改变了这一现状,它让 AI 能像人类一样 “智能切换” 思维模式。简单问题直接响应,复杂问题深度推理,在最大化回答准确性的同时,最小化计算开销。

  这一 “按需思考” 的核心能力,为 4B 量级的多模态模型树立了全新的性能标杆,使其在评测性能指标上成功超越了 Keye-VL-8B、Kimi-VL-A3B-Thinking-2506 等更大规模的模型。

  登顶 OpenCompass 多模态学术榜单:在 20B 以内规模多模态大模型中,性能排名 Top 1!

  目前,该模型已在 GitHub 和 HuggingFace 上线,且支持 vLLM 快速部署。「消费级显卡即可运行,适用于笔记本电脑、智能座舱、智能家居等低功耗场景,支持垂直领域低成本微调。」截至目前下载量已破万,欢迎大家体验!

  R-4B 的核心创新在于其独特的两阶段训练策略。为实现模型在通用领域的自适应思考,研究团队首先提出双模退火(bi-mode annealing)训练策略,促使模型同时掌握通用领域的思考与非思考能力。

  该阶段可以理解为对模型进行 “思考” 启蒙,即同时喂给它两种范式数据:一种需要直接回答(非思考模式,像日常对话),另一种需要详细推理(思考模式,像解数学题)。通过这种训练,模型同时掌握了思考和非思考这两种响应模式,为后续的自适应思考模式训练打下坚实基础。该阶段的核心是通用领域推理和非推理模式的数据构建策略:针对客观题,用模型采样的答案一致性来衡量题目的难易程度;针对主观题目,用提示工程的方式去区分解决问题是否需要进一步思考。

  经过退火训练,得到一个同时精通思考与非思考模式的基础模型 R-4B-Base ,为后续自适应思考强化训练奠定基础。基于此,团队开发了双模策略优化(Bi-mode Policy Optimization, BPO)强化学习算法。它无需依赖精心设计的奖励函数或特定数据,而是仅依赖基于规则的奖励信号,从数学数据出发,并可泛化到通用领域。其核心是混合双模 rollout 机制,通过强制模型在训练中同时探索思考模式和非思考模式轨迹,从而避免模型陷入对单一模式的响应偏好deepseek。在此基础上,通过同时奖励两种思考模式的策略,使模型自己学会判别何时应该思考。

  更关键的是,R-4B-RL 在自适应思考模式下实现了推理效率的提升,在简单任务下模型无需消耗更多的 Token。这证明了 BPO 算法的有效性,即无需通用领域的强化学习数据或额外的奖励函数设计,模型也能实现自适应思考。

  应用智能:在日常问答分析中,自动切换简单查询(如文档内容提取)和复杂推理(如图表分析)的思维模式,提升自动化处理效率。

  科学研究:在处理科学图表时,R-4B 的深度推理模式可解析多步关系,精准解读数据,提高研究效率。

  消费级 AI:边缘设备部署中,R-4B 凭借更少的参数和自适应思考模式降低延迟和能耗,适用于即时问答系统。

  从双模退火训练到 BPO 优化,R-4B 不仅解决了 MLLMs 的思考困境,更在小尺寸模型上探索了自适应思考的可行性 。自适应思考不仅是技术优化,更是对效率与普惠平衡的追求。在 AI 计算与推理成本飙升的今天,R-4B 的轻量化、智能化设计,为大模型可持续发展注入绿色动力。原文出处:DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态” 的相关文章

DeepSeek新年炸场!梁文锋署名论文发布

DeepSeek新年炸场!梁文锋署名论文发布

  1月1日消息,DeepSeek赶在新年前发送了“贺礼”,在新论文中提出了名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代...

千亿美金涌入中国科技股!“DeepSeek时刻”引爆价值重估

千亿美金涌入中国科技股!“DeepSeek时刻”引爆价值重估

  (交易型开放式指数基金)在纳斯达克上市,其前十大重仓股囊括了从阿里巴巴、腾讯控股、小米集团到   一场由华尔街主导的做多中国科技股浪潮正扑面而来。在这场资本盛宴的背后...

2025赤水河论坛丨DeepSeek揭秘烈酒“MBTI”

2025赤水河论坛丨DeepSeek揭秘烈酒“MBTI”

  镇举行。在拥抱Z世代分论坛上“中西酒文化MBTI大揭秘”环节,主办方基于人工智能分析平台DeepSeek的分析,发布了一份趣味十足的烈酒“性格”报告,为多款中外知名烈酒标注了MBTI人...

李未可AI眼镜:你的“第二大脑”,能翻译会策划,还能写代码

李未可AI眼镜:你的“第二大脑”,能翻译会策划,还能写代码

  在行为经济学著作《思考的快与慢》中,丹尼尔·卡尼曼将人类思维划分为两个系统:系统1代表快速、直觉、自动化的反应,而系统2则负责缓慢、理性、深度的思考。这一理论不仅解释了人类的决策机制,...

DeepSeek预测:勒阿弗尔vs巴黎圣日耳曼!大巴黎火力全开,姆巴佩接班人巴尔

DeepSeek预测:勒阿弗尔vs巴黎圣日耳曼!大巴黎火力全开,姆巴佩接班人巴尔

  作为法甲历史最悠久的俱乐部之一,勒阿弗尔本赛季表现挣扎,目前仅以26分排名第13位,距离降级区仅有9分优势。而巴黎圣日耳曼则以54分领跑积分榜,领先第二名朗斯2分。这场对决堪称强弱悬殊...

事事关心 | “智能时代 同球共济” 中国发起倡议

事事关心 | “智能时代 同球共济” 中国发起倡议

  凭借多年的搜索与大模型技巧积累,坚持破和立的辩证统一,坚持革新和开放相统一,当时,习总揭橥首要讲话,一年来,切实做到“直面抵触问题不逃避,又一场会议。   百度在意图...