当前位置:首页 > Deepseek应用场景 > 正文内容

DeepSeek-R1“思维学”;苹果:原生多模态模型的Scaling Laws|今日热门论文

1年前 (2025-04-12)Deepseek应用场景661

速览热门论文

1.DeepSeek-R1“思维学”

2.苹果:原生多模态模型的 Scaling Laws

3.7B 模型超越 o1!视觉推理新突破:所需样本少,还能自提升

4.MIT 团队提出“自我引导”LM 方法 DisCIPL

5.MM-IFEngine:迈向多模态指令跟随

6.上海 AI Lab:利用强化微调增强 MLLM 时空感知

1. DeepSeek-R1“思维学”

像 DeepSeek-R1 这样的推理模型标志着大语言模型(LLM)在处理复杂问题方式上的根本转变。DeepSeek-R1 不是直接根据给定输入生成答案,而是创建详细的多步推理链,仿佛在“思考”问题后再做出回答。

这个推理过程是公开透明的,用户可以查看,为研究模型的推理行为创造了机会,并催生了一个新领域:思维学(Thoughtology)。

Mila 团队从 DeepSeek-R1 的基本推理构件分类法出发,对 DeepSeek-R1 进行了分析,研究了思维长度的影响和可控性、对冗长或混乱上下文的管理、文化和安全问题,以及与人类认知现象(如类人语言处理与世界建模)之间的关系。

他们发现,DeepSeek-R1 有一个推理的“甜蜜点”,超过这个点的额外推理时间反而会损害模型性能。此外,DeepSeek-R1 还会反复纠结于已探索过的问题表述,从而阻碍了进一步的探索。与其非推理模型相比,DeepSeek-R1 存在很强的安全漏洞,这也会损害安全对齐的 LLM。

论文链接:

https://arxiv.org/abs/2504.07128

2. 苹果:原生多模态模型的 Scaling Laws

构建能够通过多模态信号有效感知世界的通用模型,一直是人工智能(AI)领域的长期目标。

目前的方法包括整合单独的预训练组件,例如将视觉编码器与大语言模型(LLM)连接,并继续进行多模态训练。虽然这些方法显示出显著的采样效率,但这种“晚期融合架构”是否具有固有的优越性仍是一个未决问题。

在这项工作中,苹果团队重新审视了原生多模态模型(NMM)的架构设计并进行了广泛的 scaling laws 研究,涵盖了 457 个具有不同架构和训练 mixture 的训练模型。研究表明,与不依赖图像编码器的早期融合架构相比,晚期融合架构

并没有固有优势。相反,早期融合架构在参数较少的情况下表现出更强的性能,训练效率更高,也更容易部署。受早期融合架构性能优势的启发,他们展示了将混合专家(MoE)纳入模型可以学习特定模态的权重,从而显著提高性能。

论文链接:

https://arxiv.org/abs/2504.07951

3. 7B 模型超越 o1!视觉推理新突破:所需样本少,还能自提升

在这项工作中,来自马里兰大学和微软的研究团队提出了一种增强视觉推理的有效方法,其所需训练样本少,纯粹依靠自我改进,且没有知识提炼。

他们认为,强化微调(RFT)过程中训练数据的难度至关重要,即使数据集很小,适当的挑战样本也能大幅提高推理能力。因此,主要的挑战仍然是如何准确量化样本难度,以实现有效的数据筛选。

为此,他们提出了重新利用蒙特卡洛树搜索(MCTS)的新方法。从他们策划的 70k 个开源训练样本开始,他们引入了一种基于 MCTS 的选择方法,该方法根据 VLM 解决每个问题所需的迭代次数来量化样本难度。MCTS 中这种明确的

分步推理方法能让模型思考更长的时间,从而更好地识别真正具有挑战性的样本。他们筛选并保留了 11k 个样本,在 Qwen2.5-VL-7B-Instruct 上执行 RFT,最终形成了 ThinkLite-VL 模型。

对 8 个基准的评估结果表明,ThinkLite-VL 在仅使用 11k 个训练样本且未进行知识提炼的情况下,将 Qwen2.5-VL-7B-Instruct 的平均性能提高了 7%,优于所有现有的 7B 级推理 VLM,也优于他们使用经典选择方法(如基于准确性的过滤)的对比基线。值得注意的是,在 MathVista 上,ThinkLite-VL-7B 实现了 SoTA 准确率 75.1,超过了 Qwen2.5-VL-72B、GPT-4o 和 o1。

论文链接:

https://arxiv.org/abs/2504.07934

4. MIT 团队提出“自我引导”LM 方法 DisCIPL

虽然测试时推理使语言模型(LM)能够处理复杂的任务,但用自然语言进行搜索或规划可能会很慢、成本很高,而且容易出错。然而,尽管语言模型难以模仿解决问题所需的精确推理步骤,它们也往往擅长描述问题的抽象结构——包括如何验证解决方案,以及如何搜索解决方案。

在这项工作中,麻省理工学院(MIT)团队提出了一种“自我引导”LM 方法 DisCIPL,即一个 Planner 模型生成一个特定于任务的推理程序,一群

Follower 模型来执行这一程序。这一方法使 LM 具备了编写指导 LM 推理的递归搜索程序的能力,从而实现了新形式的可验证和高效推理。

当实例化为一个小型 Follower 模型(例如 Llama-3.2-1B)时,DiscIPL 可以在具有挑战性的受限生成任务中比肩(有时甚至优于)

更大型的模型,包括 GPT-4o 和 o1。通过将规划与执行解耦,这一工作为高度并行化的蒙特卡洛推理策略开辟了设计空间,这些策略优于标准的 best-of-N 采样,无需微调,且可以由现有的 LM 自动实现。

论文链接:

https://arxiv.org/abs/2504.07081

5. MM-IFEngine:迈向多模态指令跟随

指令跟踪(IF)能力衡量的是多模态大语言模型(MLLM)对用户指令的准确理解以及正确解决问题的程度。现有多模态指令跟踪训练数据很少,基准都是简单的原子指令,而且对于要求精确输出约束的任务来说,评估策略并不精确。

为了解决这一问题,上海 AI Lab 团队提出了一个生成高质量图像指令对的有效管道——MM-IFEngine,其可以生成大规模、多样化和高质量的训练数据 MM-IFInstruct-23k,该数据适用于监督微调(SFT),并可扩展为用于直接偏

好优化(DPO)的 MM-IFDPO-23k。他们进一步提出了一个具有挑战性和多样性的多模态指令跟随基准——MM-IFEval,包括:(1)输出响应的合成级约束和与输入图像相关的感知级约束;(2)包含基于规则的评估和法官模型的综合评估管道。

SFT 和 DPO 实验证明,在 MM-IFInstruct-23k 和 MM-IFDPO-23k 上对 MLLM 进行微调,可在 MM-IFEval(+10.2%)、MIA(+7.6%)和 IFEval(+12.3%)等指令跟随基准上实现性能提升。

论文链接:

https://arxiv.org/abs/2504.07957

6. 上海 AI Lab:利用强化微调增强 MLLM 时空感知

强化学习提高了多模态大语言模型(MLLM)的推理能力。虽然群体相对策略优化(GRPO)和基于规则的奖励机制等方法已经应用于文本和图像领域,但它们在视频理解方面的应用仍然有限。

在这项工作中,上海 AI Lab 团队介绍了针对视频 MLLM 的强化微调(RFT)与 GRPO 的系统探索,旨在增强时空感知,同时保持通用能力。

实验表明,RFT 对特定任务的提升具有很高的数据效率。通过对样本有限的时空感知目标进行多任务 RFT,他们开发出了视频 MLLM——VideoChat-R1,其在不牺牲聊天能力的前提下,在时空感知任务上实现了 SOTA,同时展现了时空推理能力。与 Qwen2.5-VL-7B 相比,VideoChat-R1 在时间接地(+31.8)和物体跟踪(+3

1.2)等任务上的性能提高了数倍。此外,它还提高了通用问答基准的性能,如 VideoMME(+0.9)、MVBench(+1.0)和 Perception Test(+0.9)。这一研究结果凸显了 RFT 在增强视频 MLLM 的专业任务方面的潜力。

论文链接:

https://arxiv.org/abs/2504.06958

整理:学术君

如需转载或投稿,请直接在公众号内留言

原标题:《DeepSeek-R1“思维学”;苹果:原生多模态模型的Scaling Laws|今日热门论文》


“DeepSeek-R1“思维学”;苹果:原生多模态模型的Scaling Laws|今日热门论文” 的相关文章

汉王科技:公司的电纸本全系产品已经接入Deepseek-R1和V3模型

汉王科技:公司的电纸本全系产品已经接入Deepseek-R1和V3模型

有投资者向汉王科技提问, 公司对DEEPSEEK评估完成了吗,现已接入了吗公司回答表示,您好,目前公司的电纸本全系产品已经接入Deepseek-R1和V3模型,除此之外,暂无其他合作。谢谢关注。...

中国电信天翼云推出息壤智算一体机-DeepSeek版

中国电信天翼云推出息壤智算一体机-DeepSeek版

【中国电信天翼云推出息壤智算一体机-DeepSeek版】财联社2月11日电,伴随着DeepSeek持续出圈,DeepSeek智算一体机等硬件热度一路飙升,各行业需求明显增长。为了满足企业的私有化、国产...

华是科技:已成立人工智能部,在deepseek基础上进行行业应用测试

华是科技:已成立人工智能部,在deepseek基础上进行行业应用测试

金融界4月10日消息,有投资者在互动平台向华是科技提问:董秘您好,近期以deepseek为首的开源模型对贵公司产生了哪些实质影响?贵公司目前的订单如何?今年的业绩展望如何?公司回答表示:公司已成立人工...

“像DeepSeek这样的团队,中国至少还有18个”

“像DeepSeek这样的团队,中国至少还有18个”

2025年,以DeepSeek为代表的人工智能技术掀起热潮,令国产大模型格局发生巨变。未来人工智能如何进一步发展?中国的人工智能发展之路如何走?在第八届数字中国建设峰会期间举办的“院士专家行”活动上,...

DeepSeek说:为什么感觉时间越过越快?

DeepSeek说:为什么感觉时间越过越快?

关于时间感知随年龄增长而加快的现象,科学界提出了多个理论来解释这一普遍体验。以下是主要原因的解析:1. 记忆密度理论(新异刺激理论)◦ 核心机制:大脑通过存储新体验的数量来衡量时间长度。童年...

拉卡拉(300773.SZ):已经接入DeepSeek大模型

拉卡拉(300773.SZ):已经接入DeepSeek大模型

格隆汇5月26日讯丨在近期的投资者关系活动中,拉卡拉(300773.SZ)透露,公司已成功接入DeepSeek大模型,并且正与多个其他大模型展开合作,将相关技术深度应用于公司旗下的AI原生应用,如拉卡...