当前位置：首页 > Deepseek最新资讯 > 正文内容

毫无征兆！DeepSeek R1爆更86页论文，这才是真正的Open

5个月前 (01-08)Deepseek最新资讯89

　　【新智元导读】R1论文暴涨至86页！DeepSeek向世界证明：开源不仅能追平闭源，还能教闭源做事！

　　有网友表示，这次更新堪称一本教科书了！尤其是，关于DeepSeek-R1-Zero自我进化细节是真正的亮点。

　　值得一提的是，DeepSeek应用也在几天前上新功能——支持语音输入。有网友对此猜测，可能他们要发力多模态了。

　　另外，在长上下文的问答任务（FRAMES）上，DeepSeek-R1表现亮眼，文档理解与分析能力出色。

　　在DeepSeek看来，主要是工程类RL训练数据还不够多，所以DeepSeek-R1在这块的能力还没完全发挥出来。

　　人工评估阶段，采用了ChatbotArena擂台，通过ELO分数来体现DeepSeek-R1在人类偏好上的表现。

　　显然，R1取得了亮眼的成绩。尤其是，在「风格控制」中，它与OpenAI-o1、Gemini-Exp-1206打成平手，并列第一。

　　「风格控制」这一设计直接回应了一个关键问题：模型是否可能通过更长、更精致或更好看的回答来「取悦」人类评审，即使其内容本身并不一定更强。

　　DeepSeek强调，一个基于MIT协议的开源模型，整体表现与多款闭源AI相媲美，这无疑是一个重要的里程碑。

　　下图12，更近一步展示了不同评测维度下的排名结果，呈现了R1在数学、编程等多个领域的强劲实力。

　　在强化学习阶段，数据比例是这样分配的：数学（26k）、代码（17k）、STEM（22k）、逻辑（15k）、通用（66k）。

　　这里，DeepSeek作为「教师」模型，生成高质量、显式推理轨迹的数据，通过SFT把推理能力「蒸馏」给更小的「学生」模型，而不是让小模型再跑一遍RL。

　　通过蒸馏，小模型直接学习R1已经验证有效的推理模式，不需要重新探索reward space。

　　论文中，DeepSeek实验蒸馏了多个规模的模型，包括1.5B、7B、8B、14B、32B、70B，系统性地验证了「跨尺度有效性」。

　　在DeepSeek-R1训练阶段，沿用了相同的GPU配置，并在大约4天内完成训练，约80小时。

　　对人类而言较为简单的推理任务，DeepSeek-R1-Zero在训练早期便被模型掌握，而在复杂推理问题（难度3–5）上的能力则会随着训练显著提升。

　　在较难问题（3-4级）上的准确率，DeepSeek-R1-Zero偶尔会以微弱优势超过其在较简单问题（1级）上的表现deepseek。

　　如下图a所示，随着训练的进行，反思行为的频率逐渐增加：反思性词汇的数量相比训练开始时增加了5到7倍，

　　如下图b所示，「wait」反思策略在训练早期几乎不存在，在4000-7000步之间偶尔出现，然后在8000步之后孤峰突起。

　　总之，他们观察到模型在训练过程中的反思行为逐渐增加，而某些反思模式（如使用「wait」）则在训练过程的特定时间点出现。

　　首先，过滤潜在风险对话。在每轮对话结束后，系统会自动将用户的提问与一组预设关键词列表进行匹配。

　　其次，基于模型审查风险。被标记为潜在风险的对话将与预设的「风险审查提示词」（见示例8）拼接在一起，并发送给DeepSeek-V3模型进行审查。系统会根据模型的判断结果，决定是否撤回该轮对话内容。

　　实验结果显示，与其他前沿模型相比，DeepSeek-R1在整体安全性上与其他先进模型表现相当。

　　然而，在HarmBench测试中，R1的表现明显落后，主要源于R1在涉及「知识产权」的相关问题上表现欠佳。除此之外，在其他安全类别的评估中（如歧视与偏见、暴力与极端主义、隐私侵犯等），R1模型表现稳定，展现出较强的安全防护能力。

　　在未启用控制时，DeepSeek-R1与DeepSeek-V3的基础模型拒答率较低，但不安全率较高。启用风险控制后，不安全率明显下降，但拒答率升高（约25%）。 DeepSeek-R1在处理违法犯罪类问题和伦理道德类问题时表现出色，而在应对歧视偏见类问题与有害行为类问题时则表现一般。

　　评估模型在不同语言之间的安全差异同样至关重要。为此，他们将此前构建的中英双语安全测试集扩展至50种常用语言。

　　在开发的最初阶段，他们曾尝试使用较小规模的模型作为强化学习（RL）训练的起点。然而，在以AIME基准作为主要验证集的评测中，这些模型始终未能带来实质性的性能提升。

　　这一结果表明，从基础模型出发进行强化学习，其效果在很大程度上取决于模型本身的容量与表达能力。

　　一是基于规则的奖励模型（Reward Models，RMs），二是利用大语言模型来判断生成答案是否与预先定义的标准答案一致。

　　RL与SFT在整个训练流程中缺一不可。单独依赖RL，容易在问题本身定义不清的任务中引发奖励作弊和次优行为；而只依赖SFT，则可能限制模型通过探索进一步提升其推理能力。原文出处：毫无征兆！DeepSeek R1爆更86页论文，这才是真正的Open，感谢原作者，侵权必删！

标签: deepseek

返回列表