当前位置：首页 > Deepseek最新资讯 > 正文内容

梁文锋署名，DeepSeek论文上新

5个月前 (01-13)Deepseek最新资讯102

　　继去年底发布一篇新论文后，1月12日晚，DeepSeek又上新了一篇论文，这次聚焦的是大模型的条件记忆模块，在结论中DeepSeek 认为，这将成为下一代稀疏大模型中不可或缺的核心建模原语。

　　此前有爆料称DeepSeek下一代大模型V4将在春节前后发布，结合这几次研究，业内猜测这或许就是DeepSeek V4的研究路线图。

　　这篇论文的核心观察是，大模型包含两种性质完全不同的任务，一种是需要深度动态计算的组合推理，另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制，只能通过计算低效地模拟检索过程。例如模型查找不变的知识时，得浪费算力重新推导一遍，既费时间又占资源。

　　为解决这一问题，DeepSeek团队引入了条件记忆作为补充的稀疏性维度，并通过Engram这一条件记忆模块实现，优化神经计算（MoE）与静态记忆（Engram）之间的权衡关系。

　　团队还发现了U型缩放定律，表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是，尽管记忆模块直观上有助于知识检索，但团队在通用推理、代码和数学领域观察到了更为显著的收益。

　　简单来说，现在的MoE 模型处理推理和记固定知识用的是一套方法，效率较低且浪费算力，这篇论文本质是给大模型做了 “分工优化”：让专门的模块干专门的事，例如有“记忆本”管固定知识，而推理模块管复杂思考deepseek，再按最佳比例分配资源，最终让模型又快又聪明。

　　DeepSeek在论文最后表明，条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测，此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

　　此前有报道称，DeepSeek将于2月发布新一代旗舰模型DeepSeek V4，且内部初步测试表明，V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

　　自2024年底发布V3模型后，DeepSeek的下一代旗舰模型一直未出，去年底DeepSeek发布了小更新V3.2版本，并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型，V4的推出或将成为业界关注的焦点。原文出处：梁文锋署名，DeepSeek论文上新，感谢原作者，侵权必删！

标签: deepseek