当前位置：首页 > Deepseek最新资讯 > 正文内容

梁文锋署名新论文：给大模型配本“字典”，计算、记忆分家后智商爆表，剧透DeepS

5个月前 (01-13)Deepseek最新资讯99

　　长期以来，Transformer架构被困在一个昂贵的悖论中：我们用着最先进的GPU算力，去让AI模型“死记硬背”那些查字典就能知道的静态知识。

　　DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》，彻底打破了这一僵局。他们提出了一种全新的Engram（印迹）模块，在传统的“条件计算”（MoE）之外，开辟了第二条稀疏化战线——“条件记忆”。

　　这不只是一次技术修补，而是一场关于模型“脑容量”的供给侧改革。它证明了：当我们将“记忆”从“计算”中剥离，把该背的交给“字典”，把该算的交给大脑，AI的推理能力将迎来反直觉的爆发式增长。

　　DeepSeek计划在2月春节前后正式发布V4，而这一刻或许就是DeepSeek V4诞生的前夜。

　　故事的起点，源于DeepSeek团队对Transformer内部运作机制的一次“核磁共振”扫描。

　　在人工智能的黑盒子里，当大模型看到“Diana, Princess of Wales”（戴安娜，威尔士王妃）这个短语时，它的内部发生了一场令人费解且极其昂贵的“内耗”。

　　“戴安娜王妃”是一个客观存在的、静态的实体，它不会因为上下文的变化而改变其本质。为了提取这个本来查字典就能知道的事实，Transformer竟然动用了整整6层深度的昂贵矩阵运算去“重建”这个概念。

　　这就像是一个绝世天才，在去解决微积分难题之前，每次都得先花半小时默写一遍九九乘法表。这种“隐式记忆”的机制，迫使模型将宝贵的参数容量和网络深度，浪费在了简单的模式匹配上。

　　DeepSeek在这篇长达33页的论文中，提出了一个直击灵魂的拷问：为什么不直接给大模型配一本可以随查随用的“超级字典”？

　　如果说MoE（混合专家模型）是把“大脑”分成了不同的区域，让不同的专家负责不同的思考（条件计算）；那么Engram就是给大脑外挂了一个巨大的“海马体”，专门负责存储静态知识（条件记忆）。

　　Engram的核心灵感，竟然来自于NLP（自然语言处理）领域的“上古神器”——N-gram。在深度学习统治世界之前，我们就是靠统计“N个词同时出现的概率”来理解语言的。

　　这一过程的时间复杂度是O(1)——这意味着无论知识库膨胀到多大（哪怕是1000亿参数），查找速度几乎不变，且极快。

　　既然查表这么好，为什么以前没人做？因为有三个拦路虎：存储爆炸、多义词冲突、参数分配。DeepSeek给出了教科书级的解决方案：

　　世界上的词组组合是天文数字。DeepSeek首先做了一步“无损压缩”。在分词器（Tokenizer）层面，它将语义相同但写法不同的词进行了归一化。

　　例如，“Apple”（首字母大写）和“apple”（小写）在语义上通常指同一个东西。通过映射归并，有效词表直接缩小了23%。这不仅节省了空间，更让知识的密度大幅提升。

　　不可能把所有N-gram都存下来。Engram使用了“多头哈希（Multi-Head Hashing）”技术。通过多个哈希函数，将无限的N-gram映射到有限的内存槽位中。虽然会有哈希冲突（即两个不同的词被映射到了同一个位置），但通过“多头”设计，模型可以从多个候选结果中拼凑出正确的信息，极大地提高了鲁棒性。

　　比如“苹果”这个词。在“吃苹果”的语境下，它指水果；在“苹果发布会”的语境下，它指科技公司。直接查表可能会引入噪声。

　　这个门控就像一个裁判。如果查出来的“静态知识”和当前的“上下文”不搭，裁判就会把权重压低（Gate值趋向0），让模型忽略这个噪声；如果完美契合（比如“伤寒杂病论”后跟着“张仲景”），裁判就会把大门打开（Gate值趋向1），直接把知识注入模型。

　　假设我们显卡里的显存是有限的，总参数预算也是固定的。我们应该把多少参数分配给MoE的“专家”（负责计算），多少参数分配给Engram的“字典”（负责记忆）？

　　这是一个典型的资源配置博弈。DeepSeek团队进行了一场大规模的消融实验，扫描了从0%到100%的分配比例，结果画出了一条完美的“U型Scaling Law曲线”。

　　这是一个极具指导意义的发现：对于几百亿参数的大模型来说，单纯堆砌计算单元（MoE专家）已经是边际效应递减了，必须引入专门的静态记忆模块来实现“存算平衡”。

　　如果Engram仅仅是让模型“记性更好”，这篇论文的分量还不足以震动社区。毕竟，RAG（检索增强生成）也能解决知识问题。

　　DeepSeek构建了三个对比模型，严格控制激活参数量（3.8B）和训练数据量（262B tokens）完全一致：

　　在MMLU（综合知识）上，Engram模型提升了3.4分；在CMMLU（中文知识）上，提升了4.0分。这很好理解，外挂了字典，常识自然更好了，幻觉更少了。

　　按理说，“查字典”和“做数学题”没关系。但在BBH（综合推理）上，Engram-27B竟然比同参数的纯MoE基线提升了整整5.0分！

　　DeepSeek团队利用LogitLens和“CKA（中心核对齐）”技术，对模型内部进行了“解剖”。他们发现了一个惊人的现象：

　　而在Engram模型中，由于第2层就插入了Engram模块，静态知识的检索在极早的阶段就完成了。

　　这相当于给模型“虚增”了深度。那些被释放出来的网络层和注意力头（Attention Heads），不再需要处理琐碎的局部依赖（比如识别“张仲景”是谁），从而可以全神贯注地投入到更复杂的全局推理、长程逻辑构建和代码逻辑生成中去。

　　对于华尔街的投资者和算力中心的运维者来说，这篇论文最性感的地方不在于Score，而在于Cost（成本）。

　　在AI时代，最昂贵的资源不是算力（FLOPs），而是显存（HBM）。英伟达H100之所以贵，很大程度上是因为那稀缺的HBM3e内存。

　　传统的MoE模型，其路由机制（Routing）是动态的。模型必须先算出当前Token的特征，算完这一层，才知道下一层该找哪个专家。这意味着，所有的专家模型必须时刻在昂贵的GPU显存里待命，随叫随到。

　　Engram的查表逻辑是确定性的。只要输入的文本确定了（比如“A New Axis of Sparsity”），那么它对应的N-gram索引就确定了。我们根本不需要等模型算完前一层，在Token进入模型的那一瞬间，我们就知道它需要查哪张表的哪一行。

　　DeepSeek实测数据显示：即使挂载了100B（千亿）参数的Engram表到CPU内存，相比于纯GPU推理，吞吐量的下降不到3%。

　　这是一个让所有因为买不到HBM而焦虑的人狂喜的结论。这意味着，未来的大模型，“记忆容量”可以低成本地无限扩张，而不必被英伟达的显存卡脖子。

　　除了通用推理，Engram在长文本（Long Context）领域的表现同样证明了“分工”的价值。

　　在长文本处理中，注意力机制（Attention）的窗口是有限的。如果注意力被大量的局部信息（如固定短语）占据，它处理全局信息的能力就会下降。

　　这说明，当我们将“局部记忆”外包给Engram后，Transformer原本的注意力机制就能更高效地捕捉几万字文档中的“草蛇灰线”。

　　把以上所有信息串联起来，我们已经隐约看到了DeepSeek下一代模型——DeepSeek V4的雏形。

　　华尔街见闻写道，报道称DeepSeek计划在2月（春节前后）正式发布V4。回顾DeepSeek的节奏：从2024年1月的R1，到年底击败GPT-5基准的V3.2，再到即将登场的V4，每一步都踩准了技术迭代的脉搏。

　　如果说R1展示了“推理”的深度deepseek，V3展示了“MoE”的效率，那么即将到来的V4，可能通过引入Engram技术，将解决记忆与计算的耦合，实现“电子脑（计算）”与“外部记忆（Engram）”的完美共生。

　　这不是一次简单的版本迭代，这是对Transformer架构底层缺陷的一次系统性手术。在DeepSeek V3已经凭借极其低廉的API价格和强大的性能席卷全球之后，V4如果集成了Engram技术，将带来更可怕的竞争力：它将拥有更大的知识库（低成本内存扩展）、更强的逻辑推理（网络深度解放）以及更低的推理成本（存算分离）。

　　更重要的是，报道提到V4在数据模式理解上的改进，“避免了以往模型在长时间训练下性能衰退的情况”。这与Engram将静态知识固化、减少动态网络负担的特性不谋而合——它让模型更稳定，更不容易“遗忘”或“精神错乱”。

　　春节前夕的这篇论文，不仅是DeepSeek的技术秀，更是向全行业发出的信号：单纯“卷算力”、“堆参数”的蛮荒时代结束了，架构创新的红利期才刚刚开始。而在这场定义下一代AI标准的竞赛中，中国大模型不仅没有掉队，甚至正在重新定义比赛规则。

　　2026，中国商业航天的“诺曼底时刻”刚刚过去；而AI领域的“存算分家”时刻，或许正是现在。原文出处：梁文锋署名新论文：给大模型配本“字典”，计算、记忆分家后智商爆表，剧透DeepSeek V4？，感谢原作者，侵权必删！

标签: deepseek