当前位置:首页 > Deepseek最新资讯 > 正文内容

梁文锋署名新论文:给大模型配本“字典”,计算、记忆分家后智商爆表,剧透DeepS

3个月前 (01-13)Deepseek最新资讯97

  长期以来,Transformer架构被困在一个昂贵的悖论中:我们用着最先进的GPU算力,去让AI模型“死记硬背”那些查字典就能知道的静态知识。

  DeepSeek梁文锋团队与其北大合作者在今日凌晨发布的重磅论文《Conditional Memory via Scalable Lookup》,彻底打破了这一僵局。他们提出了一种全新的Engram(印迹)模块,在传统的“条件计算”(MoE)之外,开辟了第二条稀疏化战线——“条件记忆”。

  这不只是一次技术修补,而是一场关于模型“脑容量”的供给侧改革。它证明了:当我们将“记忆”从“计算”中剥离,把该背的交给“字典”,把该算的交给大脑,AI的推理能力将迎来反直觉的爆发式增长。

  DeepSeek计划在2月春节前后正式发布V4,而这一刻或许就是DeepSeek V4诞生的前夜。

  故事的起点,源于DeepSeek团队对Transformer内部运作机制的一次“核磁共振”扫描。

  在人工智能的黑盒子里,当大模型看到“Diana, Princess of Wales”(戴安娜,威尔士王妃)这个短语时,它的内部发生了一场令人费解且极其昂贵的“内耗”。

  “戴安娜王妃”是一个客观存在的、静态的实体,它不会因为上下文的变化而改变其本质。为了提取这个本来查字典就能知道的事实,Transformer竟然动用了整整6层深度的昂贵矩阵运算去“重建”这个概念。

  这就像是一个绝世天才,在去解决微积分难题之前,每次都得先花半小时默写一遍九九乘法表。这种“隐式记忆”的机制,迫使模型将宝贵的参数容量和网络深度,浪费在了简单的模式匹配上。

  DeepSeek在这篇长达33页的论文中,提出了一个直击灵魂的拷问:为什么不直接给大模型配一本可以随查随用的“超级字典”?

  如果说MoE(混合专家模型)是把“大脑”分成了不同的区域,让不同的专家负责不同的思考(条件计算);那么Engram就是给大脑外挂了一个巨大的“海马体”,专门负责存储静态知识(条件记忆)。

  Engram的核心灵感,竟然来自于NLP(自然语言处理)领域的“上古神器”——N-gram。在深度学习统治世界之前,我们就是靠统计“N个词同时出现的概率”来理解语言的。

  这一过程的时间复杂度是O(1)——这意味着无论知识库膨胀到多大(哪怕是1000亿参数),查找速度几乎不变,且极快。

  既然查表这么好,为什么以前没人做?因为有三个拦路虎:存储爆炸、多义词冲突、参数分配。DeepSeek给出了教科书级的解决方案:

  世界上的词组组合是天文数字。DeepSeek首先做了一步“无损压缩”。在分词器(Tokenizer)层面,它将语义相同但写法不同的词进行了归一化。

  例如,“Apple”(首字母大写)和“apple”(小写)在语义上通常指同一个东西。通过映射归并,有效词表直接缩小了23%。这不仅节省了空间,更让知识的密度大幅提升。

  不可能把所有N-gram都存下来。Engram使用了“多头哈希(Multi-Head Hashing)”技术。通过多个哈希函数,将无限的N-gram映射到有限的内存槽位中。虽然会有哈希冲突(即两个不同的词被映射到了同一个位置),但通过“多头”设计,模型可以从多个候选结果中拼凑出正确的信息,极大地提高了鲁棒性。

  比如“苹果”这个词。在“吃苹果”的语境下,它指水果;在“苹果发布会”的语境下,它指科技公司。直接查表可能会引入噪声。

  这个门控就像一个裁判。如果查出来的“静态知识”和当前的“上下文”不搭,裁判就会把权重压低(Gate值趋向0),让模型忽略这个噪声;如果完美契合(比如“伤寒杂病论”后跟着“张仲景”),裁判就会把大门打开(Gate值趋向1),直接把知识注入模型。

  假设我们显卡里的显存是有限的,总参数预算也是固定的。我们应该把多少参数分配给MoE的“专家”(负责计算),多少参数分配给Engram的“字典”(负责记忆)?

  这是一个典型的资源配置博弈。DeepSeek团队进行了一场大规模的消融实验,扫描了从0%到100%的分配比例,结果画出了一条完美的“U型Scaling Law曲线”。

  这是一个极具指导意义的发现:对于几百亿参数的大模型来说,单纯堆砌计算单元(MoE专家)已经是边际效应递减了,必须引入专门的静态记忆模块来实现“存算平衡”。

  如果Engram仅仅是让模型“记性更好”,这篇论文的分量还不足以震动社区。毕竟,RAG(检索增强生成)也能解决知识问题。

  DeepSeek构建了三个对比模型,严格控制激活参数量(3.8B)和训练数据量(262B tokens)完全一致:

  在MMLU(综合知识)上,Engram模型提升了3.4分;在CMMLU(中文知识)上,提升了4.0分。这很好理解,外挂了字典,常识自然更好了,幻觉更少了。

  按理说,“查字典”和“做数学题”没关系。但在BBH(综合推理)上,Engram-27B竟然比同参数的纯MoE基线提升了整整5.0分!

  DeepSeek团队利用LogitLens和“CKA(中心核对齐)”技术,对模型内部进行了“解剖”。他们发现了一个惊人的现象:

  而在Engram模型中,由于第2层就插入了Engram模块,静态知识的检索在极早的阶段就完成了。

  这相当于给模型“虚增”了深度。那些被释放出来的网络层和注意力头(Attention Heads),不再需要处理琐碎的局部依赖(比如识别“张仲景”是谁),从而可以全神贯注地投入到更复杂的全局推理、长程逻辑构建和代码逻辑生成中去。

  对于华尔街的投资者和算力中心的运维者来说,这篇论文最性感的地方不在于Score,而在于Cost(成本)。

  在AI时代,最昂贵的资源不是算力(FLOPs),而是显存(HBM)。英伟达H100之所以贵,很大程度上是因为那稀缺的HBM3e内存。

  传统的MoE模型,其路由机制(Routing)是动态的。模型必须先算出当前Token的特征,算完这一层,才知道下一层该找哪个专家。这意味着,所有的专家模型必须时刻在昂贵的GPU显存里待命,随叫随到。

  Engram的查表逻辑是确定性的。只要输入的文本确定了(比如“A New Axis of Sparsity”),那么它对应的N-gram索引就确定了。我们根本不需要等模型算完前一层,在Token进入模型的那一瞬间,我们就知道它需要查哪张表的哪一行。

  DeepSeek实测数据显示:即使挂载了100B(千亿)参数的Engram表到CPU内存,相比于纯GPU推理,吞吐量的下降不到3%。

  这是一个让所有因为买不到HBM而焦虑的人狂喜的结论。这意味着,未来的大模型,“记忆容量”可以低成本地无限扩张,而不必被英伟达的显存卡脖子。

  除了通用推理,Engram在长文本(Long Context)领域的表现同样证明了“分工”的价值。

  在长文本处理中,注意力机制(Attention)的窗口是有限的。如果注意力被大量的局部信息(如固定短语)占据,它处理全局信息的能力就会下降。

  这说明,当我们将“局部记忆”外包给Engram后,Transformer原本的注意力机制就能更高效地捕捉几万字文档中的“草蛇灰线”。

  把以上所有信息串联起来,我们已经隐约看到了DeepSeek下一代模型——DeepSeek V4的雏形。

  华尔街见闻写道,报道称DeepSeek计划在2月(春节前后)正式发布V4。回顾DeepSeek的节奏:从2024年1月的R1,到年底击败GPT-5基准的V3.2,再到即将登场的V4,每一步都踩准了技术迭代的脉搏。

  如果说R1展示了“推理”的深度deepseek,V3展示了“MoE”的效率,那么即将到来的V4,可能通过引入Engram技术,将解决记忆与计算的耦合,实现“电子脑(计算)”与“外部记忆(Engram)”的完美共生。

  这不是一次简单的版本迭代,这是对Transformer架构底层缺陷的一次系统性手术。在DeepSeek V3已经凭借极其低廉的API价格和强大的性能席卷全球之后,V4如果集成了Engram技术,将带来更可怕的竞争力:它将拥有更大的知识库(低成本内存扩展)、更强的逻辑推理(网络深度解放)以及更低的推理成本(存算分离)。

  更重要的是,报道提到V4在数据模式理解上的改进,“避免了以往模型在长时间训练下性能衰退的情况”。这与Engram将静态知识固化、减少动态网络负担的特性不谋而合——它让模型更稳定,更不容易“遗忘”或“精神错乱”。

  春节前夕的这篇论文,不仅是DeepSeek的技术秀,更是向全行业发出的信号:单纯“卷算力”、“堆参数”的蛮荒时代结束了,架构创新的红利期才刚刚开始。而在这场定义下一代AI标准的竞赛中,中国大模型不仅没有掉队,甚至正在重新定义比赛规则。

  2026,中国商业航天的“诺曼底时刻”刚刚过去;而AI领域的“存算分家”时刻,或许正是现在。原文出处:梁文锋署名新论文:给大模型配本“字典”,计算、记忆分家后智商爆表,剧透DeepSeek V4?,感谢原作者,侵权必删!

标签: deepseek

“梁文锋署名新论文:给大模型配本“字典”,计算、记忆分家后智商爆表,剧透DeepS” 的相关文章

DeepSeek预测:利物浦vs曼联!红军主场血洗红魔?萨拉赫+埃基蒂克双星闪耀

DeepSeek预测:利物浦vs曼联!红军主场血洗红魔?萨拉赫+埃基蒂克双星闪耀

  英超第8轮即将迎来一场焦点大战——利物浦坐镇安菲尔德迎战曼联!目前利物浦以15分排名联赛第二,仅落后榜首阿森纳1分;而曼联则积10分排名第十,距离欧战区还有3分差距。本场比赛对双方都至...

DeepSeek预测:里尔VS巴黎圣日耳曼!姆巴佩领衔大巴黎能否延续连胜?

DeepSeek预测:里尔VS巴黎圣日耳曼!姆巴佩领衔大巴黎能否延续连胜?

  法甲第7轮将迎来一场焦点战,里尔将在主场迎战领头羊巴黎圣日耳曼。目前巴黎圣日耳曼以5胜0平1负积15分排名榜首,而里尔则以3胜1平2负积10分排名第6。这场比赛对于双方来说都至关重要,...

11月9日DeepSeek预测:鹈鹕vs马刺,文班亚马率队主场擒鹈鹕

11月9日DeepSeek预测:鹈鹕vs马刺,文班亚马率队主场擒鹈鹕

  北京时间11月9日,NBA常规赛将迎来一场西部对决,排名第3的马刺(6胜2负)坐镇主场迎战第14的鹈鹕(2胜6负)。本赛季马刺在文班亚马带领下异军突起,而鹈鹕则因伤病困扰举步维艰。此役...

当我问deepseek,中国女排如何在洛杉矶奥运会夺冠,回答太犀利!

当我问deepseek,中国女排如何在洛杉矶奥运会夺冠,回答太犀利!

  中国女排若要在2025年洛杉矶奥运会中实现突破,需直面当前结构性困境,摒弃“粉饰太平”的惯性思维,以系统性改革应对以下核心挑战:   蔡斌的局限性:蔡斌执教能力虽可保...

1月7日DeepSeek预测:骑士vs步行者,米切尔缺阵骑士仍有望客场取胜

1月7日DeepSeek预测:骑士vs步行者,米切尔缺阵骑士仍有望客场取胜

  北京时间1月7日8:00,NBA常规赛将迎来骑士客场挑战步行者的对决。目前骑士以20胜17负排名东部第8,胜率54.1%;而步行者仅6胜30负排名东部垫底,胜率16.7%。此役对骑士冲...

11月27日DeepSeek预测:步行者vs猛龙,猛龙主场轻取对手,英格拉姆vs

11月27日DeepSeek预测:步行者vs猛龙,猛龙主场轻取对手,英格拉姆vs

  北京时间11月27日早8:30,NBA常规赛将迎来东部强弱分明的较量——排名东部第2的猛龙坐镇主场迎战联盟垫底球队步行者。以下是本场焦点战的深度分析:   猛龙(13...