当前位置:首页 > Deepseek最新资讯 > 正文内容

ICLR 2026|早于DeepSeek Engram,STEM已重构Trans

1个月前 (03-09)Deepseek最新资讯44

  在标准 Transformer 的 FFN 中,知识主要隐式存储在 up-projection 等密集矩阵里,并通过输入相关的矩阵乘法被动态激活,这种方式在表达力上有效,但在参数可寻址性、可编辑性与系统效率上存在天然限制。

  围绕这一问题,学术界与工业界逐渐将目光投向更离散、更结构化的参数组织方式。以 DeepSeek 提出的 engram 为代表,近期多项工作重新唤起了对「查表式记忆(lookup-based memory)」的关注。而有意思的是,在 engram 发布之前约三个月,这篇 ICLR paper 也在这一方向进行系统探索 。

  与 MoE 相关工作不同,STEM 并非在现有稀疏路由框架上做局部改进,而是直接从 FFN 结构入手,将 up-projection 替换为按 token 索引的层级 embedding 表,以一种静态、无运行时路由的方式重构 Transformer 中「记忆」的访问路径。

  STEM 的关键洞察在于:如果 FFN 的作用更接近于「按 token 访问记忆」,那么这些地址向量是否真的需要由输入动态生成?

  基于这一问题,STEM 选择了一条极为直接的路径:不再通过 up-projection 计算地址向量,而是为每一层维护一个按 token 索引的 embedding 表,在前向传播时直接根据 token id 查表获取对应向量。

  gate 与 down-projection 则被完整保留,用于对查表得到的向量进行上下文调制与压缩。

  这一替换,使 FFN 的结构发生了一个本质变化:「记忆容量」第一次与「每 token 计算量」被明确解耦。

  尽管 STEM 只替换了 FFN 中的一个子模块,但实验结果表明,这一设计在多个维度上产生了显著影响。

  由于每一层的 embedding 都直接与 token id 绑定,研究者可以在不进行再训练的情况下,直接替换某个 token 的 STEM 向量,从而改变模型在相关事实上的输出行为deepseek。比如图中例子展示仅通过替换「Spain」与「Germany」的向量,就可以使模型对首都问题的回答发生对应变化。

  这一性质意味着,在相同甚至更低的计算成本下,模型能够维持更多「可寻址的记忆槽位」,对知识存储和检索尤为有利。

  从计算复杂度上看,移除 up-projection 后,每一层可节省约 d⋅d_ff 级别的矩阵乘法开销。更重要的是,大规模的 embedding 表可以被离载到 CPU,并通过异步 prefetch 与缓存策略进行访问。

  STEM 展示了一种值得关注的趋势:通过改变参数的「组织方式」,而非一味增加规模或计算,模型同样可以获得显著能力提升。

  在当前大模型架构逐渐走向复杂化的背景下,这种简洁、稳定且工程友好的设计思路,或许正是下一阶段基座模型演进中不可忽视的一条路径。

  本文第一作者 Ranajoy Sadhukhan 为卡内基梅隆大学(CMU)InfiniAI Lab 博士生,师从陈贝迪教授。该工作完成于其在 Meta AI 实习期间,实习导师包括刘泽春、曹晟(Rick Cao)与田渊栋等研究人员。

  InfiniAI Lab 由陈贝迪教授创立,致力于模型、系统与硬件协同设计,研究高效且可扩展的 AI 算法与系统,重点方向包括长上下文多模态建模、突破传统 scaling laws 的新一代模型架构,以及基础模型的理解与推理能力增强,同时推动算法与系统层面的效率优化,以促进 AI 技术的普及化。

  刘泽春为 Meta AI 研究科学家,研究方向涵盖基座模型训练,大模型压缩、稀疏化与端侧部署优化,专注于模型高效推理与系统协同设计。

  曹晟(Rick Cao)为 Meta AI 研究员,主要研究大模型系统优化与高效推理架构设计,关注大规模模型在真实系统环境中的部署与加速问题。

  田渊栋为 Meta AI 资深研究科学家,长期从事强化学习与大模型研究,曾参与 AlphaZero 等强化学习系统研发,并关注基础模型的推理与决策能力。原文出处:ICLR 2026|早于DeepSeek Engram,STEM已重构Transformer「记忆」,感谢原作者,侵权必删!

标签: deepseek

“ICLR 2026|早于DeepSeek Engram,STEM已重构Trans” 的相关文章

DeepSeek预测:多特蒙德vs奥格斯堡!大黄蜂主场狂轰滥炸,吉拉西领衔锋线屠

DeepSeek预测:多特蒙德vs奥格斯堡!大黄蜂主场狂轰滥炸,吉拉西领衔锋线屠

  德甲第26轮即将上演一场实力悬殊的对决,多特蒙德坐镇伊杜纳信号公园球场迎战奥格斯堡。目前大黄蜂以53个进球高居联赛第三,而奥格斯堡仅打入31球排名第11。从历史交锋来看,多特蒙德近5次...

DeepSeek预测:布伦特福德vs曼城,哈兰德8球屠杀or蜜蜂蛰伤蓝月?

DeepSeek预测:布伦特福德vs曼城,哈兰德8球屠杀or蜜蜂蛰伤蓝月?

  2025赛季英超第7轮即将上演一场颇具看点的对决,布伦特福德将在Gtech社区球场迎战卫冕冠军曼城。目前布伦特福德排名联赛第13位,积7分;曼城则暂列第7位,积10分。两队之间仅有3分...

港股期权 中芯国际早盘大涨6%,DeepSeek官微宣布将采用国产芯片,相关认购

港股期权 中芯国际早盘大涨6%,DeepSeek官微宣布将采用国产芯片,相关认购

  8月27日,港股午盘三大指数小幅上涨。截止午盘,恒指收涨0.06%,科指收涨0.57%,国企指数收涨0.14%,恒指大市成交额1619.2亿港元。   截止午间收盘,...

涨停揭秘:浙大网新尾盘直线涨停,AI算力+DeepSeek概念叠加,上轮DS行情

涨停揭秘:浙大网新尾盘直线涨停,AI算力+DeepSeek概念叠加,上轮DS行情

  8月22日,浙大网新尾盘直线涨停,股价报11.95元,涨幅10.04%,成交额突破20亿元,换手率高达17.64%。该股开盘价11.05元,盘中最高触及11.95元,全天振幅9.21%...

10月23日DeepSeek预测:76人vs凯尔特人,绿军主场力擒费城,塔图姆布

10月23日DeepSeek预测:76人vs凯尔特人,绿军主场力擒费城,塔图姆布

  北京时间10月23日07:30,NBA常规赛将迎来焦点战——12连败的76人客场挑战东部第二的凯尔特人deepseek。尽管两队新赛季均未正式开赛,但季前赛表现已显现巨大差距:凯尔特人...

12月2日DeepSeek预测:火箭vs爵士,申京率队再克爵士?

12月2日DeepSeek预测:火箭vs爵士,申京率队再克爵士?

  作为NBA传统劲旅的爵士队,本赛季表现令人失望,目前以6胜13负排名西部第11,胜率仅31.6%。而火箭队则异军突起,以13胜4负高居西部第三,胜率高达76.5%。本场比赛对爵士而言是...