当前位置：首页 > Deepseek最新资讯 > 正文内容

ICLR 2026｜早于DeepSeek Engram，STEM已重构Trans

3个月前 (03-09)Deepseek最新资讯50

　　在标准 Transformer 的 FFN 中，知识主要隐式存储在 up-projection 等密集矩阵里，并通过输入相关的矩阵乘法被动态激活，这种方式在表达力上有效，但在参数可寻址性、可编辑性与系统效率上存在天然限制。

　　围绕这一问题，学术界与工业界逐渐将目光投向更离散、更结构化的参数组织方式。以 DeepSeek 提出的 engram 为代表，近期多项工作重新唤起了对「查表式记忆（lookup-based memory）」的关注。而有意思的是，在 engram 发布之前约三个月，这篇 ICLR paper 也在这一方向进行系统探索。

　　与 MoE 相关工作不同，STEM 并非在现有稀疏路由框架上做局部改进，而是直接从 FFN 结构入手，将 up-projection 替换为按 token 索引的层级 embedding 表，以一种静态、无运行时路由的方式重构 Transformer 中「记忆」的访问路径。

　　STEM 的关键洞察在于：如果 FFN 的作用更接近于「按 token 访问记忆」，那么这些地址向量是否真的需要由输入动态生成？

　　基于这一问题，STEM 选择了一条极为直接的路径：不再通过 up-projection 计算地址向量，而是为每一层维护一个按 token 索引的 embedding 表，在前向传播时直接根据 token id 查表获取对应向量。

　　gate 与 down-projection 则被完整保留，用于对查表得到的向量进行上下文调制与压缩。

　　这一替换，使 FFN 的结构发生了一个本质变化：「记忆容量」第一次与「每 token 计算量」被明确解耦。

　　尽管 STEM 只替换了 FFN 中的一个子模块，但实验结果表明，这一设计在多个维度上产生了显著影响。

　　由于每一层的 embedding 都直接与 token id 绑定，研究者可以在不进行再训练的情况下，直接替换某个 token 的 STEM 向量，从而改变模型在相关事实上的输出行为deepseek。比如图中例子展示仅通过替换「Spain」与「Germany」的向量，就可以使模型对首都问题的回答发生对应变化。

　　这一性质意味着，在相同甚至更低的计算成本下，模型能够维持更多「可寻址的记忆槽位」，对知识存储和检索尤为有利。

　　从计算复杂度上看，移除 up-projection 后，每一层可节省约 d⋅d_ff 级别的矩阵乘法开销。更重要的是，大规模的 embedding 表可以被离载到 CPU，并通过异步 prefetch 与缓存策略进行访问。

　　STEM 展示了一种值得关注的趋势：通过改变参数的「组织方式」，而非一味增加规模或计算，模型同样可以获得显著能力提升。

　　在当前大模型架构逐渐走向复杂化的背景下，这种简洁、稳定且工程友好的设计思路，或许正是下一阶段基座模型演进中不可忽视的一条路径。

　　本文第一作者 Ranajoy Sadhukhan 为卡内基梅隆大学（CMU）InfiniAI Lab 博士生，师从陈贝迪教授。该工作完成于其在 Meta AI 实习期间，实习导师包括刘泽春、曹晟（Rick Cao）与田渊栋等研究人员。

　　InfiniAI Lab 由陈贝迪教授创立，致力于模型、系统与硬件协同设计，研究高效且可扩展的 AI 算法与系统，重点方向包括长上下文多模态建模、突破传统 scaling laws 的新一代模型架构，以及基础模型的理解与推理能力增强，同时推动算法与系统层面的效率优化，以促进 AI 技术的普及化。

　　刘泽春为 Meta AI 研究科学家，研究方向涵盖基座模型训练，大模型压缩、稀疏化与端侧部署优化，专注于模型高效推理与系统协同设计。

　　曹晟（Rick Cao）为 Meta AI 研究员，主要研究大模型系统优化与高效推理架构设计，关注大规模模型在真实系统环境中的部署与加速问题。

　　田渊栋为 Meta AI 资深研究科学家，长期从事强化学习与大模型研究，曾参与 AlphaZero 等强化学习系统研发，并关注基础模型的推理与决策能力。原文出处：ICLR 2026｜早于DeepSeek Engram，STEM已重构Transformer「记忆」，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：deepseek算命称用户命里缺水，建议28年前接回兮兮

下一篇：DeepSeek和腾讯联合发布AI工具：用于CAD设计

“ICLR 2026｜早于DeepSeek Engram，STEM已重构Trans” 的相关文章

ICLR 2026｜早于DeepSeek Engram，STEM已重构Trans

“ICLR 2026｜早于DeepSeek Engram，STEM已重构Trans” 的相关文章

用先进算力，为AGI加速！华为云企业快成长AI技术创新论坛南京站圆满落幕

DeepSeek新模型用OCR解决超长文本：这世界还能被更高效压缩？

DeepSeek 这么评价占豪，你觉得对吗？

“2025年度字词”即将出炉：DeepSeek、草台班子入选

英伟达 CEO 黄仁勋：Deepseek-R1 是开源模型一大代表，让整个世界惊

美称DeepSeek的AI模型据说是使用英伟达最先进的AI芯片进行训练的，外交部

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.