当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源Engram，如何做到推理损失仅3%？

5个月前 (01-13)Deepseek最新资讯98

　　该论文共14名作者，DeepSeek创始人、CEO梁文锋的署名列于最后。1月1日，DeepSeek的发布关于mHC架构的论文deepseek，引发广泛关注，梁文锋同样署名，并列于最后。

　　两篇论文体现了DeepSeek一直以来的方向：打破算力成本硬约束，通过架构、方法论创新，走出更具性价比的道路。

　　根据DeepSeek的研究，Engram是被设计成可微分、可训练、原生嵌入模型结构的组件，其核心是把记忆性负载从主干计算中剥离出去，规避低效的反复计算，通过高速检索模块直接调用稳定存在、高频出现的知识。

　　Engram首先会提供确定性检索。模型基于当前token和前文形成的N-gram，通过哈希映射，直接从一个超大规模的静态嵌入表中取出对应向量，无需依赖复杂的神经计算，速度更快、路径稳定。

　　此后，Engram会通过引入轻量化门控机制，由当前层的隐藏状态来判断这段记忆是否真的适合当前语境，避免查到就用的生硬注入。

　　DeepSeek还称，实验表明，相关机制在时间、专有名词等固定模式下高度活跃，而在自由生成和复杂推理时几乎不介入。这就在强化了记忆功能的同时，避免了不合时宜的幻觉出现。

　　首先是决定逻辑与抽象能力的模型深度，其次是以MoE为代表，减少每次激活计算量的计算稀疏性，以MoE为代表，减少每次激活的计算量。而第三维正是存储稀疏性，也就是Engram引入的条件记忆。

　　根据论文，DeepSeek通过U型扩展定律解决平衡问题，在总参数和算力预算固定的情况下，研究团队系统性地调整MoE和Engram的比例，得出将20%至25%的稀疏参数分配给Engram的最优平衡点。

　　其测试数据称，即便挂载了规模高达千亿参数的Engram记忆库，推理吞吐损失也能控制在3%以内。

　　The Information援引知情人士消息称，DeepSeek预计将在今年中国春节前后发布最新的V4模型，核心突破主要在于超长代码提示词的处理、解析能力，以及全流程训练中数据模式的理解力。

　　这也意味着，新模型不仅推理性能会大幅提升，还会更擅长处理复杂任务时，而编码能力也是新模型的主打能力。知情人士称，其内部初步测试结果已经超越了Anthorpic的最强编程模型Claude。

　　Anthorpic为守护编程能力优势和入口通道，近期已陆续切断Claude Code的第三方平台入口，1月12日，又放出Cowork，主打办公场景的Agent落地，可以自动帮助用户完成制作PPT、整理电子邮件、制定工作计划等各类任务，上手门槛较低。原文出处：DeepSeek开源Engram，如何做到推理损失仅3%？，感谢原作者，侵权必删！

标签: deepseek