当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?

3个月前 (01-13)Deepseek最新资讯64

  继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。

  此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

  这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

  为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系deepseek

  团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

  简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考,再按最佳比例分配资源,最终让模型又快又聪明。

  DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

  此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

  自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。原文出处:DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?” 的相关文章

DeepSeek-V3.1发布版本更新

DeepSeek-V3.1发布版本更新

  新京报贝壳财经讯(记者罗亦丹)9月22日21时15分,DeepSeek在官方微信公号发文称,DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本。...

技术应用 DeepSeek赋能经营洞察,助力专业决策——北银金科小京财

技术应用 DeepSeek赋能经营洞察,助力专业决策——北银金科小京财

  在市场竞争愈发激烈的当下,快速处理财务信息、敏锐洞察运营状况、精准支持决策制定,成为企业管理者对财务分析的迫切需求。而对于企业的其他利益相关者而言,能够及时掌握企业的经营状况,更是他们...

12月5日DeepSeek预测:湖人vs猛龙,东契奇缺阵猛龙能否终结连败?

12月5日DeepSeek预测:湖人vs猛龙,东契奇缺阵猛龙能否终结连败?

  本场焦点战将见证东部第二猛龙(15胜7负)主场迎战西部第二湖人(15胜5负),两队胜率均超65%。猛龙作为2019年总冠军得主,本赛季在斯科蒂·巴恩斯和英格拉姆带领下展现强劲竞争力;而...

Nature年度十大人物发布:DeepSeek梁文锋、中科院深海所杜梦然入选

Nature年度十大人物发布:DeepSeek梁文锋、中科院深海所杜梦然入选

  年度十大人物并非一个奖项,也不是全球前十排行榜,它是对今年重要科学进展、事件以及其中一些关键人物和他们同事的记录。由   Nature特写部编辑Brendan Mah...

饼香茶韵共富路

饼香茶韵共富路

  当清晨的炊烟漫过浙江省新昌县外婆坑村的古瓦木楼,“何溪女副食店”的店主何溪女正将玉米面团在圆板上擀开。擀面杖滚动的声响伴着玉米饼在电饼铛中发出的滋滋声,仿佛二十六年的光阴在缓缓流淌,而...

深度|生物药资产爆发后,中国创新医疗器械何时迎来DeepSeek一刻

深度|生物药资产爆发后,中国创新医疗器械何时迎来DeepSeek一刻

  今年中国创新生物药对外授权引发全球关注。相关数据显示,上半年创新药对外授权金额近660亿美元,让全世界见证了中国生物医药的DeepSeek一刻。   不过在医疗器械领...