当前位置:首页 > Deepseek最新资讯 > 正文内容

梁文锋署名,DeepSeek论文上新

5个月前 (01-13)Deepseek最新资讯102

  继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。

  此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

  这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

  为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。

  团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

  简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考deepseek,再按最佳比例分配资源,最终让模型又快又聪明。

  DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

  此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

  自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。原文出处:梁文锋署名,DeepSeek论文上新,感谢原作者,侵权必删!

标签: deepseek

“梁文锋署名,DeepSeek论文上新” 的相关文章

南方路机:目前已接入DeepSeek大模型

南方路机:目前已接入DeepSeek大模型

  证券日报网讯 1月12日,南方路机在互动平台回答投资者提问时表示,南方路机目前已接入DeepSeek大模型deepseek,并基于DeepSeek大模型架构及生成的数据,已经在积极进行...

突发!DeepSeek又崩了,官方尚未回应

突发!DeepSeek又崩了,官方尚未回应

  小雷试着反复刷新好几次,页面还是停留在“服务器繁忙”的提示。这下才反应过来是真的崩了。翻了翻微博评论区,发现不少正在用DeepSeek的网友被这波突发状况打乱了节奏,一页博文都是吐槽的...

匠心“引针”实干“穿线” 织就人才强企“双面绣”

匠心“引针”实干“穿线” 织就人才强企“双面绣”

  工程技术专家周范军正俯身在一台新设备上,手指灵活地调整着参数。身旁几名青年员工神情专注,不时在本子上记录要点。“这不仅仅是一次调试,更是一次手艺的交接。”周范军的话语朴实,却道出了常德...

11月18日DeepSeek预测:公牛vs掘金,约基奇率队主场轻取残阵公牛

11月18日DeepSeek预测:公牛vs掘金,约基奇率队主场轻取残阵公牛

  NBA常规赛即将迎来一场焦点战,西部豪强丹佛掘金(10胜2负,西部第2)坐镇主场迎战芝加哥公牛(6胜6负,东部第11)。本赛季掘金展现出冠军级别统治力,83.3%的胜率与公牛50%的胜...

900 万、DeepSeek 部署大单

900 万、DeepSeek 部署大单

  需求概况:有效支撑各委办局在政务场景下对大模型等智能化应用的迫切需求,以政府采购服务的方式搭建岳阳市市级政务云智算专区,部署...

144 万、DeepSeek 满血版部署大单

144 万、DeepSeek 满血版部署大单

  成都市城市安全与应急管理研究院发布《2025 年度政府采购意向公告(第 2 批)- Deepseek 满血版运行服务器》。   主要功能或目标:本次采购旨在获取满足...