当前位置:首页 > Deepseek最新资讯 > 正文内容

梁文锋署名,DeepSeek论文上新

3个月前 (01-13)Deepseek最新资讯97

  继去年底发布一篇新论文后,1月12日晚,DeepSeek又上新了一篇论文,这次聚焦的是大模型的条件记忆模块,在结论中DeepSeek 认为,这将成为下一代稀疏大模型中不可或缺的核心建模原语。

  此前有爆料称DeepSeek下一代大模型V4将在春节前后发布,结合这几次研究,业内猜测这或许就是DeepSeek V4的研究路线图。

  这篇论文的核心观察是,大模型包含两种性质完全不同的任务,一种是需要深度动态计算的组合推理,另一种则是检索静态知识。而现有的Transformer架构缺乏原生的知识查找机制,只能通过计算低效地模拟检索过程。例如模型查找不变的知识时,得浪费算力重新推导一遍,既费时间又占资源。

  为解决这一问题,DeepSeek团队引入了条件记忆作为补充的稀疏性维度,并通过Engram这一条件记忆模块实现,优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。

  团队还发现了U型缩放定律,表明 MoE 专家和 Engram 记忆之间的混合稀疏容量分配严格优于纯 MoE 基准模型。值得注意的是,尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益。

  简单来说,现在的MoE 模型处理推理和记固定知识用的是一套方法,效率较低且浪费算力,这篇论文本质是给大模型做了 “分工优化”:让专门的模块干专门的事,例如有“记忆本”管固定知识,而推理模块管复杂思考deepseek,再按最佳比例分配资源,最终让模型又快又聪明。

  DeepSeek在论文最后表明,条件记忆将成为下一代稀疏模型不可或缺的建模原语。有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构。

  此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明,V4在编程能力上超过了市场上的其他顶级模型。目前DeepSeek并未对此进行任何回应。报道也提及发布计划可能会根据实际情况进行调整。

  自2024年底发布V3模型后,DeepSeek的下一代旗舰模型一直未出,去年底DeepSeek发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro。行业一直在观望DeepSeek的旗舰模型,V4的推出或将成为业界关注的焦点。原文出处:梁文锋署名,DeepSeek论文上新,感谢原作者,侵权必删!

标签: deepseek

“梁文锋署名,DeepSeek论文上新” 的相关文章

DeepSeek-R2要来了?速领450元代金券,模型测评快人一步!

DeepSeek-R2要来了?速领450元代金券,模型测评快人一步!

  近日,关于DeepSeek-R2计划于8月15日至30日之间发布的消息,在市场上引起了广泛关注。对此,也有接近DeepSeek人士表示该消息不实,DeepSeek-R2在8月内并无发布...

2月24日DeepSeek预测:马刺vs活塞,东西部榜首大战,文班亚马对决康宁汉

2月24日DeepSeek预测:马刺vs活塞,东西部榜首大战,文班亚马对决康宁汉

  NBA常规赛将迎来一场东西部榜首的巅峰对决,东部第一的活塞将在主场迎战西部第二的马刺。两支球队近期状态火热,均取得了5连胜的佳绩。本场比赛不仅是联盟顶级球队之间的较量,更是新生代球星文...

月满人团圆,水爱以温暖光影守护家的温度

月满人团圆,水爱以温暖光影守护家的温度

  “今夜月明人尽望,不知秋思落谁家。”中秋的意义,从来都与“归家”紧密相连——无论在外奔波多远,总盼着踏上归途,在月光下与家人围坐,在静谧中卸下一年的疲惫。   而卫浴...

1月18日DeepSeek预测:森林狼vs马刺,文班亚马能否终结连败?

1月18日DeepSeek预测:森林狼vs马刺,文班亚马能否终结连败?

  西部第二的马刺(28胜13负)将在AT&T中心迎战排名第四的森林狼(27胜15负)。尽管马刺整体战绩占优,但历史交锋呈现一边倒——森林狼已连续5次击败马刺,包括6天前104-1...

1月13日DeepSeek预测:黄蜂vs快船,伦纳德率队捍卫主场

1月13日DeepSeek预测:黄蜂vs快船,伦纳德率队捍卫主场

  作为NBA近年崛起的青年军,夏洛特黄蜂(14胜25负/东部第12)将做客加密球馆挑战洛杉矶快船(15胜23负/西部第11)。两支胜率不足四成的球队相遇,这场较量或将影响双方冲击附加赛的...

DeepSeek的阳谋:在《自然》杂志公布论文,到底赢得了什么?

DeepSeek的阳谋:在《自然》杂志公布论文,到底赢得了什么?

  画面中的立方体代表着电子神经元,也就是我们常说的“大模型参数”,每个神经元都在向着深层次方向探索。红色的线代表关键的核心信号,而白色的线则意味着发散的探索。最终,所有的探索都会变成电子...