当前位置:首页 > Deepseek最新资讯 > 正文内容

传DeepSeek曝新模型,梁文锋再放“王炸”?

4个月前 (01-21)Deepseek最新资讯97

  近日,DeepSeek在FlashMLA代码库更新中意外曝光了一个名为Model1的新模型,这一发现迅速在技术社区引发热议。

  神秘的 Model1不仅出现在代码和注释中,还拥有与 DeepSeek-V3.2 并列的独立文件。这或意味着其并未沿用 V3 系列的参数配置或基础架构,或是一条全新的技术路径。

  需要指出的是,截至目前,DeepSeek 官网及微信公众号尚未披露任何关于Model1 的相关信息,其最新一篇推送仍停留在 2025年12月1日发布的 DeepSeek-V3.2正式版公告。

  在过去一年中,DeepSeek 以“小步快跑”的方式持续推进 V3 模型的迭代,重点围绕复杂推理、编程能力和工具调用等方向进行深度优化与架构创新deepseek,同时将 R1 作为稳定基线持续赋能生态。

  业界之所以猜测DeepSeek会在今天春节复刻去年R1的“核爆”,主要基于两条线索。一是有外媒称,DeepSeek预计将于2月中旬推出其下一代人工智能模型V4。

  二是2025年12月底至2026年1月,DeepSeek团队发表了两篇有梁文锋署名的论文,主要解决大模型基础架构中训练稳定性与知识检索效率这两个瓶颈,为下一代模型的扩展扫清关键技术障碍。

  其中《mHC: Manifold-Constrained Hyper-Connections》提出了“流形约束超连接”(mHC)框架。其核心是通过数学上的流形投影,将HC的残差连接空间约束在特定流形上,从而在保留其强大表达能力的同时,强制恢复网络的恒等映射特性,从根源上保障了训练的稳定性。

  而DeepSeek 与北大合作的论文《Conditional Memory via Scalable Lookup》提出“条件记忆”模块(Engram),将高频静态知识(如固定短语、代码片段)以嵌入表形式注入 Transformer 层。通过解耦知识存储与神经计算,引入一种稀疏性分配定律,并证明用基于哈希的查找表替代约 20% 的混合专家(MoE)参数,可显著提升推理与知识任务性能。

  DeepSeek两篇旨在攻克模型训练稳定性与知识检索效率两大瓶颈的论文,以及Model1悄然现身等线索都指向同一个焦点——DeepSeek的下一代新模型或已箭在弦上。原文出处:传DeepSeek曝新模型,梁文锋再放“王炸”?,感谢原作者,侵权必删!

标签: deepseek

“传DeepSeek曝新模型,梁文锋再放“王炸”?” 的相关文章

DeepSeek-R2突传重磅!云计算ETF汇添富(159273)大涨超2%,连

DeepSeek-R2突传重磅!云计算ETF汇添富(159273)大涨超2%,连

  消息面上,Eventbrite平台出售DeepSeek-R2门票,窗口期为8月16日至8月31日,但具体日期尚未官宣。Eventbrite是美国知名在线活动策划服务平台,主营业务为在线...

明德战略对话(2025)在京举办 中美欧俄政商学研人士热议中国式现代化

明德战略对话(2025)在京举办 中美欧俄政商学研人士热议中国式现代化

  10月17日,由中国人民大学主办,中国人民大学重阳金融研究院、全球领导力学院承办的“明德战略对话(2025)”在北京隆重举行。本次论坛为10月13日至17日举办的“明德战略对话(202...

DeepSeek背后的腐败窟窿曝光:三人6年套取券商佣金1.18亿

DeepSeek背后的腐败窟窿曝光:三人6年套取券商佣金1.18亿

  幻方量化,DeepSeek的东家,刚被曝出一桩亿元腐败大案。三个人,六年时间,从券商那里套走了1.18个亿!   李橙,幻方量化市场总监,公司创始...

微云全息(NASDAQ: HOLO)Deepseek LLM:推动开源语言模型迈

微云全息(NASDAQ: HOLO)Deepseek LLM:推动开源语言模型迈

  在当今科技领域,开源大型语言模型(LLM)的快速发展令人瞩目,然而,缩放法则的相关研究却提出了不同的结论。在此背景下,微云全息(NASDAQ: HOLO)深入钻研缩放定律,取得了独特的...

12月1日DeepSeek预测:雷霆vs开拓者,亚历山大率队延续连胜,开拓者主场

12月1日DeepSeek预测:雷霆vs开拓者,亚历山大率队延续连胜,开拓者主场

  NBA常规赛西部焦点战即将打响,波特兰开拓者将在摩达中心迎战来访的俄克拉荷马雷霆。作为联盟历史悠久的知名球队,开拓者本赛季表现起伏,目前以8胜11负排名西部第9;而青年军雷霆则以19胜...

翼辉信息亮相第25届上海工博会,引领工业智能化新浪潮

翼辉信息亮相第25届上海工博会,引领工业智能化新浪潮

  9 月 23 日至 27 日,备受工业领域瞩目的第 25 届中国国际工业博览会(以下简称“工博会”)在国家会展中心(上海)隆重开幕。作为中国工业操作系统领域的领军企业,翼辉信息以“智控...