当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布最新论文,破解大模型训练拥堵难题

4个月前 (01-02)Deepseek最新资讯95

  北京时间2026年1月1日,DeepSeek团队在arXiv(预印本)网站和Hugging Face上同步发布了最新论文,名为《mHC: Manifold-Constrained Hyper-Connections》,论文的核心观点是提出一种名为“mHC”(直译为“流形约束超连接”)的框架,该框架改进了此前大模型训练中一种名为“HC(Hyper-Connections,超连接)”的范式,对大规模模型训练提供了切实的性能改进。

  贝壳财经记者注意到,DeepSeek创始人梁文锋的名字出现在了这篇论文署名作者的最后一位上。事实上,虽然DeepSeek在2025年春节因为R1模型的开源发布而全球爆火,但在梁文锋的带领下,这家公司极其低调,团队一直潜心学术,未做过多的商业化尝试,一心扑在基础模型理论研发之上,梁文锋还在近期入选了《自然》2025年影响科学发展十大人物。

  贝壳财经记者梳理发现,DeepSeek团队本次发布的论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级残差连接范式提出的HC(超连接)范式,是不折不扣的一次基础理论创新。

  DeepSeek团队在论文中以严谨的数学公式解释了mHCdeepseek,若以简单的语言来类比,大致可以理解为,残差连接是AI模型训练的“生命线”——它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,从而解决了在此之前神经网络越大训练越困难的问题。

  但随着大模型参数突破千亿,这条“单车道”越来越不够用,此时超连接(HC)范式登场,其把单车道扩建成多车道,从而显著提升了模型性能。但与此同时,过多的数据信号也导致了“堵车撞车”,就像多车道中没装“交通信号灯”一样,使模型训练变得更加不稳定,容易崩溃。

  此时,DeepSeek提出了一种新算法,给“多车道”增加了一套智能调度系统(即mHC“流行约束”),其要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性。

  这是因为,残差连接正是2015年由何凯明等人在微软亚洲研究院所提出的,何恺明还因此获得了CVPR 2016最佳论文奖,残差连接之后也成了几乎所有主流大模型的“标配”。

  直到2024年,为了解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队提出了HC(超连接)范式,但由此也带来了稳定性不够的问题。而DeepSeek正是在前人的基础上进一步进行了优化。

  2026年的第一天,在诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了自己在基础模型领域的战略定力。

  在本次发布论文的文末,DeepSeek团队写道,“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。”

  /重复三遍“世界和平”!特朗普许下新年愿望,普京坚信“终将胜利”,泽连斯基:不要乌克兰的终结

  /5.3公里内连摔6次,电瓶车骑车人抢救无效身亡!同事曾多次劝其打车回家,广东交警披露详情

  /港股收评:恒指涨2.76% 科指涨4% 科网股普涨 电力设备股大涨 百度涨超9% 壁仞科技首日一度涨超118%

  /1月2日隔夜要闻:美国对部分跨境汇款征税 星链计划降低卫星轨道高度 瑞士酒吧火灾约40人死亡

  /港股午评:恒指涨2.18%重回26000点 科指涨3.38% 科网股普涨 半导体板块强势 壁仞科技首日涨超72%原文出处:DeepSeek发布最新论文,破解大模型训练拥堵难题,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek发布最新论文,破解大模型训练拥堵难题” 的相关文章

DeepSeek也不想假装关心

DeepSeek也不想假装关心

  【#DeepSeek也不想假装关心#】#DeepSeek不演了摊牌了#近日,国产AI助手DeepSeek被大量用户吐槽风格突变,变冷淡,从原本细腻共情变为不称昵称deepseek、文风...

梁文锋署名论文,DeepSeek最强开源Agent模型炸场

梁文锋署名论文,DeepSeek最强开源Agent模型炸场

  ;相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间。   长思考增强版DeepSeek-V3.2-Speciale结...

DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单

DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单

  IT之家 1 月 1 日消息,北京时间今天下午,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。根据介绍,该研究旨在解决传统超连接在大规模模型训练中的...

10月26日DeepSeek预测:雷霆vs老鹰,亚历山大率队客场擒鹰

10月26日DeepSeek预测:雷霆vs老鹰,亚历山大率队客场擒鹰

  亚特兰大老鹰将在州立农业球馆迎战来访的俄克拉荷马雷霆,这是两队新赛季首次交锋。作为东部传统劲旅,老鹰目前1胜1负暂列东部第12,而西部新贵雷霆则以2胜0负的完美开局高居西部第二。...

1月16日DeepSeek预测:爵士vs独行侠,马尔卡宁缺阵恐难阻独行侠主场复仇

1月16日DeepSeek预测:爵士vs独行侠,马尔卡宁缺阵恐难阻独行侠主场复仇

  西部两支挣扎中的球队将在达拉斯展开对决,爵士(14胜26负)与独行侠(15胜26负)本赛季第三次交锋。尽管爵士在历史交锋中以3胜2负稍占优势,但核心球员马尔卡宁的缺阵可能改变战局。...

促进人工智能 助力教育变革

促进人工智能 助力教育变革

  盛夏时节,学习正酣。在这个充满生机与活力的暑期,迎来名师培训的第二天,大家依然齐聚在十方院学校一楼报告厅,以饱满的热情和昂扬的斗志,投入到今天学习的浪潮中。   为贯...