当前位置:首页 > Deepseek最新资讯 > 正文内容

下一代模型呼之欲出?!DeepSeek的新年礼物mHC是个啥?

5个月前 (01-04)Deepseek最新资讯77

  为AI模型带来了“智能稳定器”,在保持模型宽度的同时,通过“双随机矩阵”的流形约束,解决了超连接(HC)不稳定性问题,确保模型训练稳健,配合算子融合等优化,mHC在MATH、GSM8K等任务上表现优异。

  mHC将有助于加深对拓扑架构设计的理解,并为基础模型的演进指明有前景的方向,不少开发者认为,这一趋势进一步强化了人工智能基础设施的核心约束从峰值浮点运算数(FLOPs)向内存带宽、互连容量与系统软件成熟度的平衡转移的大方向。

  网友们纷纷期待着DeepSeek下一代开源模型的推出,猜测会不会赶在2026年春节之际?就像2025年春节前夕的R1一样再次席卷整个AI圈。

  近年来,以超连接(HC)为代表的研究通过拓宽残差流宽度与丰富连接模式,对过去十年确立的、应用广泛的残差连接范式进行了拓展。

  尽管该方法带来了显著的性能提升,但这种连接模式的多样化从根本上破坏了残差连接固有的恒等映射特性——这不仅导致严重的训练不稳定性与受限的可扩展性,还会产生显著的内存访问开销。

  为解决上述问题,DeepSeek团队提出了流形约束超连接(mHC)框架,这是一种针对Transformer类基础模型的宏架构改进方案,其核心在于将HC的残差连接空间投影至特定流形,以恢复恒等映射特性;同时,框架整合了严格的基础设施优化策略,确保模型运行效率。

  论文报告将数学理论(“双随机矩阵”、Sinkhorn-Knopp算法)与基础设施优化工作(如内核融合、混合精度内核、重计算策略、流水线通信-计算重叠)相结合,成功降低了拓宽残差流原本会带来的高昂内存与通信开销。

  在基于DeepSeek-V3的混合专家(MoE)预训练场景中(总参数量270亿,激活参数量41.4 亿),报告显示mHC技术实现了以下效果:

  (1)消除了 HC 技术存在的训练不稳定性;(2)相比基线模型,最终训练损失降低 0.021;(3)在8项下游基准测试中,有7项性能优于基线模型且超过HC技术;(4)在计算量缩放(30亿、90亿、270亿参数量)与令牌量缩放(30亿参数量模型训练至1.05万亿令牌)过程中,性能优势持续保持,在扩展系数n=4时,内部实测的额外训练时间开销仅为6.7%。

  DeepSeek团队表示,作为HC范式的通用扩展,mHC为未来研究开辟了多个极具潜力的方向。

  尽管本研究采用双随机矩阵来保证稳定性,但该框架支持探索针对特定学习目标的多样化流形约束,研究人员预计,对不同几何约束的进一步研究,有望催生能够更好地优化可塑性与稳定性平衡的全新方法。

  此外deepseek,他们希望mHC能够重新激发学术界对宏架构设计的关注,通过深化对“拓扑结构如何影响优化过程与表征学习”的理解,mHC将助力突破当前技术瓶颈,并有可能为下一代基础模型架构的演进指明全新方向。

  不少开发者认为,这件事比听起来更重要。当主流大模型仍在沿用旧方法组装大模型,DeepSeek试图搭建一套更强、更稳、更高效的“新骨架”。

  随着模型架构变得越来越深、越来越复杂(例如,具有数百条残差路径的Transformer、多分支视觉模型、具有跨模块反馈的代理系统),几何违例会不断累积,mHC本质上是在说:如果想要保持可扩展性,就必须维护表示的完整性,这也是对“蛮力式”模型搭建设计的一种无声反驳。

  细心的网友发现,DeepSeek在论文论文中提到“在我们的内部大规模训练实验进一步佐证了这一结论”,这句“大规模训练实验”引发诸多猜想:其新一代模型可能已经成形。

  截至目前,DeepSeek的旗舰模型在通用综合能力与多模态上并非绝对领先者,仅在部分文本强相关赛道基准与开源模型中表现突出,过去的2025年,国内开源模型厂商的竞逐同样激烈,想要再次实现行业领跑并不容易。原文出处:下一代模型呼之欲出?!DeepSeek的新年礼物mHC是个啥?,感谢原作者,侵权必删!

标签: deepseek

“下一代模型呼之欲出?!DeepSeek的新年礼物mHC是个啥?” 的相关文章

10月28日DeepSeek预测:太阳vs爵士,布克对决马尔卡宁,爵士主场险胜

10月28日DeepSeek预测:太阳vs爵士,布克对决马尔卡宁,爵士主场险胜

  北京时间10月28日09:00,NBA常规赛将迎来西部焦点战,犹他爵士坐镇主场迎战菲尼克斯太阳。作为联盟传统劲旅的爵士(西部第8)近期状态起伏,而拥有三巨头的太阳(西部第10)则急需扭...

12月11日DeepSeek预测:马刺vs湖人,东契奇率队捍卫主场,文班亚马缺阵

12月11日DeepSeek预测:马刺vs湖人,东契奇率队捍卫主场,文班亚马缺阵

  西部第二的湖人将在主场迎战西部第五的马刺,这是两队本赛季第二次交锋。11月6日的对决中,湖人曾以118-116险胜马刺,此番再战,双方都希望用胜利巩固季后赛席位。  ...

DeepSeek预测:布伦特福德vs利物浦!红军客场碾压?蒂亚戈5球vs加克波3

DeepSeek预测:布伦特福德vs利物浦!红军客场碾压?蒂亚戈5球vs加克波3

  英超第9轮即将迎来一场焦点战,布伦特福德坐镇Gtech社区球场迎战利物浦。目前布伦特福德排名第13,积10分;利物浦排名第4,积15分。两队近期状态迥异,蜜蜂军团能否阻挡红军的进攻狂潮...

智联交通 AI创未来|行车卫士三大AI升级引领车队运输智能化变革

智联交通 AI创未来|行车卫士三大AI升级引领车队运输智能化变革

  在数字化转型浪潮下,中移物联网有限公司行车卫士持续创新,深度融合AI技术,推出三大重磅升级——智能填单助手、AI多模态告警过滤系统及智能钥匙柜,为政企车队提供更安全、高效、智能的运输管...

12月28日DeepSeek预测步行者vs热火:热火主场欲擒残阵步行者,西亚卡姆

12月28日DeepSeek预测步行者vs热火:热火主场欲擒残阵步行者,西亚卡姆

  迈阿密热火将在FTX球馆迎战印第安纳步行者,这是两队本赛季第三次交锋。目前热火以16胜15负暂列东部第8,距离第6的魔术仅差2个胜场;而步行者6胜25负联盟垫底,已遭遇5连败。对于热火...

曼联vs伯恩茅斯友谊赛官方集锦

曼联vs伯恩茅斯友谊赛官方集锦

  重点表扬霍伊伦,第一个进球会绕前跑位了,然后支点作用做得也很出色,第三个进球也有大部分功劳。如果状态能持续下去,最强中锋已在阵中,还买什么赛斯克?   重点表扬霍伊伦...