当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

4个月前 (01-02)Deepseek最新资讯103

  论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升deepseek,但由于其结构复杂、缺乏约束,往往导致训练不稳定、信号失真甚至梯度爆炸等问题。

  为此,DeepSeek提出了mHC(Manifold-Constrained Hyper-Connections)方案,将HC中的残差映射矩阵投影到双随机矩阵构成的“流形空间”,在保留拓扑表达力的同时,恢复原始残差连接的恒等映射性质。

  实验证明,这一mHC方法在大规模训练中展现出显著稳定性,仅引入6.7%的训练时间开销,在多个下游任务中超越HC与Baseline模型。

  当前主流模型广泛采用Residual Connection架构,其核心优势在于具备“恒等映射”特性,可稳定信号传播、避免训练过程中信号衰减或放大。

  但近年来如Hyper-Connections(HC)等结构,为提升表达能力引入更复杂的连接拓扑,将残差通道扩展至n倍宽度,并通过多个可学习映射矩阵对输入与输出特征进行重组。

  然而,HC的自由形态也打破了恒等映射约束,导致训练中存在信号爆炸(最高放大至3000倍)或梯度异常的问题。

  ▲相较于mHC,传统Hyper-Connections在训练过程中出现显著的不稳定现象(上图),其残差连接在深层堆叠中更暴露出前向信号和反向梯度指数级放大问题(下图),成为大模型扩展的隐性障碍。

  其核心在于:不再直接使用无约束的残差映射矩阵H_res,而是通过Sinkhorn-Knopp算法将其投影到“Birkhoff多面体”(即双随机矩阵流形)上。

  论文中还提到,将输入/输出映射H_pre、H_post也做了正值约束,可进一步避免信号抵消现象。

  此后,论文对比测试了Baseline、HC和mHC三种模型在27B参数规模下的训练表现与推理性能。实测结果表明,流形约束超连接(mHC)在大规模训练场景下显著优于传统超连接(HC)。

  训练稳定性方面,对比传统残差、HC与mHC,HC训练中损失震荡发散,梯度爆炸;mHC损失平稳收敛,梯度稳定。

  分析表明HC的复合映射增益高达3000(信息爆炸),而mHC控制在1.6,接近理想恒等映射,信号保真度高。

  这说明,mHC通过双随机流形约束,有效抑制了多层堆叠中的信号放大与梯度爆炸问题,损失曲线平稳收敛,梯度范数保持稳定,解决了HC因数值不稳定导致的训练发散缺陷。

  性能表现方面,27B模型在BBH(51.0 vs HC 48.9)、DROP(53.9 vs 51.6)、GSM8K、MATH、MMLU等任务显著优于HC与基线,取得显著增益,最高提升达2.3个百分点,验证了其在复杂推理与语义建模中的优势。

  可扩展性方面,3B-27B模型验证,mHC性能增益随规模扩大保持稳定甚至增强(如DROP提升从1.5→2.3),显示深层大模型中的信号保真需求更高,展现出良好的泛化能力与深层适配性。1T token训练下无过拟合,泛化能力增强。

  系统效率方面,通过内核融合、重计算与通信重叠优化,mHC在扩展率n=4时仅引入6.7%的额外开销,通过内核融合(带宽提升22%)、重计算(内存降40%)及流水线优化(GPU利用率>90%),实现高效训练,工程可行性高。

  DeepSeek团队在结论中说,尽管本研究采用双随机矩阵确保稳定性,但该框架能容纳针对特定学习目标设计的多种流形约束探索。他们预计,对几何约束特性的进一步研究可能产生新颖方法,从而在可塑性与稳定性之间实现更优权衡。

  此外,研究团队希望mHC能重新激发学界对宏观架构设计的兴趣。通过深化对拓扑结构如何影响优化与表征学习的理解,mHC或将有助于突破当前限制,并可能为下一代基础架构的演进指明新方向。原文出处:DeepSeek开年炸场!梁文锋又发论文了,一如既往地强,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek开年炸场!梁文锋又发论文了,一如既往地强” 的相关文章

12月19日DeepSeek预测:火箭vs鹈鹕,火箭能否延续连胜?关键球星对决解

12月19日DeepSeek预测:火箭vs鹈鹕,火箭能否延续连胜?关键球星对决解

  NBA常规赛即将迎来一场西部对决,休斯顿火箭队将客场挑战新奥尔良鹈鹕队。火箭目前以16胜7负的战绩高居西部第五,而鹈鹕则以5胜22负排名西部垫底。这场比赛对于双方来说意义不同,火箭希望...

DeepSeek新模型颠覆OCR传统,文本转视觉获Karpathy盛赞

DeepSeek新模型颠覆OCR传统,文本转视觉获Karpathy盛赞

  据新浪科技报道,近日DeepSeek再次新发布并开源的OCR模型,从根本上改变了AI游戏规则。Github开源项目DeepSeek-OCR,一夜收获超4k星。相关论文(《DeepSee...

奥特曼:来自DeepSeek和Kimi等中国大模型的竞争加速了OpenAI开源

奥特曼:来自DeepSeek和Kimi等中国大模型的竞争加速了OpenAI开源

  OpenAI创始人山姆·奥特曼日前接受采访时表示,来自中国模型的竞争,尤其像DeepSeek和Kimi K2这样的模型,是OpenAI最近决定发布开源模型的因素,他认为在推理能力方面d...

DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大

DeepSeek又上新!模型硬刚谷歌,承认开源与闭源差距拉大

  两款模型有着不同的定位。DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用智能体任务场景。9月底DeepSeek发布了实验版V3.2-Exp,此...

DeepSeek V4 Lite 原生多模态 AI 曝光:百万 tokens 上

DeepSeek V4 Lite 原生多模态 AI 曝光:百万 tokens 上

  上下文窗口(Context Window)是指 AI 模型在生成回答时能“记住”的之前对话或输入文本的长度。窗口越大,模型处理复杂长篇任务的能力越强。   该模型原生...

DeepSeek破解数学AI的自我欺骗难题:让机器真正学会数学推理

DeepSeek破解数学AI的自我欺骗难题:让机器真正学会数学推理

  这项由DeepSeek-AI团队的邵志宏、罗宇翔、卢承达等研究人员完成的重要研究,发表于2025年1月的arXiv预印本服务器(论文编号:arXiv:2511.22570v1),为数学...