当前位置:首页 > Deepseek最新资讯 > 正文内容

刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

4个月前 (01-01)Deepseek最新资讯82

  简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。

  这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。

  传统的残差连接(即 Transformer 中的 x + F (x) 结构)凭借‘恒等映射’保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C。

  近期,以 Hyper-Connections (HC) 为代表的研究,通过扩展残差流宽度和多样化连接模式,拓展了过去十年中广泛应用的残差连接范式。

  数值不稳定性: 原始的 HC 中,连接矩阵是自由学习的,没有约束。这导致信号在经过多层传播后,数值会‘爆炸’或‘消失’,破坏了恒等映射的特性,模型越深越难训练。

  系统开销大: 通道变宽意味着显存读写 (I/O) 和通信成本成倍增加,也就是所谓的‘显存墙’问题。

  从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销。

  这是一个通用框架,它将 HC 的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

  它的核心目的是:在保留‘加宽残差流’带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题。

  团队利用Sinkhorn-Knopp 算法将残差连接矩阵投影到 Birkhoff 多胞形(双随机矩阵)上。这使得信号传播变为特征的‘凸组合’,从数学上严格保证了信号范数的稳定性(能量守恒)。为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的 DualPipe 通信计算重叠策略。

  实证表明,mHC 不仅解决了稳定性问题,且在大规模训练中(如 27B 模型)表现出卓越的可扩展性。在 n=4 的扩展倍率下,仅增加了 6.7% 的训练时间开销,却换来了显著的性能提升。mHC 为基础模型的拓扑架构演进指明了方向。

  来确保稳定性,但它能从根本上阻止残差流内部的信息交换,而这种交换对于最大化多流架构的潜力至关重要。

  因此,该 DeepSeek 团队提出将残差映射投影到一个流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力(expressivity)。

  限制为双拟随机矩阵(Doubly Stochastic Matrix),即具有非负项且行和与列和均为 1 的矩阵。

  复合封闭性:双拟随机矩阵集对矩阵乘法具有封闭性,确保了跨多层的复合残差映射仍保持双拟随机,从而可在整个模型深度上维持稳定性。

  几何解释:该集合构成了 Birkhoff 多胞形,是排列矩阵集的凸包。这意味着残差映射充当了排列的凸组合,其重复应用会单调地增加跨流的信息混合,起到鲁棒的特征融合作用。

  是 Sigmoid 函数。Sinkhorn-Knopp 算子首先通过指数操作确保所有元素为正,然后进行迭代规范化,交替缩放行和列使其和为 1。

  DeepSeek 还为 mHC 量身定制了基础设施设计,使其在 n=4 时在大模型中的训练开销仅增加 6.7%:

  为了减轻 n 流设计带来的内存压力,DeepSeek 在前向传播后丢弃 mHC 算子的中间激活,并在反向传播时即时重新计算。

  扩展了 DualPipe 调度算法,以改善流水线并行阶段边界处的通信与计算重叠在专用高优先级计算流上执行 MLP 层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率。

  研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接(HC)以及提出的流形约束超连接(mHC)进行了对比分析。

  他们采用了受 DeepSeek-V3 启发的 MoE 架构,训练了四种不同的模型变体,以覆盖不同的评估体系。

  具体而言,HC 和 mHC 的扩展率 n 均设置为 4,主要关注点是一个 27B 参数规模的模型。其训练数据集的大小与其参数量成正比,该模型用于展示系统层面的主要结果。在此基础上,他们通过引入使用成比例数据训练的较小的 3B 和 9B 模型来分析计算扩展性,从而观察不同计算规模下的性能趋势。此外,为了专门研究 Token 规模的影响,他们另外训练了一个独立的 3B 模型,该模型在一个固定的 1T Token 的语料库上进行训练。

  图 5:流形约束超连接 (mHC) 的训练稳定性。 该图展示了:(a) mHC 和 HC 相对于基线模型的训练损失绝对差值;(b) 三种方法在训练过程中的梯度范数。所有实验均基于 27B 参数规模的模型。实验结果表明,mHC 在损失函数和梯度范数两方面均表现出更优的稳定性。

  研究团队首先考察 27B 模型的训练稳定性和收敛性。如图 5 (a) 所示,mHC 有效缓解了在 HC 中观察到的训练不稳定问题,与基线模型相比,最终损失降低了 0.021。图 5 (b) 中的梯度范数分析进一步证实了这种稳定性的提升:mHC 表现出明显优于 HC 的行为,保持了与基线模型相当的稳定轮廓。

  表 4:27B 模型在系统级基准测试上的结果。 本表对比了基线模型、HC 以及 mHC 在 8 个不同的下游基准测试中的零样本和少样本性能表现。结果显示,mHC 始终优于基线模型deepseek,并在大多数基准测试中超越了 HC,证明了其在大规模预训练中的有效性。

  表 4 展示了在多种下游基准测试中的性能表现。mHC 带来了全面的提升,一致性地优于基线模型,并在大多数任务上超过了 HC。值得注意的是,与 HC 相比,mHC 进一步增强了模型的推理能力,在 BBH 和 DROP 任务上分别实现了 2.1% 和 2.3% 的性能增益。

  图 6:mHC 与基线模型的扩展特性对比。 (a) 计算扩展曲线:实线描绘了在不同计算预算下的性能差距。每个点代表模型大小与数据集大小的最优计算配置,涵盖了从 3B、9B 到 27B 参数规模的规模扩展过程。 (b) Token 扩展曲线:展示了 3B 模型在训练过程中的轨迹。每个点代表模型在不同训练 Token 数量下的性能表现。

  为了评估该方法的扩展性,研究者报告了在不同规模下 mHC 相对于基线模型的损失改善情况。在图 6 (a) 中,他们绘制了涵盖 3B、9B 和 27B 参数规模的计算规模扩展曲线。其轨迹表明,即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减。

  此外,他们在图 6 (b) 中考察了训练过程中的动态变化,展示了 3B 模型的 Token 扩展曲线。总的来看,这些发现验证了 mHC 在大规模场景下的有效性。这一结论在他们内部的大规模训练实验中得到了进一步的证实。原文出处:刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章,感谢原作者,侵权必删!

标签: deepseek

“刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章” 的相关文章

华为AI城市峰会:共建城市数智底座,AI CITY先锋城市案例发布

华为AI城市峰会:共建城市数智底座,AI CITY先锋城市案例发布

  9月18日,在华为全联接大会2025期间,以“共建智能世界云底座,加速政务与产业智能升级”为主题的AI城市峰会隆重举行。此次峰会聚焦城市“智”理、智慧政务与产业数智升级三大领域,汇集行...

不止于展示 松下在进博会构建“技术引力场”

不止于展示 松下在进博会构建“技术引力场”

  东海之滨,黄浦江畔,象征开放与机遇的“四叶草”再次迎风绽放。第八届中国国际进口博览会(以下简称“进博会”)盛大启幕,全球共享合作新机遇、共赢发展新未来。“进博老友”松下如约而至,围绕“...

DeepSeek预测:皇家马德里vs巴塞罗那,姆巴佩VS莱万,银河战舰主场力擒巴

DeepSeek预测:皇家马德里vs巴塞罗那,姆巴佩VS莱万,银河战舰主场力擒巴

  西甲第10轮将迎来本赛季首次国家德比,领头羊皇家马德里(8胜0平1负,进20球失9球)坐镇伯纳乌迎战仅差2分的巴塞罗那(7胜1平1负,进24球失10球)。两队近期均保持欧冠+联赛双线连...

1月5日DeepSeek预测:鹈鹕vs热火,热火主场优势明显,鲍威尔或成关键先生

1月5日DeepSeek预测:鹈鹕vs热火,热火主场优势明显,鲍威尔或成关键先生

  东部第八的热火(19胜16负)将在主场迎战西部垫底的鹈鹕(8胜28负)。热火正为季后赛席位冲刺,而鹈鹕已陷入五连败泥潭。此战若胜,热火有望冲击东部前六;鹈鹕则需为尊严而战。...

12月29日DeepSeek预测:灰熊vs奇才,莫兰特率队客场取胜

12月29日DeepSeek预测:灰熊vs奇才,莫兰特率队客场取胜

  北京时间12月29日07:00,华盛顿奇才将在主场迎战孟菲斯灰熊。奇才作为东部知名球队,目前以6胜23负的战绩排名东部第14,而灰熊则以15胜16负位列西部第9。这场比赛对于双方来说都...

消息称DeepSeek V4打破常规:优先适配华为,冷落英伟达AMD

消息称DeepSeek V4打破常规:优先适配华为,冷落英伟达AMD

  【TechWeb】2月26日消息,中国春节已过,但AI圈期待的那个“王炸”仍未正式落地。据外媒报道,中国人工智能DeepSeek在推出下一代旗舰模型V4之前,采取了一项打破行业惯例的举...