DeepSeek 要发大招了,梁文锋署名新论文!暴力优化AI架构
【新智元导读】2026新年第一天,DeepSeek发表了梁文锋署名的重磅新论文,提出了一种名为「mHC(流形约束超连接)」的新架构,在27B参数模型上,仅增加约6.7%的训练时间开销,即可实现显著性能提升。
在这篇论文中,DeepSeek提出了流形约束超连接(mHC),将矩阵投影到约束流形上优化残差连接空间,从而确保稳定性,彻底颠覆了传统AI架构认知——
可以扩大残差流通道宽度(residual stream width),而在算力和内存上的代价却微乎其微。
继Hyper-Connections(HC)开辟「残差连接宽度可扩展」路线之后,mHC直接把这一思路推上实用化的快车道。
值得一提的是,这次梁文锋署名,但解振达、韦毅轩、Huanqi Cao为核心贡献者,解振达为通讯作者。
在27B模型的系统级基准测试结果中,新架构mHC在绝大多数基准测试中持续超越基线模型并优于HC,这证明其在大规模预训练中的有效性。
这个方法的关键目标,就是在Hyper-Connections的拓扑设计下恢复身份映射属性。这样,就可以在大规模训练与现实基础模型任务中体现实际价值。
mHC与传统残差连接和HC的根本差异在于:传统残差连接只保留简单的输入 + 输出形式(稳定但表达受限);Hyper-Connections (HC)强化连接能力,但牺牲了稳定性与效率。
而mHC的思路是:将Hyper-Connections的参数空间约束到特定的流形(manifold)上,以恢复身份映射结构。
进行约束。尽管原始的恒等映射通过强制来保证训练稳定性,但这种做法从根本上阻断了残差流内部的信息交互,而这种交互对于充分发挥多流(multi-stream)架构的潜力至关重要。
因此,作者提出将残差映射投影到一个既能维持跨层信号传播稳定性、又能促进残差流之间相互作用的流形上,从而在保证稳定性的同时保留模型的表达能力。
形式化地,记为双随机矩阵所构成的流形(亦称Birkhoff多面体),将约束在其投影上,其定义为:
需要注意的是,当n=1时,双随机条件会退化为标量1,从而恢复为原始的恒等映射。选择双随机性能够带来若干对大规模模型训练具有重要意义的严格理论性质:
从数学上看,此类矩阵的反复作用会单调地增强不同信息流之间的混合程度,从而有效地充当一种鲁棒的特征融合机制。
给定第l层的输入隐藏矩阵,首先将其展平成向量,以保留完整的上下文信息。随后,遵循原始HC的建模方式,得到动态映射和静态映射,具体如下:
Sinkhorn–Knopp(⋅) 算子首先通过指数运算保证所有元素为正,然后执行交替的迭代归一化过程,使矩阵的行和列分别归一到1。
通过一系列严格的工程优化,作者成功将mHC(取n=4)部署到大规模模型中,训练开销仅增加约6.7%。
为此,他们将「除以范数」的操作重新排序,使其发生在矩阵乘法之后。该优化在数学上是等价的,但在工程实现上显著提升了效率。
此外,我们采用混合精度策略,在不牺牲计算速度的前提下最大化数值精度,并将多个具有共享内存访问模式的算子融合为统一的计算内核,以降低内存带宽瓶颈。
为缓解这一问题,作者在前向传播结束后丢弃mHC内核产生的中间激活,并在反向传播阶段通过重新执行mHC内核(不包含计算量较大的层函数F)来即时重计算这些激活。
在忽略轻量级系数、同时考虑到F中的pre-norm开销后,表3总结了在反向传播中需要保留的中间激活以及在L_r个连续层中被重计算的瞬时激活。
在大规模训练中,流水线并行(pipeline parallelism)是缓解参数与梯度内存占用的标准实践。
具体而言,他们采用了DualPipe调度策略,该策略能够有效地重叠跨节点(scale-out)的互连通信流量,例如专家并行与流水线并行中的通信开销。
然而,与单流(single-stream)设计相比,mHC中提出的n-流残差结构会在流水线阶段之间引入显著的通信延迟。
此外,在阶段边界处,对所有Lr层重新计算mHC内核也会带来不可忽略的计算开销。为了解决这些瓶颈,作者对DualPipe调度进行了扩展(见下图),以在流水线阶段边界实现更高效的通信与计算重叠。
同时,在注意力层中,他们刻意避免使用长时间运行的持久化内核(persistent kernels),以防止产生长时间的停顿。
该设计允许对已重叠的注意力计算进行抢占,从而在保持计算设备处理单元高利用率的同时,实现更加灵活的调度。
如下图(a)所示,mHC有效缓解了在HC中观察到的训练不稳定性,相比基线最终降低了0.021的损失。
下图(b)中的梯度范数分析,进一步证实了这种改善的稳定性,表明mHC展现出显著优于HC的,稳定性与基线相当。
原文图5: 流形约束超连接(mHC)的训练稳定性,展示了 (a) mHC与HC相对于基线的绝对训练损失差距,以及 (b) 三种方法的梯度范数。所有实验均采用27B模型。
在多样化基准测试集上,mHC全面提升了下游性能,在所有任务上持续超越基线,并在大多数任务上优于HC。
值得注意的是,与HC相比,mHC进一步增强了模型的推理能力,在BBH上实现了2.1%的性能提升,在DROP上实现了2.3%的提升。
原文表4:27B模型的系统级基准测试结果。 本表比较了基线、HC和mHC在8个不同下游基准测试中的零样本和少样本性能。
综合来看,这些发现验证了mHC在大规模场景下的有效性。这一结论得到了我们内部大规模训练实验的进一步证实。
原文图6:mHC相比基线的扩展特性。 (a) 计算扩展曲线:实线展示了不同计算预算下的性能差距。每个点代表模型大小和数据集大小的特定计算最优配置,从3B和9B扩展到27B参数。(b) Token扩展曲线:3B模型在训练期间的轨迹。每个点代表模型在不同训练token数下的性能。
然而,为提升计算效率,实际实现中使用的Sinkhorn-Knopp算法必须限制迭代次数,这次实验中为20次。
因此,如下图(a)所示,后向梯度增益会略微偏离1。在下图(b)所示的复合映射情况下,偏离有所增加但仍保持有界,最大值约为1.6。
此外,团队观察到,对于HC,当最大增益较大时,其他值也往往显著,这表明所有传播路径普遍存在不稳定性。相比之下,mHC始终产生稳定的结果。
原文图8:可学习映射的可视化,展示了HC(第一行)与mHC(第二行)的代表性单层及复合映射。每个矩阵通过对选定序列内所有token取平均计算得出deepseek。y轴和x轴上的标签分别表示前向信号增益(行和)与后向梯度增益(列和)。原文出处:DeepSeek 要发大招了,梁文锋署名新论文!暴力优化AI架构,感谢原作者,侵权必删!





