当前位置:首页 > Deepseek最新资讯 > 正文内容

梁文锋署名,DeepSeek元旦新论文要开启架构新篇章

5个月前 (01-03)Deepseek最新资讯96

  新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为mHC(流形约束超连接)的新架构。

  简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。

  这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。

  传统的残差连接(即 Transformer 中的 x + F (x) 结构)凭借「恒等映射」保证了信号无损传输和训练稳定性。但它的瓶颈在于信息通道的宽度受限于隐藏层维度 C。

  近期,以字节跳动Seed团队提出的 Hyper-Connections (HC) 为代表的研究,通过扩展残差流宽度和多样化连接模式,拓展了过去十年中广泛应用的残差连接范式。

  从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外增加了显著的内存访问开销。

  这是一个通用框架,它将 HC 的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。

  它的核心目的是:在保留「加宽残差流」带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题。

  团队利用Sinkhorn-Knopp 算法将残差连接矩阵投影到 Birkhoff 多胞形(双随机矩阵)上。这使得信号传播变为特征的「凸组合」,从数学上严格保证了信号范数的稳定性(能量守恒)。为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的 DualPipe 通信计算重叠策略。

  实证表明,mHC 不仅解决了稳定性问题,且在大规模训练中(如 27B 模型)表现出卓越的可扩展性。在 n=4 的扩展倍率下,仅增加了 6.7% 的训练时间开销,却换来了显著的性能提升。mHC 为基础模型的拓扑架构演进指明了方向。

  因此,该 DeepSeek 团队提出将残差映射投影到一个流形上,既能保持跨层信号传播的稳定性,又能促进残差流之间的相互作用,以保持模型的表达能力(expressivity)。

  DeepSeek 还为 mHC 量身定制了基础设施设计,使其在 n=4 时在大模型中的训练开销仅增加 6.7%:

  为了减轻 n 流设计带来的内存压力,DeepSeek 在前向传播后丢弃 mHC 算子的中间激活,并在反向传播时即时重新计算。

  扩展了 DualPipe 调度算法,以改善流水线并行阶段边界处的通信与计算重叠在专用高优先级计算流上执行 MLP 层的内核,并避免在注意力层使用持久算子,以防止阻塞通信流并提高设备利用率。

  研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、超连接(HC)以及提出的流形约束超连接(mHC)进行了对比分析。

  他们采用了受 DeepSeek-V3 启发的 MoE 架构,训练了四种不同的模型变体,以覆盖不同的评估体系。

  具体而言,HC 和 mHC 的扩展率 n 均设置为 4,主要关注点是一个 27B 参数规模的模型。其训练数据集的大小与其参数量成正比,该模型用于展示系统层面的主要结果。在此基础上,他们通过引入使用成比例数据训练的较小的 3B 和 9B 模型来分析计算扩展性,从而观察不同计算规模下的性能趋势。此外,为了专门研究 Token 规模的影响,他们另外训练了一个独立的 3B 模型,该模型在一个固定的 1T Token 的语料库上进行训练。

  图 5:流形约束超连接 (mHC) 的训练稳定性。 该图展示了:(a) mHC 和 HC 相对于基线模型的训练损失绝对差值;(b) 三种方法在训练过程中的梯度范数。所有实验均基于 27B 参数规模的模型。实验结果表明,mHC 在损失函数和梯度范数两方面均表现出更优的稳定性。

  研究团队首先考察 27B 模型的训练稳定性和收敛性。如图 5 (a) 所示,mHC 有效缓解了在 HC 中观察到的训练不稳定问题,与基线模型相比,最终损失降低了 0.021。图 5 (b) 中的梯度范数分析进一步证实了这种稳定性的提升:mHC 表现出明显优于 HC 的行为,保持了与基线模型相当的稳定轮廓。

  表 4:27B 模型在系统级基准测试上的结果。 本表对比了基线模型、HC 以及 mHC 在 8 个不同的下游基准测试中的零样本和少样本性能表现。结果显示,mHC 始终优于基线模型,并在大多数基准测试中超越了 HC,证明了其在大规模预训练中的有效性。

  表 4 展示了在多种下游基准测试中的性能表现。mHC 带来了全面的提升,一致性地优于基线模型,并在大多数任务上超过了 HC。值得注意的是,与 HC 相比,mHC 进一步增强了模型的推理能力,在 BBH 和 DROP 任务上分别实现了 2.1% 和 2.3% 的性能增益。

  图 6:mHC 与基线模型的扩展特性对比。 (a) 计算扩展曲线:实线描绘了在不同计算预算下的性能差距。每个点代表模型大小与数据集大小的最优计算配置deepseek,涵盖了从 3B、9B 到 27B 参数规模的规模扩展过程。 (b) Token 扩展曲线:展示了 3B 模型在训练过程中的轨迹。每个点代表模型在不同训练 Token 数量下的性能表现。

  为了评估该方法的扩展性,研究者报告了在不同规模下 mHC 相对于基线模型的损失改善情况。在图 6 (a) 中,他们绘制了涵盖 3B、9B 和 27B 参数规模的计算规模扩展曲线。其轨迹表明,即使在更高的计算预算下,性能优势依然稳健地得以保持,仅表现出轻微的衰减。

  此外,他们在图 6 (b) 中考察了训练过程中的动态变化,展示了 3B 模型的 Token 扩展曲线。总的来看,这些发现验证了 mHC 在大规模场景下的有效性。这一结论在他们内部的大规模训练实验中得到了进一步的证实。原文出处:梁文锋署名,DeepSeek元旦新论文要开启架构新篇章,感谢原作者,侵权必删!

标签: deepseek

“梁文锋署名,DeepSeek元旦新论文要开启架构新篇章” 的相关文章

取代英伟达,寒武纪靠DeepSeek卖爆“中国芯”

取代英伟达,寒武纪靠DeepSeek卖爆“中国芯”

  翻看寒武纪的客户名单,DeepSeek、商汤科技、腾讯等巨头均位列其中,在华为没有全面走上自主研发道路时,其合作对象也是寒武纪。   作为专注于人工智能芯片产品研发与...

性能大幅领先R1!DeepSeek V3.1免费上线官网和App:回答更快

性能大幅领先R1!DeepSeek V3.1免费上线官网和App:回答更快

  据介绍,DeepSeek-V3.1具备128K超长上下文处理能力,支持混合推理架构(一个模型同时支持思考模式与非思考模式)。   不仅如此,DeepSeek-V3.1...

10月29日DeepSeek预测:国王vs雷霆,雷霆主场延续连胜,亚历山大对决拉

10月29日DeepSeek预测:国王vs雷霆,雷霆主场延续连胜,亚历山大对决拉

  北京时间10月29日,NBA常规赛将迎来西部强弱对话——萨克拉门托国王客场挑战俄克拉荷马雷霆。目前雷霆以4胜0负高居西部第二,而国王1胜2负暂列第11位。这场对决不仅是排名悬殊的较量,...

2025年AI大战被谱写成歌,回顾DeepSeek到谷歌王炸

2025年AI大战被谱写成歌,回顾DeepSeek到谷歌王炸

  甜菜!有人把去年的 AI 大战写成了一首歌整个 2025 年,AI 模型厂都在你夺我争,大佬之间还不断相互抢人。 不仅如此,从年头的 DeepSeek 炸弹 R1 发布,到火遍全网的...

DeepSeek与国产芯片的“双向奔赴”

DeepSeek与国产芯片的“双向奔赴”

  9月29日晚间,深度求索公司发布了DeepSeek-V3.2-Exp模型deepseek,其宛如再次向国产芯片江湖投入一枚巨石。   官方公告显示,新版本模型实验性地...

IDC最新报告:百度AI搜索登顶国内最佳通用AI搜索

IDC最新报告:百度AI搜索登顶国内最佳通用AI搜索

  也是中方相应环球南方呼声、助力弥合数字和智能鸿沟、匆匆进人工智能向善普惠成长的实际行径。星火·政务底座可实现政务常识问答、案牍天生、表格智能阐发等场景化使用,人工智能在带来前所未有机遇...