当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek深夜发论文，V4前奏来了？联手清北破GPU难题，智能体大爆炸

3个月前 (02-27)Deepseek最新资讯65

　　【新智元导读】一夜之间，AI圈再次地震！这次不是DepSeek V4，而是DeepSeek直接换了推理架构。GPU空转的问题，被他们硬生生砍掉了一半。

　　昨天，DeepSeek-V4要来的消息纷纷扬扬，整个AI圈都被搅动得心绪不宁，隔壁的美国同行们都快崩了。

　　结果就在昨晚，DeepSeek突然又双叒叕更新了！他们联手北大、清华的团队，发布了针对智能体的推理框架DualPath。

　　这个框架的核心目标，就是缓解因大规模KV-Cache从外部存储读取而带来的I/O瓶颈问题，避免算力资源因数据加载速度受限而被闲置。

　　具体来说，此次架构升级引入了「Storage-to-Decode」的第二条加载通路，通过「双路径KV-Cache加载」机制，有效改善了PD分离架构下的读取瓶颈和资源失衡问题。

　　还是熟悉的味道，DeepSeek在AI基础设施上的提升一如既往的出色，如今迈入智能体与强化学习时代——

　　论文一出，学界直呼：如此极致的算力管理，如此精准的调控，DeepSeek团队是真正的经济学大师！

　　一个Agent任务有多长？几十分钟，有时几小时。它要写代码、查文档、跑测试，再回来改代码。上下文几百万token，每一步都要快。

　　模型每生成一个token，都会把「思考痕迹」存下来；下次继续写，它要翻草稿；草稿越厚，占用显存越多。

　　因为AI对HBM需求激增，消费级内存被停产，导致在短短几个月内主流的内存DRAM价格涨了7倍！

　　所以，把不需要立刻用到的记忆暂时挪到便宜的SSD或主内存里，下次要用时，再把它搬回来，这成了行业的出路。

　　当AI需要调取旧记忆时，计算单元（Compute Unit）必须停下来，眼巴巴地等着数据通过带宽有限的PCIe总线慢慢爬进显存。

　　DeepSeek的研究指出，在多轮智能体推理（Agentic Inference）的场景下，GPU竟然有大量时间是在「空转」等待数据！

　　他们发布了一些关于智能体编码的真实世界数据，并定义了一个「缓存-计算比率」指标：该比例取决于模型类型、上下文和追加长度。

　　他们从代表性编码任务中收集的轨迹显示，平均交互轮数为157，表明LLMs倾向于进行多轮交互。

　　平均上下文长度为32.7k，而每次追加长度的平均值仅为429，这意味着KV缓存命中率高达98.7%。

　　在此场景下，缓存-计算比（定义为KV缓存加载量与所需计算量之比）对于DeepSeek-V3.2约为22GB/PFLOP。

　　近年来，网络带宽和HBM容量的增长落后于GPU FLOPS的增长，I/O计算比率下降了14.4倍。

　　此外，较小的HBM容量限制了GPU内核可同时计算的token批次大小，阻碍了张量核心等计算单元被充分利用。

　　DeepSeek的DualPath架构，做了一件听起来简单、实现起来却极具颠覆性的事：它把「思考」和「回忆」这两件事，从串行变成了并行。

　　传统架构是串行的：先把数据读进显存，读完后，GPU才开始算。像下载电影，必须等100%，才能播放。

　　在目前流行的预填充-解码分离系统中，命中token的KV缓存完全由预填充引擎直接从远程存储加载。这种设计将所有存储I/O压力集中在预填充端的网卡上，而解码引擎端的网卡则基本处于空闲状态。

　　与其直接从本地NVMe（或 DRAM）将所有KV加载到 GPU 上并受限于本地PCIe总线带宽，不如先将KV暂存到解码 GPU服务器的DRAM 中，再通过GDRDMA将KV传输至预填充（prefill）GPU。

　　具体而言，DeepSeek的GPU显存只需容纳单层的KV向量即可处理一个请求deepseek，内部是这样进行推理的：

　　你发送一个请求（并缓存命中了一堆token），在推理过程中，当执行LLM的一层时：下一层的KV向量从CPU加载，以滑动窗口的方式从磁盘加载之后那一层的KV。

　　他们分析网络接口卡（NIC）与DRAM带宽，以找出实际可行的Prefill:Decode配置范围。

　　P表示预填充节点数；D表示解码节点；g表示每个节点的GPU数量；B表示网卡的带宽；s表示每台机器的存储网卡数量；M表示每台机器的DRAM带宽

　　这意味着，同样的硬件成本，Agent的反应速度快了一倍；或者说，维持同样的体验，推理成本腰斩。

　　并在其推理框架中对比启用与未启用DualPath的性能，以及与SGLang（带HiCache和Mooncake）的对比。

　　基本上，DualPath能带来近2倍的性能提升；下图灰色条代表理论上限；JCT是离线场景（即强化学习rollout）下的作业完成时间。

　　结果显示，在在更大的批大小和更长的MAL下，DualPath的优势更加明显。图 7 展示了不同批大小和MAL配置下的JCT。

　　他们还调整了预填充与解码（P:D）的比例，分别为1:2,1:1,2:1，看起来差别并不大，在这三种场景下性能大约提升了2倍。

　　第一张图是在不同APS下的堆叠柱状图，左侧为使用DualPath的情况，右侧为未使用的情况。时间按百分比分配给：

　　因此你可以看到分配所花费的时间消失了，prefill所花费的时间减少了，而（相对而言）读取KV和调度所花费的时间增加了

　　他们最后提到，其系统在由1,152块GPU组成的集群上支持4.8万个并发智能体，配置为48P:96D。

　　这是从2P:4D上的2000个智能体线性扩展而来的；还测试了44P:88D，也观察到了同样的线性扩展。

　　但这也会导致工作集（KV缓存的大小）呈平方级增长，由于命中率降低，进一步加大了对DRAM和存储的压力

　　也让人质疑他们早前提出的缓存-计算比率，很可能会提高GB:PFLOPs表中的GB数值（再次附上截图）

　　DualPath的诞生，不仅仅是一个技术优化，它是一个信号。它宣告了Pre-filling（预填充）时代的终结，和Agentic Serving（智能体式服务）时代的正式确立。

　　但DeepSeek用DualPath狠狠地打醒了行业：当参数量不再是瓶颈，IO（输入输出）才是阿喀琉斯之踵。

　　通过彻底榨干PCIe 6.0/7.0的带宽，通过极致的软硬件协同，DeepSeek正在把AI从「在线计算」的束缚中解放出来。原文出处：DeepSeek深夜发论文，V4前奏来了？联手清北破GPU难题，智能体大爆炸，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：消息称DeepSeek V4模型让华为等早期访问，不让英伟达AMD先用

下一篇：DeepSeek新论文来了！联手清华、北大，优化智能体大模型推理

“DeepSeek深夜发论文，V4前奏来了？联手清北破GPU难题，智能体大爆炸” 的相关文章

C财经｜请查收！2025年终总结（关键词版）

　　2025年，看春晚舞台上的机器人扭秧歌，在电影院里享受《哪吒2》带来的视觉盛宴，坐着高铁去滑雪，向DeepSeek寻求答案deepseek，手机信号悄然跳至5G-A，为一个爆火的盲盒去...

超越DeepSeek后，豆包活跃用户规模继续增长

　　早在上个季度的报告中，豆包的月活跃用户规模就已经超越了DeepSeek，2025年8月，QuestMobile发布数据显示，豆包月活跃用户数达到了1.57亿，而DeepSeek下滑至1...

秋日温差难眠？让TCL小蓝翼C7新风空调守护你的每一夜安睡

　　秋风渐起，昼夜温差加大，正是睡眠易受干扰的季节。你是否常在深夜因闷热或寒意醒来，或清晨感到口干舌燥、精神不振？忽冷忽热的天气不仅影响睡眠质量，更可能让人在换季时节抵抗力下降。与其依赖被...

陕西水电：实干作答“上半场” 五维聚力正当时

　　上半年，陕西水电在集团公司的坚强领导下，在清洁能源赛道上踔厉奋发，交出一份亮眼的“期中答卷”：发电量同比增长7.59%，营业收入同比增长2.99%，固定资产投资完成20.27亿元，同比...

DeepSeek连发两篇论文背后，原来藏着一场学术接力

　　2026 年 1 月过半，我们依然没有等来 DeepSeek V4，但它的模样已经愈发清晰。　　最近，DeepSeek 连发了两篇论文，一篇解决信息如何稳定流动，另...

中国AI从Deepseek到Seedance完成全球引领质变

　　#从Deepseek到Seedance中国AI成了#从Deepseek夯实大模型底座，到Seedance 2.0登顶视频生成巅峰，短短一年，中国AI完成了从技术突围到全球引领的质变。这...