当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek深夜发论文,V4前奏来了?联手清北破GPU难题,智能体大爆炸

2个月前 (02-27)Deepseek最新资讯60

  【新智元导读】一夜之间,AI圈再次地震!这次不是DepSeek V4,而是DeepSeek直接换了推理架构。GPU空转的问题,被他们硬生生砍掉了一半。

  昨天,DeepSeek-V4要来的消息纷纷扬扬,整个AI圈都被搅动得心绪不宁,隔壁的美国同行们都快崩了。

  结果就在昨晚,DeepSeek突然又双叒叕更新了!他们联手北大、清华的团队,发布了针对智能体的推理框架DualPath。

  这个框架的核心目标,就是缓解因大规模KV-Cache从外部存储读取而带来的I/O瓶颈问题,避免算力资源因数据加载速度受限而被闲置。

  具体来说,此次架构升级引入了「Storage-to-Decode」的第二条加载通路,通过「双路径KV-Cache加载」机制,有效改善了PD分离架构下的读取瓶颈和资源失衡问题。

  还是熟悉的味道,DeepSeek在AI基础设施上的提升一如既往的出色,如今迈入智能体与强化学习时代——

  论文一出,学界直呼:如此极致的算力管理,如此精准的调控,DeepSeek团队是真正的经济学大师!

  一个Agent任务有多长?几十分钟,有时几小时。它要写代码、查文档、 跑测试,再回来改代码。上下文几百万token,每一步都要快。

  模型每生成一个token,都会把「思考痕迹」存下来;下次继续写,它要翻草稿;草稿越厚,占用显存越多。

  因为AI对HBM需求激增,消费级内存被停产,导致在短短几个月内主流的内存DRAM价格涨了7倍!

  所以,把不需要立刻用到的记忆暂时挪到便宜的SSD或主内存里,下次要用时,再把它搬回来,这成了行业的出路。

  当AI需要调取旧记忆时,计算单元(Compute Unit)必须停下来,眼巴巴地等着数据通过带宽有限的PCIe总线慢慢爬进显存。

  DeepSeek的研究指出,在多轮智能体推理(Agentic Inference)的场景下,GPU竟然有大量时间是在「空转」等待数据!

  他们发布了一些关于智能体编码的真实世界数据,并定义了一个「缓存-计算比率」指标:该比例取决于模型类型、上下文和追加长度。

  他们从代表性编码任务中收集的轨迹显示,平均交互轮数为157,表明LLMs倾向于进行多轮交互。

  平均上下文长度为32.7k,而每次追加长度的平均值仅为429,这意味着KV缓存命中率高达98.7%。

  在此场景下,缓存-计算比(定义为KV缓存加载量与所需计算量之比)对于DeepSeek-V3.2约为22GB/PFLOP。

  近年来,网络带宽和HBM容量的增长落后于GPU FLOPS的增长,I/O计算比率下降了14.4倍。

  此外,较小的HBM容量限制了GPU内核可同时计算的token批次大小,阻碍了张量核心等计算单元被充分利用。

  DeepSeek的DualPath架构,做了一件听起来简单、实现起来却极具颠覆性的事:它把「思考」和「回忆」这两件事,从串行变成了并行。

  传统架构是串行的:先把数据读进显存,读完后,GPU才开始算。像下载电影,必须等100%,才能播放。

  在目前流行的预填充-解码分离系统中,命中token的KV缓存完全由预填充引擎直接从远程存储加载。这种设计将所有存储I/O压力集中在预填充端的网卡上,而解码引擎端的网卡则基本处于空闲状态。

  与其直接从本地NVMe(或 DRAM)将所有KV加载到 GPU 上并受限于本地PCIe总线带宽,不如先将KV暂存到解码 GPU服务器的DRAM 中,再通过GDRDMA将KV传输至预填充(prefill)GPU。

  具体而言,DeepSeek的GPU显存只需容纳单层的KV向量即可处理一个请求deepseek,内部是这样进行推理的:

  你发送一个请求(并缓存命中了一堆token),在推理过程中,当执行LLM的一层时:下一层的KV向量从CPU加载,以滑动窗口的方式从磁盘加载之后那一层的KV。

  他们分析网络接口卡(NIC)与DRAM带宽,以找出实际可行的Prefill:Decode配置范围。

  P表示预填充节点数;D表示解码节点;g表示每个节点的GPU数量;B表示网卡的带宽;s表示每台机器的存储网卡数量;M表示每台机器的DRAM带宽

  这意味着,同样的硬件成本,Agent的反应速度快了一倍;或者说,维持同样的体验,推理成本腰斩。

  并在其推理框架中对比启用与未启用DualPath的性能,以及与SGLang(带HiCache和Mooncake)的对比。

  基本上,DualPath能带来近2倍的性能提升;下图灰色条代表理论上限;JCT是离线场景(即强化学习rollout)下的作业完成时间。

  结果显示,在在更大的批大小和更长的MAL下,DualPath的优势更加明显。图 7 展示了不同批大小和MAL配置下的JCT。

  他们还调整了预填充与解码(P:D)的比例,分别为1:2,1:1,2:1,看起来差别并不大,在这三种场景下性能大约提升了2倍。

  第一张图是在不同APS下的堆叠柱状图,左侧为使用DualPath的情况,右侧为未使用的情况。时间按百分比分配给:

  因此你可以看到分配所花费的时间消失了,prefill所花费的时间减少了,而(相对而言)读取KV和调度所花费的时间增加了

  他们最后提到,其系统在由1,152块GPU组成的集群上支持4.8万个并发智能体,配置为48P:96D。

  这是从2P:4D上的2000个智能体线性扩展而来的;还测试了44P:88D,也观察到了同样的线性扩展。

  但这也会导致工作集(KV缓存的大小)呈平方级增长,由于命中率降低,进一步加大了对DRAM和存储的压力

  也让人质疑他们早前提出的缓存-计算比率,很可能会提高GB:PFLOPs表中的GB数值(再次附上截图)

  DualPath的诞生,不仅仅是一个技术优化,它是一个信号。它宣告了Pre-filling(预填充)时代的终结,和Agentic Serving(智能体式服务)时代的正式确立。

  但DeepSeek用DualPath狠狠地打醒了行业:当参数量不再是瓶颈,IO(输入输出)才是阿喀琉斯之踵。

  通过彻底榨干PCIe 6.0/7.0的带宽,通过极致的软硬件协同,DeepSeek正在把AI从「在线计算」的束缚中解放出来。原文出处:DeepSeek深夜发论文,V4前奏来了?联手清北破GPU难题,智能体大爆炸,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek深夜发论文,V4前奏来了?联手清北破GPU难题,智能体大爆炸” 的相关文章

外媒关注中国发布“全球首款AI手机”:会是第二个“DeepSeek时刻”吗?

外媒关注中国发布“全球首款AI手机”:会是第二个“DeepSeek时刻”吗?

  [环球时报综合报道]过去一年,人工智能(AI)界的焦点一直集中在模型的迭代发布上,如 GPT-5deepseek、Gemini 3和Claude 3.5等。近日,中国科技圈出现了一个更...

195 万、DeepSeek + AI 智能体大单

195 万、DeepSeek + AI 智能体大单

  云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理deepseek。原文出处:195 万、DeepSeek + AI 智能体...

高通8255芯片,豆包+Deepseek上车,福特全新“方盒子”配置好炫

高通8255芯片,豆包+Deepseek上车,福特全新“方盒子”配置好炫

  《车矩阵》新车一手料:硬派越野SUV中的“方盒子”造型设计近年来非常受市场欢迎,这种阳刚硬派的气质得到了包括越野e族等社团成员的青睐,一些以硬派实力强大的企业也全力推进这类车型的生产。...

2025年10月deepseek关键词排名优化推荐:市场报告与评测列表

2025年10月deepseek关键词排名优化推荐:市场报告与评测列表

  当企业在2025年第四季度冲刺全年KPI时,DeepSeek、豆包、通义千问等生成式引擎的日均调用量已突破30亿次,关键词可见度直接决定流量入口。工信部《生成式AI搜索生态白皮书》显示...

DeepSeek又回来了!国产大模型仍然能打!

DeepSeek又回来了!国产大模型仍然能打!

  发布之后,我曾一度觉得deepseek,国产大模型这下该着急了!因为,在算力不足的情况下,国产大模型似乎难以和国外大模型抗衡了!   据DeepSeek公众号介绍:官...

12月28日DeepSeek预测:骑士vs火箭,杜兰特率队捍卫主场,火箭胜率超六

12月28日DeepSeek预测:骑士vs火箭,杜兰特率队捍卫主场,火箭胜率超六

  NBA常规赛即将迎来一场东西部中游球队的焦点对决,休斯顿火箭坐镇主场迎战克利夫兰骑士。目前火箭以18胜10负排名西部第六,骑士则以17胜15负位列东部第七。本场比赛的结果将直接影响两队...