当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能

3个月前 (02-27)Deepseek最新资讯66

　　DualPath的核心在于解决Agent长文本推理场景下的I/O瓶颈，通过优化从外部存储加载KV-Cache的速度，确保计算资源不被存储读取拖累。

　　它改变了传统的存储至预填充引擎（Storage-to-Prefill）单路径加载模式，引入了存储至解码引擎（Storage-to-Decode）的第二条路径。

　　通过利用解码引擎闲置的存储网卡（SNIC）带宽读取缓存，并配合高速计算网络（RDMA）将其传输至预填充引擎，DualPath实现了集群存储带宽的全局池化与动态负载均衡。

　　在高负载下，首字延迟（TTFT）大幅优化，而 Token间的生成速度（TPOT）几乎不受任何干扰。

　　在以往的理解中，谁负责计算谁就去搬数据。但DualPath认为，缓存可以先加载到解码引擎中，再通过高性能RDMA网络传输至预填充引擎。

　　之所以这样做，是因为在当前的智能体应用中，对话轮数多且上下文长，KV-Cache命中率通常高达95%以上。

　　这意味着，每一轮对话都要搬运海量的“旧记忆”，推理性能的瓶颈已经从“计算”转移到了“搬运”上

　　在现有的预填充-解码分离（PD-disaggregated）架构中，所有的加载任务都拥挤在预填充引擎（PE）的存储网卡上，导致带宽瞬间饱和；

　　正如英伟达首席科学家Bill Dally、谷歌架构师Jeff Dean等大佬反复强调的：计算是免费的，但数据移动是昂贵的。

　　如上所述，DualPath推理系统的核心在于打破了传统的“存储至预填充”单路径模式，创新性地引入了“存储至解码”路径

　　该设计允许KV-Cache先加载至解码引擎（DE），再通过高带宽计算网络（RDMA）无损传输给预填充引擎（PE）。

　　通过在两条路径间动态分配负载，系统将集群中原本闲置的解码侧存储网卡（SNIC）带宽彻底释放，构建起一个全局可调度的存储I/O资源池。

　　具体来说，为了支持层级流式处理，DualPath在PE和DE上均分配了少量DRAM缓冲区（PE/DE Buffer），并针对不同阶段设计了精细的数据流：

　　但就像前面提到的，“绕路”加载会带来新问题：比如搬运缓存的流量撞上了模型计算的通信，怎么办？

　　首先是以计算网卡（CNIC）为中心的流量管理，强制所有流量通过配对的CNIC走GPUDirect RDMA路径。

　　在InfiniBand或RoCE网络中，利用虚拟层（VL/TC）技术，将推理通信设为“最高优先级”并预留99%带宽，让缓存搬运只能在间隙中“蹭”带宽，确保互不干扰。

　　其次是自适应请求调度器：调度器会盯着每个节点的磁盘队列长度和Token数。系统会优先将任务分配给I/O压力较小且计算负载较轻的节点，从根本上避免单侧网卡或单点计算资源的拥塞。

　　在实验阶段，DualPath在DeepSeek-V3、Qwen等模型上进行了测试deepseek，场景覆盖了离线Rollout和在线服务。

　　如开头所说，在离线推理中，DualPath 将端到端吞吐量提高了高达1.87倍，在线服务吞吐量平均提升1.96倍，显著降低了首字延迟（TTFT），且保持了极其稳定的Token间延迟（TBT）。

　　总的来说，DualPath 证明了通过重新思考数据加载路径可以有效突破当前大模型推理的I/O墙。

　　它成功利用了解码引擎原本被浪费的I/O带宽，配合自适应调度和严谨的流量隔离机制，在不增加硬件成本的前提下，大幅提升了智能体LLM推理系统的效率。

　　他的研究方向聚焦于系统软件与大模型基础设施（LLM Infrastructure），尤其是推理系统的工程优化与规模化部署。

　　他目前在DeepSeek系统组，参与下一代模型的推理基础设施建设，负责大规模软件系统在多硬件平台上的性能优化。原文出处：DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：一文看懂DeepSeek与清北最新论文：剧透V4底层架构，或改写大模型推理格局

下一篇：美企疾呼加大AI教育，“看看中国，5岁孩子都在学Deepseek”

“DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能” 的相关文章

DeepSeek发布最强开源新品，瞄向全能Agent，给GPT-5与Gemini

　　ChatGPT迎来三周岁生日之际，竞争对手DeepSeek送来了一份“生日礼”，似乎并不想让这位大模型领域的先行者过得那么轻松。　　12月1日晚间，DeepSeek...

11月23日DeepSeek预测：奇才vs公牛，公牛主场轻取奇才，怀特武切维奇双

　　东部第9的公牛（8胜7负）将在联合中心迎战联盟垫底的奇才（1胜14负）。公牛若胜将稳固附加赛席位，而奇才急需终止5连败颓势。本赛季公牛场均得分（120.7分）高居联盟第8，奇才防守效率...

刚刚，DeepSeek又探索新架构了，开源OCR 2

　　当时 DeepSeek-OCR 的出世，引起了大家对视觉压缩的关注与讨论，而这一次，DeepSeek 对视觉编码下手了。　　可以说，刚刚发布的 DeepSeek-O...

11月5日DeepSeek预测：魔术vs老鹰，班凯罗对决约翰逊，老鹰主场险胜

　　北京时间11月5日，NBA常规赛将迎来一场东部中游球队的焦点对决，奥兰多魔术客场挑战亚特兰大老鹰。两支球队目前战绩同为3胜4负，分列东部第9和第10位，这场比赛的胜负将直接影响季后赛席...

浙江庆元：三维赋能打造高质量发展新引擎

　　今年以来，庆元县烟草专卖局聚焦企业现代化治理核心目标，以“思维革新、创新培优、队伍建设”为三大抓手持续发力，将战略部署转化为推动企业现代化治理的实际成效，为高质量发展注入源源不断的动力...

12月16日DeepSeek预测：猛龙vs热火，巴雷特缺阵或成转折，阿德巴约率队

　　北京时间12月16日早8:30，迈阿密热火将在FTX球馆迎战多伦多猛龙，这是两支胜率超过55%的东部劲旅间的直接对话。目前猛龙以15胜11负暂列东部第5，热火14胜11负紧随其后，本场...

DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能

“DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能” 的相关文章

DeepSeek发布最强开源新品，瞄向全能Agent，给GPT-5与Gemini

11月23日DeepSeek预测：奇才vs公牛，公牛主场轻取奇才，怀特武切维奇双

刚刚，DeepSeek又探索新架构了，开源OCR 2

11月5日DeepSeek预测：魔术vs老鹰，班凯罗对决约翰逊，老鹰主场险胜

浙江庆元：三维赋能打造高质量发展新引擎

12月16日DeepSeek预测：猛龙vs热火，巴雷特缺阵或成转折，阿德巴约率队

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能

“DeepSeek新论文剧透V4新框架！用闲置网卡加速智能体推理性能” 的相关文章

DeepSeek发布最强开源新品，瞄向全能Agent，给GPT-5与Gemini

11月23日DeepSeek预测：奇才vs公牛，公牛主场轻取奇才，怀特武切维奇双

刚刚，DeepSeek又探索新架构了，开源OCR 2

11月5日DeepSeek预测：魔术vs老鹰，班凯罗对决约翰逊，老鹰主场险胜

浙江庆元：三维赋能 打造高质量发展新引擎

12月16日DeepSeek预测：猛龙vs热火，巴雷特缺阵或成转折，阿德巴约率队

Powered By Z-BlogPHP. Theme by TOYEAN.

浙江庆元：三维赋能打造高质量发展新引擎