当前位置:首页 > Deepseek最新资讯 > 正文内容

英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理

5个月前 (11-09)Deepseek最新资讯261

  【新智元导读】2024年,加州大学圣地亚哥分校「Hao AI Lab」提出了DistServe的解耦推理理念,短短一年多时间,迅速从实验室概念成长为行业标准,被NVIDIA、vLLM等主流大模型推理框架采用,预示着AI正迈向「模块化智能」的新时代。

  如果说「摩尔定律」认为计算能力每18个月翻倍,如今大模型推理成本的下降速度,已远超「摩尔定律」关于计算能力迭代速度的预测。

  这并非只是芯片性能提升之功,更重要的是来自推理系统的自身进化。而加速这一进化的,源自一个在DistServe系统中首次提出并实践的「解耦推理」理念。

  该系统由加州大学圣地亚哥分校的「Hao AI Lab」于2024年3月推出,并提出了一个简单而大胆的设想:

  将大模型的推理过程拆分为「预填充」和「解码」两个阶段,并让它们分别在独立的计算资源池中进行伸缩与调度。

  如今,这种解耦推理架构已被NVIDIA、llm-d、vLLM、MoonCake等主流大模型推理框架采用,并开始在大规模、真实推理场景中发挥强大力量。

  推出DistServe系统的「Hao AI Lab」,由加州大学圣地亚哥分校助理教授Hao Zhang领导,他也是2025年谷歌机器学习与系统青年教师奖的获得者。

  Hao Zhang团队以「解耦推理」的最初设计者身份,详细回顾了「预填充-解码」解耦架构(prefill-decode disaggregation)如何从研究概念走向生产系统,以及在大模型推理持续扩展的背景下,解耦推理又将如何演进。

  在每一次推理迭代中,调度器会尽可能将多个用户请求打包成一个批次,运行一轮计算,然后为这些请求各生成一个输出token。

  「prefill」和「decode」共享同一块GPU,它们的延迟(latency)会不可避免地相互干扰。

  即使采用了「分块预填充」等缓解措施,一个大型预填充请求仍可能让TPOT(time-per-output-token)膨胀2到3倍,尤其在负载突发时更为明显。

  如上图(上),当prefill(橙色)与decode(蓝色)同址部署时,两者互相干扰,导致decode阶段停滞;上图(下),当将prefill与decode分离到不同机器时,两者即可无干扰地顺畅运行。

  在实际生产环境中,企业级应用通常将TTFT(time-to-first-token)和TPOT视为关键的用户体验延迟指标。

  当prefill和decode被部署在同一组GPU上时,资源分配器必须同时满足两种最坏情况的延迟需求。

  DistServe通过将prefill与decode拆分为独立的计算池,彻底打破二者的干扰,并首次实现了独立伸缩,使其可以各自独立地满足TTFT和TPOT的延迟要求,同时保持高整体效率。

  在2024年的大部分时间里,开源社区都对这一思路持保留态度,因为对原有推理系统进行深度的架构重构,需要大量工程投入。

  首先,主要是由于越来越多企业将大模型作为其核心业务组件,「延迟控制」成为决定业务增长乃至生死存亡的关键因素。

  而DistServe正好击中了这一痛点:它让prefill和decode的延迟易于观测和控制,且在真实生产环境中可持续优化。

  其次,随着模型体量急剧扩大、访问流量激增,推理系统必须扩展到数百乃至上千张GPU才能支撑这些庞大且变化剧烈的负载。

  在这种规模下,「解耦架构」的优势完全显现:它可以为不同阶段独立分配资源,并灵活配合多种并行策略,实现极高的资源利用率。

  几乎所有与大模型推理相关的生产级框架——从编排层、推理引擎、存储系统,甚至到新兴的硬件架构,都以某种形式采用了这一解耦推理的思想。

  NVIDIA Dynamo是目前最先进、最成熟的开源数据中心级分布式推理框架之一,专为P/D解耦而设计。

  在存储层,由芝加哥大学团队开发的LMCache通过加速从prefill实例到decode实例的KV缓存移动来优化P/D解耦过程。

  Kimi AI团队开发的MoonCake,以「KVCache中心化」为核心思想,构建了一个面向P/D解耦的LLM推理平台。

  它将系统中未充分利用的存储介质统一抽象为一个集中式KV缓存池,从而使prefill实例可以无缝将缓存传输给集群中decode实例。

  在核心引擎层,几乎所有开源的LLM推理引擎,如SGLang与vLLM,都已原生支持「解耦推理」。

  而学术界和工业界也正在探索多种新方向,推动解耦架构迈向「通用分解式推理(Generalized Disaggregated Inference)」阶段。

  以往的P/D解耦主要解决了「上下文输入与自回归输出」的阶段性分离问题,但模型内部结构仍然被视为不可拆解的整体。

  这意味着未来的推理系统可能不再是「每个节点运行完整模型副本」,而是每个节点运行模型的一个功能子模块。

  随着多模态大模型的出现,推理系统正面临更复杂的资源编排问题,将它们全部塞入同一推理流程会导致资源利用率显著下降。

  当前的解耦体系仍依赖于「集中式KV缓存池」或「共享SSD集群」,未来的研究方向在于让缓存体系本身也实现多层解耦与自治调度。

  一些硬件厂商已开始探索原生支持解耦架构的芯片,这意味着未来的「解耦推理」不仅是软件架构问题,而将演化为软硬件一体化体系。

  他们将模型的学习过程被分为多个相互独立的子任务,每个子任务在不同硬件上运行,并通过共享梯度缓存与语义路由器实现跨任务通信。

  这种理念被称作「解耦学习」,被视为解决大模型「灾难性遗忘」与「持续适应」问题的潜在关键路径:

  这种演进并非倒退,而是一种成熟的标志deepseek,AI系统也正在走向模块化智能,不同功能模块可独立演化、独立扩展、独立优化。

  特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

  俄媒:俄军即将攻占乌克兰“第三首都”!俄副总理自曝参战:用狙击步枪还击乌军!俄对乌发动大规模空袭

  习近平在广东考察时强调 深入学习宣传贯彻党的二十届四中全会精神 以全面深化改革开放推动高质量发展原文出处:英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理,感谢原作者,侵权必删!

标签: deepseek

“英伟达、DeepSeek集体跟进!18个月前被忽视,如今统治AI推理” 的相关文章

你最爱的年轻足球运动员是谁?最好偏冷门一些

你最爱的年轻足球运动员是谁?最好偏冷门一些

  我总是有一种直觉,一种对未来事物的心电感应,所以我相信我会很幸运。接下去似有什么在漫漫的灯火里盈盈扑闪,只要我日夜踏过盆地那宽厚而坚实的山坡。  ...

QM发布2025年AI应用榜:豆包、DeepSeek、元宝、阿福、千问排前五

QM发布2025年AI应用榜:豆包、DeepSeek、元宝、阿福、千问排前五

  3月3日,研究机构Quest Mobile发布的《2025年AI应用层发展核心报告》显示,截至2025年12月,全市场AI原生App中,月活跃用户排名前五的是豆包、DeepSeek、元...

青春在代码中闪光 匠心在实战中成长——成都市新都区烟草专卖局(分公司)青年人才培

青春在代码中闪光 匠心在实战中成长——成都市新都区烟草专卖局(分公司)青年人才培

  早上8点,成都市新都区烟草专卖局(分公司)营销办公室已传出键盘敲击声。青年员工帅怡帆正和团队调试新开发的数据分析模块,这是他们针对卷烟营销开发的智慧服务系统。“如果系统上线,客户经理查...

英伟达否认“DeepSeek 使用禁售 Blackwell 芯片”相关传闻

英伟达否认“DeepSeek 使用禁售 Blackwell 芯片”相关传闻

  IT之家 12 月 12 日消息,据科技媒体 Mobile World Live 前天报道,英伟达否认了中国 AI 初创公司深度求索(IT之家注:DeepSeek)使用禁售的 Blac...

2月10日DeepSeek预测:骑士vs掘金,约基奇率队主场复仇?

2月10日DeepSeek预测:骑士vs掘金,约基奇率队主场复仇?

  西部第三的丹佛掘金(34胜19负)将在高原主场迎战东部第四的克利夫兰骑士(32胜21负)。这是两队本赛季第二次交锋,此前骑士在1月3日以113-108主场取胜。作为卫冕冠军,掘金急需用...

DeepSeek强势回归,开源IMO金牌级数学模型

DeepSeek强势回归,开源IMO金牌级数学模型

  顾名思义,这是一个数学方面的模型。它的上一个版本 ——DeepSeek-Math-7b 还是一年多以前发的。当时,这个模型只用 7B 参数量,就达到了 GPT-4 和 Gemini-U...