当前位置:首页 > Deepseek最新资讯 > 正文内容

一年后,DeepSeek-R1的每token成本降到了原来的132

5个月前 (01-09)Deepseek最新资讯80

  几天前,DeepSeek 毫无预兆地更新了 R1 论文,将原有的 22 页增加到了现在的 86 页。

  DeepSeek-R1 是在 2025 年 1 月 20 日发布的开源推理大模型,它拥有 6710 亿参数、单 Token 激活参数为 370 亿,并采用了 MoE 架构,训练效率得到了显著提升。

  R1 在去年的推出震动了全球 AI 领域,其高效率的模型架构、训练方法、工程优化和蒸馏方法在之后成为了全行业的趋势。

  今天,英伟达发表了一篇长文博客,展示了其如何在 Blackwell GPU 上通过软硬协同对 DeepSeek-R1 进一步降本增效。

  随着 AI 模型智能程度的不断提升,人们开始依托 AI 处理日益复杂的任务。从普通消费者到大型企业,用户与 AI 交互的频率显著增加,这也意味着需要生成的 Token 数量呈指数级增长。为了以最低成本提供这些 Token,AI 平台必须实现极高的每瓦特 Token 吞吐量。

  通过在 GPU、CPU、网络、软件、供电及散热方案上的深度协同设计,英伟达持续提升每瓦特 Token 吞吐量,从而有效降低了每百万 Token 的成本。此外,英伟达不断优化其软件栈,从现有平台中挖掘更强的性能潜力。

  那么,英伟达是怎样协同利用运行在 Blackwell 架构上的推理软件栈,以实现 DeepSeek-R1 在多种应用场景中的性能增益呢?我们接着往下看。

  这种大规模的「扩展域」(Scale-up Domain)专为稀疏 MoE 架构优化,此类模型在生成 Token 时需要专家之间频繁的数据交换。

  Blackwell 架构还加入了对 NVFP4 数据格式的硬件加速。这是英伟达设计的一种 4 位浮点格式,相比其他 FP4 格式能更好地保持精度。此外,解耦服务(Disaggregated Serving)这类优化技术也充分利用了 NVL72 架构和 NVLink Switch 技术。简单来解释一下解耦服务,即在一组 GPU 上执行 Prefill(预填充)操作,在另一组 GPU 上执行 Decode(解码)操作。

  另外,在 8K/1K、1K/1K 两种输入 / 输出序列长度的吞吐量与交互性曲线上,GB200 NVL72 也展现出了领先的单 GPU 吞吐能力。

  而 TensorRT-LLM 开源库(用于优化 LLM 推理)的最新增强功能,在同一平台上再次大幅增强了性能。在过去三个月中,每个 Blackwell GPU 的吞吐量提升高达 2.8 倍(这里指的是在 8k/1k 输入 / 输出序列长度下,去年 10 月到今年 1 月的 Token 吞吐量变化)。

  扩大 NVIDIA 程序化依赖启动 (PDL) 的应用:降低核函数启动延迟,有助于提升各种交互水平下的吞吐量;

  有业内人士对英伟达放出的一系列图表进行了直观的解读,用一组数据来总结就是,「通过软硬件的深度协同deepseek,自 2025 年 1 月以来,英伟达已经将 DeepSeek-R1 (671B) 的吞吐量提升了约 36 倍,这意味着单 Token 的推理成本降低到了约 1/32。」

  两项关键技术使 HGX B200 上的 DeepSeek-R1 推理性能大幅提升。第一项技术是使用多 token 预测 (MTP),它可以显著提高各种交互级别下的吞吐量。在所有三种测试的输入 / 输出序列组合中都观察到了这一现象。

  在 HGX B200 平台上,使用 1K/1K 序列长度和聚合服务模式下,FP8(不带 MTP)、FP8(带 MTP)和 NVFP4(带 MTP)的吞吐量与交互性曲线对比。

  第二种方法是使用 NVFP4,充分利用 Blackwell GPU 计算能力来提升性能,同时保持精度。

  在 HGX B200 平台上,使用 8K/1K 序列长度和聚合服务模式下,FP8(不含 MTP)、FP8(含 MTP)和 NVFP4(含 MTP)的吞吐量与交互性曲线对比。

  NVFP4 使用在完整的 NVIDIA 软件栈上(包括 TensorRT-LLM 和 NVIDIA TensorRT 模型优化器),以确保高性能并保持精度。这使得在给定交互级别下能够实现更高的吞吐量,并且在相同的 HGX B200 平台上,可以实现更高的交互级别。

  在 HGX B200 平台上,FP8(无 MTP)、FP8(有 MTP)和 NVFP4(有 MTP)的吞吐量与交互性曲线,序列长度分别为 1K 和 8K,并采用聚合服务模式。

  英伟达表示,其正在不断提升整个技术堆栈的性能,可以帮助用户基于现有硬件产品,持续提升大语言模型的工作负载效率,提升各种模型的 token 吞吐量。原文出处:一年后,DeepSeek-R1的每token成本降到了原来的132,感谢原作者,侵权必删!

标签: deepseek

“一年后,DeepSeek-R1的每token成本降到了原来的132” 的相关文章

11月23日DeepSeek预测:灰熊vs独行侠——伤病潮下的西南区内战,莫兰特

11月23日DeepSeek预测:灰熊vs独行侠——伤病潮下的西南区内战,莫兰特

  当达拉斯独行侠(5胜12负)在美航中心迎战孟菲斯灰熊(5胜11负),这场西南分区内战将成为西部排名卡位战的关键节点。两支胜率不足32%的球队仅相差0.5个胜场,败者将大概率跌至西部垫底...

六大AI拿1万美元真实交易:DeepSeek最能赚,GPT-5亏麻了,AI能让周

六大AI拿1万美元真实交易:DeepSeek最能赚,GPT-5亏麻了,AI能让周

  这是周杰伦最近遇上的麻烦。魔术师好友蔡威泽帮他代持比特币账户, 结果一年前就声称账号被锁, 至今人间蒸发, 钱也没了影。   直到前几天,终于忍不住的周董直接在社交媒...

DeepSeek预测:巴萨VS马竞巅峰对决!莱万+亚马尔双星闪耀助巴萨3-1力克

DeepSeek预测:巴萨VS马竞巅峰对决!莱万+亚马尔双星闪耀助巴萨3-1力克

  西甲第19轮即将迎来一场焦点大战,领头羊巴塞罗那将在Spotify诺坎普球场迎战排名第三的马德里竞技。目前巴萨以34分领跑积分榜,马竞则以31分紧追不舍。这场比赛不仅关乎榜首之争,更是...

美国《时代周刊》评出2025年度300项最佳发明:中国宇树科技、DeepSeek

美国《时代周刊》评出2025年度300项最佳发明:中国宇树科技、DeepSeek

  近日,美国《时代周刊》发布了2025年度“300项最佳发明”榜单,涵盖人工智能、机器人、可穿戴技术、先进材料、医疗、应用软件、加密货币与区块链、教育等多个前沿领域,创下该榜单有史以来的...

DeepSeek预测:利物浦VS狼队!红军主场狂轰滥炸,埃基蒂克领衔屠杀副班长

DeepSeek预测:利物浦VS狼队!红军主场狂轰滥炸,埃基蒂克领衔屠杀副班长

  英超第18轮将迎来一场实力悬殊的较量——排名第5的利物浦坐镇安菲尔德迎战垫底狼队。红军目前与欧冠区仅净胜球差距(29分),而狼队17轮仅积2分深陷降级区。本赛季利物浦场均进球1.65个...

DeepSeek掷出FP8骰子:一场关于效率、成本与自主可控的算力博弈

DeepSeek掷出FP8骰子:一场关于效率、成本与自主可控的算力博弈

  芯片指数与AI算力指数近期持续走高背后,是AI浪潮与大模型算力需求剧增下,国产替代加速与供应链多元化路径日渐成熟的趋势。而DeepSeek掷出FP8这颗 “魔力骰子”,不仅精准切中行业...