当前位置:首页 > Deepseek应用场景 > 正文内容

英伟达宣布创造满血 DeepSeek 推理世界记录

1年前 (2025-03-19)Deepseek应用场景603

IT之家 3 月 19 日消息,英伟达在今日举行的 NVIDIA GTC 2025 上宣布其 NVIDIA Blackwell DGX 系统创下 DeepSeek-R1 大模型推理性能的世界纪录。

据介绍,在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行 6710 亿参数的满血 DeepSeek-R1 模型可实现每用户每秒超 250 token 的响应速度,系统最高吞吐量突破每秒 3 万 token。

英伟达表示,随着 NVIDIA 平台继续在最新的 Blackwell Ultra GPU 和 Blackwell GPU 上突破推理极限,其性能将会继续不断提高。

▲ 运行 TensorRT-LLM 软件的 NVL8 配置的 NVIDIA B200 GPU

单节点配置:DGX B200(8 块 GPU)与 DGX H200(8 块 GPU)

测试参数:最新测试采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token

计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度

英伟达表示,通过硬件和软件的结合,他们自 2025 年 1 月以来成功将 DeepSeek-R1 671B 模型的吞吐量提高了约 36 倍。

节点配置:DGX B200(8 块 GPU)、DGX H200(8 块 GPU)、两个 DGX H100(8 块 GPU)系统

测试参数:依然采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token;并发性 MAX

计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度

与 Hopper 架构相比,Blackwell 架构与 TensorRT 软件相结合可实现显著的推理性能提升。

英伟达表示,包括 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B,运行 TensorRT 软件并使用 FP4 精度的 DGX B200 平台与 DGX H200 平台相比已经提供了 3 倍以上的推理吞吐量提升。

英伟达表示,在对模型进行量化以利用低精度计算优势时,确保精度损失最小化是生产部署的关键。IT之家注意到,在 DeepSeek-R1 模型上,相较于 FP8 基准精度,TensorRT Model Optimizer 的 FP4 训练后量化(PTQ)技术在不同数据集上仅产生微乎其微的精度损失。


“英伟达宣布创造满血 DeepSeek 推理世界记录” 的相关文章

借力DeepSeek 银行业智能化变革提速

借力DeepSeek 银行业智能化变革提速

记者日前从工商银行了解到,该行在同业率先完成DeepSeek最新开源大模型的私有化部署,并将其接入行内“工银智涌”大模型矩阵体系,推动金融业务场景的智能化升级。据介绍,工商银行以“企业级AI普惠赋能+...

四地联动|“院士天团”热议DeepSeek,为城市发展支招

四地联动|“院士天团”热议DeepSeek,为城市发展支招

随着DeepSeek爆红全球,“人工智能”毫不意外成为今年两会的热门关键词之一。2025年全国两会,政府工作报告再次提出推进“人工智能+”行动,但与去年相比,篇幅明显增加,并且部署更为细化。未来人工智...

李彦宏:DeepSeek不是万能,最大问题是慢和贵,大多数大模型速度比DeepSeek满血版更快,价格更低「附多模态大模型行业市场分析」

李彦宏:DeepSeek不是万能,最大问题是慢和贵,大多数大模型速度比DeepSeek满血版更快,价格更低「附多模态大模型行业市场分析」

(图片来源:摄图网)4月25日,百度创始人李彦宏在reate2025百度AI开发者大会上发表了题为《模型的世界 应用的天下》的演讲。他在演讲中称 “DeepSeek不是万能的”,并指出了DeepSee...

幻方量化相关人士回应提前发布DeepSeek-R2模型:以官方消息为准

幻方量化相关人士回应提前发布DeepSeek-R2模型:以官方消息为准

IT之家 2 月 26 日消息,幻方量化相关人士就“DeepSeek 新一代 AI 模型 R2 提前发布”的消息回应称:以官方消息为准。2023 年 7 月 17 日,幻方量化成立了深度求索 AI 公...

中航成飞:公司部分内部信息化平台接入了DeepSeek

中航成飞:公司部分内部信息化平台接入了DeepSeek

中航成飞(302132)3月7日在互动平台表示,公司部分内部信息化平台接入了DeepSeek,目前已实现知识问答、流程调度等功能,有助于工作效率的提升,未来公司将不断探索新技术带来新的应用场景。相关搜...

量化派与DeepSeek等共同入选年度百大AI产品榜单

量化派与DeepSeek等共同入选年度百大AI产品榜单

自春节期间DeepSeek开始受到全网关注,热度依然在蔓延。作为一款更低成本、更优效能和更广泛应用场景的大模型,其表现出来的能力让人惊喜。在科技飞速发展的当下,人工智能已成为创新变革的前沿阵地。值得关...