当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek第五弹炸裂收官!开源并行文件系统,榨干SSD全部带宽

1年前 (2025-02-28)Deepseek最新资讯565

DeepSeek开源周,今日正式收官!

内容依旧惊喜且重磅,直接公开了V3和R1训练推理过程中用到的文件系统。

具体来说,包括以下两项内容:

Fire-Flyer文件系统(简称3FS,第三个F代表File),一种利用现代SSD和RDMA网络的全部带宽的并行文件系统;Smallpond,基于3FS和DuckDB构建的轻量级数据处理框架。

划重点就是,3FS可以把固态硬盘的带宽性能利用到极致,表现出了惊人的速度:

180节点集群中的聚合读取吞吐量为6.6TiB/s;25节点集群中GraySort基准测试的吞吐量为3.66TiB/分钟;每个客户端节点的KVCache查找峰值吞吐量超过40GiB/s。V3和R1中训练数据预处理、数据集加载、嵌入向量搜索和KV Cache查找等工作,3FS都立下了汗马功劳。

网友们表示,3FS和Smallpond为AI数据处理设定了新基准,将改变数据处理的游戏规则。

对于AI来说,这就像从自行车升级到了高铁。

将SSD和RDMA性能榨干

根据DeepSeek团队介绍,3FS是一种高性能的分布式文件系统,面对的就是AI训练和推理工作负载的挑战。

它利用现代SSD和RDMA网络来提供共享存储层,从而简化分布式应用程序的开发。

SSD就是固态硬盘,而RDMA(远程直接访问,remote direct memory access)是一种直接存储器访问技术。

它可以在没有双方操作系统介入的情况下,将数据直接从一台计算机的内存传输到另一台计算机,也不需要中央处理器、CPU缓存或上下文交换参与。

特点就是高通量、低延迟,尤其适合在大规模并行计算机集群中使用。

具体到3FS,具有以下特点:

分布式架构:结合了数千个SSD的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置影响的方式访问存储资源。强一致性实现带:分配查询的链式复制 (CRAQ) 以实现强一致性,使应用程序代码简单易懂。文件接口:文件接口众所周知且随处可用,无需学习新的存储 API。并且,3FS能够适用于大模型训练推理和过程中不同类型的应用负载:

数据准备:将数据分析pipeline的输出重组成分层目录结构,并有效管理大量中间输出。数据加载器:通过跨计算节点随机访问训练样本,消除了预取或混洗数据集的需要。Checkpoints:支持大规模训练的高吞吐量并行Checkpoints。用于推理的KV缓存:为基于DRAM的缓存提供了一种经济高效的替代方案,可提供高吞吐量和更大的容量。在大型3FS集群上的读取测试中,实现了惊人的高吞吐量。

该集群由180个存储节点组成,每个存储节点配备2×200Gbps InfiniBand网卡和16个14TiB NVMe SSD。

大约500+个客户端节点用于读压测,每个客户端节点配置1x200Gbps InfiniBand网卡。

在训练作业的背景流量下,最终聚合读吞吐达到约6.6TiB/s。

DeepSeek还用GraySort基准测试评估了基于3FS构建的smallpond框架,该基准测试可测量大规模数据集的排序性能。

测试分为两个阶段,先用键的前缀位通过shuffle对数据进行分区,然后进行分区内排序。两个阶段既需要从3FS读取,也需要向3FS写入数据。

测试集群包含25个存储节点(2个NUMA域/节点、1个存储服务/NUMA、2×400Gbps NIC/节点)和50个计算节点(2个NUMA域、192个物理核心、2.2 TiB RAM 和1×200 Gbps NIC/节点)。

最终对8192个分区中110.5TiB数据进行排序,耗时30分14秒,平均吞吐量为3.66TiB/分钟。

另外,KV缓存客户端的读取吞吐量,峰值也达到了40GiB/s。

One More Thing

回顾DeepSeek这五天开源的内容,几乎都和AI Infra相关:

第一天,FlashMLA架构,DeepSeek独创MLA架构的高性能版本,直接突破H800计算上限;第二天,DeepEP, 第一个用于MoE模型训练和推理的开源EP通信库,提供高吞吐量和低延迟的all-to-all GPU内核;第三天,DeepGEMM,一个通用矩阵乘法库,仅300行代码,是V3/R1训练推理关键秘籍;第四天,连开三源,创新的双向流水线并行算法DualPipe、用于MoE的负载均衡算法EPLB,以及训练和推理框架的性能分析数据;第五天,3FS和Smallpond,高效的分布式文件系统和以之为基础的数据处理框架。并且主打的就是极度压缩成本,降低消耗的同时将各种硬件的性能全部发挥到极致。

而另外一边,有网友已经在期待V4和R2的上线了。

至此,DeepSeek开源周的连载也要告一段落了,但DeepSeek后续动作依然值得持续关注。

项目地址:https://github.com/deepseek-ai/3FS参考链接:https://x.com/deepseek_ai/status/1895279409185390655


“DeepSeek第五弹炸裂收官!开源并行文件系统,榨干SSD全部带宽” 的相关文章

DeepSeek更懂日常生活-DeepSeek应用场景

DeepSeek更懂日常生活-DeepSeek应用场景

DeepSeek更懂日常生活-DeepSeek应用场景<think> 嗯,今天我在想DeepSeek这个系统在日常生活中的重要应用场景。我之前只听说过它在商业咨询、法律、医疗诊断等方面的...

DeepSeek热潮已蔓延至大陆汽车圈-多家中国车企宣布与DeepSeek深度融合

DeepSeek热潮已蔓延至大陆汽车圈-多家中国车企宣布与DeepSeek深度融合

参考消息网2月9日报道 据台湾《经济日报》2月9日报道,DeepSeek热潮已蔓延至大陆汽车圈。吉利汽车宣布自研的星睿大模型与DeepSeek已完成深度融合,紧接着极氪、岚图等也宣布与DeepSeek...

百度搜索和文心智能体平台将全面接入DeepSeek

百度搜索和文心智能体平台将全面接入DeepSeek

蓝鲸新闻2月16日讯 2月16日,百度搜索宣布将全面接入DeepSeek和文心大模型最新的深度搜索功能,以丰富更多元化的搜索体验。同日,百度旗下文心智能体平台也宣布,将全面接入DeepSeek。百度一...

混元+DeepSeek「双模」驱动,腾讯云助推20+行业精准适配AI场景

混元+DeepSeek「双模」驱动,腾讯云助推20+行业精准适配AI场景

DeepSeek正加速在行业落地。截至目前,来自政务、金融、教育、消费电子、医疗、零售等20多个行业的企业或单位,已通过腾讯云接入DeepSeek-R1!一起来看看,各行各业的「课代表」们是怎么做的?...

新华健康丨《医疗机构部署DeepSeek专家共识》发布

新华健康丨《医疗机构部署DeepSeek专家共识》发布

以DeepSeek为代表的人工智能(AI)技术正在给医疗领域带来前所未有的机遇,尤其是在提升医疗服务品质、优化医疗机构管理流程等方面,展现出巨大的市场潜力。与此同时,医疗行业因其专业性和敏感性,数据涉...

杭州城市大脑引入DeepSeek 支撑赋能“数智公务员”

杭州城市大脑引入DeepSeek 支撑赋能“数智公务员”

中国青年报客户端讯(中青报·中青网记者 李剑平)记者22日从浙江省杭州市数据资源局获悉,杭州市城市大脑引入和部署DeepSeek-R1系列模型,全面支撑赋能“数智公务员”,并应用于医疗、文旅等行业智能...