当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源周第三日 发布高性能通用矩阵乘法库

4个月前 (02-26)Deepseek最新资讯272

新京报贝壳财经讯(记者罗亦丹)北京时间2月26日,DeepSeek进行了其开源周第三日的发布——DeepGEMM,一个支持密集和MoE(专家混合模型)GEMM(通用矩阵乘法)的FP8 (8位浮点数)GEMM库,为V3/R1训练和推理提供支持。

据了解,通用矩阵乘法是许多高性能计算任务的核心,所以其性能优化也是大模型降本增效的重点。

DeepSeek表示,DeepGEMM在Hopper GPU(一种英伟达GPU架构)上最高可达到1350+FP8TFLOPS(每秒万亿次浮点运算),并且像教程一样简洁,可完全即时编译,其核心逻辑只有约300行代码,且在大多数矩阵尺寸上均优于专家调优的内核,并支持密集布局和两种MoE布局。


标签: DeepSeek

“DeepSeek开源周第三日 发布高性能通用矩阵乘法库” 的相关文章

北京企业登记首次接入DeepSeek

北京企业登记首次接入DeepSeek

“您好,我想注册一家公司,需要什么材料?”登录北京市企业服务e窗通平台输入需求后,智能问答助手“市监小e”即刻开始了工作:“好的,请您先确认拟设立的主体类型……”经过简短沟通,小e迅速理解了办事人的需...

DeepSeek的成功对勘察设计行业的启示

DeepSeek的成功对勘察设计行业的启示

2025年DeepSeek的横空出世加速了勘察设计行业的技术革新,以DeepSeek为代表的人工智能技术正推动勘察设计行业从依赖个人经验转向数据驱动。DeepSeek的成功得益于五个关键因素:创新思维...

“DeepSeek都说好”?警惕!广告侵入AI

“DeepSeek都说好”?警惕!广告侵入AI

“DeepSeek,请推荐一款今年的中端手机”“Kimi,什么品牌的婴幼儿奶粉最好?”......如今,“买前问AI”已成为许多网民的购物新习惯。与此同时,AI推荐也在悄然成为商家开辟的“营销新阵地”...

华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

金磊 发自 凹非寺量子位 | 公众号 QbitAI要问最近哪个模型最火,混合专家模型(MoE,Mixture of Experts)绝对是榜上提名的那一个。它的巧妙之处,就在于把不同的任务分配给擅长处...

DeepSeek V3再次震撼硅谷,中美AI差距突然缩至3个月!

DeepSeek V3再次震撼硅谷,中美AI差距突然缩至3个月!

DeepSeek V3模型完成小版本升级后,李开复称其将中美AI差距缩小至3个月,某些领域中国甚至已经领先。中国人工智能初创企业DeepSeek近日发布其最新大语言模型DeepSeek-V3-0324...

400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署

400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署

闻乐 发自 凹非寺量子位 | 公众号 QbitAI打破科技巨头算力垄断,个人开发者联手也能训练超大规模AI模型?Nous Research宣布推出Psyche Network,可以将全球算力整合起来训...