当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

1年前 (2025-02-26)DeepSeek技术交流735

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

DeepSeek引发市场跷跷板!基金经理“忙不停”

DeepSeek引发市场跷跷板!基金经理“忙不停”

“DeepSeek正在引发世界对中国AI产业、中国科技资产,甚至中国整体资产的价值重估。”在接受券商中国记者采访时,一位基金经理满怀激动地讲道。中国AI发展的主流叙事已经逐渐从追赶转向超越,这一认知的...

继基础电信运营商后,广东多地政府部门接入DeepSeek

继基础电信运营商后,广东多地政府部门接入DeepSeek

当下,DeepSeek朋友圈正持续“扩容”:一方面,其访问使用量急速上升,已成为最快突破3000万日活跃用户量的应用;而移动、电信、联通三家基础电信企业已全面接入DeepSeek。此外,广东多地政府部...

机构调研券商!DeepSeek部署成为热点问题

机构调研券商!DeepSeek部署成为热点问题

券商股近期异动频频。券商中国记者注意到,对于上市券商的关注,除了一些合并传闻的扰动,机构投资者对长江证券、长城证券等上市券商以及券商概念股——指南针等,也展开了新一轮调研,券商布局DeepSeek的进...

AI视频大模型赛道:谁能成为下一个DeepSeek?

AI视频大模型赛道:谁能成为下一个DeepSeek?

DeepSeek压力传导至“六小虎”,部分企业调整战略,如零一万物全面拥抱DeepSeek,月之暗面参与价格战。国内AI视频生成领域中,爱诗科技、生数科技、智象未来等公司崭露头角。在“百模大战”背景下...

中国产品竞争力增强,DeepSeek、豆包、美图秀秀登上全球Top 50 AI 应用

中国产品竞争力增强,DeepSeek、豆包、美图秀秀登上全球Top 50 AI 应用

近日,全球知名投资机构a16z 发布全球Top 100 AI消费级应用排行榜,该榜单每半年更新一次。值得注意的是,全球化布局产品的身影大量出现,包括深度求索的DeepSeek、美图秀秀的海外版Meit...

黄山市工业互联网平台实现全省首个DeepSeek接入

黄山市工业互联网平台实现全省首个DeepSeek接入

日前,在黄山市工业和信息化局的统筹规划与组织实施下,黄山电信依托天翼云算力和DeepSeek大模型,完成了黄山市工业互联网平台DeepSeek私有化部署,成为全省首个接入DeepSeek的工业互联网平...