当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?

1年前 (2025-02-26)DeepSeek技术交流734

一开始,我还以为 DeepSeek 会走传统路线,比如大厂常见的蒸馏技术,搞个小参数的 Flash 模型。毕竟这种方法能有效降低计算需求,但缺点也很明显,就是小模型再怎么优化,和大模型比起来,性能还是会有损失 结果 DeepSeek 完全没按套路出牌,它不是去压缩模型,而是换了个角度,直接假设未来算力足够,然后想办法更高效地用好现有显卡架构。换句话说,不是缩小参数规模,而是在同等规模下优化计算方式,让计算更具性价比 这种思路比纯工程优化要“硬核”得多。一般来说,搞小模型是比较务实的工程方案,但 DeepGEMM 这种技术驱动的做法更有延展性。它不仅和小模型方法兼容,而且即使以后显卡更强、模型规模更大,这套技术依然能继续用,不会过时

“DeepSeek 又上新!DeepGEMM 发布,有哪些突破点值得一看?” 的相关文章

ST广网:公司“秦岭云”平台已完成DeepSeek本地化部署

ST广网:公司“秦岭云”平台已完成DeepSeek本地化部署

每经AI快讯,有投资者在投资者互动平台提问:董秘您好!请问贵公司是否已经部署了DeepSeek?如果已经部署了,请问主要应用于哪些具体的业务?公司接入DeepSeek有哪些成本、收益方面的考量?如果公...

市延安医院成功接入DeepSeek

市延安医院成功接入DeepSeek

本报讯 记者徐婕报道 近日,昆明市延安医院正式上线本地化部署的DeepSeek大模型,标志着医院正式开启“AI+医疗”深度融合的智能医疗新篇章。  DeepSeek大模型依托前沿自然语言处理技术,可高...

对话创世伙伴创投梁宇:DeepSeek改写了AI投资范式

对话创世伙伴创投梁宇:DeepSeek改写了AI投资范式

中新经纬4月7日电 (王玉玲)“DeepSeek带来了两个重要的提醒:一是大模型企业是否要继续投入资源钻研底层算法,还是基于DeepSeek现有模型再进行迭代和运营;第二,以往大家普遍倾向于闭源垄断,...

升级版DeepSeek-V3模型开源!DeepSeek上可试用体验

升级版DeepSeek-V3模型开源!DeepSeek上可试用体验

【TechWeb】3月25日消息,DeepSeek在开源平台上线了升级后的DeepSeek-V3模型。新模型的版本号为DeepSeek-V3-0324,模型参数为6850亿,其早期版本参数为6710亿...

DeepSeek点燃AI Infra新格局,GpuGeek赋能算法工程师

DeepSeek点燃AI Infra新格局,GpuGeek赋能算法工程师

在AI技术快速发展的浪潮中,DeepSeek的崛起进一步点燃了AIInfra平台的可能性,同时也带来了新的竞争格局。在这一背景下,GpuGeek作为一站式AIInfra平台,通过高效开发体验、全球资源...

每日互动:已接入DeepSeek相关版本,用于业务垂直场景及研发提效

每日互动:已接入DeepSeek相关版本,用于业务垂直场景及研发提效

金融界3月17日消息,有投资者在互动平台向每日互动提问:请问公司有没有考虑向deepseek一体机方向发展。公司回答表示:公司在2024年上半年就接入DeepSeek相关版本,目前主要用于业务垂直场景...