当前位置：首页 > Deepseek最新资讯 > 正文内容

果然一到假期，DeepSeek 就发新东西了。。。

8个月前 (10-01)Deepseek最新资讯343

　　春节前整了个 R1 震撼科技圈，昨天又卡着十一假期的 Deadline，发了个新版本 —— DeepSeek-V3.2-Exp 出来。

　　诶我有一计，不如多设定几个法定节假日出来，这样 DeepSeek 的产品发布速度也会得到了一波史诗级提升。

　　OK 扯远了，回到这次 DeepSeek 发布的 V3.2 EXP 上来，这次的新版本虽然是个带些实验性质的模型，但是整出来的有趣东西是一点也不少：

　　大家平时和大模型聊天的时候有没有发现一件事，如果你一直在一个窗口里和一个大模型聊天，那么没过多久，这个天就会被你给聊炸了。。。

　　没错，Transformer 架构是有极限的，每次它在给我们生成回答的时候，都要把过去的所有聊天记录加起来一起计算。

　　而在计算的时候，Transformer 也会计算这些聊天记录里面，每个单词（token）和其他所有单词之间的关联性，一个一个算下来。

　　这也就导致了咱们和大模型聊的越多，它需要加计算的内容也就越多，聊天记录的长度翻了一倍，背后的计算量其实涨了四倍，不但成本暴涨，性能也会有所降低。

　　因此各路大模型基本都会规定一个窗口的聊天长度限制，你聊多了，就直接不让你用了，除非新开个窗口才行。

　　和人一样的，就比如说你可能会记得住你去年国庆到了哪玩，但是你不会去记住你去年十月一号的早餐吃了什么东西。

　　在 DeepSeek 的技术报告里可以看到，他们设计了一个叫做闪电索引器（Lightning Indexer）的新东西。

　　这玩意会动态的判断出整个聊天记录里，哪些 Token 是最重要的，然后在后续计算的时候，就只要关注这些重要的 Token 来就算就行了。

　　通过这种 “ 先记带动后记 ”、“ 有组织的记忆代替无序的记忆 ”、“ 挑重点记 ” 的方式，DeepSeek 让模型的计算量大幅度下降。

　　他们把 DeepSeek-V3.2-Exp 的训练配置与 V3.1-Terminus 进行了对齐，结果发现训练出来的两个模型，在性能上极为接近，在各类数据集上测出来的成绩都打了个五五开。

　　也正是因为稀疏注意力的这种效果，Deepseek 又开始当起了价格屠夫，把官方 API 的价格直接打了个对折还带拐弯的。

　　另一方面，DeepSeek 又不声不响的整了波王炸，用高级语言 TileLang 设计实现了很多新的GPU算子，再次对老黄的CUDA生态王座发起了试探。

　　看完上面这一大段话，大伙儿肯定想，这叽里咕噜的说啥呢？下面差评君就尽量用简单的话，给各位差友把这事儿给聊明白了。

　　CUDA 大家应该都很熟悉，只要整点机器学习算法，想调用个 GPUdeepseek，你肯定绕不过配置 CUDA 的折磨。

　　它的主要作用，就是把顶层程序员写的计算语言，翻译成芯片能看懂的底层机器语言，才能驱动芯片发挥作用，让数据在上面算起来。

　　而现在的市面上，可以说主流的顶层 AI 工具，像是 PyTorch，TensorFlow 等等，几乎都是对英伟达芯片和 CUDA 提供最佳支持。

　　我们日常用起来，只要在 python 里敲一个卷积计算v，但背后对应的算子开发，可难度大得多。像是CUDA，要用上百行代码的底层运算，才可能实现一个 conv 算子。

　　那么问题来了，国产芯片刚诞生，还没有算子开发的积累，要是想用 pytorch 框架进行 AI 大模型训练，可不可以接上 CUDA 把这条路打通呢？

　　倒也不是不行，只不过 CUDA 写的时候没考虑你的芯片结构，就算强行兼容了也发挥不出国产芯片的最强性能。

　　于是，Tilelang 出现了。它的作用，就是帮国产芯片迅速打通从顶层AI工具，到底层国产GPU芯片之间的链路。

　　各种数据调度、线程分配、资源访问等等问题加在一起，程序员就和那个国庆路口指挥交通的交警一样，头大，永远干不完的活儿。

　　而 Tilelang 的作用，就是把各种调度问题都给你自动化，不用人工考虑，它来帮你解决，还能解决得更好。

　　程序员不用再想数据放在哪，怎么取，占哪个线程，Tilelang 会自动帮你解决，你只要说想调个数据就行。

　　之前一直在提的稀疏注意力，这次被成功在模型里用了起来，未来的大模型，上下文的能力或许会变得更强，能解决的问题或许也会越多。

　　之前一直诟病的显卡不够用的毛病也在逐渐好转，和国产的显卡厂商开始一起，摸索出一条绕过老黄的道路。

　　也就是在 DeepSeek 发布之后，寒武纪、华为昇腾、都表示了对 DeepSeek 的适配和支持。原文出处：果然一到假期，DeepSeek 就发新东西了。。。，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：寒武纪适配DeepSeek、智谱模型！科创人工智能ETF大涨3.28%

下一篇：《DeepSeek即时通：提示词重塑AI生产力》：学会向DS提问

“果然一到假期，DeepSeek 就发新东西了。。。” 的相关文章

DeepSeek预测：南特vs巴黎圣日耳曼！姆巴佩接班人杜埃能否率队血洗法甲老牌

　　北京时间8月18日凌晨2:45，2025赛季法甲揭幕战将在博茹瓦尔球场打响。南特作为法国足球历史上最成功的俱乐部之一（8次法甲冠军+3次法国杯），将在主场迎战卫冕冠军巴黎圣日耳曼。尽管...

11月22日 DeepSeek预测：篮网vs凯尔特人绿军主场轻取篮网布朗塔图

　　北京时间11月22日早8:30，NBA常规赛将迎来东部两支球队的较量，波士顿凯尔特人坐镇主场迎战布鲁克林篮网。从双方近期状态、历史交锋以及阵容实力来看，凯尔特人明显占据上风。...

11月9日 DeepSeek预测湖人vs老鹰：东契奇率队冲击六连胜，残阵老鹰主

　　北京时间11月9日09:00，NBA常规赛将迎来一场焦点战，西部第二的洛杉矶湖人（7胜2负）客场挑战东部第九的亚特兰大老鹰（4胜5负）。湖人近期豪取五连胜，而老鹰则在上一场主场不敌猛龙...

前DeepSeek研究员罗福莉加入小米，要实现她的愿景挑战有多大？

　　AGI这玩意儿，一旦从“语言”走向“物理世界” ，它就彻底脱离了形而上的哲学辩论，变成了一个赤裸裸的、关于资本投入和物理工程的硬核生意。　　OpenAI的AGI标准...

南方中证A500：一键布局中国优质资产

　　自10月28日上证指数突破4000点以来，牛市声量渐涨，虽然近期沪指持续在4000点以下盘整，但东方财富证券日前发布研报指出，从股权风险溢价、PE（TTM）、证券化率、A股市值及居民存...

11月15日DeepSeek预测：开拓者vs火箭，火箭主场力克开拓者，杜兰特申京

　　北京时间11月15日上午9点，NBA常规赛将迎来一场西部焦点战，休斯顿火箭坐镇主场迎战波特兰开拓者。目前火箭以7胜3负的战绩高居西部第4，而开拓者则以6胜5负暂列西部第8。这场比赛对于...

果然一到假期，DeepSeek 就发新东西了。。。

“果然一到假期，DeepSeek 就发新东西了。。。” 的相关文章

DeepSeek预测：南特vs巴黎圣日耳曼！姆巴佩接班人杜埃能否率队血洗法甲老牌

11月22日 DeepSeek预测：篮网vs凯尔特人绿军主场轻取篮网布朗塔图

11月9日 DeepSeek预测湖人vs老鹰：东契奇率队冲击六连胜，残阵老鹰主

前DeepSeek研究员罗福莉加入小米，要实现她的愿景挑战有多大？

南方中证A500：一键布局中国优质资产

11月15日DeepSeek预测：开拓者vs火箭，火箭主场力克开拓者，杜兰特申京

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.

果然一到假期，DeepSeek 就发新东西了。。。

“果然一到假期，DeepSeek 就发新东西了。。。” 的相关文章

DeepSeek预测：南特vs巴黎圣日耳曼！姆巴佩接班人杜埃能否率队血洗法甲老牌

11月22日 DeepSeek预测：篮网vs凯尔特人 绿军主场轻取篮网 布朗塔图

11月9日 DeepSeek预测 湖人vs老鹰：东契奇率队冲击六连胜，残阵老鹰主

前DeepSeek研究员罗福莉加入小米，要实现她的愿景挑战有多大？

南方中证A500：一键布局中国优质资产

11月15日DeepSeek预测：开拓者vs火箭，火箭主场力克开拓者，杜兰特申京

Powered By Z-BlogPHP. Theme by TOYEAN.

11月22日 DeepSeek预测：篮网vs凯尔特人绿军主场轻取篮网布朗塔图

11月9日 DeepSeek预测湖人vs老鹰：东契奇率队冲击六连胜，残阵老鹰主