当前位置：首页 > Deepseek最新资讯 > 正文内容

详细解读DeepSeek新年的第一篇论文，他们就是这个时代的真神。

5个月前 (01-04)Deepseek最新资讯114

　　感觉是DeepSeek-V4的铺垫，当然一些小道消息，不保真，我也不懂，我只是拍脑袋预测一下，有问题别找我。

　　在给自己放了一天假，然后啃了一天以后（这玩意比我想象的难啃多了。。。）我还是想，用最通俗易懂最有意思的方式，来跟你聊聊，这篇论文的有趣之处，以及，是如何对现在的生态进行一些新的输入的。

　　当然也给我自己叠个甲，我不是算法出身，我只是读完以后觉得很棒想分享给大家看，我对这篇论文的理解和乱七八糟的各种名词解释，都是我自己民科瞎JB自学的，部分措辞也有为了能让大家更好理解而做的部分简化，如果有我理解的错误或者事实性错误的地方，欢迎大佬们在评论区指正讨论，感谢。

　　在最开始之前，我想先问大家一个问题，就是大家认为，一个要处理图片、声音、文字这么多乱七八糟信息的新模型，它最需要的是什么？

　　而DeepSeek这篇文章deepseek，给出的答案，其实，是一个极其稳定、高效的、模型内部的信息流转系统。

　　要理解这个玩意，我们先得穿越回去，穿越回2015年，也就是十年前，从一个男人和一个伟大的想法说起。

　　我们都知道，大模型是神经网络对吧，现在，你可以把一个神经网络，当成一家开在101大厦里的超级公司。

　　数据，就像一份客户需求，从一楼的前台进去，然后呢，先交给销售部分析，在传给二楼的市场部包装一些，接着送到三楼的产品部进行需求评审。。。

　　客户的需求，也就是数据，就这样坐着楼梯，一层一层往上爬，每一层都对这份信息做一点点加工和提炼。

　　最后，这份被层层解读过的报告，会送到顶楼的CEO办公室，由CEO拍板，给出最终决策，比如“没问题咱就这么干！”。

　　理论上，公司的楼层越多，部门分工越细，那这家公司专业度就越高，也越牛逼，处理复杂问题的能力就越强，对吧。

　　就比如一楼销售部明明说的是“老板想喝咖啡”，传到十楼就变成了“老板喜欢吃咖啡壶”，传到二十楼成了“老板去中国有嘻哈上唱了首咖啡壶我的Baby”，等传到三十楼CEO耳朵里，可能已经变成了“老板觉得自己是只屌炸天的咖啡壶”。

　　客户需求文件进来后，依然需要一层一层地坐楼梯往上爬，接受各个部门的加工，但与此同时，前台会把这份文件的原件复印件，放进这部VIP电梯，直接嗖地一下，送到CEO的办公桌上。

　　这样一来，CEO在看下面部门交上来的那份可能已经被传得面目全非的报告时，他可以随时拿起旁边那份原件复印件来对比一下。

　　它像一根定海神针，贯穿了整栋大楼，让最原始的信息可以在不同楼层间无损穿梭，时刻校准着整个公司的前进方向。

　　于是，一群更激进更年轻的大佬，一拍桌子说，靠，一部电梯不够，咱们把整面墙都砸了，修一个电梯井吧，把一条单行道，直接拓宽成双向八车道，让信息流淌起来不就完了？

　　现在，他们把这条信息流，强行扩容成了四条、八条并行的信息流VIP电梯。这就好比以前公司里只有一个信使，现在搞了一个8人信使送货团，8个人一起拎着大包小包一起送信。

　　他们在路上会互相聊天，会交流情报，人多嘴杂，就导致他们不再是单纯地传递信息，这几个人，开始在信息流里自由发挥了。

　　但是呢，每个信使都觉得，这么重要的事，其他七个人肯定会送到的，我不如出去挣个外快先去送个外卖。

　　这就导致，模型训练到12000步的时候，突然性能就断崖式下跌，跟跳楼似的，比心电图还心电图。

　　只不过为了让大家理解，mHC到底为了解决什么问题，所以，花了这么大的篇幅，给大家讲了背景故事。

　　DeepSeek他们干了个啥事呢，他们没有开掉那几个信使，也没有砸掉电梯说劳资要用火箭送用个鬼的电梯。

　　你可以理解为，他们设立了一个叫做内部审计部，由一个究极不近人情的德国老太太领导，权力大到吓人。

　　第一条铁律，我们称为信息能量守恒定律：作为一个信使，你从上一站收到的所有信息，其信息能量总和为100%。那么在你把信息传递给下一站的队友时，你传递出去的所有信息的信息能量总和，也必须不多不少，正好是100%。

　　回到上面信息爆炸那个案例。就比如说，信使A收到了小王请假这个信息，我们假设它的信息能量是10个单位。

　　但审计部的系统会立刻报警，因为信使A私自加信息了，导致他的输出能量（比如20个单位）大于了他的输入能量（10个单位）。

　　他这是在无中生有暗度陈仓顺手牵羊，严重违反了信息能量守恒定律，结果就会是，信使A当场被开除。

　　第二条铁律，我们称为团队责任绑定定律：对于任何一个需要被送达的信息，比如服务器着火这份文件，最终抵达目的地的信息能量总和，必须不多不少，正好等于它出发时的信息能量总和。

　　审计部的系统立刻就会拉响最高级别的警报，因为它发现出发时明明是100单位的能量，抵达时却变成了0。根据团队责任绑定定律，整个信使团队都将面临重罚。

　　为了避免这种情况，信使们就必须互相补位。如果A不干，B、C、D……就必须分摊他的工作，因为最终的那个总和是死命令，必须凑够。

　　比如之前HC架构的那个公司，会有各种信息爆炸的问题，如果我原来的信息能量初始值是1，在信息传递过程中，最高的时候，信息能量到CEO办公室的时候，能干到3000。

　　它用额外6.7%的开销成本，让你模型训练瞬间崩盘的3000倍的系统性风险，直接摁死到了可以忽略不计的1.6倍。

　　任何一次过程中训练的崩盘，那损失的，就不只是6.7%的额外开销了，那是100%的建造成本，所有的一切，全特么重头再来。

　　仅仅6.7%的额外开销，就能为一项千万美元级别的投资提供近乎百分之百的安全保障，这在任何一个金融模型里，都是一笔划算到笑出声的买卖。原文出处：详细解读DeepSeek新年的第一篇论文，他们就是这个时代的真神。，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：新年贺词里的140万亿

下一篇：1月1日 DeepSeek预测森林狼vs老鹰：爱德华兹率队客场擒鹰

“详细解读DeepSeek新年的第一篇论文，他们就是这个时代的真神。” 的相关文章

详细解读DeepSeek新年的第一篇论文，他们就是这个时代的真神。

“详细解读DeepSeek新年的第一篇论文，他们就是这个时代的真神。” 的相关文章

理解DeepSeek-V3.2中的稀疏注意力（DSA）

三重维度透视“人工智能+制造”：技术、场景与生态的协同革命

DeepSeek驱动云端推理算力升级，四大细分领域迎发展机遇

豆包逆袭！凭啥能把DeepSeek“挤下”月活榜首？

12月27日DeepSeek预测：76人客战公牛，恩比德PK怀特，谁将主宰风城？

华为昇腾、寒武纪宣布适配DeepSeek最新模型

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.