当前位置:首页 > Deepseek最新资讯 > 正文内容

详细解读DeepSeek新年的第一篇论文,他们就是这个时代的真神。

3个月前 (01-04)Deepseek最新资讯111

  感觉是DeepSeek-V4的铺垫,当然一些小道消息,不保真,我也不懂,我只是拍脑袋预测一下,有问题别找我。

  在给自己放了一天假,然后啃了一天以后(这玩意比我想象的难啃多了。。。)我还是想,用最通俗易懂最有意思的方式,来跟你聊聊,这篇论文的有趣之处,以及,是如何对现在的生态进行一些新的输入的。

  当然也给我自己叠个甲,我不是算法出身,我只是读完以后觉得很棒想分享给大家看,我对这篇论文的理解和乱七八糟的各种名词解释,都是我自己民科瞎JB自学的,部分措辞也有为了能让大家更好理解而做的部分简化,如果有我理解的错误或者事实性错误的地方,欢迎大佬们在评论区指正讨论,感谢。

  在最开始之前,我想先问大家一个问题,就是大家认为,一个要处理图片、声音、文字这么多乱七八糟信息的新模型,它最需要的是什么?

  而DeepSeek这篇文章deepseek,给出的答案,其实,是一个极其稳定、高效的、模型内部的信息流转系统。

  要理解这个玩意,我们先得穿越回去,穿越回2015年,也就是十年前,从一个男人和一个伟大的想法说起。

  我们都知道,大模型是神经网络对吧,现在,你可以把一个神经网络,当成一家开在101大厦里的超级公司。

  数据,就像一份客户需求,从一楼的前台进去,然后呢,先交给销售部分析,在传给二楼的市场部包装一些,接着送到三楼的产品部进行需求评审。。。

  客户的需求,也就是数据,就这样坐着楼梯,一层一层往上爬,每一层都对这份信息做一点点加工和提炼。

  最后,这份被层层解读过的报告,会送到顶楼的CEO办公室,由CEO拍板,给出最终决策,比如“没问题咱就这么干!”。

  理论上,公司的楼层越多,部门分工越细,那这家公司专业度就越高,也越牛逼,处理复杂问题的能力就越强,对吧。

  就比如一楼销售部明明说的是“老板想喝咖啡”,传到十楼就变成了“老板喜欢吃咖啡壶”,传到二十楼成了“老板去中国有嘻哈上唱了首咖啡壶我的Baby”,等传到三十楼CEO耳朵里,可能已经变成了“老板觉得自己是只屌炸天的咖啡壶”。

  客户需求文件进来后,依然需要一层一层地坐楼梯往上爬,接受各个部门的加工,但与此同时,前台会把这份文件的原件复印件,放进这部VIP电梯,直接嗖地一下,送到CEO的办公桌上。

  这样一来,CEO在看下面部门交上来的那份可能已经被传得面目全非的报告时,他可以随时拿起旁边那份原件复印件来对比一下。

  它像一根定海神针,贯穿了整栋大楼,让最原始的信息可以在不同楼层间无损穿梭,时刻校准着整个公司的前进方向。

  于是,一群更激进更年轻的大佬,一拍桌子说,靠,一部电梯不够,咱们把整面墙都砸了,修一个电梯井吧,把一条单行道,直接拓宽成双向八车道,让信息流淌起来不就完了?

  现在,他们把这条信息流,强行扩容成了四条、八条并行的信息流VIP电梯。这就好比以前公司里只有一个信使,现在搞了一个8人信使送货团,8个人一起拎着大包小包一起送信。

  他们在路上会互相聊天,会交流情报,人多嘴杂,就导致他们不再是单纯地传递信息,这几个人,开始在信息流里自由发挥了。

  但是呢,每个信使都觉得,这么重要的事,其他七个人肯定会送到的,我不如出去挣个外快先去送个外卖。

  这就导致,模型训练到12000步的时候,突然性能就断崖式下跌,跟跳楼似的,比心电图还心电图。

  只不过为了让大家理解,mHC到底为了解决什么问题,所以,花了这么大的篇幅,给大家讲了背景故事。

  DeepSeek他们干了个啥事呢,他们没有开掉那几个信使,也没有砸掉电梯说劳资要用火箭送用个鬼的电梯。

  你可以理解为,他们设立了一个叫做内部审计部,由一个究极不近人情的德国老太太领导,权力大到吓人。

  第一条铁律,我们称为信息能量守恒定律:作为一个信使,你从上一站收到的所有信息,其信息能量总和为100%。那么在你把信息传递给下一站的队友时,你传递出去的所有信息的信息能量总和,也必须不多不少,正好是100%。

  回到上面信息爆炸那个案例。就比如说,信使A收到了小王请假这个信息,我们假设它的信息能量是10个单位。

  但审计部的系统会立刻报警,因为信使A私自加信息了,导致他的输出能量(比如20个单位)大于了他的输入能量(10个单位)。

  他这是在无中生有暗度陈仓顺手牵羊,严重违反了信息能量守恒定律,结果就会是,信使A当场被开除。

  第二条铁律,我们称为团队责任绑定定律:对于任何一个需要被送达的信息,比如服务器着火这份文件,最终抵达目的地的信息能量总和,必须不多不少,正好等于它出发时的信息能量总和。

  审计部的系统立刻就会拉响最高级别的警报,因为它发现出发时明明是100单位的能量,抵达时却变成了0。根据团队责任绑定定律,整个信使团队都将面临重罚。

  为了避免这种情况,信使们就必须互相补位。如果A不干,B、C、D……就必须分摊他的工作,因为最终的那个总和是死命令,必须凑够。

  比如之前HC架构的那个公司,会有各种信息爆炸的问题,如果我原来的信息能量初始值是1,在信息传递过程中,最高的时候,信息能量到CEO办公室的时候,能干到3000。

  它用额外6.7%的开销成本,让你模型训练瞬间崩盘的3000倍的系统性风险,直接摁死到了可以忽略不计的1.6倍。

  任何一次过程中训练的崩盘,那损失的,就不只是6.7%的额外开销了,那是100%的建造成本,所有的一切,全特么重头再来。

  仅仅6.7%的额外开销,就能为一项千万美元级别的投资提供近乎百分之百的安全保障,这在任何一个金融模型里,都是一笔划算到笑出声的买卖。原文出处:详细解读DeepSeek新年的第一篇论文,他们就是这个时代的真神。,感谢原作者,侵权必删!

标签: deepseek

“详细解读DeepSeek新年的第一篇论文,他们就是这个时代的真神。” 的相关文章

DeepSeek:正测试新的长文本模型结构 支持1M上下文

DeepSeek:正测试新的长文本模型结构 支持1M上下文

  【DeepSeek:正测试新的长文本模型结构 支持1M上下文】《科创板日报》13日讯,DeepSeek官方助手在开发者交流群中表示:DeepSeek 网页/APP正在测试新的长文本模型...

12月9日DeepSeek预测:马刺vs鹈鹕,文班亚马缺阵,鹈鹕能否终结连败?

12月9日DeepSeek预测:马刺vs鹈鹕,文班亚马缺阵,鹈鹕能否终结连败?

  北京时间12月9日,NBA常规赛将迎来西部第五的马刺(15胜7负)客场挑战西部第十五的鹈鹕(3胜21负)deepseek。这场对决不仅是排名悬殊的较量,更是两支伤病缠身的球队之间的背靠...

DeepSeek预测:马德里竞技VS西班牙人!格列兹曼率队复仇or米拉再演弑旧主

DeepSeek预测:马德里竞技VS西班牙人!格列兹曼率队复仇or米拉再演弑旧主

  床单军团目前以45分排名第4,仅领先第5名贝蒂斯4分。本赛季主场7胜3平2负的战绩虽位列联赛第4,但近期连续被巴列卡诺3球羞辱、欧冠附加赛遭比甲球队逼平,暴露出防线松动问题(近5场丢1...

DeepSeek破解数学AI的自我欺骗难题:让机器真正学会数学推理

DeepSeek破解数学AI的自我欺骗难题:让机器真正学会数学推理

  这项由DeepSeek-AI团队的邵志宏、罗宇翔、卢承达等研究人员完成的重要研究,发表于2025年1月的arXiv预印本服务器(论文编号:arXiv:2511.22570v1),为数学...

10月16日DeepSeek预测:灰熊vs黄蜂,皮蓬率队客场取胜

10月16日DeepSeek预测:灰熊vs黄蜂,皮蓬率队客场取胜

  作为东部知名球队,黄蜂上赛季仅列东部第14,季前赛1胜4负状态低迷。灰熊虽排名西部第8,但季前赛5连败且核心莫兰特伤缺,两队均需用胜利提振士气。   近5次交手灰熊3...

千亿美金涌入中国科技股!“DeepSeek时刻”引爆价值重估

千亿美金涌入中国科技股!“DeepSeek时刻”引爆价值重估

  (交易型开放式指数基金)在纳斯达克上市,其前十大重仓股囊括了从阿里巴巴、腾讯控股、小米集团到   一场由华尔街主导的做多中国科技股浪潮正扑面而来。在这场资本盛宴的背后...