当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek后又一神作!清华校友出手,终结ResNet十年统治?

4个月前 (01-02)Deepseek最新资讯92

  【新智元导读】2026年架构革命的枪声已经打响!ResNet用十年证明了「加法捷径」能救训练,但也暴露了「只加不减」的天花板。DeepSeek新年王炸之后,普林斯顿和UCLA新作DDL让网络学会忘记、重写和反转deepseek

  斯坦福著名教授Christopher Manning读完后直言,「2026年,将成为改进残差连接之年」。

  一个是mHC流形约束超连接,一个是DDL深度增量学习,几乎在同一时间,传递出一个强烈的信号:

  2015年,ResNet(残差网络)横空出世后,「加法捷径(shortcut)」几乎成为了深度网络的默认配置。

  ResNet通过残差学习,解决了深度神经网络训练中的核心难题——层数加深,AI性能不升反降。

  如今,无论是CNN、ViT,还是各种混合架构,那条「直接把输入加回去」的残差连接,成为了标配。

  这意味着,对应的线性算子所有特征方向的特征值都是+1,网络只能「平移」状态,而不能反转、选择性遗忘。

  换句话说,旧特征很难被彻底清除,中间表示几乎不会被「反转」,深度网络在表达复杂动态时,显得有些笨重。

  这个设计,让网络状态具备了「记忆矩阵」的含义,也为后续的Delta Rule的对齐埋下了伏笔。

  这是一个rank-1 的对称线性算子,其谱结构异常简单。即d−1个特征值恒为1,只有一个特征值是1−β。

  某些特征会被直接「翻转符号」,深度网络第一次具备了「反向表达」的能力,这对建模振荡、对立关系非常关键。

  DDL明确引入了忘记、重写、反转,让网络可以主动清理无用特征,重构中间表示,让建模成为非单调动态过程。

  DDL不会推翻ResNet,当门控(gate)关闭时,它就是普通残差网络,当它完全打开时,便进入了全新的表达空间。

  这就像是一个「时代切换」的信号,过去模型变强=更大+更深+更多参数,现在「模型变强=更合理的结构约束」。

  此前,他获得了清华大学交叉信息研究院计算机科学硕士学位并成为博士候选人;本科毕业于北京大学元培学院,获数学与计算机科学理学学士学位。

  Yifeng Liu是加州大学洛杉矶分校的计算机博士,本科毕业于清华信息科学与技术学院,姚班出身。

  个人研究方向包括机器学习、强化学习、生成式AI、AI for science以及智能系统应用。

  他曾获得伊利诺伊大学厄巴纳-香槟分校计算机科学博士学位,分别于2007年和2010年获得了清华大学学士和硕士学位。

  个人研究方向是人工智能与机器学习,重点包括非凸优化、深度学习、强化学习、LLM以及深度生成模型。原文出处:DeepSeek后又一神作!清华校友出手,终结ResNet十年统治?,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek后又一神作!清华校友出手,终结ResNet十年统治?” 的相关文章

百度计划8月底前发布AI推理新模型,未来几个月推出文心5.0,使其与DeepSe

百度计划8月底前发布AI推理新模型,未来几个月推出文心5.0,使其与DeepSe

  ,该模型能够处理更复杂的任务,以在与 DeepSeek 和 OpenAI 等公司的竞争中占据一席之地。   报道还称,百度还计划在未来几个月推出其核心基础模型的更新版...

DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏

DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏

  但问题是,当架构创新越来越多时,理解它们反而变得越来越困难。不同论文里的模型结构图风格各异、模块命名不统一,即便是研究者,也很难快速看清一个模型究竟在哪些地方做出了关键改动。...

内事也可问DeepSeek

内事也可问DeepSeek

  去超市买菜,我在收银台看到一个熟悉的身影,她左手拿着一块蛋糕,右手接过大把零钱胡乱塞进兜里,快速溜走。我心怀疑惑,回家检查了抽屉里的现金,果然少了100元。心里一紧,女儿咋变成了“偷东...

北电数智WAIC首秀,展示星火·大平台落百业丰硕成果

北电数智WAIC首秀,展示星火·大平台落百业丰硕成果

  召开会议,把握志愿、弹性原则,推动临盆关系和临盆力、上层修建和经济基本、国家管理和社会成长更好相适应,要周全贯彻习新期间中国特色思惟,全会提出,加倍重视革新实效,以匆匆进社会公道允义、...

DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价

DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价

  DeepSeek-V3.2-Exp今天模型正式发布,这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的...

12月11日DeepSeek预测:太阳vs雷霆,亚历山大率队延续连胜?

12月11日DeepSeek预测:太阳vs雷霆,亚历山大率队延续连胜?

  西部第七的菲尼克斯太阳将客场挑战联盟榜首俄克拉荷马雷霆,这场看似悬殊的对决暗藏玄机。尽管雷霆以23胜1负的恐怖战绩领跑全联盟,但太阳近期两连胜的反弹势头不容忽视。  ...