当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏

3个月前 (03-16)Deepseek最新资讯35

  但问题是,当架构创新越来越多时,理解它们反而变得越来越困难。不同论文里的模型结构图风格各异、模块命名不统一,即便是研究者,也很难快速看清一个模型究竟在哪些地方做出了关键改动。

  如果把过去几年主流模型的架构放在一起,你会发现一个明显的空白:我们拥有大量模型,却缺少一张清晰的大模型架构图。

  最近,AI 研究者 Sebastian Raschka 就尝试给了这样一张图,他将过去几年主流大模型的结构重新绘制,并整理成了一个在线图谱 「LLM Architecture Gallery」。

  从「LLM Architecture Gallery」页面结构上看,这个图谱几乎像一张大模型名录。

  这里汇集了大量近年来出现的主流模型,包括 Llama、DeepSeek、Gemmadeepseek、Mistral、Qwen、Kimi、GLM等多个系列,参数规模从几亿参数的小模型,一直延伸到千亿乃至万亿级模型。

  每一张模型卡都会展示该模型的核心架构图、关键模块设计、参数规模、发布时间、相关概念等基本信息,让读者能够在同一套视觉框架下快速理解模型的结构组成。

  不止 DeepSeek R1,像 Gemma、Llama 等一系列主流模型,也都被纳入这一图谱之中。用户只需点击对应模型名称,就可以进入该模型的专属页面,查看其完整架构示意图以及关键设计细节。

  对于研究者而言,「LLM Architecture Gallery」相当于提供了一份可快速查阅的大模型架构索引,用户可以在一个页面中浏览和对比不同模型的设计思路,模型架构的关键创新点,从而更高效地理解技术演化路径,也为后续的研究和模型设计提供参考。

  正如 AI 研究者 Andrej Karpathy 所评价的那样:「这简直就是一个创意、想法的资源库。」原文出处:DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏画廊!,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek、GPT、Qwen,所有大模型架构图都有,Karpathy:宝藏” 的相关文章

2025年度国内国际十大科技新闻发布:天问二号、DeepSeek等入选

2025年度国内国际十大科技新闻发布:天问二号、DeepSeek等入选

  12月24日,中央广播电视总台发布了2025年度国内、国际十大科技新闻deepseek。国内新闻包括天问二号成功发射、DeepSeek发布等;国际新闻则涵盖反物质量子比特首次演示、中国...

刚刚,DeepSeek发了“终极版”!

刚刚,DeepSeek发了“终极版”!

  智东西9月22日报道,今天晚间,DeepSeek在其官方API平台发布了最新升级的DeepSeek-V3.1-Terminus模型(Terminus拉丁语意为终点、界限),并在不久后宣...

与WAIC同频共振,元聚变炬宝AIEO重构AI搜索时代品牌生存法则

与WAIC同频共振,元聚变炬宝AIEO重构AI搜索时代品牌生存法则

  在2025世界人工智能大会(WAIC2025)的聚光灯下,一场关于“品牌生存权”的暗战正悄然升级。当用户向DeepSeek询问“高端SUV推荐”,或对腾讯元宝咨询“健康零食排行榜”时,...

3月18日DeepSeek预测:骑士vs雄鹿,字母哥带伤出战能否逆袭?

3月18日DeepSeek预测:骑士vs雄鹿,字母哥带伤出战能否逆袭?

  北京时间3月18日早8点,密尔沃基雄鹿将在Fiserv论坛球馆迎战克利夫兰骑士。目前雄鹿以28胜39负位列东部第11,距离附加赛区仍有3个胜场差;而骑士则以41胜27负高居东部第4,正...

11月22日 DeepSeek预测:篮网vs凯尔特人 绿军主场轻取篮网 布朗塔图

11月22日 DeepSeek预测:篮网vs凯尔特人 绿军主场轻取篮网 布朗塔图

  北京时间11月22日早8:30,NBA常规赛将迎来东部两支球队的较量,波士顿凯尔特人坐镇主场迎战布鲁克林篮网。从双方近期状态、历史交锋以及阵容实力来看,凯尔特人明显占据上风。...

GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌

GPT-5危了!DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌

  【新智元导读】沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一...