当前位置:首页 > Deepseek最新资讯 > 正文内容

26年春节又热闹了 新论文暗示DeepSeek V4已完成训练

5个月前 (01-02)Deepseek最新资讯115

  快科技1月2日消息,刚刚过去的2025年中,万众期待的DeepSeek全新大模型没有问世,但是DeepSeek并没有闲着,这一年中继续打磨了DeepSeek V3.X大模型,还发布了多项新技术。

  2026年元旦假期,DeepSeek又发了一个新论文,提出了名为“流形约束超连接”(mHC)的框架,又一次引发了热议。

  这篇论文非常专业,术语太多,普通人很难理解,感兴趣的网友可以从微博、知乎、公众号等渠道搜索专业人士的解读。

  残差连接是字节公司的何恺明于2016年提出的一种深度学习技术,十年来这个技术领域成为AI大模型研究的一个突破点,2024年业界提出了HC(Hyper-Connections)超连接的概念,但HC的问题在于累积多了就不稳定了。

  DeepSeek新论文中提到,他们以27B参数的模型训练为例,HC在大约1200步时就会损失激增,放大倍数峰值达到了3000,训练要崩溃了,没法持续下去。

  他们提出的mHC技术就是解决这个问题的,控制总量不变,理论上将放大倍数控制在了1,实际能做到了大约1.6,相比3000倍的放大倍数极大地降低了,能让训练全程稳定。

  DeepSeek也在论文中公布了mHC技术的效果,在 27B 参数模型的测试中,mHC训练时间仅增加6.7%,但复杂推理任务从 43.8%提升到了51.0%,阅读理解任务从47.0% 提升到 53.9%。

  用普通人能理解的方法来解释,残差连接是开辟了一条AI大模型的新型高速公路,HC技术提高了车道数,但会车速越快越容易失控,DeepSeek的mHC相当于装了红绿灯,确保高速的同时也不失控。

  更值得关注的是,在这个论文中DeepSeek提到他们在mHC技术研究的结论已经得到了内部大规模实验的进一步证实。

  这一句话暗示DeepSeek已经完成了新一代基座大模型DeepSeek V4的训练,虽然这事本身已经不是什么新闻,现在大家最关心的是DeepSeek V4什么时候发布。

  参考去年DeepSeek R1的节点,DeepSeek V4应该会在春节期间发布,也就是2月初,这也是很多网友期待的时间点,年度大餐就指望它了。

  更关键的则是DeepSeek V4会带来多大的影响,去年的DeepSeek V3/R1一举让开源大模型登顶,意义是非凡的,今年的DeepSeek V4也需要有这样的创举才行。

  DeepSeek V4可以确定的是会支持FP8算子,会支持国产AI芯片训练,应该会是多模态的。

  最后,此前传闻以后不会有DeepSeek R2这种推理大模型了,但是考虑到当前的形势,一切都不好说deepseek,DeepSeek也可以针对现实将大模型分为两个方向,V4专攻通用市场,R2做Claude这样的专用大模型,在编程上给业界带来一点震撼。原文出处:26年春节又热闹了 新论文暗示DeepSeek V4已完成训练,感谢原作者,侵权必删!

标签: deepseek

“26年春节又热闹了 新论文暗示DeepSeek V4已完成训练” 的相关文章

指数行情继续!中国军工DeepSeek时刻,军贸份额全球扩张

指数行情继续!中国军工DeepSeek时刻,军贸份额全球扩张

  现在也不知道是A股带动外盘跌,还是这次中美贸易会谈导致全球都在跟跌,美股整体跌幅开始赶超A股了。其实A股在3600点得而复失并不是冲不过去,而是时间节点上“开会了”,这就会导致机构资金...

11月15日DeepSeek预测:黄蜂vs雄鹿,字母哥缺阵或成转折点

11月15日DeepSeek预测:黄蜂vs雄鹿,字母哥缺阵或成转折点

  11月15日09:00,雄鹿将坐镇主场迎战背靠背作战的黄蜂。目前雄鹿7胜5负排名东部第7,黄蜂4胜7负位列第12。此役对双方排名至关重要——雄鹿若胜可冲击前六,黄蜂赢球则有望缩小与附加...

公司问答丨福昕软件:公司海外编辑器产品接入ChatGPT模型 国内编辑器产品接入

公司问答丨福昕软件:公司海外编辑器产品接入ChatGPT模型 国内编辑器产品接入

  提问:公司的pdf产品海外市场占比超过90%,请问是否与google有合作?是否有接入Gemini的计划?   福昕软件回复称,公司海外编辑器产品接入ChatGPT模...

刚刚,DeepSeek-V3.1「终极版」重磅发布!最大提升超36%,V4R2还

刚刚,DeepSeek-V3.1「终极版」重磅发布!最大提升超36%,V4R2还

  值得一提的是,新模型在Humanitys Last Exam(人类最后的考试)中,成绩提升幅度高达36.48%!   这一Bug已经导致DeepSeek V3.1无法...

DeepSeek预测:马德里竞技vs国际米兰,劳塔罗能否延续神勇?床单军团主场或

DeepSeek预测:马德里竞技vs国际米兰,劳塔罗能否延续神勇?床单军团主场或

  欧冠联赛阶段第5轮即将上演一场火星撞地球的对决——马德里竞技坐镇利雅得航空大都会球场迎战国际米兰。目前两队分列积分榜第17和第3位,但仅相差6分。床单军团近期豪取5连胜且主场6场全胜,...

海信空调30周年:从“卖空调”到“经营空气价值

海信空调30周年:从“卖空调”到“经营空气价值

  刚刚闭幕的AWE 2026展会上,家电行业智能浪潮席卷。当空调品牌都在讲智能,海信空调用2026世界杯定制新品给出不同答案——他们致力于让空调拥有像人一样的“眼、耳、鼻、舌、身、意”,...