当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek推出mHC架构提升AI模型性能

5个月前 (01-05)Deepseek最新资讯92

  DeepSeek研究人员开发了一种名为流形约束超连接(mHC)的技术,能够提升人工智能模型的性能。

  DeepSeek创建mHC是为了增强大语言模型用于学习新信息的残差连接机制。这种机制发明于2015年,也广泛应用于许多视觉模型中。DeepSeek并非首个尝试改进残差连接的公司,但此前的尝试结果喜忧参半。

  AI模型由众多被称为层的软件组件组成。当用户输入提示时,文本进入第一层,执行生成响应所需的一小部分计算。第一层将计算结果发送给第二层,第二层完成另一部分工作,将结果传递给第三层,以此类推。最后一层向用户输出答案。

  最后一层在AI训练过程中发挥关键作用。如果模型输出错误的响应,最后一层会接收到所谓的梯度信号。梯度是一个表明AI犯错的信号,也包含了模型如何改进的信息。梯度进入最后一层,然后向后传播通过AI结构的其余部分deepseek,直到到达第一层。

  2015年,研究人员发明了一种名为残差连接的梯度管理机制。这是一种快捷方式,使梯度能够直接在两个距离较远的AI层之间传播,而无需通过中间的所有层。残差连接缓解了几种常见的AI训练错误,这也是它们在大语言模型和视觉模型中被广泛使用的原因。

  去年9月,研究人员推出了残差连接的替代方案——超连接。它解决了残差连接机制的几个不足,但也有自身的局限性。DeepSeek本周推出的mHC架构是超连接的增强实现版本,避免了后者相关的几个技术挑战,使其更适合生产使用。

  mHC的主要创新在于它融合了所谓的流形。流形是一个广泛的数学对象家族,复杂程度差异很大。一些流形是简单的几何形状如圆形,而另一些则跨越三维以上的空间。DeepSeek表示,mHC使用流形来维持梯度在AI模型各层之间传播时的稳定性。

  该公司通过使用mHC架构训练了3个分别拥有30亿、90亿和270亿参数的大语言模型来测试这一架构。然后使用超连接技术训练了三个参数量相同的其他模型。据DeepSeek称,在八个不同的AI基准测试中,mHC驱动的大语言模型表现更佳。

  该公司表示,这种架构在硬件效率方面也优于超连接。超连接机制显著增加了大语言模型在训练期间的内存需求。在内部测试中,DeepSeek确定mHC仅产生6.27%的硬件开销。

  通过深化对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的局限性,并可能为下一代基础架构的演进照亮新的道路,DeepSeek研究人员在mHC论文中写道。

  A:mHC(流形约束超连接)是DeepSeek开发的AI架构技术,用于提升人工智能模型性能。它是超连接技术的增强版本,通过融合流形数学对象来维持梯度传播的稳定性,避免了超连接的技术挑战,更适合生产使用。

  A:在测试中,使用mHC架构训练的大语言模型在八个不同AI基准测试中均优于使用超连接技术训练的同等参数模型。此外,mHC在硬件效率方面也更优秀,仅产生6.27%的硬件开销,而超连接会显著增加内存需求。

  A:残差连接是2015年发明的梯度管理机制,允许梯度直接在距离较远的AI层间传播。超连接是去年9月推出的残差连接替代方案,解决了残差连接的一些不足但有自身局限。mHC则是超连接的增强实现版本。原文出处:DeepSeek推出mHC架构提升AI模型性能,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek推出mHC架构提升AI模型性能” 的相关文章

DeepSeek新模型很疯狂:整个AI圈都研究视觉路线,Karpathy不装了

DeepSeek新模型很疯狂:整个AI圈都研究视觉路线,Karpathy不装了

  昨天下午,全新模型 DeepSeek-OCR 突然开源。在该模型的处理过程中,1000 个字的文章能被压缩成 100 个视觉 token,十倍的压缩下精度也可以达到 97%,一块英伟达...

1月11日DeepSeek预测:快船vs活塞,东部霸主能否捍卫主场?伦纳德vs康

1月11日DeepSeek预测:快船vs活塞,东部霸主能否捍卫主场?伦纳德vs康

  作为联盟传统豪强的底特律活塞,目前以28胜9负的骄人战绩高居东部第一,胜率高达75.7%。而洛杉矶快船仅以14胜23负位列西部第11,双方排名形成鲜明对比。此役胜负将直接影响活塞的榜首...

华为擎云联合学而思打造带娃神器,知识年货成春节消费新风尚

华为擎云联合学而思打造带娃神器,知识年货成春节消费新风尚

  随着春节脚步的临近,年货市场迎来了一轮消费热潮。传统的物质型消费正在向成长型与知识型消费转型。在教育数字化转型的浪潮下,集成了前沿AI技术与专业教研内容的智能学习终端,正逐渐取代传统礼...

朱啸虎称DeepSeek对人类历史改变被低估

朱啸虎称DeepSeek对人类历史改变被低估

  【朱啸虎:#DeepSeek对人类历史改变被低估#】在未竟之约首期节目里,朱啸虎发表观点称,当下人们仍低估了DeepSeek给全人类乃至历史带来的改变。他预测,10年后再回望,人们会意...

12月2日DeepSeek预测:独行侠vs掘金,约基奇率队主场轻取残阵独行侠

12月2日DeepSeek预测:独行侠vs掘金,约基奇率队主场轻取残阵独行侠

  北京时间12月2日10:00,NBA常规赛将迎来一场西部对决,排名第4的丹佛掘金(14胜5负)坐镇主场迎战西部第12的达拉斯独行侠(6胜15负)。尽管独行侠拥有戴维斯、欧文等明星球员,...

借ChatGPT、DeepSeek等“搭便车”,5起AI领域不正当竞争案例公布

借ChatGPT、DeepSeek等“搭便车”,5起AI领域不正当竞争案例公布

  IT之家 2 月 6 日消息,今天下午,市场监管总局通报说:市场监管总局强化反不正当竞争的监管。一方面积极查办仿冒混淆、侵犯商业秘密等各类案件,为人工智能产业健康发展保驾护航;另一方面...