当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek新版本发布,速度更快,成本更低

8个月前 (10-05)Deepseek最新资讯376

  日前,DeepSeek-V3.2-Exp模型正式发布。这是一个实验性版本,主要针对长文本的训练和推理效率进行了探索性的优化和验证。

  此次发布的核心突破在于使用了一种有别于传统的注意力机制——稀疏注意力,在性能基本不变前提下,大幅提升了效率并降低了成本。

  稀疏注意力有何特别之处?如何同时做到速度更快、成本更低?解放日报记者专访了上海交通大学人工智能学院赵沛霖教授。

  “尽管稀疏注意力这一技术方向并非DeepSeek首创,但真正在如此大规模的模型上实施,并使得计算量和成本都大幅度下降,DeepSeek是第一个做到的。”赵沛霖介绍,他本人就曾在2020年发表的一篇论文中使用这一技术来预测电力。

  要理解稀疏注意力,不妨先来看一下传统的自注意力机制。2017年,谷歌在一篇具有开创意义的论文中提出了Transformer架构,其核心正是自注意力机制。

  “当时谷歌引入自注意力机制,主要是为了优化翻译功能,因为仅仅关注文字本身和相邻的信息远远不够,有时候需要观察上下文才能准确翻译。”赵沛霖说。

  目前绝大多数有影响力的大语言模型,都是以Transformer架构为核心。自注意力机制相当于在预测每个字时,需要计算当前预测的字与过去所有字的相关性。如此带来的计算复杂度和内存消耗之大,可想而知。

  有意思的是,谷歌这篇论文本身就已经意识到了自注意力机制的计算缺陷。作者简要提到了可以使用局部注意力或稀疏注意力来降低计算复杂度。这表明,从Transformer诞生第一天起,研究如何让注意力“稀疏化”的思想就已经存在了。

  与“面面俱到”的自注意力不同,稀疏注意力让AI模型处理信息时学会了“抓关键”,从“一一逐个看”变为“挑重点看”,计算复杂度自然大大下降。

  尤其值得一提的是,DeepSeek是在参数量为6710亿如此大规模的模型上,验证了这一稀疏注意力机制。

  在赵沛霖看来,这是DeepSeek的一种尝试,后续可能在稀疏注意力机制之外,会补充一些低成本的线性注意力。线性注意力也是一种速度很快的方法,为稀疏注意力可能遗漏关键信息起到“打补丁”作用。“现在很多公司都在研究线性注意力,但效果并不佳,未来‘稀疏+线性’可能会是一条比较优化的路径。”

  从目前各领域的公开评测集来看,DeepSeek新版本的效果与之前基本持平,但长文本推理速度比前代版本快2-3倍,内存占用降低约30%-40%。

  “我粗略估算了一下,它保持了上代模型90%以上的性能,但计算量减少了约75%,相当于仅用1/4算力便可与前代模型能力基本持平。”赵沛霖说。

  随着新版本的发布,DeepSeek也公布了新的价格政策,百万tokens(文本的基本单位,可以理解为字或词)的输出价格仅为3元人民币,差不多是国外大模型均价的1/30到1/20,开发者调用API的成本相较过去将降低50%以上。无怪乎有网友惊叹,这是新时代的“水电气”。

  赵沛霖认为,一方面这将对我国算力的缓解有所帮助。特别是随着大模型需求量的不断增加deepseek,如果能大规模节省算力,也就降低了对目前还是短板的GPU等芯片的需求。

  另一方面,对于因成本限制而原本使用小模型的一些产业应用场景而言,如果大模型成本降低,可能直接使用大模型,这样在相应场景中的精度也会提高。原文出处:DeepSeek新版本发布,速度更快,成本更低,感谢原作者,侵权必删!

标签: deepseek

“DeepSeek新版本发布,速度更快,成本更低” 的相关文章

1月20日DeepSeek预测:快船vs奇才,哈登率队冲击六连胜,奇才难挡颓势

1月20日DeepSeek预测:快船vs奇才,哈登率队冲击六连胜,奇才难挡颓势

  北京时间1月20日凌晨4点,NBA常规赛将迎来一场东西部对决,华盛顿奇才坐镇主场迎战洛杉矶快船。尽管奇才是联盟传统球队,但本赛季表现糟糕,目前以10胜31负的战绩排名东部第14,而快船...

11月4日DeepSeek预测:森林狼vs篮网,兰德尔率队延续不败纪录?

11月4日DeepSeek预测:森林狼vs篮网,兰德尔率队延续不败纪录?

  北京时间11月4日早8点,NBA常规赛将迎来一场东西部球队的较量,目前3胜3负排名西部第9的森林狼客场挑战0胜6负东部垫底的篮网。对于六连败的篮网而言,此役是触底反弹的最后机会;而森林...

11月6日DeepSeek预测:火箭vs灰熊,杜兰特领衔火箭客场取胜

11月6日DeepSeek预测:火箭vs灰熊,杜兰特领衔火箭客场取胜

  北京时间11月6日,NBA常规赛将迎来一场西部对决,休斯顿火箭队将客场挑战孟菲斯灰熊队。火箭目前以4胜2负的战绩排名西部第5,而灰熊则以3胜5负排名西部第11。这场比赛对于两支球队来说...

备件管理准确率98%!AI如何重塑高效售后服务?

备件管理准确率98%!AI如何重塑高效售后服务?

  晚上9点半,广州,某知名新茶饮品牌门店内,店长小林接到了平云小匠工程师的电话。确认其在店及报修情况后,工程师半小时内携备件到达门店,根据标准作业程序操作,完成签到、检测、维修、确认核销...

DeepSeek预测:拜仁慕尼黑vs法兰克福,凯恩领衔南大王狂轰5球血洗雄鹰!

DeepSeek预测:拜仁慕尼黑vs法兰克福,凯恩领衔南大王狂轰5球血洗雄鹰!

  北京时间2月21日22:30,安联球场将迎来德甲第23轮的焦点战——领头羊拜仁慕尼黑对阵暂列第4的法兰克福。本赛季拜仁以82个进球(赛事第1)和19个失球(赛事第1)的恐怖数据领跑积分...

1月28日DeepSeek预测:国王vs尼克斯,布伦森率队主场复仇

1月28日DeepSeek预测:国王vs尼克斯,布伦森率队主场复仇

  西部垫底的萨克拉门托国王将造访麦迪逊广场花园,挑战东部第四的纽约尼克斯。本赛季国王仅取得12胜35负的惨淡战绩,胜率25.5%排名西部第14;而尼克斯则以27胜18负(胜率60%)稳居...