当前位置:首页 > Deepseek最新资讯 > 正文内容

刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apac

5个月前 (12-03)Deepseek最新资讯206

  Mistral 表示:「所有模型均采用 Apache 2.0 许可证发布。以多种压缩格式开源我们的模型,能够赋能开发者社区,并通过分布式智能将 AI 交到人们手中。」

  该公司也声称:「Ministral 模型代表了同类产品中最佳的性价比。与此同时,Mistral Large 3 也跻身于前沿指令微调开源模型的行列。」

  Mistral Large 3 是 Mistral 自开创性的 Mixtral 系列以来的首个混合专家模型,代表了 Mistral 在预训练方面迈出的重要一步deepseek。经过后训练,该模型在通用提示词上达到了与市场上最好的指令微调开放权重模型同等的水平,同时展现了图像理解能力,并在多语言对话(即非英语 / 中文环境)中表现出一流的性能。

  值得注意的是,Mistral 在这里并没有对比刚发布几天的 DeepSeek-V3.2 正式版,可能是因为 DeepSeek 没有发布在普通语言任务上的基准测试结果,仅给出了推理和智能体任务的基准结果。

  Mistral Large 3 在 LMArena 排行榜的 OSS(开源软件)非推理模型类别中首次亮相即排名第 2(在所有开放模型中排名第 6),是性能最好的开放模型之一。

  另外,他们还强调与英伟达的合作:「交付先进的开源 AI 模型需要广泛的优化,这通过与 NVIDIA 的合作得以实现。我们所有的新 Mistral 3 模型,从 Large 3 到 Ministral 3,都在 NVIDIA Hopper GPU 上进行了训练,以利用高带宽 HBM3e 内存来处理前沿规模的工作负载。NVIDIA 的极致协同设计(co-design)方法将硬件、软件和模型融为一体。NVIDIA 工程师为整个 Mistral 3 系列实现了对 TensorRT-LLM 和 SGLang 的高效推理支持,从而实现高效的低精度执行。

  针对 Large 3 的稀疏 MoE 架构,英伟达集成了最先进的 Blackwell 注意力和 MoE 内核,增加了对预填充 / 解码分离服务的支持,并与 Mistral 在推测性解码(方面进行合作,使开发者能够在 GB200 NVL72 及更高版本的硬件上高效地服务长上下文、高吞吐量的工作负载。在边缘端,NVIDIA 为 DGX Spark、RTX PC 和笔记本电脑以及 Jetson 设备提供了 Ministral 模型的优化部署方案,为开发者提供了一条从数据中心到机器人运行这些开放模型的一致且高性能的路径。」

  此外,对于每种尺寸,他们都向社区发布了基础版(base)、指令版(instruct)和推理版(reasoning)变体,每种都具备图像理解能力,且全部采用 Apache 2.0 许可证。

  Mistral 重点强调:「Ministral 3 实现了所有开源模型中最佳的性价比。在实际用例中,生成的 token 数量和模型大小同等重要。Ministral 指令模型与其同类模型的性能相当或更好,同时生成的 token 数量通常要少一个数量级。」

  另外,Ministral 推理变体可以进行更长时间的思考,以在其权重级别中产生最先进的准确性 —— 例如,其 14B 变体在 AIME ‘25 上达到了 85% 的准确率。

  对于寻求量身定制 AI 解决方案的组织,Mistral AI 也提供了定制模型训练服务,以微调或完全适配模型来满足自己的特定需求。

  该公司表示:「无论是针对特定领域任务进行优化、提高在专有数据集上的性能,还是在独特环境中部署模型,我们的团队都会与您合作构建符合您目标的 AI 系统。对于企业级部署,定制训练可确保您的 AI 解决方案安全、高效且大规模地交付最大影响力。」

  Mistral 早期的模型采用 Apache 2.0 开源许可,属于真正开放权重;但随着公司推出更大型、更高性能的旗舰模型(如 Mistral Large),逐步转向闭源与商业授权。可以说,Mistral 此次全线回归 Apache 2.0 协议,某种程度上是被 DeepSeek「逼」出来的战略调整。

  在过去的一段时间里,DeepSeek 以极致的推理成本和激进的开源策略迅速抢占了全球开发者社区的心智,一度让坚持「开放权重但限制商用」的中间派厂商陷入被动。

  Mistral 3 的发布,可以看作是这家法国独角兽对 DeepSeek 发起的正面追赶:不仅在 MoE(混合专家)架构上继续深耕,更试图通过端侧模型(Ministral)的差异化优势,在被中美巨头挤压的缝隙中杀出一条血路。原文出处:刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apache 2.0,感谢原作者,侵权必删!

标签: deepseek

“刚刚,「欧洲的DeepSeek」发布Mistral 3系列模型,全线回归Apac” 的相关文章

DeepSeek预测:曼城VS勒沃库森!哈兰德火力全开,蓝月亮主场碾压药厂?

DeepSeek预测:曼城VS勒沃库森!哈兰德火力全开,蓝月亮主场碾压药厂?

  欧冠联赛第5轮即将打响,英超豪门曼城将在伊蒂哈德球场迎战德甲劲旅勒沃库森。目前曼城以3胜1平0负积10分排名联赛第4,而勒沃库森则以1胜2平1负积5分排名第21。本场比赛对双方来说都至...

DeepSeek概念18日主力净流入17.26亿元,华胜天成、用友网络居前

DeepSeek概念18日主力净流入17.26亿元,华胜天成、用友网络居前

  8月18日,DeepSeek概念上涨2.31%,今日主力资金流入17.26亿元,概念股96只上涨,4只下跌。   主力资金净流入居前的分别为华胜天成(7.42亿元)、...

让AI在金融企业落地——2025全球商业创新大会金融专题论坛成功举办!

让AI在金融企业落地——2025全球商业创新大会金融专题论坛成功举办!

  2025年8月16日,在“2025全球商业创新大会”上,用友金融成功举办“让AI在金融企业落地”金融专题论坛。来自银行、证券、保险、租赁等领域的领军企业高管、权威学者与技术专家齐聚一堂...

中外智者共话AI未来 上海实践点亮全球人工智能合作新图景

中外智者共话AI未来 上海实践点亮全球人工智能合作新图景

  在世界人工智能大会(WAIC)如火如荼进行之际,由中国日报社主办的“智者对话,共创未来”《围炉漫话》系列活动于7月26日至27日在上海成功举办。本次活动以“体验+对话”的双线模式,立足...

DeepSeek驱动云端推理算力升级,四大细分领域迎发展机遇

DeepSeek驱动云端推理算力升级,四大细分领域迎发展机遇

  DeepSeek等大模型应用的爆发性增长,正强力驱动云端推理算力需求升级,产业链四大细分领域迎来发展机遇:   高性能GPU服务器、高速网络(如InfiniBand)...

DeepSeek的一串“符号”背后:对国产芯片意味着什么?

DeepSeek的一串“符号”背后:对国产芯片意味着什么?

  这是深度求索公司8月份在新发布新模型DeepSeek V3.1的文档中所留下的一个关键信息。   整个8月下旬,这串“符号”成为国产芯片与算力行业在资本市场狂欢的“财...