当前位置:首页 > Deepseek最新资讯 > 正文内容

被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了

8个月前 (08-14)Deepseek最新资讯441

  Mistral最新模型疑似直接蒸馏自DeepSeek,却对外包装成RL成功案例,并刻意歪曲基准测试结果。

  说到Mistral,这家公司被誉为欧洲版OpenAI,是全球开源明星玩家之一,模型性能一直备受好评。

  结果半年过去,剧情反转:Mistral不仅没跑赢DeepSeek,还被曝“借”了人家的成果。

  就像我们开头提到的,推特博主Sam Peach通过分析模型输出中过度使用的词汇模式(Slop),发现了Mistral-small-3.2与DeepSeek-v3之间令人惊讶的高度相似性。

  这种相似性通常很难通过独立训练偶然出现,所以很可能就是蒸馏(distillation)的结果:

  他先统计了模型在创意写作(creativewriting)的输出中,比人类文本更常出现的词和n-gram(词组)。

  最后把这些高频特征进行层次聚类(hierarchicalclustering),生成了一张“相似性图”。

  通过比较相似性图中模型的远近位置,就可以发现Mistral-small-3.2和DeepSeek-v3在图中非常接近,这就表明了它们的输出模式高度相似。

  最新的爆料则进一步指明,Mistral模型和DeepSeek相似不是巧合,而是可能使用了蒸馏。

  离职员工说,Mistral这样做是在假装自家模型的强化学习有效,这不仅歪曲了基准测试结果,而且误导公众。

  而在上一轮融资中(2024年6月),Mistral完成了一轮由General Catalyst领投的6亿欧元(6.45亿美元)的融资,这使其估值上升至58亿欧元(62亿美元),排名全球第四(美国湾区外排名第一)。

  从公司成立以来,Mistral一直保持开源路线,今年开源的模型就包括轻量级模型Mistral Small和主打编程的Mistral Code等。

  相较于主流的大语言模型,主打开源、小快灵的Mistraldeepseek,在多语言处理和推理能力方面具备相当的竞争力,在大模型市场中占据着独特的地位。

  同时他们也推出了自家聊天机器人LeChat,对标ChatGPT,内置深度研究模式、原生多语言推理和高级图像编辑等功能。

  截至目前,Mistral官方还没有回应,就在昨天他们还发布了新模型Mistral Medium V3.1。原文出处:被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了,感谢原作者,侵权必删!

标签: deepseek

“被曝蒸馏DeepSeek还造假!欧版OpenAI塌方了” 的相关文章

智启消费新未来 量化派:AI时代实体经济的赋能者

智启消费新未来 量化派:AI时代实体经济的赋能者

  截至2025年11月,累计有611款生成式人工智能服务完成备案、306款相关应用或功能完成登记。这组数据不仅是国产生成式AI产业规模持续壮大的直接印证,更标志着我国人工智能发展已进入“...

DeepSeek新模型实现十倍文本压缩精度97%,A100日处理20万页数据

DeepSeek新模型实现十倍文本压缩精度97%,A100日处理20万页数据

  据机器之心,在DeepSeek-OCR的处理过程中,1000个字的文章能被压缩成100个视觉token,十倍的压缩下精度也可以达到97%,一块英伟达A100每天就可以处理20万页的数据...

1月6日DeepSeek预测:勇士vs快船,库里对决伦纳德,快船主场险胜

1月6日DeepSeek预测:勇士vs快船,库里对决伦纳德,快船主场险胜

  1月6日斯台普斯中心将迎来勇士(19胜17负,西部第8)与快船(12胜22负,西部第12)的较量。尽管快船排名靠后,但作为洛杉矶豪门,他们近5战4胜的状态正挑战着勇士三连胜的势头。此役...

11月5日DeepSeek预测:黄蜂vs鹈鹕,鲍尔率队客场擒鹈鹕

11月5日DeepSeek预测:黄蜂vs鹈鹕,鲍尔率队客场擒鹈鹕

  西部垫底的鹈鹕将迎来东部第11的黄蜂挑战。鹈鹕本赛季0胜6负未尝胜绩,场均净负18.1分联盟最差;黄蜂3胜4负虽胜率不足五成,但进攻效率高居联盟第8。此役胜负将直接影响双方在分区排名的...

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

DeepSeek开年炸场!梁文锋又发论文了,一如既往地强

  论文核心指出,尽管当前如Hyper-Connections(HC)这类连接结构能带来性能提升deepseek,但由于其结构复杂、缺乏约束,往往导致训练不稳定、信号失真甚至梯度爆炸等问题...

阿里、DeepSeek接连出招,杭州AI产业5年内规模冲击6000亿?

阿里、DeepSeek接连出招,杭州AI产业5年内规模冲击6000亿?

  9月以来短短一周左右,阿里巴巴(BABA.NYSE;发布迄今为止参数量最大的通义千问模型 Qwen3-Max-Preview,DeepSeek被曝正在开发新一代智能体模型,宇树科技则宣...