当前位置:首页 > Deepseek最新资讯 > 正文内容

闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了

10个月前 (08-06)Deepseek最新资讯406

  在玩游戏方面,到底哪个模型最厉害?为了回答这个问题,谷歌近日发起了首届大模型国际象棋对抗赛。

  这个比赛是在一个名叫「Kaggle Game Arena」的平台上进行的。这是 Kaggle 公司的一个新项目,旨在跳出平时的基准测试框架,探索像 Gemini、DeepSeek 等 LLM 在动态和竞争环境中表现如何。

  在昨天的报道中,我们详细描述了这场比赛的规则,比如不允许模型调用 Stockfish 等国际象棋引擎。

  Kimi k2 与 o3 的对局较早结束,四局比赛都在八步棋内完成。由于 Kimi k2 连续四次未能找到合法着法而被判负,o3 获得了全胜。

  不过需要说明的是,与 o3 对战的 Kimi K2 Instruct 为非推理模型,打不过 o3 也在预料之中。

  虽然 Kimi k2 未能获胜,但这场比赛也为我们提供了有价值的观察。从 Kimi k2 的走棋注释来看,它在开局阶段能够遵循棋谱理论行棋。然而,一旦脱离了熟悉的开局理论,技术问题就开始显现 —— 而对 Kimi k2 来说,这个转折点来得较早。

  Kimi k2 遇到困难的具体原因还需要进一步分析。在某些时候,它能清楚看到棋子的位置,却似乎忘记了棋子的走法。

  OpenAI 的 o4-mini 与 DeepSeek R1 之间的对局呈现出了独特的特点。如果单独观察每局比赛的前几步棋,你可能会以为这是两位高手在过招。然而对局进行到某个阶段后,棋局质量就会突然断崖式下跌。

  尽管如此,o4-mini 在这场比赛中成功实现了两次将军 —— 这是一个值得注意的成就,考虑到对 AI 系统来说,准确把握整个棋盘状态本身就具有相当的挑战性。

  Gemini 2.5 Pro 与 Claude 4 Opus 的对局是本次比赛中唯一一个通过「将杀」获胜的场次多于因违规行棋告负的场次的比赛。不过,目前尚不清楚 Gemini 2.5 Pro 的真实棋力究竟如何,也不确定其胜利在多大程度上得益于 Claude 4 Opus 的失误表现。

  这场比赛第四局出现了一个耐人寻味的局面:Gemini 2.5 Pro 当时拥有 32 分的子力优势,棋盘上甚至有两个后。然而尽管火力全开,它在完成将杀的过程中仍然出现了送子的情况。

  但更值得分析的是本场比赛的第一局。前九个回合,双方 AI 都表现稳健,着法精妙。然而就在此时,执黑的 Claude 4 Opus 做出了一个草率的决定,走 10...g5。这步棋不仅白送一兵,还彻底破坏了己方王城的安全,直接加速了败局的到来。从双方 AI 的赛后评注中,我们可以看出一些端倪:

  今日表现最为亮眼的当属 Grok 4。除了以全胜战绩收获 4 分外,其棋艺水平也堪称目前最佳。虽然对手 Gemini 2.5 Flash 多次失误送子确实降低了比赛难度,但与其他 AI 不同的是,Grok 4 展现出了精准捕捉无保护棋子的能力,并能果断实施打击deepseek

  Grok 4 的出色表现甚至引起了科技界的关注,其创始人埃隆・马斯克在 X 平台简短互动时,再次提及他那个著名观点 ——「国际象棋太过简单」。

  截至目前,大语言模型在象棋对弈中暴露出三大关键短板:全局棋盘视觉化能力不足、棋子间互动关系理解有限,以及由此引发的合法着法执行问题。而 Grok 4 的出色表现证明,它似乎成功突破了这些限制。

  我们曾在昨天的报道中发起了一个投票,目前已有近 4000 位读者参与。从目前的数据看,大家此前最看好的是 Gemini 2.5 Pro—— 赢得了超过 37% 的票数。

  现在,第一天的比赛结果已经出炉,我们也稍微了解了各个模型的表现,不知道大家的想法有无变化呢?原文出处:闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了,感谢原作者,侵权必删!

标签: deepseek

“闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了” 的相关文章

11月18日DeepSeek预测:雷霆vs鹈鹕,西部霸主或轻取副班长,亚历山大对

11月18日DeepSeek预测:雷霆vs鹈鹕,西部霸主或轻取副班长,亚历山大对

  新奥尔良鹈鹕坐镇主场迎来俄克拉荷马雷霆的挑战,这是本赛季西部第一与倒数第一的悬殊对决。鹈鹕作为知名球队却深陷泥潭,近期遭遇5连败且场均净负14.6分,而雷霆则携5连胜之势,以联盟第一的...

2月2日DeepSeek预测:篮网vs活塞,东部榜首大战,康宁汉姆率队主场取胜

2月2日DeepSeek预测:篮网vs活塞,东部榜首大战,康宁汉姆率队主场取胜

  NBA常规赛即将迎来一场东部强弱分明的对决,排名东部第1的活塞将在主场迎战排名第13的篮网。活塞目前以35胜12负的战绩高居东部榜首,而篮网则以13胜34负的战绩在东部垫底。这场比赛对...

DeepSeek预测:马德里竞技VS马略卡!床单军团主场碾压,穆里奇难救主?

DeepSeek预测:马德里竞技VS马略卡!床单军团主场碾压,穆里奇难救主?

  西甲第21轮即将上演一场看似实力悬殊的对决——排名第4的马德里竞技坐镇利雅得航空大都会球场迎战第15名的马略卡。床单军团目前与比利亚雷亚尔同积41分,仅因净胜球劣势屈居第4,而马略卡则...

12月12日DeepSeek预测:掘金vs国王,约基奇率队客场轻取残阵国王

12月12日DeepSeek预测:掘金vs国王,约基奇率队客场轻取残阵国王

  西部第二的丹佛掘金将客场挑战西部垫底的萨克拉门托国王,这场看似实力悬殊的较量却暗藏玄机。约基奇领衔的卫冕冠军近期状态火热,而国王则面临核心球员大面积伤病的困境。   ...

DeepSeek团队联合清北发布DualPath系统,打破智能体推理存储瓶颈

DeepSeek团队联合清北发布DualPath系统,打破智能体推理存储瓶颈

  近日,DeepSeek团队联合清华大学、北京大学计算机学院发表名为《DualPath:突破智能体LLM推理中的存储带宽瓶颈》的论文。针对智能体LLM推理中的KV-Cache存储瓶颈,论...

DeepSeek预测:巴黎圣日耳曼VS欧塞尔!姆巴佩接班人巴尔科拉能否率队狂胜?

DeepSeek预测:巴黎圣日耳曼VS欧塞尔!姆巴佩接班人巴尔科拉能否率队狂胜?

  法甲第6轮焦点战将在王子公园球场上演,领头羊巴黎圣日耳曼(12分)迎战中游球队欧塞尔(6分)。上轮0-1爆冷输给马赛后,恩里克的球队急需用胜利稳固欧冠席位,而升班马欧塞尔则希望延续上轮...