当前位置:首页 > Deepseek最新资讯 > 正文内容

具身智能DeepSeek时刻!千寻智能模型开源即登顶全球榜单

3个月前 (01-12)Deepseek最新资讯69

  智东西1月12日报道,今日,千寻智能正式开源具身大模型Spirit v1.5,就在前一天,该模型在全球具身智能模型评测平台RoboChallenge上,综合评测斩获第一。

  RoboChallenge的基准测试包含30项任务,包括摆放薯条、寻找固定颜色物体、贴胶带等30项任务,Spirit-1.5综合得分为66.09分,成功率达到50.33%,也是唯一一个成功率超过50%的模型。这些任务涵盖了机器人一系列日常技能,考验的正是机器人在陌生环境的泛化能力。

  这一成绩意味着,其超越了已经霸榜RoboChallenge数月之久的Pi0.5模型。Pi0.5由美国机器人创企Physical Intelligence于2025年4月发布,以能让机器人在全新环境中执行复杂家务任务而引起热议。

  RoboChallenge榜单由Dexmal原力灵机、Hugging Face、智源研究院等全球知名机构联合发起,是全球首个专为专为具身智能机器人量身打造的大规模真机评测平台,主打让机器人直接在真实物理世界里硬碰硬,检验模型的实战泛化能力。

  从Pi0.5霸榜时间之久也可以看出,其在真机实测领域的绝对实力。但值得注意的是,此次Spirit v1.5并不是靠某一项独门绝技胜过Pi0.5,而是实现了综合能力全面超车,这也意味着国产具身智能玩家,正式冲进全球第一梯队的核心圈。

  为了证明榜单成绩来自自研模型且真实有效,千寻智能已经同步开源了Spirit v1.5的基模权重、推理代码、使用样例。

  核心代码开源地址: 模型开源地址: 技术博客: 一、30大贴近真实场景实操任务,Spirit v1.5多项实操任务完胜Pi0.5

  实战见真章,在RoboChallenge的30项任务中,可以看到在下面几项任务,Spirit v1.5和Pi0.5的直观对比。

  首先是让机器人往纸箱上贴胶布。Spirit v1.5使得机器人一下子就精准找到了胶布的位置,两只手配合操作成功将胶布贴到了纸箱上,但Pi0.5经过多次尝试,也没能将胶布撕下。

  在摆放物体的任务中,可以看到绿色物体被压在最下方。Pi0.5模型会先将黄色物体放入箱子,待绿色物体露出后再精准拾取;而Spirit v1.5则是直接在堆叠的物品中主动搜寻绿色物体,没有拾取错误颜色的物品。

  插花任务中,Pi0.5不能识别到瓶口,将花插进去,而是横放在了花瓶上,Spirit v1.5能通过移动关节,保证花保持竖直,并被插入花瓶中。

  移动物体时,Spirit v1.5可以精准抓取到物品然后放到箱子里,但Pi0.5在执行任务时,无法判断自己是否已经抓取到相应物品,而是机械操作固定步骤,也不能根据实际场景判断抬升高度,确保物体顺利放入箱内。

  不难看出,贴胶布、物品拾取、插花、移动物体这类贴近实际应用场景的机器人实操任务,是实打实检验技术落地能力的关键。

  其既可以验证机器人在真实环境中的感知、抓取、协同操作等核心功能的实际表现,也能直观暴露技术短板,为后续技术迭代、优化产品落地方案提供可落地、可复刻的真实测试依据,更对机器人技术落地及技术有效性有重要意义。

  RoboChallenge的来头不小,其于2025年成立,由Dexmal、Hugging Face、智源研究院等多家海内外具身智能领域知名机构联合发起。这一榜单通过真机测试评估模型在物理世界的泛化性,是具身智能领域少数以真实物理任务为核心的评测体系。

  其中的30项测试任务正是针对传统机器人测试场景碎片化、标准不统一,测试结果难以开展横向比较的行业痛点,RoboChallenge通过制定统一的任务标准与评估指标,搭建跨模型对照机制,构建起一套开放、公正的具身智能评测体系,形成针对性解决方案。

  RoboChallenge榜单是具身智能飞速发展、落地加速的同时,行业对标准化评测的迫切需求催生出的硬核成果,也是给全球玩家实力较量搭起的公平擂台,更凸显出国产具身大模型登顶的含金量。

  此前,各家机器人创企秀机器人技能时,很多机器人已能完成在全新环境叠衣服、清洁厨房等长序列复杂任务,大规模VLA(视觉-语言-动作)模型正逐步展现出真正的物理智能。

  但这一亮眼表现背后,却暗藏着关键技术隐患:不少业界顶尖模型在训练阶段,会对数据进行严苛的预处理,虽能降低机器人模仿人类操作的难度,却也大幅限制了其实际的泛化能力。

  因此,Spirit v1.5的核心就是,让机器人在预训练时转向使用多样化的、很大程度上不受控的数据,通过从这类贴近现实世界的混乱数据中学习,大幅提升机器人应对真实家庭环境中各类不可预测场景的能力。

  千寻智能通过开放式、目标驱动的数据采集,让操作员以某个目标为前提即兴发挥。例如数据采集员的目标是“今天我要用机器人清理厨房台面”、“给假人模特化妆”,但操作员如何规划子任务、任务执行顺序等都完全随机。

  通过这种方式构建数据集的优势在于:能实现数据的高度多样性让机器人习得更多物理常识,还具备更强可扩展性。

  在多样性层面,依托数据操作员的实际执行过程,其会包含海量的物体交互、轨迹和环境转换,会在短时间的操作中,包含拾取、放置、打开容器、打扫房间、野外导航等互相交织的数据。

  这样一来,机器人就不是机械学习某个单项任务的执行,而是通过学习整套技能及执行的前后顺序,得到更具通用性的知识与能力。

  在可扩展性层面,其数据集不需要为每个场景精心设备并定义详细任务指导,便能在不线性增加管理成本的前提下,高效扩展数据采集规模。根据千寻智能内部实测,采用这种方法,人均有效采集时长增加了200%,并将对算法专家的干预需求削减了60%。

  为了用数据说明这种数据集采集范式的有效性,千寻智能建立了两组模型进行对比,一组是在包含30个精选演示任务的数据集上进行预训练,一组在开放式多样化采集的数据集上进行预训练。

  这两组模型在全新的、未显式出现在任一预训练集中的任务上进行微调,结果显示,多样化模型达到相同性能所需的迭代次数比基线模型少了40%。

  与此同时,其还发现模型的迁移效率与多样化数据量呈显著正相关:随着数据集规模的持续增长,模型在新任务中的验证误差不断下降,这也印证了模型正高效习得从现实世界的丰富内在多样性中自主学习的能力deepseek

  这样的实验结果证明了,使用高多样性、弱控制数据进行预训练的可行性与有效性,为具身智能模型的研发提供了全新的实践依据。

  当下具身智能行业的演进节奏持续加快,从产业端到技术端,国内具身智能正持续在全球舞台展现硬实力。

  在刚刚结束的全球最具影响力的科技盛会之一、“年度科技风向标”国际消费电子展CES 2026上,国产人形机器人惊艳亮相、强势出圈,再加上此次Spirit v1.5又登顶权威评测榜单,国内玩家在全球具身智能赛道的话语权与行业影响力稳步提升。

  在具身智能走向行业落地的关键阶段,技术路线与创新架构不断推新,从VLA架构到认知-动作一体化架构,从单模态感知到多传感器融合,赛道技术探索百花齐放,而权威榜单的位次更迭,正是行业技术创新螺旋式上升的直观体现。

  此次Spirit v1.5的领先,正是其技术优势的集中释放,核心依托于模型在泛化性、稳定性、鲁棒性等核心系统能力上的全面突破。

  其创新采用高多样性、弱约束的开放式数据采集范式,让模型突破了传统“干净”数据的瓶颈,使得模型能在全新非结构化场景中灵活应对各类不可预测性。

  需要注意的是,大模型领域的榜单更迭频发,但具身智能赛道的位次变化,尤其此次Spirit v1.5登顶权威榜单,绝非单纯的技术参数比拼,更不是短期算法调优的结果,而是对模型全链路技术路线的系统性验证,更是其在泛化能力、工程落地性、场景适配性等核心维度的综合实力体现。

  此次,千寻智能Spirit v1.5登顶,证明其不仅已经成为中国具身智能模型最强力量,达到世界级水准,更标志着中国具身模型正式站上全球舞台,与世界顶尖模型同台角逐、比肩竞技。

  从更宏观层面来看,综合实力的提升,往往会与吸引顶尖人才、生态合作伙伴等这类长期价值的实现相辅相成。

  因此,这一成果不仅能为千寻智能吸引全球顶尖的技术人才,进一步提升其在行业内的技术影响力,更能推动其与产业链上下游的生态合作深化,为技术的快速迭代、机器人本体的产品化落地筑牢基础,也为国内具身智能赛道的技术演进提供了可参考的实践范式,助力国内具身智能产业从技术突破向规模化落地加速迈进。

  我国具身智能产业正处于从技术探索迈向规模化落地关键期,叠加工业基础、供应链集成能力和场景密度的独特优势,以Spirit v1.5为代表的技术突破,正加速具身智能突破技术边界,围绕具身通用大脑的能力探索不断进阶,以技术进化加速具身通用大脑的成熟,最终推动具身智能全面走进千家万户、融入日常生活。

  未来随着技术的不断成熟与生态的持续完善,中国具身智能产业不仅能在全球竞争中巩固领先优势,更将开辟全新增长空间。原文出处:具身智能DeepSeek时刻!千寻智能模型开源即登顶全球榜单,感谢原作者,侵权必删!

标签: deepseek

“具身智能DeepSeek时刻!千寻智能模型开源即登顶全球榜单” 的相关文章

QuestMobile:2025年6月DeepSeek月活降至1629.5万

QuestMobile:2025年6月DeepSeek月活降至1629.5万

  QuestMobile数据显示,其月活跃用户规模从2025年3月的1936.1万降至6月的1629.5万,下滑趋势明显。   而对5月流失用户的追踪揭示了他们的去向:...

DeepSeek V3.2要来了?

DeepSeek V3.2要来了?

  2025年5月28日,端午节前发布了 DeepSeek-R1-0528,官方称其为端午节特别献礼。   DeepSeek最新一次更新在一周前的9月22日,DeepSe...

1355 万、DeepSeek 部署大单

1355 万、DeepSeek 部署大单

  采购内容:智能一体机、安全系统及容灾备份,日常运维、系统更新迭代、各个单位的服务(具体详见招标文件)。   2025 年 8 月 26 日发布中标结果deepseek...

赋能数字化转型 引领产业新变革 —— 公司举办“DeepSeek 赋能产业数字化

赋能数字化转型 引领产业新变革 —— 公司举办“DeepSeek 赋能产业数字化

  为加快推进公司数字化转型,全面提升员工AI实战能力,9月5日,公司组织开展了“DeepSeek赋能产业数字化转型”专题培训,80多名公司中层管理人员、业务骨干等齐聚一堂,共同探索AI大...

DeepSeek V3.2、GLM4.6等大模型即将发布

DeepSeek V3.2、GLM4.6等大模型即将发布

  DeepSeek-V3.2即将发布,据了解,v3.2-base已上传至DeepSeek的HuggingFace官方页面,模型文件正在上传中,不过目前已下线。同时,智谱GLM4.6也即将...

刚刚,北大DeepSeek斩获ACL 2025最佳论文!全网首发一作演讲,稀疏注

刚刚,北大DeepSeek斩获ACL 2025最佳论文!全网首发一作演讲,稀疏注

  2025年ACL盛会于维也纳落下帷幕!今年会议规模空前,投稿量超过8000篇,其中超半数作者来自中国。4篇最佳论文中,出自中国团队之手的同样占到50%——分别是北大与DeepSeek合...