首页 景点排名文章正文

仅2%数据提升30%成功率!谷歌机器人新范式有多强?

景点排名 2025年09月24日 17:34 0 admin

9月22号,谷歌DeepMind那边扔出个机器人领域的“大新闻”,他们把“具身基础模型”(就是常说的EFM),从只会模仿人的阶段,弄到能自己优化自己了。

说实话,这事儿听着有点技术,但实际用起来,可能真能让机器人跟以前不一样,不再是只会重复动作的“机器”,反而有点“会琢磨”的意思。

老机器人的困境

以前的机器人学东西,路子特别窄,基本就是人做一遍动作,它跟着重复,而且只能应付固定任务。

仅2%数据提升30%成功率!谷歌机器人新范式有多强?

你让它推个方块,换个地方放方块,它就懵了,得重新教,本来想,后来多模态感知和大数据出来了,机器人能该厉害点吧?

结果发现不是,多数机器人还是靠“监督微调”训练,没法自己更新技能,也没强化学习那套后续优化的本事。

这里面最头疼的就是“奖励函数”了,简单说,就是得让人告诉机器人“这么做对不对”,但现实里任务目标老变,根本没法准确量化。

比如让机器人摆东西,摆多整齐算对?人设计这个标准就得花好久,还容易有偏差。

仅2%数据提升30%成功率!谷歌机器人新范式有多强?

更麻烦的是,在真实环境里检验机器人做得好不好,要花不少资源,效率特别低。

我之前跟做工厂自动化的朋友聊过,他们最烦这个,比如汽车零件换个型号,机器人就得重新训练,少则一两周,多则一两个月。

之前看《2024全球工业机器人技术报告》,72%的工厂都吐槽这事儿,说太影响生产线灵活调整了。

还有物流机器人,新增个分拣货物的任务,光训练成本就得一万多,对小企业来说真不便宜。

仅2%数据提升30%成功率!谷歌机器人新范式有多强?

新范式咋干活

老机器人这么多毛病,谷歌DeepMind这次就拿出了新办法,核心是“两步走”,还借鉴了大语言模型(LLM)后续训练的思路。

第一步是“监督微调”,不只是让机器人学动作,还得让它能算“离完成任务还有几步”(叫Steps-to-Go)。

比如插销任务,机器人得知道“再调一下角度,还有两步就能插进去”,这个预测特别关键,是后面自己优化的基础。

第二步更绝,叫“自我改进”,这时候机器人不用人管了,自己就能判断动作好不好。

仅2%数据提升30%成功率!谷歌机器人新范式有多强?

它做完一个动作,就看之前预测的“剩余步骤”变没变,要是少了,就知道这么做对,下次接着用,要是多了,就明白错了,赶紧调整。

这比以前靠人设计“奖励规则”强太多了,人不用老盯着,机器人自己就能进步。

谷歌之前2023年搞过个RT-2机器人,能理解语言但不会自己优化,这次算是补上了短板。

据说这新方法的效率比之前高3倍,不用人反复给反馈,机器人自己就能形成“做动作-看效果-改动作”的循环。

仅2%数据提升30%成功率!谷歌机器人新范式有多强?

比如推块的时候偏了,它自己能通过“剩余步骤变多”发现问题,然后调整力度,不用人再教。

实验真管用吗

光说不练假把式,谷歌肯定得拿实验说话了,他们让机器人做了好几个任务,比如单臂推块、双臂插销,还有个叫LanguageTable的任务。

结果挺意外的,LanguageTable任务里,就多采了不到2%的数据,成功率一下子从45%涨到75%。

仅2%数据提升30%成功率!谷歌机器人新范式有多强?

更厉害的是跨环境适应能力,把机器人从模拟场景换到真实场景(就是常说的Real2Sim迁移),没多给多少数据,成功率也能到59%。

这要是用到实际场景里,比如仓库换了布局,机器人不用重新训练就能适应,多省事儿。

还有可扩展性,这方法能让多台机器人一起干活,各自收集数据、更新技能,一个人就能盯着好几台。

我觉得这对物流仓库特别有用,现在一个人顶多盯两三台,以后盯十台都有可能,分拣效率不得翻番?

仅2%数据提升30%成功率!谷歌机器人新范式有多强?

这么看下来,谷歌这次的新范式,其实是让机器人从“只会模仿的工具”变成了“能自己琢磨的主儿”。

之前老机器人的那些毛病,像训练慢、不灵活,这次算是解决了不少,以后不管是工厂里的组装机器人,还是家里的服务机器人,都能更“聪明”点。

比如工厂换了零件,机器人自己就能调整动作,家里换了家具,服务机器人也不用再教。

当然,这技术刚出来,后面还得打磨,但方向肯定是对的,说不定过两年,咱们在超市、工厂里见到的机器人,都是这种“会自己进步”的主儿了。

仅2%数据提升30%成功率!谷歌机器人新范式有多强?

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap