仅2%数据提升30%成功率！谷歌机器人新范式有多强？

景点排名 2025年09月24日 17:34 0 admin

9月22号，谷歌DeepMind那边扔出个机器人领域的“大新闻”，他们把“具身基础模型”（就是常说的EFM），从只会模仿人的阶段，弄到能自己优化自己了。

说实话，这事儿听着有点技术，但实际用起来，可能真能让机器人跟以前不一样，不再是只会重复动作的“机器”，反而有点“会琢磨”的意思。

老机器人的困境

以前的机器人学东西，路子特别窄，基本就是人做一遍动作，它跟着重复，而且只能应付固定任务。

你让它推个方块，换个地方放方块，它就懵了，得重新教，本来想，后来多模态感知和大数据出来了，机器人能该厉害点吧？

结果发现不是，多数机器人还是靠“监督微调”训练，没法自己更新技能，也没强化学习那套后续优化的本事。

这里面最头疼的就是“奖励函数”了，简单说，就是得让人告诉机器人“这么做对不对”，但现实里任务目标老变，根本没法准确量化。

比如让机器人摆东西，摆多整齐算对？人设计这个标准就得花好久，还容易有偏差。

更麻烦的是，在真实环境里检验机器人做得好不好，要花不少资源，效率特别低。

我之前跟做工厂自动化的朋友聊过，他们最烦这个，比如汽车零件换个型号，机器人就得重新训练，少则一两周，多则一两个月。

之前看《2024全球工业机器人技术报告》，72%的工厂都吐槽这事儿，说太影响生产线灵活调整了。

还有物流机器人，新增个分拣货物的任务，光训练成本就得一万多，对小企业来说真不便宜。

老机器人这么多毛病，谷歌DeepMind这次就拿出了新办法，核心是“两步走”，还借鉴了大语言模型（LLM）后续训练的思路。

第一步是“监督微调”，不只是让机器人学动作，还得让它能算“离完成任务还有几步”（叫Steps-to-Go）。

比如插销任务，机器人得知道“再调一下角度，还有两步就能插进去”，这个预测特别关键，是后面自己优化的基础。

第二步更绝，叫“自我改进”，这时候机器人不用人管了，自己就能判断动作好不好。

它做完一个动作，就看之前预测的“剩余步骤”变没变，要是少了，就知道这么做对，下次接着用，要是多了，就明白错了，赶紧调整。

这比以前靠人设计“奖励规则”强太多了，人不用老盯着，机器人自己就能进步。

谷歌之前2023年搞过个RT-2机器人，能理解语言但不会自己优化，这次算是补上了短板。

据说这新方法的效率比之前高3倍，不用人反复给反馈，机器人自己就能形成“做动作-看效果-改动作”的循环。

比如推块的时候偏了，它自己能通过“剩余步骤变多”发现问题，然后调整力度，不用人再教。

光说不练假把式，谷歌肯定得拿实验说话了，他们让机器人做了好几个任务，比如单臂推块、双臂插销，还有个叫LanguageTable的任务。

结果挺意外的，LanguageTable任务里，就多采了不到2%的数据，成功率一下子从45%涨到75%。

更厉害的是跨环境适应能力，把机器人从模拟场景换到真实场景（就是常说的Real2Sim迁移），没多给多少数据，成功率也能到59%。

这要是用到实际场景里，比如仓库换了布局，机器人不用重新训练就能适应，多省事儿。

还有可扩展性，这方法能让多台机器人一起干活，各自收集数据、更新技能，一个人就能盯着好几台。

我觉得这对物流仓库特别有用，现在一个人顶多盯两三台，以后盯十台都有可能，分拣效率不得翻番？

这么看下来，谷歌这次的新范式，其实是让机器人从“只会模仿的工具”变成了“能自己琢磨的主儿”。

之前老机器人的那些毛病，像训练慢、不灵活，这次算是解决了不少，以后不管是工厂里的组装机器人，还是家里的服务机器人，都能更“聪明”点。

比如工厂换了零件，机器人自己就能调整动作，家里换了家具，服务机器人也不用再教。

当然，这技术刚出来，后面还得打磨，但方向肯定是对的，说不定过两年，咱们在超市、工厂里见到的机器人，都是这种“会自己进步”的主儿了。

发表评论