首页 景点排名文章正文

指令成功率98%!AI造“训练场”!MIT可控场景让机器人技能更逼真

景点排名 2025年10月14日 22:10 0 aa

ChatGPT这类聊天机器人确实好用,写东西、调代码都在行,但要让机器人真能当家庭助理或工厂帮手,光靠文本数据可不够。

指令成功率98%!AI造“训练场”!MIT可控场景让机器人技能更逼真

机器人得学怎么抓东西、堆物品,还得适应不同环境,可真实场景的数据难采集,模拟的又不真实,手动搭场景更是费钱又慢。

还好MIT和丰田研究院的人搞出了“可控场景生成”技术,专门给机器人造逼真的虚拟训练场,这事儿算是解了行业的大难题。

从“乱码”里造厨房,还不让叉子穿碗

这技术的核心是俩“帮手”:扩散模型和MCTS,扩散模型你可以理解成从一堆乱码里慢慢画出想要的图,这里它要画的是3D场景,比如厨房、客厅。

指令成功率98%!AI造“训练场”!MIT可控场景让机器人技能更逼真

但光画出来不行,还得符合物理规律,总不能让叉子穿进碗里吧?这种“穿模”问题在3D里很常见,这技术就靠精细调整,让每个物品都待在该待的地方。

然后是MCTS,全称挺长,简单说就是让系统多想几步,比如要造一个餐厅场景,系统会先出几个备选方案,再一个个优化,最后挑最符合要求的。

论文第一作者、MIT的博士生Nicholas说,这还是MCTS第一次用在场景生成上,效果挺意外,能造出比训练数据更复杂的场景。

我之前听做机器人的朋友吐槽,说以前的模拟场景要么太简单,要么满是bug,机器人在虚拟里学得好好的,到真实环境就“懵圈”。

指令成功率98%!AI造“训练场”!MIT可控场景让机器人技能更逼真

这个技术好在用了4400多万个3D房间的数据训练,还能按指令调整,比如你说“厨房桌上放一个碗和四个苹果”,它就能精准还原,连苹果的位置都不差。

堆34件物品不塌,成功率比同类高10%

光原理厉害没用,实际测试才见真章,他们在餐厅场景里做了个实验,这系统居然能放34件物品,还堆了多层蒸笼,没倒也没穿模。

要知道训练数据里的场景平均才17件物品,这一下子翻了近一倍,确实有点东西。

指令成功率98%!AI造“训练场”!MIT可控场景让机器人技能更逼真

指令成功率也很能打,做食品储藏架场景时,按指令来的成功率有98%,就算是乱一点的早餐桌,也有86%。

本来想这技术可能也就比同类好一点,后来发现比MiDiffusion、DiffuScene这些方法高出10%还多,差距一下就拉开了。

更实用的是,机器人能在这些场景里练活,比如模拟把刀叉放进餐具筒,或者把面包摆回盘子,动作流畅得跟在真实环境里一样。

亚马逊的机器人专家Jeremy就说,以前要么生成的场景不真实,要么手动做太费钱,这个技术算是找着平衡了,还考虑了3D里的平移旋转,比只在2D里排物品强多了。

指令成功率98%!AI造“训练场”!MIT可控场景让机器人技能更逼真

不过现在这技术还在概念验证阶段,比如不能造新物体,只能用现成的资产库,也没有能开合的柜子这种带关节的物品。

研究团队说以后会改进,还想整合互联网上的图像库,甚至建个用户社区,大家一起造场景。

丰田的专家Rick也觉得,要是能结合更多互联网数据,说不定能帮机器人更快落地到真实世界。

指令成功率98%!AI造“训练场”!MIT可控场景让机器人技能更逼真

老实讲,这技术最让我觉得有用的是降低了门槛,以前小公司想做机器人训练,光搭场景就得花不少钱,现在有了这个工具,能省不少事。

以后家里的服务机器人可能不用再“笨手笨脚”,工业机器人也能更快适应不同流水线,这大概就是生成式AI落地到实体领域的意义,不只是做漂亮的内容,还能解决实际的产业难题。

指令成功率98%!AI造“训练场”!MIT可控场景让机器人技能更逼真

要是后续能解决新物体生成和关节物品的问题,这技术说不定能成机器人训练的“标配”。

想想看,以后机器人能在虚拟里练遍各种场景,到真实世界自然能应对自如,那离咱们用得上靠谱的家庭机器人就不远了。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap