首页 今日新闻文章正文

突破具身智能推理瓶颈:VLA-R1模型实现机器人“先思考再行动”

今日新闻 2025年11月06日 01:56 3 admin
🤖 由 文心大模型 生成的文章摘要

该文介绍了GigaAI联合中科院自动化

突破具身智能推理瓶颈:VLA-R1模型实现机器人“先思考再行动”

近日,GigaAI联合中科院自动化所、清华大学共同发布视觉-语言-行动(VLA)领域重磅成果——VLA-R1大模型。该模型通过创新融合“思维链推理”与“可验证奖励强化学习”策略,将机器人在真实场景的任务执行成功率提升至75%,同时在可供性感知与轨迹预测两大核心任务中显著超越基线模型,为具身智能的实用化落地迈出关键一步。

作为连接感知、理解与行动的核心技术,VLA模型是机器人融入真实世界的关键桥梁。但传统模型长期存在“行动无思考”的短板:面对“拿起深红色方块”“把草莓放进空碗”等含歧义的指令时,往往直接输出动作,缺乏对物体属性、空间关系的显式推理,在复杂环境中成功率骤降。例如面对颜色相近的物体时,模型常因无法细致辨析而选错目标;在多容器场景中,其选择也带有极大随机性。

VLA-R1的核心突破在于为机器人注入“可解释的思考能力”。研究团队设计了“两阶段进阶训练”方案:第一阶段通过全新构建的VLA-CoT-13K数据集开展监督微调,借助Qwen2.5-VL-72B模型为1.3万条任务样本生成标准化思维链,让模型学会按步骤拆解任务——从识别目标、定位物体,到规划路径形成完整推理逻辑。比如执行“绿色积木放红碗”指令时,模型会明确输出“定位绿积木于左上角→识别红碗在右侧中间→规划避障路径”等中间步骤。

第二阶段引入的“基于可验证奖励的强化学习(RLVR)”策略,更是解决了“思考与行动脱节”的行业痛点。研究团队设计三类量化奖励机制:通过广义交并比(GIoU)评估物体定位准确性,即使预测框与真实框不重合也能提供优化梯度;采用角度长度增强Fréchet距离(ALAF)评判轨迹流畅度,综合考量路径方向与段长比例;通过格式约束奖励确保“先推理后动作”的输出规范。这种多维度激励体系,让模型在思考质量与执行精度上同步提升。

严苛测试数据印证了技术革新的实效:在域内基准测试中,VLA-R1的可供性感知IoU达36.51,较基线模型ManipLVM-R1提升17.78%;轨迹预测平均误差降至91.74,相对降幅达17.25%。即便在物体类别、光照条件完全不同的域外数据集(UMD、VAIT)中,其性能仍保持领先。最具说服力的是真实场景测试:在包含颜色干扰、遮挡环境、杂乱桌面等四类复杂场景中,模型轨迹执行成功率稳定在75%,其中在微波炉遮挡的厨房场景与多物体混合场景中,仍能精准完成抓取放置任务。

“这不仅是技术指标的突破,更重构了VLA模型的开发逻辑。”研究团队表示,VLA-R1的结构化输出可直接对接工业控制系统,在轻工装配、仓拣物流等领域已展现实用价值——在零件分拣场景中,模型能明确解释“选择该容器的原因”,生成符合安全距离的顺滑轨迹,减少误抓风险;其跨平台兼容性也已在Piper与UR5两种机械臂上得到验证,显示出强大的产业适配潜力。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap