突破具身智能推理瓶颈：VLA-R1模型实现机器人“先思考再行动”

今日新闻 2025年11月06日 01:56 3 admin

🤖 由文心大模型生成的文章摘要

该文介绍了GigaAI联合中科院自动化

近日，GigaAI联合中科院自动化所、清华大学共同发布视觉-语言-行动（VLA）领域重磅成果——VLA-R1大模型。该模型通过创新融合“思维链推理”与“可验证奖励强化学习”策略，将机器人在真实场景的任务执行成功率提升至75%，同时在可供性感知与轨迹预测两大核心任务中显著超越基线模型，为具身智能的实用化落地迈出关键一步。

作为连接感知、理解与行动的核心技术，VLA模型是机器人融入真实世界的关键桥梁。但传统模型长期存在“行动无思考”的短板：面对“拿起深红色方块”“把草莓放进空碗”等含歧义的指令时，往往直接输出动作，缺乏对物体属性、空间关系的显式推理，在复杂环境中成功率骤降。例如面对颜色相近的物体时，模型常因无法细致辨析而选错目标；在多容器场景中，其选择也带有极大随机性。

VLA-R1的核心突破在于为机器人注入“可解释的思考能力”。研究团队设计了“两阶段进阶训练”方案：第一阶段通过全新构建的VLA-CoT-13K数据集开展监督微调，借助Qwen2.5-VL-72B模型为1.3万条任务样本生成标准化思维链，让模型学会按步骤拆解任务——从识别目标、定位物体，到规划路径形成完整推理逻辑。比如执行“绿色积木放红碗”指令时，模型会明确输出“定位绿积木于左上角→识别红碗在右侧中间→规划避障路径”等中间步骤。

第二阶段引入的“基于可验证奖励的强化学习（RLVR）”策略，更是解决了“思考与行动脱节”的行业痛点。研究团队设计三类量化奖励机制：通过广义交并比（GIoU）评估物体定位准确性，即使预测框与真实框不重合也能提供优化梯度；采用角度长度增强Fréchet距离（ALAF）评判轨迹流畅度，综合考量路径方向与段长比例；通过格式约束奖励确保“先推理后动作”的输出规范。这种多维度激励体系，让模型在思考质量与执行精度上同步提升。

严苛测试数据印证了技术革新的实效：在域内基准测试中，VLA-R1的可供性感知IoU达36.51，较基线模型ManipLVM-R1提升17.78%；轨迹预测平均误差降至91.74，相对降幅达17.25%。即便在物体类别、光照条件完全不同的域外数据集（UMD、VAIT）中，其性能仍保持领先。最具说服力的是真实场景测试：在包含颜色干扰、遮挡环境、杂乱桌面等四类复杂场景中，模型轨迹执行成功率稳定在75%，其中在微波炉遮挡的厨房场景与多物体混合场景中，仍能精准完成抓取放置任务。

“这不仅是技术指标的突破，更重构了VLA模型的开发逻辑。”研究团队表示，VLA-R1的结构化输出可直接对接工业控制系统，在轻工装配、仓拣物流等领域已展现实用价值——在零件分拣场景中，模型能明确解释“选择该容器的原因”，生成符合安全距离的顺滑轨迹，减少误抓风险；其跨平台兼容性也已在Piper与UR5两种机械臂上得到验证，显示出强大的产业适配潜力。