Meta公司周三直接扔了个大消息,通过员工备忘录说要在AI部门裁600人。这次裁员专挑超级智能实验室下手这可是Meta所有AI项目的“大总部”,里面好...
2025-10-28 0
2024年1月16日,引望智能正式注册成立,正是华为与长安汽车成立的新合资公司。到了8月,阿维塔和赛力斯相继各投资115亿元、买入引望智能10%的股权。若按照当前115亿元购买10%股权计算,引望智能估值已经达到1150亿元。引望智能的成立,被认为是华为车BU走向独立运作的关键一步,其目标是做智能电动汽车时代的Tier1。
2025年3月底华为发布了2024年年度报告,报告显示,智能汽车解决方案业务收入达到263.53亿元,同比增长474.4%,首次实现当年盈利。智能汽车解决方案业务正是华为车BU的核心业务。目前,深圳引望智能技术有限公司,据天眼查APP显示,法定代表人变更为徐直军,并担任董事长,余承东和朱华荣担任副董事长,白熠、靳玉志、卞红林、张兴海任董事,靳玉志同时任经理。
2025年10月14日,引望智能与中科院自动化研究所联合发表论文DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving,论文共13位作者,其中4位来自引望智能,华为之前有关自动驾驶的论文基本都是华为旗下的诺亚方舟实验室发表的,诺亚方舟实验室是华为人工智能研究中心,学术研究的气氛比较浓厚,引望智能则是实业单位,要考虑实际落地的,因此引望智能的论文更有价值。论文透露了华为车BU内部建立了一个庞大的内部数据库,包含超过100万段独特(Unique)视频clips。
图片来源:论文《DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving》
华为将世界模型作为海量VLA数据的催化剂,华为认为目前的VLA模型,源自动作领域的监督过于稀疏,也就是说VLA模型可以近乎完美地理解驾驶环境,但难以做出正确的驾驶动作,VLA模型的输入是高维多模态数据——包括前视图像序列(每帧含百万级像素)、语言指令(如“左转避让行人”)、历史动作序列;但监督信号只有低维动作token(如未来3秒的6个waypoint坐标点)。
数据规模下的VLA性能表现
图片来源:论文《RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models》
VLA领域存在明显的数据规模定律(Scaling Law),简单讲就是大力出奇迹,堆越多的数据性能就越好,然而华为发现,超过700万数据后,VLA的性能已经饱和了,很难再有提升。
华为提出了世界模型来修正VLA领域的两大难题:针对监督不足,用世界模型的生成图像作为图像监督;针对数据缩放定律失效,增加世界模型驾驭超大规模数据。
DriveVLA-W0的解决方案可概括为“三步走”:先建VLA基准模型,再用“世界建模”补充密集自监督,最后用轻量级动作专家解决部署效率。
目前VLM存在两种技术流派,一种是VLA (VQ):将图像量化为离散视觉 token,适用于 Emu3 (8B即80亿参数) 。另一种是VLA (ViT):提取连续特征,适用于 Qwen2.5-VL (7B)。VLA 的输入包括语言指令、前视图像和过去动作。并将其转换为 token 序列:语言指令通过VLM 自身的native tokenizer进行处理。之前的动作使用FAST tokenizer将连续的路径点轨迹转换为离散的token序列。
VLM 主干网络自回归(transformer自注意力)地处理序列 St,并使用因果注意力掩码,输出最终层的隐藏状态,然后根据其各自的模态进行分割,得到:语言特征、视觉特征和动作特征,核心是预测Action序列(轨迹),通过最小化标准的交叉熵损失来预测真实动作 token序列。在推理阶段,训练好的模型根据上下文 St 自回归地生成一系列动作token。这些token随后通过FAS detokenizer转换回连续的路径点轨迹。
图片来源:论文《DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving》
通过让世界模型预测未来图像(实际就是文本+条件生成未来阶段视频),生成每时间步的密集监督信号,迫使VLA模型学习驾驶环境的底层动态(如“前车刹车→我需减速”“路口左转→视觉场景变化”)。
针对离散视觉token的VLM采用自回归世界模型,即transformer生成视频方式。通过自回归地生成当前视觉场景的离散视觉标记序列,来预测当前视觉场景。训练过程:模型学习以先前上下文和已生成的视觉标记为条件,自回归地生成图像的视觉标记序列。优化的目标是最小化下一标记预测损失。
针对连续视觉特征的VLM采用diffusion世界模型,VLA(ViT)无离散视觉词汇表,无法直接做“token预测”,因此引入latent扩散模型:训练一个潜在扩散模型来生成未来图像, 条件是VLA的当前视觉和动作特征。选择预测未来帧至关重要,因为它迫使VLM模型学习预测性动力学,而非简单的重建任务,因为模型已经以所有当前特征为条件。
损失函数同常规扩散模型,用MSE目标进行优化,训练去噪网络来预测噪声。DriveVLA-W0 (ViT) 通过联合优化动作预测损失和扩散世界模型损失的目标来训练。与AR自回归模型一样,在驾驶推理时会跳过扩散过程以确保实时性能。
图片来源:论文《DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving》
华为增加一个MoE减少计算量,引望智能不同于诺亚方舟实验室,引望要考虑落地。华为引入了一个轻量级、基于MoE的动作专家:将一个大型 VLA 专家(即完整的 VLA 主干网络,8B)与一个轻量级动作专家(500M)配对。和Bagel、Lavida-O两个理解+生成统一模型中用Joint Attention的出发点是不一样的,这里单纯为了降低计算量,和上海交通大学的DriveMoE类似一些。
动作专家与VLA专家共享相似的Transformer块结构,但使用了更小的hidden dim。使用了联合注意力机制(Joint Attention): 这种相似的架构通过联合注意力机制实现了信息的高效深度融合。两个专家首先计算各自的 Query (Q)、Key (K) 和 Value (V) 矩阵,然后将这些矩阵沿标记序列维度拼接起来,进行单次的联合注意力操作。
进一步探究了三种不同的Action解码策略。第一种Query-based Action Expert:使用一组可学习的action query,通过联合注意力与VLA的多模态上下文进行交互,更新后的query 通过MLP得到连续的路径点轨迹。通过最小化预测轨迹与真实轨迹之间的L1距离进行优化,自驾很多Transformer-based感知模型不少是这种思路如地平线的稀疏4D。小规模数据(例如NAVSIM):连续解码器(如基于查询和流匹配的方法)表现更优,因为此时轨迹分布简单,高精度比建模容量更重要。
第二种Flow Matching Action Expert:属于连续动作生成方法。学习一个条件向量场,该向量场定义了一条从简单噪声分布到复杂真实世界驾驶动作(轨迹)分布的直接“路径”。训练过程中,模型通过最小化均方误差 (MSE) 损失进行优化,以预测与噪声样本和真实动作之间的直线轨迹对齐的向量场。推理时,从噪声样本开始,使用数值ODE求解器跟随学习到的向量场,将噪声确定性地转换为精确的连续动作。很多落地的diffusion planner用的就是这个思路,典型论文比如DiffusionDrive, DiffVLA ,TransDiffusers等等,但是用到的 条件比本篇论文要多很多,推理噪音也可以再加约束。
第三种Autoregressive Action Expert自回归动作专家:通过自回归地预测离散标记序列来生成轨迹。大规模数据(70M 帧):面对建模更复杂轨迹分布这一主要挑战时,更简单的自回归解码器凭借其强大的建模能力和样本效率,成为了表现最好的方法,超越了流匹配解码器和基于查询的专家。不过这一点还需要更多实验才能确定,毕竟很多论文都测试过自回归不可能单凭数据集规模就超越diffusion。
最后是实际验证,对于NAVSIM数据集,因为规模不高,中科院自动化研究所和华为基于8个英伟达特供中国版L20显卡做测试,L20拥有11776 Cuda核心;48GB GDDR6显存;864GB/s显存带宽;PCIe 4.0 x16;FP16算力 119.5 TFLOPS;单论算力,英伟达车载的Thor-U都比它强很多,但存储带宽方面,L20具备压倒性优势,几乎是Thor-U的三倍,单L20显卡价格大约2.9万人民币。全局batch size为48。对于华为内部的7000万帧大规模数据集,采用256张显卡的服务器训练,但未说明是什么显卡,全局batch size为256。
图片来源:论文《DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving》
我们可以看下上表的成绩对比,使用查询序列query动作专家模型的DriveVLA-W0性能不如目前最强的AutoVLA,AutoVLA的论文题目为AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning,源自加州大学洛杉矶分校。用自回归动作专家的DriveVLA-W0性能略超AutoVLA,但不明白此时是否使用了华为内部的7000帧超大规模训练数据,如果用了,那么DriveVLA-W0就有些胜之不武了。
图片来源:理想汽车论文《TransDiffuser: End-to-end Trajectory Generation with Decorrelated Multi-modal Representation for Autonomous Driving》
不过除了VLA和世界模型外的第三条路线即传统分段式端到端才是目前最强的,上表中理想汽车的TransDiffuser略微超越了人类成绩94.8,排名第二的TrajHF也是来自理想汽车。
用NAVSIM的第二版即EPDMS来打分,DriveVLA-W0是86.1。
表来源:论文《DriveSuprim: Towards Precise Trajectory Selection for End-to-End Planning,英伟达和复旦大学联合的DriveSuprim的EPDMS达到87.1,比DriveVLA-W0还强。
表来源:论文《FlowDrive: Energy Flow Field for End-to-End Autonomous Driving》
上海交通大学和博世上海研究院的FlowDrive也比DriveVLA-W0略强。并且V2-99的参数规模只有7000万。
VLA和世界模型不是水火不容,世界模型可以让VLA更强大,然而VLA显然是无法增强世界模型的。此外,基于规则的传统分段式端到端路线,性能还是最好的,VLA和世界模型前路漫漫,任重道远。
免责说明:本文观点和数据仅供参考,和实际情况可能存在偏差。本文不构成投资建议,文中所有观点、数据仅代表笔者立场,不具有任何指导、投资和决策意见。
相关文章
Meta公司周三直接扔了个大消息,通过员工备忘录说要在AI部门裁600人。这次裁员专挑超级智能实验室下手这可是Meta所有AI项目的“大总部”,里面好...
2025-10-28 0
9月3日,全球领先的人工智能客户关系管理(AI CRM)软件提供商Salesforce公布了截至 2025年7月31日的2026财年第二季度业绩。FY...
2025-10-28 0
2024年1月16日,引望智能正式注册成立,正是华为与长安汽车成立的新合资公司。到了8月,阿维塔和赛力斯相继各投资115亿元、买入引望智能10%的股权...
2025-10-28 0
2022年底ChatGPT刚出来那会儿,我身边做AI的朋友天天讨论“咱们离OpenAI到底有多远”。有人说两三个月就能追上,也有人觉得得两三年,那时候...
2025-10-28 0
12岁男孩,用一双手,把朋克机器人做成了“爆款”。他开的线上店铺,月销量一万多件,顾客遍布全国。10月下旬,一批造型奇特、金属感十足的机器人模型在社交...
2025-10-28 0
人民财讯10月28日电,天准科技(688003 10月28日在互动平台表示,公司参股的苏州矽行半导体的明场检测设备,可应用于存储芯片制造过程中的质量控...
2025-10-28 0
美国的“稀/土荒”,似乎找到突破口了?近日,美国莱斯大学的James Tour院士团队在《PNAS》上发表研究,公布了一项名为“闪速焦耳加热-氯化(F...
2025-10-28 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-10-28 10
发表评论