视觉_语言_动作模型（VLA）产业：通往L3智能驾驶与具身智能之钥

抖音热门 2025年08月07日 04:23 0 admin

（报告出品方/作者：国泰海通证券，朱峰、鲍雁辛、汪玥）

1. 智能驾驶向高阶 L3 迈进，进一步贴合消费者需求

1.1. L2 级智能驾驶渗透过半，智驾全面进入城区 NOA 时代

智能驾驶正迎来加速增长期，L2 级智能驾驶渗透率已达 50%。前瞻产业研究院数据显示，2024 年我国智能网联汽车产业规模达 11082 亿元，同比增长 34%，并预计到 2030 年市场规模有望实破 5 万亿；截至 2024H1，新源汽车市场 L2 级智能驾驶渗透率已从 2019 年的 7.3%迅速上升至 50%。智能驾驶功能亦不断丰富，据汽车之家调研显示，360 全景影像、主动安全系统、ACC 自适应巡航系统、车道保持辅助系统等 L2 级基础配置功能渗透率均已达 40%以上。

高速 NOA 功能逐渐成熟，城区 NOA 时代正加速来临。2024 年中国高速 NOA 已成为中高端智能电动汽车标配，大部分主机厂开始布局城市 NOA。根据亿欧智库数据，截至 2024 年中国已有超过 57 款车型实现高速 NOA 功能的量产。高速 NOA 的成熟落地也反映在消费者智驾使用场景上，根据汽车之家调研显示，在路况较好或较为封闭的高速/国道/环路路段，有 56%的用户显示会高频使用智驾功能，驾驶者使用智驾的频率较高。随着汽车产业智能化的发展，高速 NOA 功能逐渐成为大部分车型的标配，并且中国大部分主机厂已经布局城区 NOA 功能。根据佐思汽研数据显示，自 2023 年起城市 NOA 预埋装配率稳步提高，自 2023 年 2.6% 预埋装配率已增长至 2024 年 9 月的 8.3%，城市 NOA 硬件基础亦在同步渗透。截至 2024 年底，小鹏、理想、华为、小米、蔚来等车企已推出“全国都能开”的智驾系统，智己、昊铂、阿维塔、魏牌蓝山等搭载第三方方案的车型也已实现“全国都能开”。

2024 年高速 NOA 车型价格已大规模渗透至 15 万以下，城区 NOA 也呈现下探趋势。由于高速 NOA 的复杂度较低，目前已经逐渐由技术驱动向成本驱动发展。2024 年随着大疆纯视觉方案在宝骏云朵车型上的量产，搭载高速 NOA 功能的车型价格已下探至 15 万以下。2024 年城市 NOA 也开始出现在 15-20 万车型，2024 年 8 月广汽埃安霸王龙激光雷达版、小鹏汽车 MONA M03 两款车型已实现 15-20 万价格段城市 NOA 规模化量产上车，同年 10 月该价格区间搭载城市 NOA 功能的车型从 2 款增加到了 5 款，包含深蓝 L07、小鹏 P7+、埃安 RT。

2025 年有望成为 L3 落地元年。根据美国国际汽车工程学会的标准，L3 级智能驾驶被定义为“有条件自动驾驶”，是车辆运行控制权由人类驾驶员向自动驾驶系统转移的过渡阶段，可在特定交通场景下实现自动驾驶，但仍要求驾驶员时刻保持警惕并在需要的时候对车辆进行及时接管。2024 年 6 月工信部等四部门确定九家车企进入首批 L3 智能驾驶上路通行试点名单，并共有十家车企获得了 L3 级智能驾驶测试牌照，包括智己、奔驰、宝马、比亚迪、深蓝、阿维塔、极狐、问界、极越和广汽埃安。在 2024 年智能驾驶技术不断突破以及城区 NOA 功能渗透落地的趋势下，2025 年有望成为 L3 落地元年。2025 年 4 月 2 日，国家发改委、工信部等四部门联合发布《首批车网互动规模化应用试点通知》，正式开放 L3 级智能驾驶车辆准入，并选定上海、北京、深圳等 9 个城市作为首批试点。政策发布一方面体现了对车企技术成熟的认可，另一方面也预示着 L3 商业化的铺开。

1.2. 消费者对智能驾驶大多持积极态度，但仍有需求尚待满足

智能化已经成为消费者购买汽车的重要因素。根据汽车之家用户调研数据，2024 年已有超过 50%的新能源汽车用户在购车时关注智能化水平，在所有的购车因素中排名第四。从人群代际上看，90 后用户对新能源汽车智能化的关注度更高，而这一部分群体也正成为汽车购买的主要客户群体；购车价位上看，20 万以上中高端区间各价格段均有 55%以上的用户关注智能化。且 66%的用户已不满足于基础 L2 级辅助驾驶，希望配备 L2+（高速辅助）和 L2++（城市 NOA）的高阶辅助驾驶能力。

现有辅助驾驶功能中，消费者偏好于 ACC 全速自适应巡航以及高速路段智能驾驶辅助。根据汽车之家 2024 年用户调研数据显示，在辅助驾驶类配置中，有 52% 的用户偏好具有 ACC 全速自适应巡航的车辆，帮助驾驶员控制车辆以设定的目标车速行驶或跟随前车行驶，实现跟随前车启动、停车和加速的功能，减轻驾驶员的疲劳并提高驾驶舒适性。在智能驾驶配置偏好中，65%的用户关注高速路段智能驾驶辅助，而对于自动泊车、城市路段智能驾驶辅助等功能偏好较低，说明当前消费者对智能驾驶的诉求还停留在较为安全、单一的高速场景中，对复杂场景下智能汽车的表现信任度较差。

大多数消费者对当前智能驾驶体验持正面态度，但也有部分消费者认为智能驾驶存在夸大宣传的成分。根据百分点舆情洞察系统的调研数据，有 71%的用户对全场景智能驾驶持积极态度，对其科技感和智能化水平表示认可，认为智能驾驶功能展现了车企品牌的技术实力，并期待技术迭代带来的新体验。但也有 15%的用户保持中立，14%的用户对智能驾驶持负面态度。其中主要是对技术成熟度的担忧，认为车企对智能驾驶普遍存在夸大宣传，在复杂路况中无法做到准确判断，其稳定性和可靠性较差。当前智能驾驶技术不成熟带来的安全性问题会降低用户信任程度。

2. 智能驾驶技术不断演进，VLA 成为实现全局端到端的重要突破

2.1. 智驾技术经历“模块化端到端”向“全局端到端”的进化演变

2.1.1. “端到端”直接由感知数据输出控制指令，无需传统分模块处理

智能驾驶技术的核心架构由感知、决策规划、控制三个主要模块构成，形成从环境感知到车辆控制的完整闭环。“感知模块”用于环境信息采集与目标检测，利用多个传感器（如激光雷达、摄像头）收集原始传感器数据，以这些原始传感器数据为输入，识别和定位感兴趣的物体，包括物体检测、跟踪、三维地图生成和映射等。“决策规划模块”基于感知结果对车周物体进行行为预测，评估障碍物下一时刻可能的动作，输出物体运动轨迹的预测，并进行车辆行动策略制定，相当于 “大脑的推理层”。“控制模块”将规划结果转化为车辆执行指令，驱动转向、制动、悬架等系统，确保精准操控。

端到端（End-to-End）指通过单一神经网络模型，直接由传感器原始数据输出车辆控制指令，无需传统分模块处理。端到端并不专属于智能驾驶领域，这种技术范式指的是从输入端到输出端，中间不经过任何其他处理环节，由一个模型完整实现输入到输出的全过程。相比于传统分模块智驾方案，端到端架构具有以下优势：（1）通过单一神经网络直接处理原始数据，避免了传统分阶段模型中模块间人为设计接口导致的信息损耗与延迟，能够提高计算效率；（2）利用深度神经网络从大量驾驶数据中自动学习复杂的驾驶模式和场景特征，在面对未知场景时表现出更强的泛化性和适应性；（3）端到端模型依赖数据而非人工规则，因此可通过持续注入新数据实现性能迭代，提高智驾性能天花板。

当前端到端可分为两类：“模块化端到端”与“一段式端到端”。模块化端到端可看作实现最终端到端技术的过渡方案，其保留了部分模块化结构，模块之间仍有人工设计的数据接口等方式，但使用神经网络进行串联训练。一段式端到端仅包含一个深度神经网络，直接处理原始传感器输入信息，输出方向盘、油门、刹车等执行器的控制信号，无感知、决策、控制的模块划分，是真正端到端的技术范式。

2.1.2. 模块化端到端可拆分为“感知层端到端”和“决策层端到端”

感知层端到端经历了从“BEV+Transformer”到“BEV+Transformer+OCC 占用网络”的技术升级：由于不同传感器数据的异构性，多传感器融合是感知层需要解决的重要问题，通常多采用“后融合”和“前融合”两种方式。

“后融合”也称为目标级融合，不同传感器获得的数据首先通过各自不同算法独立处理，得到各自关于目标的数据，再将这些数据在决策模块前由主处理器进行融合。后融合中各传感器经过目标识别再进行融合时，中间会损失很多有效信息，将影响感知精度，并且后融合通常基于预设规则加权各传感器输出，但人为定义的输出特征并不能代表传感器捕捉和提取到的全部特征。

“前融合”也称为数据级融合，是指在原始数据层直接融合多传感器信息，统一成一整组数据后再进行目标感知。前融合可以保留原始数据或底层特征间的时空关联性，减少信息损失，但需处理原始数据的多模态异构性，涉及大量矩阵运算和神经网络推理，对算力要求更高。

“BEV+Transformer”采用特征级融合，实现感知测传感器数据端到端。特征级融合介于前融合和后融合之间，它对各传感器数据提取代表性特征后再进行融合，经过特征级融合的特征空间数据量相比于原来的图像数据大为减少，因而特征级融合需要算力较前融合更少。该处理方法极大地提高了数据处理和传输效率，有助于数据自动实时处理。2021 年特斯拉首次引入 BEV（鸟瞰图），并首次将 Transformer 引入智能驾驶的神经网络模型，实现特征级融合，此后迅速被车企大规模应用。 “BEV+Transformer”架构通过神经网络将多传感器数据转换为统一的 3D 俯视空间表示。主要流程为：（1）传感器数据特征输入：传感器提供原始数据，由图像编码器提取数据特征；（2）合并为 BEV 空间，实现特征级融合：接收到特征数据后，Transformer 可以通过计算特征与其他特征之间的关系，利用注意力机制在图像上捕捉全局信息并分析不同位置特征之间的关系，帮助系统建立物体之间的空间关系，从而将多传感器特征映射到统一的 BEV 空间，形成全局一致的感知表示；（3）引入时序信息进行预测：Transformer 可以融合处理时间数据并加入记忆模块，利用历史帧信息预测被遮挡物体的运动轨迹，并捕捉交通参与者的运动模式和相互影响，对其动态进行预测。 BEV+Transformer 重新定义感知模块，识别、预测都在同一 BEV 空间内基于 Transformer 神经网络完成，实现感知层所有传感器数据的端到端融合，能够实现更准确的环境感知、更长远的运动规划，提供更为全局化的决策能力。

BEV+Transformer 架构仍具有 3D 信息缺失、泛化能力受限的问题。鸟瞰图基于 2D 信息合成，缺少高度信息，无法真实反映出目标物在 3D 空间的实际占用体积。并且基于预训练的 BEV+Transformer 架构如果看到不属于数据集的物体，或者不规则的长尾数据时，摄像头无法识别特征，那系统就无法感知，使得该架构在训练数据分布外的极端情况下可能表现不稳定，需依赖持续数据闭环迭代。 “BEV+Transformer+OCC 占用网络”架构将智驾带入真正的 3D 感知，提高系统感知的泛化能力。“占用网络 OCC”将世界划分为多个大小一致的立方体，每个立方体也被称为体素（voxel），通过预测每个体素是否被占用，实现细粒度的 3D 场景建模。此外，OCC 还利用光流法识别车周物体的动态信息，假设构成物体的像素亮度恒定且时间连续，通过对比连续两帧图像中的像素位置变化估计出物体或场景的运动。OCC 具有如下优势：（1）通过体素化网格预测占用概率，可精准描述不规则物体（如土堆、树枝）的几何形状，提高识别精度；（2）OCC 不以是否认识物体或识别分类为目标，而是以空间是否被占用为检测目标，因此可大幅提高对异形障碍物的通用化识别，降低对标注数据的依赖。 BEV+Transformer+OCC 占用网络在原有 BEV+Transformer 架构的基础上增加了去卷积层（Deconvolution），从较低维度的特征中恢复更高分辨率的空间信息，进而解码出 3D 体素占用网络。将 OCC 应用于 BEV+Transformer 架构，实现了感知层面真正的全场景 3D 建模以及动态预测。

决策层端到端经历从“规则驱动”转为“数据驱动”的转变：智能驾驶决策系统初期由规则驱动，解释性高但较为死板。规则驱动的决策系统是一种基于预定义规则和逻辑的决策方法，其核心思想是通过人为设计规则库来解析驾驶场景并生成相应的驾驶行为。通过预先对特定路况或交通情境下的行为规则进行编码，智能驾驶汽车能够按照这些规则做出相应的方向决策，常见的规则包括车道保持、转向控制、障碍物规避、停车标志响应等。例如，车辆遇到前方障碍物时，算法根据编码规则决定是否减速或转向绕过障碍物。基于规则的系统具有高度透明性和可解释性，因为其决策过程完全基于规则，易于理解和追溯。但也由于完全依赖固定的规则库，导致系统无法覆盖所有场景，只能应用于简单的常见场景中，泛化能力较差。并且在动态交通环境中，复杂场景需多条规则交叉判断，规则难以适应复杂的突发情况，导致决策过程缺乏灵活性。本轮大语言模型发展启发了将大模型技术应用于智能驾驶，实现决策模块端到端。 2022 年 11 月 ChatGPT 以来，大语言模型的成功为智能驾驶带来极大的启发。特斯拉首先将大语言模型新范式迁移至智能驾驶领域，认为智能驾驶可以效仿这种神经网络的模式，抛掉手写的规则，让模型大量观看人类司机的驾驶视频，要求其输出正确的行驶轨迹。在反复训练中，使得神经网络习得与人类相仿的驾驶知识，接收到感知层数据后能直接根据所学输出驾驶决策。目前训练端到端的决策模块主要运用“模仿学习”和“强化学习”两种方法。“模仿学习”主要通过逆最优控制（Inverse Optimal Control）和行为克隆（Behavior Cloning）来实现，其核心理念是让智能体通过模仿专家的行为来学习最优策略。 “强化学习”让模型通过试错来学习，借助奖励函数对正确行为予以奖励、对错误行为进行惩罚，不断优化决策效果。

规则驱动转为数据驱动带来决策效率与灵活性极大提高。模型训练需要从海量驾驶场景数据中学习如何识别环境特征、理解驾驶意图，马斯克曾表示至少需要训练 100 万个视频片段，才基本能将一个智能驾驶端到端大模型训练到可用水平，并且这 100 万个视频片段需要质量高且种类多样。根据 Scaling Law，增加模型规模和数据量能够提升模型性能，在数据驱动的训练模式下，智能驾驶决策更加人性化，模型通过学习能力能够对未见过的情况做出合理推断，处理复杂场景的能力提升。

2.1.3. “一段式端到端”由一个神经网络模型直接完成

特斯拉于 2023 年 11 月推出 FSD V12，实现首次一段式端到端架构上车。FSD V12 将传统智能驾驶的感知、定位、决策规划、控制等模块整合为一个统一的神经网络模型，直接由摄像头输入的原始图像数据生成转向、加速和制动指令。相较此前 FSD V11 的 30 万行 C++代码，V12 仅需约 2000 行代码，减少了对人工规则编程的依赖。新的模型采用海量视频数据进行训练，模型通过模拟人类驾驶行为学习驾驶策略、转向完全依赖数据驱动的神经网络决策。根据 FSD community Tracker 的调研数据，FSD V12 在智驾功能与驾驶效果上远超 V11，用户在各个维度的反响明显提高。

由于端到端具有黑盒特征，“端到端+VLM”双系统功能互补将提高整体可靠性。端到端模型中，传感器信号通过神经网络架构直接生成车辆运动控制信号，其中神经网络权重调整、特征提取以及决策制定过程均通过数据驱动的自主学习完成，整个信息处理链中不存在显式的逻辑规则或可分解的推理环节。因此当遇到异常情况或罕见场景时，模型的决策可能会变得不可预测，导致车辆做出危险的行为。例如将路边的阴影或反光物体误判为道路边界，从而导致车辆偏离正常行驶轨迹。针对端到端模型的黑箱特性，部分车企采用双系统降低安全隐患。理想于 2024 年 7 月首次推出端到端+VLM 双系统，此后地平线、极氪、小米、元戎启行也在各自端到端系统中加入了 VLM。双系统架构中：

“系统 1”为端到端快系统，依赖海量驾驶数据训练形成的直觉反应，处理 95%的常规场景，具备高效性和低延迟特性；

“系统 2”为 VLM（视觉语言模型）慢系统，理想使用的是基于通义千问 70 亿参数模型 Qwen-7B 为基座语言模型研发的 Qwen-VL 多模态模型，参数量达 22 亿，采用思维链（CoT）进行多步逻辑分析，同时接收视频和来自系统 1 的语言（理想为其编写了智驾系统的 Prompt 库）输入，辅助系统 1 处理 5% 的复杂场景（如突发障碍、未知路况），通过深度推理输出对环境的理解、驾驶的决策建议和驾驶的参考轨迹。

端到端+VLM 双系统增加智能驾驶可信度，但两系统融合仍有提升空间。VLM 模型通过思维链拆解复杂情景下的推理流程，提供可交互的语义解析，增加智能驾驶决策透明度。VLM 还能够对端到端模型的输出进行逻辑验证与修正。VLM 可想象为一个新手司机在开车，旁边有个教练通过语言不断指导他如何驾驶，如“左转”、“减速”等。除此之外，与数据驱动的端到端模型不同，VLM 大语言模型的理解能力使其能够解析交通标识、施工改道、交警手势等需语义推理的场景，提高了系统在智驾长尾场景中的解决能力。但两个系统方案仍不完美：一方面，VLM 模型参数达 22 亿，在现有计算条件下最终 VLM 在车端能实现的频率只有 5Hz 左右，导致 VLM 的决策轨迹只能作为决策建议，无法直接输出车辆控制信号；另一方面，端到端与 VLM 是两个独立的模型，使用的训练数据以及运行频率存在差异，联合训练还较为困难，难以直接融合，且 Orin 芯片并不支持直接运行语言模型，算力支持也成为一大问题。

2.2. 视觉-语言-行动模型（VLA）是实现全局端到端的重要技术路线

2.2.1. 需求升级与技术成熟催化 VLA 在智驾领域的应用

随着智驾普及，用户对智驾的需求从能用到好用，要求智驾向类人化转变。根据乘联会的数据，2024 年上半年中国新能源汽车市场各价格段 L2 级智能驾驶渗透率均有大幅上涨。随着 L2 智驾产品的快速普及，购车用户对高阶智驾抱有更大期待，根据汽车之家的对用户智驾偏好度的调研数据，66%的用户已不满足于基础 L2 级别辅助驾驶，希望配备 L2+（高速辅助）和 L2++（城市 NOA）的高阶智驾能力。在用户体验上，虽然现有智驾已能覆盖变道、转弯、泊车、超车等多类常见场景，但用户对安全性方面也普遍存在担忧。根据百分点舆情洞察系统的调研数据，在“车位到车位”全场景智能驾驶体验中，用户反馈的问题主要集中在泊车效果与效率、变道逻辑、避障能力、转弯与并道表现、车速控制以及系统稳定性等方面。用户希望提升系统对复杂场景的识别和处理能力，提高驾驶体验的稳定性和安全性。要实现智能驾驶系统对普遍道路场景中动态复杂状况的准确应对，关键在于突破固定场景库的机械响应模式，构建类似人类驾驶员的整体认知框架。

多模态大模型赋能端到端，大模型进一步融合智能驾驶成为共识。目前已有多篇论文研究证实了多模态大模型在智能驾驶领域的应用潜力。2023 年 10 月一篇关于 DriveGPT4 的文章研究了多模态大模型在智能驾驶中的应用，文中提出对视频和自然语言进行编码后输入到大模型（文中选取的是 LLaMA2）中进行处理，最后通过 Text De-Tokenizer 解码文本，能够生成行为解释以及未来的控制序列。同时间来自美国 USC 和清华大学的文章“GPT-Driver: Learning to Drive with GPT” 说明理论上可以将 OpenAI GPT-3.5 模型转化为智能驾驶汽车的可靠运动规划器。 2024 年 2 月理想与清华大学联合推出 DriveVLM 这一基于大模型的高阶智能驾驶创新方案，以视觉语言大模型为核心，并结合端到端模型构建了双系统架构，成为首个成功部署于车辆的智能驾驶大模型。2024 年 10 月华科与地平线发表关于 Senna 的论文，同样采用端到端和 VLM 大模型分层规划结构。2024 年 10 月 Waymo 提出 EMMA 端到端多模态大模型，以谷歌的大语言模型 Gemini 框架为算法核心构建，能够同时处理视觉输入（如摄像头图像）和非视觉输入（如基于文本的驾驶指令和历史上下文），将驾驶任务重新表述为视觉问答（VQA）问题，进一步证实了大模型在智能驾驶领域的发展空间。

Thor 芯片算力支持为大模型高参数运行提供落地可能性。人工智能大模型的快速发展推动智能驾驶对算力的需求激增。以理想为例，其端到端+VLM 双系统需要消耗两颗 Orin-X 芯片总共 508TOPS 算力。而 VLM22 亿参数在 Orin 上部署已是极限，下一代端到端大模型需要更高算力支持。2022 年英伟达推出 Thor 芯片，顶级型号 Thor-Super 算力达到 2000TOPS，为 Orin 的 8 倍，并搭载了英伟达专为 Transformer、大语言模型（LLM）和生成式 AI 工作负载而打造的 Blackwell 架构，包括用于 AI 推理的 Tensor Core、用于图形处理的 CUDA 核心，以及用于神经网络训练和优化的专用加速器，可以实时运行端到端智能驾驶模型。2025 年 Thor 芯片即将迎来量产，将为大模型高参数运行提供更好的落地可能性。

2.2.2. VLA 一体化模型直接端到端输出行为，复杂环境适应能力提高

在上述需求、大模型技术、芯片算力的共同催化下，一体化大模型呼声愈增，VLA 应运而生。“视觉-语言-动作模型（VLA）”最早于 2023 年 7 月由 Google DeepMind 提出用于机器人领域，在 VLM 的基础上发展而来，被视为端到端大模型 2.0。VLA 大模型以大语言模型为基础，在接收摄像头的原始数据和语言指令后，可直接输出控制信号，完成各种复杂的操作。VLA相当于端到端+VLM双系统的集合版本：在双系统中，VLM 着重于图像和场景的理解，为智驾决策规划提供输入，最终依然需要依靠端到端模型输出对车辆的控制，而 VLA 则将端到端与多模态大模型更彻底地融合，能够根据感知直接生成车辆的运动规划和决策，更接近“图像输入、控制输出”的端到端最终状态。

以理想于 2025 年 3 月提出的 MindVLA 智驾方案为例，VLA 架构包含：空间数据建构、基座模型推理、动作生成三个主要部分。 V（Spatial-Intelligence）实现 3D 空间建构，理想在 BEV+OCC 的基础上采用 3D Gaussian 作为中间表征技术，进行 3D 高斯场景重建，能够提供多粒度、多尺度、更丰富的 3D 几何尺度表达能力并通过图片 RGB 进行自监督训练，更好的输出未来帧高斯建模场景。 L（Lingustic Intelligence）重新设计和训练 LLM 基座模型，模型架构上受到 DeepSeek 启发采用 MoE 架构实现多任务并行处理，结合稀疏注意力（Sparse Attention）优化计算效率，在实现模型容量扩容的同时不会大幅度增加推理负担。推理能力上，锻炼模型学习人类的快思考+慢思考过程，快思考采用并行解码方式直接输出 Action Token，慢思考则同时输出思维链 CoT+Action Token。 A（Action Policy）输出 Action，利用扩散模型（Diffusion Model）进行预测，接入上游输出的 Action Token 解码成优化的轨迹，预测未来特定时长下的场景发生情况，生成驾驶动作。

理想 VLA 模型在工程实现上，共有：VL 基座预训练、模仿学习后训练、强化训练、人机交互智能体四个阶段。第一阶段：VL 基座预训练。基座模型参数量约为 32B（320 亿），其训练数据包括 Vision（视觉）、Language（语言）以及 VL（视觉和语言）联合数据，Vision 指的是 3D 和 2D 的物理世界视觉信息，language 指的是跟交通、驾驶相关的语料， VL 就是把三维图像和对世界的理解语义放在一起进行联合。形成 VL 基座模型后，将其蒸馏为 3.6B MoE 模型，使得能在两个 Orin-X 或 Thor-U 上流畅运行。第二阶段：模仿学习后训练。第一阶段能够使模型理解环境，这一阶段生成车辆 action，利用模仿学习训练模型，打通从感知到规控的链路，确保输入感知信息然后输出转向、刹车等车控。此时车端 VLA 模型参数上升至 4B（40 亿）。第三阶段：强化训练。这一阶段训练 VLA 模型更加熟练。一方面使用 RLHF（基于人类反馈的强化学习），通过人类偏好数据集微调模型的采样过程，对齐人类驾驶员的行为，提高安全驾驶的下限；一方面做纯粹 RL（强化学习），使用世界模型做训练，不给人类反馈，而给出舒适性、交通规则、碰撞事故三方面结果的反馈，以达到比人类开得更好的效果。第四阶段：人机交互。最后要完成人和车的实时交互，需要搭建司机 Agent，识别人类语言指令，做出车辆行为反应。

VLA 模型的主要优势在于模型一体化以及更强的泛化性。相较于以往智驾方案， VLA 从感知输入到汽车动作控制信号输出由一个模型完成，使用同一套数据训练和推理，减少了信息传递过程中的损耗以及模块化架构中多环节串联的延迟。根据元戎启行以及地平线的实测数据显示，VLA 模型在复杂路段的决策响应速度较传统方案提升 20%-40%。VLA 还展现出更强的复杂场景推理能力和泛化性。在智能驾驶领域的应用上，根据地平线实测数据显示，现阶段的端到端可以推理未来7 秒钟可能发生的情况，而 VLA 通过 CoT 技术将可将风险预判覆盖 20 秒级推演。 2023 年 7 月谷歌发表基于 VLM 大模型微调而成的 VLA 模型 RT-2，验证了 VLA 模型通过大量训练能够获得一系列涌现能力，包括显著提高对新物体的泛化能力、解释机器人训练数据中未出现的命令。在面对复杂的交通规则、潮汐车道、极端天气等特殊场景时，VLA 模型能够比以往的系统更好地理解和应对。 VLA 模型相当于人类司机，更大程度逼近人类开车的行为模式。理想汽车在理想第二季 AI Day 上用三个比喻划分智能辅助驾驶发展阶段。第一阶段，昆虫动物智能：需要有既定的规则，同时依赖高精地图，类似蚂蚁的行动和完成任务的方式，通过机器学习感知配合规则算法的分段式辅助驾驶解决方案。第二阶段，哺乳动物智能：类似马戏团的动物学习人类行为，端到端阶段通过大模型学习人类驾驶行为，但对物理世界的理解并不充分，虽然足以应对大部分泛化场景，但很难解决从未遇到过或复杂问题。即使配合视觉语言 VLM 模型，在应对复杂交通环境时也只能起到辅助作用。第三阶段，人类智能：VLA 阶段可以实现类似人类观察世界的方式，利用 3D 视觉和 2D 的组合构建更真实的物理世界，并通过思维链推理进一步理解物理世界，从而做到像人类一样理解、思考、行动。

当前全球智驾产业越来越多车企布局开始 VLA 技术。2024 年 10 月英国初创公司 Waymo 发布了用于智能驾驶的多模态大语言模型 EMMA，从结构上看类似于 VLA 模型，且其已在 VLM 方案上积累经验，未来很可能扩展至 VLA。2025 年 1 月第 17 届日本国际汽车工业技术展上，元戎启行发布 VLA 模型并宣布已与某头部车企达成量产合作，将于年内投入消费者市场。2025 年 3 月理想汽车业绩发布会上，董事长李想宣布下一代 VLA 智驾模型将搭载于纯电动 SUV i8，计划于 7 月首发。奇瑞在 2025 年 3 月的发布会上提出 2026 年要实现 VLA+世界模型 L3 技术量产上车。吉利目前也表示已经投入到 VLA 技术的研发当中。

2.3. 数据规模、推理效率、算力需求仍为智驾的主要挑战

端到端模型一定程度上也存在 Scaling Law，数据规模的扩大将提高模型性能。 2024 年 12 月中科院与理想合作发表有关数据规模对端到端智驾模型影响的论文，文章显示在闭环测评中，随着数据规模的增加，模型在五个维度的性能先快速增长，在达到 200 万数据量后增长放缓；长尾数据量的少量增加可以显著提高相应场景的性能；适当的数据规模化可以为模型带来新场景组合泛化的能力。因此扩大训练数据规模成为提高端到端大模型的重要方式。根据马斯克的观点，数据量级达到 100 万 clips 是模型“及格线”，300 万 clips 可达到商用水平，1000 万 clips 则表现亮眼。

目前仿真数据精度不足，VLA 大模型仍需要大规模高质量真实数据。在模型训练阶段，车企通常使用真实场景数据与仿真场景数据，真实场景数据涉及 2D 至 4D 标注、车道线标注、语义分割等，效率较低且具有较高的标注成本，仿真场景数据由虚拟引擎构建，成本低，无需标注，且可构建边缘场景（如极端天气、长尾场景等）。但仿真数据效果目前无法比拟真实数据，真实世界数据涵盖了大量的环境变化如闪电、天气等，但合成数据难以完整覆盖这些变化。更重要的是合成数据缺乏关键状态，如行人违规横穿马路等场景是在模拟中是难以得到的。根据中国法规规定，特斯拉无法将境内车辆采集的数据传输至境外导致中国真实路况数据不足，成为导致特斯拉 FSD 在中国表现不及预期的原因之一。如广州“BRT 公交专用道+电动车混行”的交通流，在仿真训练中常常被简化为普通车道，导致实际路测时系统的误判率大幅飙升。出于实时响应的安全性要求，模型推理效率及反应速度仍需进一步提高。实时性要求模型在 100 毫秒内响应，VLA 模型通常基于大型视觉语言模型构建，参数量庞大，导致推理速度缓慢。以上痛点要求车企在模型轻量化的基础上进行算法优化提高推理效率。2025 年初 DeepSeek 通过多头潜在注意力（MLA）、混合专家模型（MoE）等多项模型架构创新，大幅提高推理效率，加速大模型行业从“硬件堆砌”向“算法优化”转型。一定程度上为智能驾驶企业提供了提升推理效率的多维启发，启示车企在重视硬件与数据的同时，关注算法优化。

VLA 模型参数扩大导致车端算力需求更高，算力仍为 VLA 大模型落地瓶颈。理想端到端+VLM 双系统需要消耗两颗 Orin-X 芯片，总共 508TOPS 算力。将端到端技术与 VLM 二合一成为 VLA 后，车端模型参数变得更大，既要有高效实时推理能力，同时还要有认识复杂世界并给出建议的能力，部署 VLA 模型对车端芯片硬件会有相当高的要求。虽然 2022 年英伟达推出 Thor 系列芯片最高可提供 2000TOPS 算力，但原定于 2024 年中期的量产计划可能延后到 2026 年，高性能算力芯片的推迟量产可能影响各大车企 VLA 部署节奏。智驾政策约束更加严格，对智能驾驶宣传、功能和技术部署提出全面规范要求。 2025 年 2 月 25 日，工业和信息化部、市场监管总局联合发布了《关于进一步加强智能网联汽车产品准入、召回及软件在线升级管理的通知》，加强智能网联汽车产品准入与召回管理，强化汽车软件在线升级活动协同管理，提升智能网联汽车产品安全水平。2025 年 4 月 16 日，工信部装备工业一司组织召开智能网联汽车产品准入及软件在线升级管理工作推进会，部装备工业发展中心、主要汽车生产企业近 60 名代表参加会议。会议明确要求各车企必须承担起生产一致性和质量安全的主体责任，并严格执行产品准入和软件在线升级的备案制度，要明确系统功能边界和安全响应措施，不得进行夸大和虚假宣传，严格履行告知义务。此次会议对智能驾驶的规范要求细化到具体的执行细节，智能驾驶进入强监管时代。

3. 技术升级推动产业格局变化，VLA 打开具身智能广阔想象空间

3.1. “向下智驾平权”+“向上高阶突破”双线并行，拉动产业链格局变化

3.1.1. 智驾平权加速自研与第三方合作市场格局分化，整体市场中的智驾技术差距或将拉大

智驾平权帷幕拉开，智驾车型价格下探至 10 万元以下。2025 年 2 月 10 日比亚迪正式发布“天神之眼”高阶智能驾驶系统，宣布首批 21 款车型全系搭载天神之眼，覆盖比亚迪旗下 7 万-20 万全价格段车型，推动全民智驾。天神之眼分为 A、B、 C 三个版本，A、B 版本对城市高速 NOA 全域支持，C 为低阶版本使用前视三目摄像头方案，能够支持高速 NOA、代客泊车、城区记忆路线等基础功能，C 版本应用在「海洋」、「王朝」部分车型上，价格最低可下探至 7.88 万元。2025 年 3 月吉利推出银河星耀 8 EM，以 15 万元价格标配“车位到车位”无图城市 NOA。奇瑞也在同一时间推出小蚂蚁智驾版，支持高速领航 NOA、自动泊车等智驾功能，售价仅为 6.59 万元。2025 年伊始，各家车企推动智驾平权，将以往最低 20 万元才能享受的高速 NOA、城市 NOA 等智驾功能首次下探至 10 万元，使得智驾从高端体验开始变成日常出行标配。

智驾平权压缩中低端车企成本空间，低成本的第三方方案供应商迎来机会。与第三方智驾方案相比，自研具有成本高、见效慢、研发难的挑战。一项高阶智驾系统的自研周期平均需 2-3 年，涉及数千人级团队的投入，涵盖算法开发、硬件适配、数据闭环等众多环节，研发成本极其高昂。对比第三方智驾方案，宏景智驾基于地平线征程 3 的行泊一体方案，成本控制在 3000 元级别；东软睿驰采用内嵌两段式端到端智驾算法的地平线 J6E 计算芯片，加上传感器的方案价格在 5000 元左右；大疆“7V+100TOPS”整个智驾系统的硬件成本在 7000 元左右；Momenta 当前实现城市 NOA 的 BOM 成本已降至 1 万元左右，预计 2025 年底将进一步下降至 5000 元，届时 20 万元以上车型可能标配城市 NOA，15 万元以上车型则标配或选配该功能。比亚迪将高阶智驾技术下放至 7 万元级车型，对于自研尚未取得明显成效的中低端车企来说，自主研发智驾系统的成本远超第三方成熟方案，在竞争激烈、对成本极为敏感的低端市场中，成本劣势将直接拖累定价空间。在智驾平权带来的智能驾驶需求窗口期和成本缩减压力下，对于自研尚未呈现巨大突破的中低端主机厂来讲，第三方智能驾驶解决方案正展现出更有吸引力的性价比，有望使第三方方案将成为中低端车企跟紧智驾平权浪潮的更优选择。长期布局高阶智驾的头部车企受智驾平权影响相对较小，或坚持自研方案。相对于中低端车企品牌，理想、小鹏、华为等第一梯队车企布局智能驾驶时间较长，多已实现从多传感器融合定位、超视距感知、BEV+Transfomer、多模态数据融合、端到端大模型等完整技术路径的突破和技术积累，其主流车型覆盖 20-60 万的高阶智驾并配备城市 NOA 等高端智驾功能，已形成技术领先的消费者心智。本阶段智驾平权主要影响 10-30 万价位的中低端智驾，因此对第一梯队自研车企影响较小。自比亚迪发动智驾平权以来，智驾头部车企继续稳步推进自研进程。2025 年 3 月 18 日，理想汽车在 NVIDIA GTC 2025 大会上推出了新一代智能驾驶技术 ——MindVLA 大模型，已于 2025 年 7 月份和理想 i8 同时首发；2025 年 4 月 15 日，小鹏在 X9 发布会上提出计划在 2025 年底在中国实现 L3 级智能驾驶能力的量产落地，预计将于第二季度实现自研图灵 AI 智驾芯片在中国内地量产上车。 2025 年 4 月 22 日华为发布采用面向未来智能驾驶时代的世界引擎+世界行为模型架构（WEWA 架构）的乾崑智驾 ADS 4，其端到端时延可降低 50%，通行效率提升 20%，重刹率降低 30%，其中华为乾崑智驾 ADS 4 共有四个版本，其中 ADS Ultra 旗舰版搭载高速 L3 专属方案。

3.1.2. 未来 VLA 的渗透将带动汽车企业向科技企业转变，积累深、投入久的企业将具备在高端市场竞争力

VLA 展现出以大模型为基座的智驾方案加速应用，更加考验车企 AI 技术能力。学术上已有多篇论文研究证实了多模态大模型在智能驾驶领域的应用潜力，实践层面上车企也正加快在 AI 领域的布局。理想在 2023 年公开宣布转型，并推出自研大模型 Mind GPT，目前已迭代升级为 Mind GPT-3o。近两年来公司研发投入近 50%聚焦 AI，目标通过 AI 技术重构汽车产品形态，从“交通工具”升级为“空间机器人”。小鹏正在研发 720 亿参数规模智能驾驶大模型，即小鹏世界基座模型。华为在大模型领域的积累帮助其在智驾领域深耕扩展，其智能驾驶解决方案覆盖了从传感器、AI 芯片、操作系统到 AI 云服务的全栈式解决方案。智能驾驶领域车企正在向 AI 科技公司转型。

从 L2 到 L4 的跃迁是长期资金、算力、技术、数据等资源积累的过程：一方面，引领智能驾驶技术升级的第一梯队车企均有长时间技术积累并稳步迭代。特斯拉于 2013 年便宣布开发辅助驾驶系统，2016 年开始组建自身的硬件工程团队，启动自研计算平台 FSD，开始全栈自研计划。小鹏自 2014 年成立以来便聚焦智能驾驶领域，初期使用供应商的成品方案，2017 年开始自研智能驾驶软件，2018 年发布国内首款具备 L2 级辅助驾驶功能的量产车型 G3。理想于 2015 年创立， 2018 年正式发布首款智能电动车理想智造 ONE，2020 年底停止了和 Mobileye 的合作，开始使用地平线 J3 芯片开展智能驾驶的全栈自研。华为 2013 年正式推出车载信息娱乐系统和通信模组，并启动智能驾驶相关技术预研，2016 年开始加大对智能驾驶领域的投入幅度，加速智能驾驶技术整合，2020 年华为正式推出了自己的智能驾驶解决方案 HiCar，并与多家车企开展了深度合作。第一梯队车企均已在智驾领域具有近 10 年的深耕经历，在此期间不断更新迭代产品技术，带领智能驾驶从 L1 迈入 L2+。

另一方面，从 L2-L4 升级过程中模型参数将倍数级扩大，安全性与复杂性的平衡需要海量训练数据支撑，要求车企训练算力储备持续扩容。根据地平线数据，L2 级智能驾驶的车端算力需求为 100+TOPS，L3 级智能驾驶为 500-1000+TOPS，L4 级智能驾驶为 2000+TOPS 以上，L5 级则需要 5000TOPS 以上。车端算力最直观体现大模型上车的计算资源需求，其 10 倍数级的提升侧面反映智能驾驶大模型参数的迅速增长。数据方面，L2 为辅助驾驶，L4 为全自动驾驶，要求对于现实世界中的复杂场景具有自主解决的能力，因此更高的可靠性意味着需要更多数据来验证和优化系统，减少出错的可能性。根据德勤数据报告显示，预计 2025 年 L3 智能驾驶商业落地，单个 L3 算法模型具有十亿级数据标注需求，智能驾驶数据服务市场规模将达到 51.6 亿元。2030 后 L4 智能驾驶或逐步落地，单个 L4 模型标注需求将增长至百亿至千亿级，数据需求或于 2027 年后逐步释放，数据服务市场规模将增长至 74.9 亿元。训练算力方面，根据 OpenAI 的经验公式 C≈6*N*D（C 为训练一个 Transformer 模型所需的算力，N 为模型参数，D 为训练数据集的大小），可以理解为训练算力需求=模型参数量*数据集 token 数*系数 k。因此在模型参数与数据同时显著增长的情况下，对车企训练算力的储备需求越来越高，模型训练的资金投入也倍数级增长。

最后，真实车辆数据的积累以及算力硬件的储备需要提早的战略布局和长期大量资金投入。数据采集方面，特斯拉自 2015 年 10 月开始开通 AP 系统，开始在车端收集数据进行数据回传机制，并逐步构建起数据闭环体系。截至 2022 年末数据，每天有近 200 万辆车队为特斯拉提供 1600 亿帧视频。2024 年初特斯拉的视频片段已接近 3000 万个，转换为图片超 220 亿张。国内造车新势力也同样对回传数据高度重视，截至 2024 年底，小鹏汽车用于训练基座模型的视频数据量高达 2000 万 clips，具有超过 10 亿公里的视频训练、646 万累计公里数的实车测试，理想汽车的智能驾驶训练里程也已达到约 30 亿公里，智驾训练量达到 800 万 Clips。算力储备方面，特斯拉自 2023 年以来算力储备急速上涨，2024 年第三季度的训练算力达到 6.75 万张 H100 GPU 等效算力，算力规模已接近 100EFlops。截至 2024 年底，理想汽车计划智驾训练算力储备达到 8.1EFlops，小鹏 AI 算力储备已达 2.51EFlops，计划到 2025 年达到 10EFlops。这也伴随着巨大的资金投入，2023 年特斯拉斥资 20 亿美元扩大算力规模，2024 年马斯克计划投入 100 亿美元用于算力。小鹏在 2024 年宣布每年在算力训练上的投入将超过 7 亿元。理想表示理想每年在训练算力的投入超过 10 亿元，2024 年要消耗 20 亿元。综合来看，各家车企在在研发费用和资本开支上不断扩大支出，以支撑智能驾驶技术的升级跃迁。

预计未来仅有少数主机厂坚守高级智驾全栈自研。首先，全栈自研车企多具有布局早、投入大、积累深的特征，其在技术上与中低端车企具有 1-2 年代际差异，这期间的资源累积将成为竞争壁垒。在前期技术、算力、数据投入的基础上，自研车企可保证技术迭代部署自主可控，迅速反应市场变化。理想自端到端+VLM 双系统方案发布以来，两个月一共迭代 25 版模型，平均 2-3 天一个模型；华为的 ADS 3.0 系统借助自研的数据闭环实现了快速迭代，其平均 5 天更新一次模型；小鹏端到端每 2 天迭代一个新版本，每两周进行体验升级。与第三方合作的车企可能受制于第三方技术升级的不稳定性，如极氪2021-2024年采用Mobileye EyeQ5 的车型因第三方 Mobileye EyeQ5 芯片的稳定时间晚于预期，导致软件测试时间不足，最终 ADAS 功能研发进度出现滞后。其次，技术差异使得后入车企难以树立高阶的品牌形象，而自研主机厂有机会升维至具身智能科技公司，打开估值空间。智驾平权带来市场格局的加速分化，智能驾驶升级需要大量资源的长期投入，两者共同催化下将筛选出少数自研车企成为智能驾驶领域高端与前沿的代表。预计第一梯队的第三方智驾供应商所长期累积的技术与高性价比优势将不断成为其核心竞争力，并全面覆盖高中低阶智驾市场。头部第三方供应商专攻于标准化智驾方案，拥有成熟的算法架构和工程化能力，并积累了规模化量产落地的成功经验，主机厂选择与智驾方案第三方合作能够大幅缩短产品开发周期，节省研发时间和成本。对于自研尚未呈现巨大突破的中低端主机厂来讲，周期长、成本高、技术竞争迭代加速等困境倒逼车企转向与供应商合作，第三方市场规模正逐步扩大，万创研究院数据显示，预计 2030 年第三方智驾方案供应商市场规模达到 1612 亿元，年复合增长率达到 52.47%，市场占有率将达到 52%。根据佐思汽研报告显示，截至 2024 年 10 月，国内推出有 27 家品牌推出城市 NOA，大多数车企主要选择第三方之家来实现城市 NOA 的快速落地。

（一）地平线：软硬一体化的厚积薄发。地平线成立于 2015 年 7 月，创立之初以人工智能芯片为核心业务，后期渗透至智能驾驶（ADAS/AD）解决方案，涵盖芯片设计、算法开发、工具链支持及系统集成。地平线是中国智驾行业首个践行软硬结合技术路径的企业，通过“征程芯片+天工开物工具链”构建软硬一体生态，旨在实现从底层硬件到上层算法的全栈协同优化，为智能驾驶提供高效、灵活且安全的解决方案。2024 年 4 月地平线发布征程 6 系列芯片，覆盖 10-560TOPS 的算力范围，适配不同价位车型。天工开物为地平线自主研发的算法工具链，包含模型后量化、量化训练、编译优化和部署三大核心能力，提供从模型获得至应用部署的全流程支持，天工开物工具链能将开发者模型部署周期缩短 60%，降低了合作伙伴的研发成本。

地平线已与大众、上汽、岚图等超 40 家车企合作超 310 款车型、为 27 家 OEM 供给产品解决方案，其中囊括中汽协公布的销量排名前十的中国车企、主流新势力车企等。在独特的战略卡点和十年如一日的研发突破下，2024 年地平线营收 23.84 亿元，同比增长 53.6%；毛利 18.41 亿元，同比增长 68.3%，其中，以征程系列芯片为主的产品解决方案（硬件）收入 6.64 亿元，同比增长 31.2%；算法授权及技术服务收入飙升 70.9%至 16.47 亿元，毛利率高达 92%，体现软硬一体化模式的广阔前景。大规模的市场渗透和车企合作直接体现在地平线的市场占有率上，2024 年地平线产品解决方案年交付量 290 万套，同比增长 38%，累计出货量已达 770 万套，在国内车企高级辅助驾驶（ADAS）解决方案市场份额已突破 40%，稳居行业第一；在中国独立第三方智能驾驶（AD）方案市场占据 30%以上份额，位列行业第二。地平线强大的软硬件结合能力独树一帜，在智驾市场扩张的关节节点为其打下坚实的市场基础。

地平线定位智驾计算平台公司，未来有望全面撬动智驾市场。围绕软硬一体化的独特优势，地平线在 2025 年 4 月 18 日发布会上推出了 Horizon Cell「弹夹系统」，硬件部分可以插拔不同型号的征程 6 系列芯片，软件可配备不同的辅助驾驶系统方案（HSD），以满足多种车型对各类辅助驾驶性能需求以及升级迭代需求。普惠级城区辅助驾驶 HSD 300 基于两颗征程 6M（256TOPS）打造，主要面向 10 万级别车型标配市场。高性能 L2 城区辅助驾驶 HSD 600 基于一颗征程 6P（560TOPS）打造，主要面向 15 万级别车型标配市场。全场景辅助驾驶 HSD 1200 基于两颗征程 6P（1120TOPS）打造，主要面向 20 万级别车型标配市场。地平线软硬结合的最大优势是性价比的极致优化，与其他同等算力芯片相比，征程 6P 性能提升近 17 倍，但单位成本提高幅度较小，特斯拉自研的低成本 FSD 芯片也证实了软硬结合的成本优势。地平线软硬结合的独特优势已初步显现，截至 2025 年一季度，地平线已经累计交付了 800 万颗芯片，累计上车 200 多个量产车型，4 月 18 日发布会上宣布与奇瑞集团就 HSD 量产展开全面合作，将于 2025 年 9 月正式量产。地平行提前铆钉软硬结合赛道，其深厚积淀和独特战略优势将逐步显现。

（二）Momenta：坚持“一个飞轮两条腿”战略，赢取技术与市场双丰收。Momenta 成立于 2016 年，创始团队由计算机视觉与深度学习领域的顶尖专家组成，成立初期专注于无人驾驶领域。2019 年 Momenta 将战略转向做量产交付，2020 年上汽集团将旗下高端电动车品牌智己项目交予 Momenta。公司在长达两年的时间里攻坚克难，大力发展仿真评测、自动化工具链、基础组件和数据等周期长、成果反馈慢的模块，为技术量产产品化打牢根基。2021 年形成了“L2+L4 两条腿走路” 和“数据飞轮”的战略：通过乘用车量产项目获取大量数据，反哺高阶智驾开发；同时研发 L4 无人驾驶技术能力构建量产算法壁垒。2022 年 6 月，首款搭载 Momenta 技术方案的智己 L7 正式交付，Momenta 开始迎来项目收获期。在技术方面，Momenta 在第三方智驾供应商中始终处于领先地位，2024 年 10 月成为国内首个基于一段式端到端大模型实现规模化量产的智能驾驶供应商。在量产方面， Momenta 凭借踏实积累和丰富经验构建了一套平台化解决方案，专为实现高效、迅速适配众多量产车型而设计，只需 3-6 个时间其智驾方案就可以在一个新车型上完成适配。灵活的方案部署、成熟的量产方案、前沿的技术突破使得 Momenta 成为主车厂的心动之选。截至 2024 年末，Momenta 已与全球超 15 家车企或 Tier1 建立合作关系，智驾方案已定点超 100 款车型。佐思汽研数据研究显示，在 2023 年 1 月至 2024 年 10 月期间，Momenta 凭借显著优势稳居市场领先，市场份额达到 60%，从实际上险数据来看，配备 Momenta 城市 NOA 技术的量产车型累计销量高达 11.4 万辆，位居市场首位。

3.2. VLA 技术领先的车企和供应商未来或在具身智能领域存在更大想象空间

具身智能是指智能体（如机器人、无人机、智能汽车等）通过物理实体与环境实时交互，实现感知、认知、决策和行动一体化。具身智能技术体系可分为“感知 —决策—行动—反馈”四个模块。“感知模块”进行信息采集和处理，使用多模态模型来处理和融合多维传感数据。“决策模块”接受环境感知信息后，完成级任务规划和推理分析，并生成逐步决策指令来控制行动，当前具体实现主要依靠以大模型为核心的智能决策，模拟人类思维完成复杂任务决策。“行动模块”接受决策指令后执行具体动作，目前主要有三种具体实现路径，一是强化学习与主流 Transformer 架构结合，二是大模型作为强化学习辅助工具，突破强化学习低样本效率问题，三是 VLA 视觉语言动作大模型实现从自然语言到可执行动作指令的直接转换。“反馈模块”通过多层交互不断接收来自环境的反馈经验并进行调整和优化，以提高对环境的适应性和智能化水平，主要利用大模型加速信息处理，学习反馈经验，形成闭环优化。智能驾驶汽车作为具身智能分支，其技术架构与机器人等一脉相承，在硬件传感器与零部件、软件算法技术方面均有极大共通性。

自研 VLA 车企和智驾 VLA 供应商所积累的供应链硬件协同能力能够帮助车企迅速入局机器人产业。硬件层面，电机、传感器、减速/转换机构、电池、轴承、结构件、冷却系统、控制器、芯片等硬件，在机器人以及汽车产业中都有着广泛的应用。2022 年 10 月特斯拉在 AI Day 上推出人形机器人 Optimus，其在设计中大量借鉴智能汽车硬件技术，如采用和特斯拉汽车上一样的中央处理器，配上网联设备、声音系统、电子安全等组成机器人大脑；利用汽车仿真进行机器人结构开发；电机设计利用汽车设计的理论和经验。与汽车相似，机器人也主要利用摄像头来作为环境感知传感器，并同样使用 OCC 占用网络算法进行识别等。除此之外，汽车硬件供应商也在向具身智能领域拓展布局，如传感器厂商将车载感知方案适配至机器人，电机企业技术服用开发关节驱动模块等。主机厂未来可利用在供应链上的成熟经验和客户网络，快速迁移机器人领域，并利用具备大规模自动化生产能力帮助未来量产降本。

智驾 VLA 技术根源于机器人领域，两者结构上具有极大共通性，自研 VLA 车企和智驾 VLA 供应商在具身智能扩展具有天然的技术可能性。2023 年 Google DeepMind 在机器人领域发布了 RT-2 模型，基于 RT-1 的 VLM 模型进行改进，首次将视觉、语言与动作控制端到端融合，正式提出 VLA 概念。随后，VLA 模型在机器人领域得到了热切关注和广泛应用。2024 年 6 月丰田、谷歌、斯坦福、UC 巴克利合作推出 OpenVLA，为第一个开源的 VLA 模型。2024 年 10 月韩国 ETRI 发表关于 Dual Process VLA 的论文，提出快慢双系统的分层框架。2025 年 2 月，美国人形机器人独角兽 Figure AI 发布首个通用 VLA 模型 Helix，是最接近量产的机器人 VLA 系统。目前机器人领域的发展方向也和智能驾驶一样，加入强化学习，包括强化学习微调和世界模型仿真。自研 VLA 车企和智驾 VLA 供应商掌握的 VLA 技术能够以低迁移成本复用至机器人领域，算法上的技术优势可帮助自研 VLA 车企和智驾 VLA 供应商取得在新兴具身智能产业的布局优势。

头部车企已在具身智能领域积极布局。目前国内外车企与头部供应商已通过自研、对外投资、合作等各种方式加速进入具身智能其他产业，进行生态拓展。在供应链协同、算法复用的软硬件优势下，车企可以将智能驾驶的技术经验迁移至具身智能其他板块，成为智能驾驶车企第二增长曲线，拔高增值空间。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

精选报告来源：【未来智库】。未来智库 - 官方网站