发布第二代VLA之后的几个月里,小鹏在Youtube上传了十几个相关的视频,这些刺激感拉满、键盘值颇高的视频赢得了外国网友一边倒的赞赏,但也引来不少外国车友的热情催更。
他们纷纷喊话:“有哪些车型支持VLA2.0?”,“没有搭载图灵芯片的车,是否也能用上VLA2.0?”,“小鹏什么时候来我们国家卖车?”

类似的催更画面也似曾相识。
去年,当阉割版特斯拉FSD(目前版本号为V13.2.9)落地中国之后,一些早年斥资6.4万购买FSD的中国车主集体跑到特斯拉全球副总裁陶琳的微博下抱怨:什么时候满血版的FSD才能来到中国?
和中国车(jiu)主(cai)在线催更V14一样,外国车主催更第二代VLA,主要也是因为和上一代相比,它解锁了更多功能和场景,比如支持P档原地启动,穿越乡村小路、封闭园区和高速ETC,而且重刹和急刹几乎不再存在,安心与舒适度跨越式提升。
根据官方演示视频和媒体实测,第二代VLA在某些博弈场景下的表现可以媲美甚至超越FSD V13,但这并不是何小鹏的终极目的。

第二代VLA穿行在广州城中村,来源:吴颖碎碎念微博
去年年底,何小鹏在美国试驾了FSD V14.2版本和Robotaxi,称它已经实现了从“L2辅助驾驶”到“准L4”的跨越,试驾之后,他和小鹏通用智能中心负责人刘先明打了一个赌:
到2026年8月底之前,如果小鹏第二代VLA在中国能达到FSD V14.2在美国的水平,何小鹏承诺在硅谷建一座中国风味食堂,如果达不到,刘先明承诺在金门大桥裸奔。
而在这场赌约背后,是一段煎熬的烧钱史。何小鹏最近在直播时也透露,为了第二代VLA的研发,小鹏公司每个月投入超过3亿元,而且持续了十几个月。
根据最新财报,小鹏去年研发支出达到94.9亿元,同比增长47%,其中,AI相关研发投入达到45亿元,今年在物理AI相关研发投入预计提升至70亿元。
对第二代VLA的投资,无疑是小鹏过去十年最大的一次技术豪赌,它也直接决定了小鹏未来十年到底能走多远。
去年,特斯拉发布的FSD V14惊艳了整个市场,英伟达机器人业务负责人Jim Fan体验完之后,称它已经通过了物理图灵测试(Physical Turing Test)。

这或许是现阶段对一个自动驾驶系统的最高评价,因为这意味着,当你坐在一辆车里,这辆车的所有驾驶行为,无论是起步、转弯、刹停,还是应对加塞、穿行复杂路口等场景,都能表现得像老司机一样,让人无法辨别到底是人驾还是机驾。
在规则驱动的时代,这是不可能的,因为整个系统被分成了感知、定位、预测、规划和控制等不同模块,工程师需要像编写法律条文一样,把人类驾驶经验总结成一条条"if...then...else”的逻辑,比如“前车刹车,本车减速”,“遇到停止牌就等3秒”。
但现实道路环境极其复杂且充满了随机性,纵使上千名算法工程师夜以继日、年复一年地写了几十万行代码,一旦遇到未被编程的小概率场景,系统就可能失效、摆烂或者做出危险决策,而这些场景也被称为corner case。
而且随着规则越写越多,不同规则之间时常相互打架,需要不停打补丁,这也导致系统在遇到需要极限博弈的复杂场景时,很难展现出老司机一样丝滑通行、随机应变的能力。
举个例子,老司机在变道加塞时会先观察后车意图,并且会试探性切入,而依赖规则的系统则会严格遵从工程师写死的排队逻辑:只要后方有车且距离小于安全阈值,就坚决不动,这种死板在遇到复杂车流时就会呈现出明显的机械感,同时也降低了通行效率。
在规则驱动下的系统里,控制模块也被一分为二,纵向控制器负责加减速,横向控制器负责转向,各自运行一套算法,这种“两个司机开一辆车”的做法虽然降低了单个问题的复杂度,但显然不符合人类的驾驶习惯,不可避免地会产生强烈的割裂感,牺牲了舒适性和安全性。
为了让系统有“人味”,最大可能兼顾安全、舒适和效率,特斯拉几年前率先迈入了端到端时代,删掉了几十万行代码,只保留了几千行,通过搭建一个强大的神经网络,让系统找到从“感知”到“控制”的最佳路径,实现真正的数据驱动。
本质上,第一代端到端架构是一个基于海量数据和模仿学习的VA(Vision-Action)系统。
摄像头观察周围环境,神经网络不需要经过类人的思考,直接将执行指令输出给方向盘和踏板,但这种极简架构也存在弊端:可解释性差,不像模块化架构一样容易debug。
为了对冲这种黑盒特性,并且让模型在数据和算力都受限的情况下表现更好,国内车企在采用端到端架构的同时,往往还会在系统中保留一些人工规则用于安全兜底,但导致的结果是不同场景下的体验割裂。
按照何小鹏的说法,当前业内的L2级辅助驾驶本质上是一个“缝合怪”,高速、城区、小路等不同场景切换时需切换底层逻辑,无法让用户获得真正安心的体验。

为了解决这个问题,车企想了不同的办法。
比如,理想认为,纯粹的模仿学习虽然能让车学会“怎么开”,但无法让车理解“为什么这么开”,结果就是,智驾系统知其然,但不知其所以然,为此,他们在VA架构中引入了L(Language)这个模态,构建了VLA架构。
通过对齐视觉信息和语言描述,VLA架构就可以利用语言中蕴含的人类常识来进行逻辑推理,识别道路环境中复杂的文本信息,并且通过思维链(CoT)将思考过程显性化。
理想希望通过这种方式解决规则时代难以处理的长尾问题,并且实现语音控车。
然而,刘先明却认为“Language”是令人上瘾的毒药。
在他看来,人类语言是结构化的、离散的、可预测的,但物理世界是非结构化的、连续的、难以预测的。
在VLA架构下,当系统把摄像头看到的画面先“翻译”成文字(比如“前方有人横穿马路”),再让模型理解这句话,最后转成刹车指令,中间势必会导致信息损耗,也带来了更长的推理时延。
而且,一旦模型习惯了语言这个“翻译官”,就会容易形成路径依赖:遇到复杂场景先想着怎么用语言去描述,而不是直接做出本能反应。
刘先明给出解决方案是拆掉“Language”,搭建一个更纯粹极致的端到端架构,用大算力、大数据和大模型来推动实现智驾的Scaling Law。

小鹏通用智能中心负责人刘先明
具体来看,小鹏第二代VLA不要求把对物理世界的感知转化成人类可读的文字,而是实现了从视觉+语言的联合语料输入到动作指令输出的直接映射,有效减少了信息的损耗,推理时延也从200ms降至80ms。
与此同时,为了在不依赖语言中转的前提下保持逻辑推理能力,小鹏在第二代VLA中引入了Visual CoT(视觉思维链),推理效率相较传统逻辑思维链提升了约32倍,预测误差降低了33%。
这使得第二代VLA系统在面对“绕行事故现场”、“夜间礼让小动物”、“通行乡村起伏烂路”,以及“主动避让救护车”等长尾场景时,都拥有了更强的泛化和推理能力。
和最新版的FSD V14.2相比,第二代VLA目前缺少了倒车等极个别功能,但在许多场景下也做到了和V14类似的控车能力和安心感,让人无法辨认这到底是“手动驾驶”还是“自动驾驶”。
过去几年,马斯克不断重复着一个叙事:特斯拉不是一家纯粹的车企,而是一家AI或者机器人公司。
2024年,FSD V12刚推送不久,他就撂下过狠话:“如果有人不相信特斯拉能解决自动驾驶问题,那么他就不应该投资这家公司。”
这在一定程度上也解释了,尽管过去两年业绩持续下滑,但凭借FSD的巨大进步与Cybercab的布局,特斯拉股价三年时间又翻了一倍,因为资本市场相信,FSD不仅是一个让车更好卖的辅助驾驶系统,更是一个可能彻底改变汽车行业游戏规则,创造全新商业模式的“银子弹”。
对小鹏来说,第二代VLA也扮演了类似的角色。按照摩根士丹利分析师的说法,“这是一次技术上的大胆飞跃”。
在3月16日的直播中,何小鹏透露,自从门店开放第二代VLA试驾以来,门店试驾量翻倍,而且搭载了三颗图灵芯片的Ultra车型,销量占比快速提。
此外,FSD V14和第二代VLA的表现也让小鹏选择跨过行驶范围有限、责任界定模糊的L3,而是转而使用同一套硬件和模型,同时实现L2和L4,换言之,就是在不依赖激光雷达和高精地图的情况下,让Robotaxi可以行驶在公开道路上,而不是限定区域内。
加速推动L2向L4的跨越也是何小鹏在今年“两会”期间提交的议案之一。
今年年初,旧金山的一场大停电暴露了当前L3自动驾驶的尴尬。
由于失去了交通信号灯的指引,多辆Waymo的Robotaxi停在了十字路口或者是马路中央,导致交通大堵塞,作为对比的是,特斯拉的Robotaxi虽然没有搭载激光雷达、没有高精地图这样的先验信息、也没有远在菲律宾的安全员,但却没有受到这次停电影响。

第二代VLA被何小鹏定义为“面向L4能力打造的第一个版本”。按照规划,小鹏将在今年开始Robotai的试点运营,目的是跑通技术、客户与商业的初始循环,之后两年会进入快速增长期。
除了全栈自研自动驾驶,小鹏创立之后也先后入局了具身机器人、飞行汽车等领域,这样的多元化战略,一度被视为不务正业的表现。
但实际上,无论是能够自动驾驶的汽车,还是自主行走的机器人,亦或是能垂直起降的飞行汽车,本质上都属于"物理AI"的范畴,它们要处理的都是同一个问题:如何让智能体在物理世界中安全、高效地移动和操作。
汽车要解决的是在二维平面上的自主移动,机器人要解决的是在复杂三维空间中的移动和操控,飞行汽车则要解决在空中的三维移动。

对任何物理AI智能体来说,核心能力都可以归结为三个层面:感知、思考、行动。
过去,这三件事需要不同的系统来协同完成——感知模块负责“看”,规划模块负责“想”,控制模块负责“动”,而第二代VLA第一次将这三大能力统一在同一个模型里,用同一套神经网络和模型架构,完成从“看见世界”到“理解世界”再到“采取行动”的全过程。
这正是“物理AI”的本质:不再是被动执行指令的工具,而是能够自主感知环境、理解语义、做出决策、执行动作的智能体。
也正因为如此,第二代VLA的突破,不只是让小鹏的汽车更好开、更好卖和更安全,而是为小鹏所有的“物理AI”业务提供了统一的技术底座,在Robotaxi和人形机器人这两个万亿级市场中占据先发优势。
从某种意义上说,何小鹏和刘先明赌的根本就不是一座食堂或一次裸奔,而是小鹏能否在这场智能驾驶的决赛中拿到通往物理AI时代的门票。