上海远川文化传播有限公司

何小鹏找到了“银子弹”

作者：罗松松

编辑：熊宇翔

时间：2026-03-30

发布第二代VLA之后的几个月里，小鹏在Youtube上传了十几个相关的视频，这些刺激感拉满、键盘值颇高的视频赢得了外国网友一边倒的赞赏，但也引来不少外国车友的热情催更。

他们纷纷喊话：“有哪些车型支持VLA2.0?”，“没有搭载图灵芯片的车，是否也能用上VLA2.0？”，“小鹏什么时候来我们国家卖车？”

类似的催更画面也似曾相识。

去年，当阉割版特斯拉FSD（目前版本号为V13.2.9）落地中国之后，一些早年斥资6.4万购买FSD的中国车主集体跑到特斯拉全球副总裁陶琳的微博下抱怨：什么时候满血版的FSD才能来到中国？

和中国车（jiu）主（cai）在线催更V14一样，外国车主催更第二代VLA，主要也是因为和上一代相比，它解锁了更多功能和场景，比如支持P档原地启动，穿越乡村小路、封闭园区和高速ETC，而且重刹和急刹几乎不再存在，安心与舒适度跨越式提升。

根据官方演示视频和媒体实测，第二代VLA在某些博弈场景下的表现可以媲美甚至超越FSD V13，但这并不是何小鹏的终极目的。

第二代VLA穿行在广州城中村，来源：吴颖碎碎念微博

去年年底，何小鹏在美国试驾了FSD V14.2版本和Robotaxi，称它已经实现了从“L2辅助驾驶”到“准L4”的跨越，试驾之后，他和小鹏通用智能中心负责人刘先明打了一个赌：

到2026年8月底之前，如果小鹏第二代VLA在中国能达到FSD V14.2在美国的水平，何小鹏承诺在硅谷建一座中国风味食堂，如果达不到，刘先明承诺在金门大桥裸奔。

而在这场赌约背后，是一段煎熬的烧钱史。何小鹏最近在直播时也透露，为了第二代VLA的研发，小鹏公司每个月投入超过3亿元，而且持续了十几个月。

根据最新财报，小鹏去年研发支出达到94.9亿元，同比增长47%，其中，AI相关研发投入达到45亿元，今年在物理AI相关研发投入预计提升至70亿元。

对第二代VLA的投资，无疑是小鹏过去十年最大的一次技术豪赌，它也直接决定了小鹏未来十年到底能走多远。

01 图灵测试

去年，特斯拉发布的FSD V14惊艳了整个市场，英伟达机器人业务负责人Jim Fan体验完之后，称它已经通过了物理图灵测试（Physical Turing Test）。

640 (3).png

英伟达高管在线点赞FSD V14

这或许是现阶段对一个自动驾驶系统的最高评价，因为这意味着，当你坐在一辆车里，这辆车的所有驾驶行为，无论是起步、转弯、刹停，还是应对加塞、穿行复杂路口等场景，都能表现得像老司机一样，让人无法辨别到底是人驾还是机驾。

在规则驱动的时代，这是不可能的，因为整个系统被分成了感知、定位、预测、规划和控制等不同模块，工程师需要像编写法律条文一样，把人类驾驶经验总结成一条条"if...then...else”的逻辑，比如“前车刹车，本车减速”，“遇到停止牌就等3秒”。

但现实道路环境极其复杂且充满了随机性，纵使上千名算法工程师夜以继日、年复一年地写了几十万行代码，一旦遇到未被编程的小概率场景，系统就可能失效、摆烂或者做出危险决策，而这些场景也被称为corner case。

而且随着规则越写越多，不同规则之间时常相互打架，需要不停打补丁，这也导致系统在遇到需要极限博弈的复杂场景时，很难展现出老司机一样丝滑通行、随机应变的能力。

举个例子，老司机在变道加塞时会先观察后车意图，并且会试探性切入，而依赖规则的系统则会严格遵从工程师写死的排队逻辑：只要后方有车且距离小于安全阈值，就坚决不动，这种死板在遇到复杂车流时就会呈现出明显的机械感，同时也降低了通行效率。

在规则驱动下的系统里，控制模块也被一分为二，纵向控制器负责加减速，横向控制器负责转向，各自运行一套算法，这种“两个司机开一辆车”的做法虽然降低了单个问题的复杂度，但显然不符合人类的驾驶习惯，不可避免地会产生强烈的割裂感，牺牲了舒适性和安全性。

为了让系统有“人味”，最大可能兼顾安全、舒适和效率，特斯拉几年前率先迈入了端到端时代，删掉了几十万行代码，只保留了几千行，通过搭建一个强大的神经网络，让系统找到从“感知”到“控制”的最佳路径，实现真正的数据驱动。

本质上，第一代端到端架构是一个基于海量数据和模仿学习的VA（Vision-Action）系统。

摄像头观察周围环境，神经网络不需要经过类人的思考，直接将执行指令输出给方向盘和踏板，但这种极简架构也存在弊端：可解释性差，不像模块化架构一样容易debug。

为了对冲这种黑盒特性，并且让模型在数据和算力都受限的情况下表现更好，国内车企在采用端到端架构的同时，往往还会在系统中保留一些人工规则用于安全兜底，但导致的结果是不同场景下的体验割裂。

按照何小鹏的说法，当前业内的L2级辅助驾驶本质上是一个“缝合怪”，高速、城区、小路等不同场景切换时需切换底层逻辑，无法让用户获得真正安心的体验。

为了解决这个问题，车企想了不同的办法。

比如，理想认为，纯粹的模仿学习虽然能让车学会“怎么开”，但无法让车理解“为什么这么开”，结果就是，智驾系统知其然，但不知其所以然，为此，他们在VA架构中引入了L（Language）这个模态，构建了VLA架构。

通过对齐视觉信息和语言描述，VLA架构就可以利用语言中蕴含的人类常识来进行逻辑推理，识别道路环境中复杂的文本信息，并且通过思维链（CoT）将思考过程显性化。

理想希望通过这种方式解决规则时代难以处理的长尾问题，并且实现语音控车。

然而，刘先明却认为“Language”是令人上瘾的毒药。

在他看来，人类语言是结构化的、离散的、可预测的，但物理世界是非结构化的、连续的、难以预测的。

在VLA架构下，当系统把摄像头看到的画面先“翻译”成文字（比如“前方有人横穿马路”），再让模型理解这句话，最后转成刹车指令，中间势必会导致信息损耗，也带来了更长的推理时延。

而且，一旦模型习惯了语言这个“翻译官”，就会容易形成路径依赖：遇到复杂场景先想着怎么用语言去描述，而不是直接做出本能反应。

刘先明给出解决方案是拆掉“Language”，搭建一个更纯粹极致的端到端架构，用大算力、大数据和大模型来推动实现智驾的Scaling Law。

小鹏通用智能中心负责人刘先明

具体来看，小鹏第二代VLA不要求把对物理世界的感知转化成人类可读的文字，而是实现了从视觉+语言的联合语料输入到动作指令输出的直接映射，有效减少了信息的损耗，推理时延也从200ms降至80ms。

与此同时，为了在不依赖语言中转的前提下保持逻辑推理能力，小鹏在第二代VLA中引入了Visual CoT（视觉思维链），推理效率相较传统逻辑思维链提升了约32倍，预测误差降低了33%。

这使得第二代VLA系统在面对“绕行事故现场”、“夜间礼让小动物”、“通行乡村起伏烂路”，以及“主动避让救护车”等长尾场景时，都拥有了更强的泛化和推理能力。

和最新版的FSD V14.2相比，第二代VLA目前缺少了倒车等极个别功能，但在许多场景下也做到了和V14类似的控车能力和安心感，让人无法辨认这到底是“手动驾驶”还是“自动驾驶”。

02 一套架构，多种智能

过去几年，马斯克不断重复着一个叙事：特斯拉不是一家纯粹的车企，而是一家AI或者机器人公司。

2024年，FSD V12刚推送不久，他就撂下过狠话：“如果有人不相信特斯拉能解决自动驾驶问题，那么他就不应该投资这家公司。”

这在一定程度上也解释了，尽管过去两年业绩持续下滑，但凭借FSD的巨大进步与Cybercab的布局，特斯拉股价三年时间又翻了一倍，因为资本市场相信，FSD不仅是一个让车更好卖的辅助驾驶系统，更是一个可能彻底改变汽车行业游戏规则，创造全新商业模式的“银子弹”。

对小鹏来说，第二代VLA也扮演了类似的角色。按照摩根士丹利分析师的说法，“这是一次技术上的大胆飞跃”。

在3月16日的直播中，何小鹏透露，自从门店开放第二代VLA试驾以来，门店试驾量翻倍，而且搭载了三颗图灵芯片的Ultra车型，销量占比快速提。

此外，FSD V14和第二代VLA的表现也让小鹏选择跨过行驶范围有限、责任界定模糊的L3，而是转而使用同一套硬件和模型，同时实现L2和L4，换言之，就是在不依赖激光雷达和高精地图的情况下，让Robotaxi可以行驶在公开道路上，而不是限定区域内。

加速推动L2向L4的跨越也是何小鹏在今年“两会”期间提交的议案之一。

今年年初，旧金山的一场大停电暴露了当前L3自动驾驶的尴尬。

由于失去了交通信号灯的指引，多辆Waymo的Robotaxi停在了十字路口或者是马路中央，导致交通大堵塞，作为对比的是，特斯拉的Robotaxi虽然没有搭载激光雷达、没有高精地图这样的先验信息、也没有远在菲律宾的安全员，但却没有受到这次停电影响。

640 (1).jpg

马斯克逮住机会又嘲笑了Waymo一把

第二代VLA被何小鹏定义为“面向L4能力打造的第一个版本”。按照规划，小鹏将在今年开始Robotai的试点运营，目的是跑通技术、客户与商业的初始循环，之后两年会进入快速增长期。

除了全栈自研自动驾驶，小鹏创立之后也先后入局了具身机器人、飞行汽车等领域，这样的多元化战略，一度被视为不务正业的表现。

但实际上，无论是能够自动驾驶的汽车，还是自主行走的机器人，亦或是能垂直起降的飞行汽车，本质上都属于"物理AI"的范畴，它们要处理的都是同一个问题：如何让智能体在物理世界中安全、高效地移动和操作。

汽车要解决的是在二维平面上的自主移动，机器人要解决的是在复杂三维空间中的移动和操控，飞行汽车则要解决在空中的三维移动。

对任何物理AI智能体来说，核心能力都可以归结为三个层面：感知、思考、行动。

过去，这三件事需要不同的系统来协同完成——感知模块负责“看”，规划模块负责“想”，控制模块负责“动”，而第二代VLA第一次将这三大能力统一在同一个模型里，用同一套神经网络和模型架构，完成从“看见世界”到“理解世界”再到“采取行动”的全过程。

这正是“物理AI”的本质：不再是被动执行指令的工具，而是能够自主感知环境、理解语义、做出决策、执行动作的智能体。

也正因为如此，第二代VLA的突破，不只是让小鹏的汽车更好开、更好卖和更安全，而是为小鹏所有的“物理AI”业务提供了统一的技术底座，在Robotaxi和人形机器人这两个万亿级市场中占据先发优势。

从某种意义上说，何小鹏和刘先明赌的根本就不是一座食堂或一次裸奔，而是小鹏能否在这场智能驾驶的决赛中拿到通往物理AI时代的门票。

上一篇：闪充杀不死换电，固态也不行

下一篇：“龙虾”热，火到了汽车圈