人形机器人为什么这么火

人形机器人为什么这么火

作者:李墨天
编辑:王一川
时间:2024-01-02

人型机器人上一次这么火,还是2016年波士顿动力的Atlas。


Atlas的名场面是被波士顿动力员工一棍子撂倒,整个过程栩栩如生,引发了“停止霸凌机器人”的后现代哲学思考。


图片
波士顿动力员工霸凌机器人,2016年


后来,改进版的Atlas完成了后空翻等一连串高难度动作,在公司内部的地位提升肉眼可见。但波士顿动力的走向却和舆论热度成反比:


2013年被谷歌收购,2017年被甩卖给软银,2020年又卖给了韩国现代,逐渐泯然众人。


图片
Atlas表演后空翻,2017年


带起当下人形机器人节奏的,是个既出乎意料又情理之中的名字:特斯拉


从2021年到现在,特斯拉的人形机器人以每年一次的频率,稳定的刷着存在感:


·2021年AI Day,特斯拉PPT首发了人形机器人Optimus的概念机设计方案,由于缺少后空翻这种直观冲击,影响力只局限在A股相关概念股


·2022年的AI Day,特斯拉把Optimus的原型机搬到了会场。身高还是一米七,体重从上一年的50kg暴增至73kg,可以完成招手、搬运物体等简单工作,但走路需要特斯拉员工搀扶。


图片
没装外壳,打赤膊的Optimus,2022年


·2023年股东大会,Optimus以视频形式出场,不仅走路不用人扶了,还能完成物品分类、分拣等更高难度动作。


图片
Optimus体重暴增前后


虽然在舆论场的声量远不及当年的波士顿动力,但特斯拉的Optimus引发了产业界的沸腾,原因有两点:


一是相比Atlas百万美元的造价,马斯克表示Optimus两万美元就能买回家,说明人形机器人有大规模量产的可能。


二是通用性,在特斯拉的演示视频里,Optimus已经可以完成很多简单的体力劳动,潜在销路大增。


问题随之而来:为什么是现在?为什么是特斯拉?



一次技术浪潮



理解人形机器人的技术浪潮,首先要了解它和传统的工业/服务机器人的区别。


简单来说,传统机器人大多基于特定的规划执行特定的操作,比如运输、分拣,不具备感知和决策能力。人形机器人不仅能与物理世界交互,还有感知和理解能力。


举一个不太恰当但好理解的例子:送餐机器人执行“把外卖送到1203号房”这个任务时,并不理解什么是“外卖”和“1203号房”,只是根据软件系统既定的指令和路线规划完成任务。


但人形机器人可以借由智能化,理解物理世界各种物体、语言和文字的含义,并自主规划和决策。


所以理想状态下,机器人不仅可以送外卖,还能顺便洗个碗,走之前再把垃圾带下去。当然马斯克想的更远:让Optimus军团搭乘SpaceX的龙飞船登陆火星。


因此,两者的最大区别就在“通用性”,一个只能完成预先规划的特点任务,一个理论上什么都能干。


技术跃迁的背后,是人工智能近20年来的两次里程碑事件:


第一次是2012年,Geoffrey Hinton三人组携AlexNet算法参加ImageNet图像识别大赛,以84%的识别准确率夺得冠军。神经网络从多种技术路线中脱颖而出,成为人工智能的唯一解。


所谓神经网络,可以理解为用算法模拟人脑的运行机制,配合足够规模的数据和算力,理论上人脑能够实现的智能,计算机也能实现。李飞飞举过一个形象的例子:


如果把眼睛当作照相机,一个三岁的孩子就已经拍摄了上亿张照片,借此认识世界。那么只要让算法看足够多的图片,算法也能够识别物体。


2012年,李飞飞创建的数据集,AlexNet在算法上的创新,加上Geoffrey Hinton三人组开创性的使用了英伟达显卡训练算法,数据、算法、算力齐备,人工智能迎来爆发期,人脸识别、机器翻译、自动驾驶等场景迅速落地,GPU订单雪花一般飘向圣克拉拉的英伟达总部。


顺带提一句,Geoffrey Hinton的新东家Vayu Robotics,就是一家做机器人的公司。


第二次是2017年,Google八位员工公开了Transformer架构,开启了大模型时代。


两次的区别可以简单概括为,2012年的AlexNetAI有了“感知”的能力,而Transformer和之后的大模型让AI有了“生成”的能力。


举例来说,2012年的AI可以识别出各种各样的猫,2017年之后的AI已经可以自己生成猫的图片了。


“感知”让AI能够学习人类对世界的认知,“生成”让AI有自主决策的能力。至此,机器人的地基已经打好了。实际上ChatGPT和各类AI Agent,已经可以视为具备感知和决策能力的机器人。


只不过这类“机器人”局限在数字环境,有量大管饱的参数和算力就能搓出来。但人形机器人需要与真实的物理世界交互,就需要真实世界的参数训练。同时,由于硬件产品的存在,又会触及制造业的核心命题:低成本大规模量产


从早年的本田ASIMO,到几年前的波士顿动力Atlas,都是栽在了无法低成本量产,导致没有商业化场景的问题上。


而特斯拉进展神速的秘密在于,他们抓住了人形机器人的“前置产业”:自动驾驶



一个“前置产业”



2021年的AI Day上,马斯克曾说:我们几乎拥有人型机器人所需的所有部件,因为我们已经制造了带轮子的机器人。


这句话其实很好概括了特斯拉在人形机器人上的发展策略:用汽车研发的经验给机器人开路。


如上文所说,本轮人形机器人浪潮的想象空间在于“通用性”,也就是把机器人从基于特定规划执行任务的功能性产品,变成具备感知和决策能力的智能设备。


此前的种种智能化路线,往往都难以脱离“穷举法”的桎梏,导致始终会面临像这个程序员段子一样的尴尬问题:


图片


但Transformer打开大模型时代后,带来了两个立竿见影的改变:


一是把无法实现的穷举法变成了简单粗暴的大力出奇迹:只要让机器学习足够多的数据,就能拥有类人的智能,可以脱离预设的规划进行自主决策。


二是多模态能力的建立,让机器人可以实现感知-决策-执行的整个流程。


一个样板工程是今年7月《纽约时报》探班谷歌实验室, 完整记录了基于RT-2模型的机器人智能闪现的瞬间:


桌子上放着恐龙、鲸鱼、狮子三个塑料玩具,工程师让单臂机器人“捡起灭绝的动物”,机器人拿起了恐龙。


这意味着机器人不仅能识别三种动物,也能理解“灭绝的动物”的含义,还可以完成具体的操作。


以此类推,只要数据、算法、算力三要素满足,那么机器人不仅能抓取灭绝的动物,还能自己切菜刷锅洗碗,甚至先切十斤精肉不见半点肥的,再切十斤肥的不见半点精肉。


如果可以实现,那么机器人的应用场景就大幅度增加,比如做饭、打扫卫生、照顾老人。而且机器人还会依照算法不断自我学习自我进化,自驱力秒杀99%的打工人。


图片
Google的RT-2模型论文


自动驾驶的技术演进一度万马齐喑,就在于难以脱离“穷举法”的陷阱,直到以神经网络为代表的人工智能兴起。而人形机器人的既定发展路线,恰恰与自动驾驶的技术演进完全吻合:


两者的核心都是基于人工智能,实现感知-决策-执行的完整链条。


这就意味着无论是软件层面的算法,还是硬件层面的视觉传感器、FSD芯片等零部件,理论上都可以用于人形机器人。这也是为什么马斯克会说:当你能解决自动驾驶,你就能解决现实世界中的人工智能。


如果把新能源车理解为“带轮子的机器人”,那么特斯拉的布局其实可以追溯到2014年9月第一版Autopilot发布。在这过程中,特斯拉一步步用自研软硬件替换掉了第三方的方案,为Optimus机器人探路。


最核心的自动驾驶芯片上,特斯拉最初采用Mobileye的方案,后来换成了英伟达。2019年,特斯拉自研的FSD芯片正式上车,沿用至今。


软件算法上,特斯拉在2020年对底层代码进行了网络重构,引入了Transformer架构,实现将2D图像拼接为3D视角,随后又3D空间基础上加入了时序信息,转化为4D空间。2022年引入占用网络(Occupancy Network),解决通用障碍物识别问题。


云端算力上,特斯拉在2021年AI Day首次公开了Dojo超算和自研的D1芯片。至此,特斯拉完成了从云端到终端,核心软硬件的自研。


因此,Optimus在2021年的公开亮相,并不是巧合。



一家伪装成汽车制造商的AI公司



为什么波士顿动力的Atlas成本高达百万美元,特斯拉Optimus的目标价位只有两万美元?


因为那98万已经由广大特斯拉车主先行分摊了。


虽然机器人所需的数据集与自动驾驶有所不同,控制系统也有差别,但自动驾驶还是完美的帮人形机器人解决了“VR式难题”。


VR经历了无数个“元年”依然死气沉沉,核心在于如果要满足VR头显对性能、体积和能耗的要求,手机的研发经验几乎无法复用,软件系统和处理器、屏幕这些零部件,都要重新走一遍从0到1的过程。


在产品不成熟、应用匮乏的情况下,消费者兴致寡然,导致企业无法大规模生产摊薄成本,而高昂的售价又进一步加剧这个恶性循环。


人型机器人则相反,研发过程中耗资巨大的软件算法、数据采集、芯片和传感器等零部件、云端算力设施,都在自动驾驶的开发过程中建设完成了。


几乎所有人工智能的应用都需要算法、算力、数据三驾马车来拉动,算法决定了AI识别和决策的方式;但强大的算法需要足够的算力来驱动;同时,算法的提升又需要大规模高质量的数据;三者相辅相成,缺一不可。


具体到人形机器人,Optimus的每一个环节,都能照抄S3XY四大车型的作业。


算法层面,Optimus的软硬件几乎照搬了特斯拉电动车的方案:


Optimus共配置有3颗摄像头,左右眼各一个,外加一颗鱼眼广角。芯片是和电动车一模一样的FSD自动驾驶芯片,参照当前HW3.0系统的算力,Optimus的算力为72TOPS(车里有两颗,机器人只有一颗)。


软件上,Optimus承袭了特斯拉自动驾驶的BEV+Transformer+占用网络的方案。简单来说,算法会将摄像头拍摄的画面“拼”成一张动态的4D图像,并规划行车路径。在Optimus的演示里,其识别和决策系统与自动驾驶算法如出一辙。


图片
Optimus的视觉传感系统


2023年特斯拉股东大会,马斯克就表示,特斯拉已经打通了FSD和机器人的底层模块,实现了一定程度的算法复用。


算力层面,依靠2021年发布的D1芯片,特斯拉组建了自己的算力集群Dojo ExaPod。


一套Dojo ExaPod包含3000个D1芯片,总算力达到1.1EFLOP,相当于14000块A100的算力。Dojo主要服务于特斯拉的自动驾驶任务,但也可以无痛切换到机器人的训练。特斯拉为汽车设计的碰撞模拟软件,也可以给Optimus编写跌倒测试程序。


数据层面,特斯拉已经拥有了规模最大的数据采集网络。


和GPT等大模型不同,自动驾驶与机器人需要物理世界的真实数据来训练算法。与自建工程车队,专门采集数据的自动驾驶公司不同,特斯拉车主组成了一个规模庞大的免费外包车队,加上近30万购买了FSD功能的车主,源源不断的将真实数据传送给Dojo训练。


2022年的AI Day上,特斯拉宣称已经存储的有价值训练数据集有23.2万帧,验证数据集0.38万帧。


Optimus中负责驱动的电机也来自特斯拉电动车现有的方案。不过考虑到机器人的灵活性更强,单独的电机数量远远超过电动车。


图片


总结一下,新能源车和自动驾驶可以靠自身的造血能力,替人形机器人趟过研发开支最密集的阶段;同时,自动驾驶的落地也为人形机器人积累了大量数据采集、算法迭代、模型训练的工程化经验。


波士顿动力的日益平庸,特斯拉的后来居上,背后的变量都是人工智能的技术革命,和自动驾驶这个“前置产业”。


马斯克在AI领域的涉足常被忽略,他其实是OpenAI的创始人之一,也是DeepMind的早期投资人。他参与的人工智能公司还有脑机芯片Neuralink、聊天机器人Grok。


特斯拉每天接受并处理的视频画面超过1600亿帧,这是商业公司能拥有的最大的真实世界数据集,不仅能拿来精进自动驾驶系统,还能给Optimus做训练。


人们觉得特斯拉属于制造业,其实它更像一家软件公司。特斯拉的自我介绍是“纯电动车、太阳能和清洁能源”,但实际上,它是一家彻头彻尾的人工智能公司。


图片
参考资料
[1] 详解特斯拉机器人 Tesla Bot:和汽车共享一些配件,网易科技
[2] 谷歌的 RT-2,是不是机器人的 GPT-3 时刻,极客公园
[3] 人形机器人的AI算法,如何借力于自动驾驶FSD,安信证券
[4] 人形机器人深度报告:人工智能的终极载体,开启十年产业大周期,东吴证券
[5] 谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力,甲子光年

编辑:王一川
视觉设计:疏睿
责任编辑:李墨天