这一点，是中国未来最大的挑战-混沌资源社

编者按：本文来自微信公众号笔记侠（ID：Notesman），分享嘉宾：吴甘沙，驭势科技有限公司董事长、CEO，责编：若风，创业邦经授权转载。

我今天分享的主题是“AI的已来与未来”，主要分为三个层面：

第一，AI的前世今生；

第二，具身智能，即通过软、硬件的相互作用实现智能行为的能力；

第三，无人驾驶和人形机器人。

一、人工智能的昨天、今天和明天

1.信息科技发展的20年周期论

纵观历史，1976年到1996年是以PC、个人电脑为代表的数字化20年。1996年到2016年是以互联网为代表的网络化20年。2016年到2036年是以人工智能为代表的智能化20年。

第一个20年解决了生产资料的数字化问题，第二个20年解决了生产关系的网络化问题，第三个20年一定是解决生产力的智能化问题。

2.AI江湖的三大派与两大宗

从2016年回溯60年，1956年正是人工智能被创建的一年。那年夏天，一群大师开始畅想人工智能，他们想用一个夏天的时间彻底解决人工智能的问题，可惜并未实现。

从1956年到2016年的一甲子60年间，逐渐形成了三大门派。第一大门派是符号主义，将知识转化为符号和规则，让我们可以进行逻辑推理，例如证明数学定理和下棋。

随后出现了第二个门派，即连接主义。因为第一个门派无法解决图像识别问题，所以出现了连接主义。他们试图设计人造神经网络，期望在获取足够数据后可以进行识别和预测。

前两个门派的研究内容都是大脑中发生的事情，无法与环境互动，因此出现了行为主义。研究在与环境互动的过程中，不断的行为和反馈中是否能形成新的智能。

三大门派中出现了两类人物。

第一类是剑宗，他们认为要依靠天才设计出奇技淫巧式的算法，从有限的数据中发现特征，并在有限的算力中反复优化。不用太多算力，可以显得更厉害。于是，他们在螺丝壳里做道场，最终形成了一个个局部的小胜利。

第二类是气宗，他们不太讲究技巧，利用互联网带来的海量数据和摩尔定律带来的算力指数增长，通过暴力美学获得巨大提升。

最终我们发现剑宗一次次小的胜利，最后被暴力美学打败。实际上在最近的20年里，大家都慢慢意识到这个问题，但是看破不说破。直到一位老先生Rich Sutton在他的文章《苦涩的教训》中残酷地指出了这个令人尴尬的现象。

① 一统江湖的Alphago

2016年被认为是人工智能的元年，真正集三大主义功力于一身的产品Deep Mind AlphaGo出现，很快就展示了自己的暴力美学。

在AlphaGo出现之前，最优秀的围棋程序是Crazy Stone，然而一位韩国业余七段棋手将其打得落花流水。

2015年6月AlphaGo击败crazy Stone，取得70%的胜率。2015年8月AlphaGo掌握了称霸围棋世界的关键能力：形势判断或者大局观。2015年10月AlphaGo以5:0的战绩战胜职业二段樊麾。

2016年1月27日AlphaGo宣布与李世石约战5盘棋。尽管李世石当时面色凝重，但是他并不需要羞愧，他是最后一个战胜AlphaGo的人类棋手，后面的棋手都被横扫。

2017年3月份AlphaGo Master以3:0击败柯洁，当时有篇文章表示这既是人类围棋的噩梦，也是真正的慷慨悲歌。

2017年10月AlphaGo Zero横空出世，将人类历史上的棋谱全部扔掉，从零开始训练出的AI，仅用40天就战胜了前面所有AlphaGo的版本，并且达到了人类棋手望尘莫及的等级分。

新一代Alpha Zero不仅限于围棋，4小时训练就打败了国际象棋的最强程序Stockfish，2小时训练就打败了日本将棋的最强程序Elmo，8小时训练就打败了与李世石对战的Alphago v18。

再往后，Alphago Zero甚至开始玩竞技游戏，如星际争霸等。这时候又出来一家小公司，有样学样用类似的方法打败了Dota的人类冠军，这就是OpenAI。

② 后来居上的OpenAI

伊隆·马斯克不希望AI的霸权被谷歌DeepMind占领，因此他攒了一家名为OpenAI的公司。OpenAI和马斯克掰了之后，迷茫了一段时间。直到2022年11月30日，它成为气宗的集大成者，推出了ChatGPT，被认为是AI的iPhone时刻。

OpenAI的气宗秘籍紫霞宝典称为scaling Law,规模化定律。人工智能分为训练和推理两个阶段，训练模型相当于学习过程，而推理则是应用过程。

训练需要训练数据和算力，例如花费几万张GPU卡，用100天训练出一个模型。当这个模型被部署时，你就可以提供模型数据和推理结果。

在GPT4出现之前，大家有几种思维方式。

第一种是算力有限，制作一个小模型，例如我看到的数据是下图中的小蓝点，奢望用一根直线逼近这些数据得出一个小模型，这种小模型是失真的。

第二种思维方式是根据规模较小的数据设计出来复杂的模型，常常就是想多了，数据一多，发现更简单的模型反而更准确。

第三种情况是随着数据和算力变大，训练越来越慢，因为每一次迭代都要把中间结果数据搬来搬去，搬运数据的时间反而超过了计算的时间，浪费了算力。

Transformer模型的出现真正打通了算法的任督二脉，解决了充分并行的问题。这样算力越来越大，可以喂给它的数据规模也越来越大，生成的模型也越来越大，智能不断突破。

当模型达到一定程度时，智能就涌现出来，于是形成了规模化定律Scaling Law。最后训练出来的语言模型GPT通过部署变成聊天机器人程序ChatGPT。

a.GPT的训练

GPT的训练分为三个阶段。第一个阶段是预训练，类似于一个懵懂的孩子闯入藏经阁，开始不断学习全世界的知识。今天我们可以喂给算法数十万亿个token（词元），相当于一个过目不忘的天才每天阅读12个小时的书，每分钟250个单词，10万年才阅读完。

第二阶段如同邀请家教，在专家的督导下精心学习。第三阶段开始基于反馈强化学习，这时不仅仅是靠专家指点我，而是我已经学会了什么是好，什么是坏，我可以不断地精进。

以上是ChatGPT的训练过程，训练结束后进入推理阶段。

b.GPT的推理

提示词是ChatGPT最好的咒语，咒语念得好，推理结果就好。提示词通过语言大模型可以不断地预测生成下一个token。因此我们今天将其称为生成式的AI，简称AIGC。

AI教父杨立坤则认为，人类的知识绝大多数与语言无关。因此，AI应该是生成多模态，而不仅仅是语言。所以，MidJourney就不是预测下一个token，而是下一个像素。Sora则是预测下一个时间/空间的像素块。

著名物理学家费曼曾说过，凡是我不能创造，就不能理解。生成式的AI是通往理解世界的一条新路。在具备生成能力之后，我可以把多模态数据输入模型，反过来形成文本的理解，从而形成理解能力。

AI既能够生成，又能够理解，就形成了交互能力。GPT-4o就具备了边看边听边说的实时交互能力。它的秘密是端到端、多模态的大一统模型。

原先的处理方式是语音和视频分别通过一条链路变成文本，然后再处理文本，再生成语音。在这个过程中，语音中包含的情感信息和视频中包含的周围元素信息变成文本后全部丢失。

但是GPT将这个过程转化为端到端，一端语音和视频完全无损地进入多模态模型，另一端直接生成语音。

后面我们可以看到，这种端到端的多模态大一统模型还会反复出现。

3.GPT大模型的现状和局限

我给大家总结GPT大模型的现状和局限：

1.善于回答发散的问题，不擅长单一标准答案、事实性/专业性、需要逻辑严密/严格推理的问题

2.从记忆到联想，从预测到推理，从归纳到演绎，从相关性到因果性

3.应用从短时长的情感陪伴、聊天开始，最早激发了媒体和游戏，然后在生产力领域(编程和设计)，逐步走向长期陪伴、严肃2B应用

4.单点任务能力达到人类95%以上水平，复合型业务还需要人来做拆解和整合，是否能在1、2年内有所突破会影响未来的使用。

5.基于大模型的决策缺乏透明度和可解释性，影响其在关键任务中的应用。

6.与现实物理世界脱离，无法具象地理解物理世界，也就无法与其交互。

解决第5、6个问题，需要从思考，到交互，到行动，来到物理世界之中，这就是具身智能。

二、从思考、对话到行动，具身智能具有最大的想象空间

1.交互和运动的智能是进化的必然

具身智能是智能系统或者机器能够通过感知和交互与环境进行自主互动的能力，为什么需要这种能力？

首先躯体对生物进化非常重要，寒武纪智能大爆发的原因之一正是生物进化出的眼睛能感知环境。他们也进化出更加可靠的躯体以生存。人类在不断与恶劣环境的交互和运动中形成智能进化。

人的小脑中有690亿个神经元，它们先解决了运动问题，然后才发育出来大脑皮层，大脑皮层只有160亿个神经元，大小脑的协作逐步进化出人所有的智能。

智能会在身体与环境的互动中进一步发展，人类历史上大脑与身体协同进化：

为了大脑的发育，人开始直立，地心引力让大脑还没发育完成时就促使孩子来到世界，在与世界的互动中进一步发育智能，并带来了一系列连锁反应，比如丧失了速度和平衡性，又带来膝盖和腰椎的问题。

行为学的研究发现了很多大脑与身体行为的有趣分工和协作。例如学生时代，老师经常教育我们不要转笔，大人教育我们不要抖腿。

事实上，人天生是要不断运动的，让人不动就需要前额叶不断地发指令说不要动，这会导致大脑的认知负荷的增加，反而不能集中精力学习。

再比如义肢虽然不是身体的一部分，但是因为需要靠义肢协同身体运动，在这个过程中会产生具身感，即身体与环境的交融感知，让人认为义肢是自己身体的一部分，义肢受击会产生疼痛感。

2.具身智能对于人类征服世界很重要

古话说：读万卷书，行万里路。人们不能仅停留在图书馆，人工智能也不应该局限于GPT，而且一个纯比特的世界不值得拥有。

在科幻小说中超级智能虽然是数字的，仍需要具身的机器人来帮助控制物理世界，因此Matrix有机器章鱼，天网有T-800终结者，“我，机器人”里的Vicky有NS-5型机器人。它们在统治虚拟世界之后仍然希望进一步控制现实世界。

最近网络上有人质疑人工智能的方向是否错误。原本我们期望人工智能帮助我们洗碗、扫地，这样我们有时候可以写诗、画画。然而，今天人工智能开始帮助我们写诗、画画，而我们只能够洗碗、扫地。因此，我们要开发出来真正能洗碗、扫地的具身智能，才能真正有诗与远方。

3.具身智能的运行逻辑

具身智能主要通过感知、决策、规划、控制形成反馈完成闭环。目前主要有两种具身智能，一种是带形体的物理世界的机器人，另一种是不带形体的智能体，虽然它也能够控制物理世界。我们今天更注重前者。

传统机器人可能仅会控制，但是有一定反馈。例如达芬奇的手术机器人完全依靠人眼观察和遥控，形成一定的手感，这就有了初步的控制和反馈。

自动化更强一点的机器人不仅包括控制，还包括规划。例如工业机器人的每一步需要将机械臂放置到何处以及完成什么任务，这就是规划。

最完整的反馈链路中感知非常重要，如同人面对镜子练习跳舞一样，通过观察了解自己动作是否到位，来不断调整和优化。Kuka机器人与世界冠军波尔之间的乒乓球大战被誉为机器人历史上的最佳广告，虽然比赛未必真存在，但是我们看到具有完整感知到控制到反馈能力的机器人是极其惊艳的。

比规划更高级的是决策，决策需要一个任务目标，将任务目标的what转化为决策规划的how，再转化为控制，这非常重要。在这个过程中还需要进行评估，评估每个动作是向好的方向前进还是向坏的方向前进，这样就可以通过反馈来调整。

这条链路每一步都做扎实后，下一步可以训练成为端到端网络。端到端模型是人类最终常用的模型。初学技能时一定要逐步拆解，例如投篮第一步、第二步、第三步等。

一旦我熟练了，它就变成了一种端到端的网络，投篮时仅凭一种感觉，变成了本能的肌肉记忆。这就是丹尼尔·卡尼曼在思考快与慢中提到的系统1，人可以通过本能熟练的肌肉记忆、低功耗地完成任务。

实际上具有智能学习的方式有三个：

第一个路径是按照教程学，通过拆解步骤逐步学习每一步该如何操作。

第二个路径是摸爬滚打，如同小孩在学走路时，通过摸爬滚打强化学习。其中有奖励函数，例如如果你做得好，父母给你一块糖，如果做得不好，自己摔疼了就变成惩罚。

第三个路径是模仿学习，即父母给你做一个样子，你跟随这样学习，慢慢地就会学会。

4.人类的具身智能伙伴

一旦拥有具身智能，未来我们有哪些伙伴？

第一个伙伴是秘书，他负责你与虚拟世界的所有交互。未来你不需要手机上十几个APP，只有一个agent智能体，或者是你的代理人。这个智能体负责你与虚拟世界的所有接口，购物、出游攻略、订机票、甚至一些公务来往都可以靠她。

第二个伙伴是司机，他是自主驾驶汽车的好手。第三个伙伴是管家，他是你的家政服务机器人。当然，还有很多提供公共服务的机器人，例如环卫、手术、公交、配送等。

马斯克和黄仁勋都是对机器人非常痴迷的知名人物。马斯克认为去火星，第一批的建设可以大量派机器人过去。黄仁勋之所以对机器人着迷，是因为他认为我们未来要跨越星系进行太空旅行。

在漫长的太空旅行中人最好处于冬眠转态，甚至人只是一个胚胎，而驾驶飞船的是机器人。

三、自主驾驶，具身智能的第一个Super App

自主驾驶是具身智能第一个Super APP，我本来想用Killer App，但是Killer对于自主驾驶不吉利，所以用Super App。

那什么是自主驾驶？

1.自主驾驶的定义

无论是人工驾驶还是系统驾驶，我们都称之为智能驾驶。我将驾驶细分为左边由人负责、辅助驾驶，右边由系统负责驾驶。

系统负责驾驶中最大的圈叫无人驾驶，即车里没有人。无人驾驶有一小部分在左边，即有人远程遥控的无人驾驶。

另外两个圈是自动驾驶和自主驾驶，它们有何区别？自动驾驶具有很强的环境可控性和确定性，而自主驾驶则是完全在不确定的环境中驾驶。

人们对自主驾驶的想象最早可以源于电影Total Recall(全面回忆)中的机器人出租车司机。车还是原来的车，只是由机器人司机驾驶。

在学术和科研方面，人们曾考虑机械臂/踏板外挂的方案，甚至将其应用于越野挑战赛。美国2004、2005年的DARPA大挑战赛，孕育了现代自动驾驶技术。

2.硬件和软件的双升级迭代

2015年发生了三件事，第一件事是优步的CEO卡兰尼克坐了谷歌的无人车之后，立马挖空卡耐基梅隆国家机器人工程中心，创建优步自动驾驶部门。

第二件事是特斯拉AutoPilot上市，成为第一个面向大众的智能驾驶产品。

第三件事是百度“无人车”上了五环。一年之后，我们认为自主驾驶很有可能成为具身智能的第一个Super App。

自主驾驶为何从一个不靠谱的实验室项目脱胎换骨成为具有智能的第一个App？在硬件方面，电动车与智能驾驶是天造地设的结合。电动控制更加精准，延迟更短，更重要的是传统燃油车蓄电池拖不动智能驾驶的巨大算力。因此，电动车的发展首先为智能驾驶的商业化创造条件。

软件定义架构带来无限可能性。传统车辆可以理解为分而自治模式，即拥有70多个ECU，类似于70多个小国家，每个国家都自治，相互之间很少联系。例如有一个ECU专门控制雨刷，它能够感知雨量的大小并控制雨刷的速度，这是独立的硬件。

特斯拉最早意识到，车前面有一个摄像头，在摄像头上安装一个名为Deep Rain的深度学习算法，就可以知道雨量的大小，何必需要独立的ECU？

因此特斯拉为车制定了一个中央集权架构，把一个个分治的小国家（硬件）变成相互协作的机构（软件）。

这时候带来的好处有很多，大家可以想象一下，通过摄像软件模块知道雨量变大，马上可以通知天窗和门窗软件模块：下雨了，你赶紧把窗户摇上去，同时通知导航模块：赶紧换一条路，不要那么泥泞的路。还可以通知刹车模块进入到湿滑模式等。这样一个中央集权的全局智能，也产生了很多新的模式，因此软件定义非常重要。

同时传感器越来越强，精度提升，并且越做越小，成本也从七八十万变成了几千块钱。

最后，随着时间的发展，算力也成为了一个基础设施。2021年蔚来推出了一款车，它具备1016tops算力，即每秒1016万亿次计算。当时有人开玩笑表示这辆车晚上停在车库里，可以挖掘比特币。如果未来所有车都能够联网，那么将形成巨大的超级计算机。这个超级计算机的算力是今天最强计算机算力的几十万倍。

这些因素导致自主驾驶的商业化已经万事俱备。然而它的发展并非如同我们预期的那么顺利。

3.AI是无人驾驶的关键任务

早在2015年，各家企业都制定了3年到5年计划，认为3年、5年后就能全部完成。然而8年后，无人驾驶需要副驾驶一个人或者车内无人，这意味着还需要寻找很多远程司机对车进行管控。

实际上，8年之后我们想象的目标并未实现。马斯克今年又放出了一个大炮仗，他表示在中国的良辰吉日8月8日推出真正的Robotaxi。然而，马斯克从2019年就开始这样表述，2020年、2022年、2023年都在年底，每年都说今年年底会来，但是一直没来。

为何一直未到达？99分相当于0分。

许多创业公司都深有体会，我们第一年达到90分，第二年达到99分，这时股东非常高兴认为投资这家公司有价值。然而第三年、第四年、第五年、第六年仍然是99分，最后一分非常难拿，需要99%的时间。另外，我们必须保守，因为一起致命事故轻则一家公司倒闭，重则整个行业全倒退。

这里面还有一个关键任务AI的概念。大家在未来观察AI时需要先确定它是否为关键任务。

如上图所示，四象限中下面是非关键任务，上面是关键任务，左边是虚拟，右边是物理世界。

例如与小冰聊天时，它是虚拟的非关键任务，胡说八道都无所谓。人脸识别可以是非关键任务，识别错误也无所谓。如果刷脸付款，它就逐渐变成关键任务。

物理世界的扫地机器人并非关键任务，但如果家里宠物拉屎拉尿，那就变成一定程度的关键任务了。虽然国外人喜欢自动割草机器人，但是它最大的问题是将小动物卷入其中，这就变成关键任务了。

虚拟的量化交易，例如高频交易，一旦出现bug，可能几千亿美金就灰飞烟灭，毫无疑问是关键任务。当然，最难的是既是物理世界，又是关键任务，比如自主驾驶。

目前自主驾驶有三种发展路径。

第一种是登月派，他们认为首先要完成最难的L4，然后在一定的地域内实现，再扩大到全域。

第二种是飞轮派，他们认为自己无法一步做到L4，首先做L2的辅助驾驶，这样就可以全域销售，形成数据飞轮快速迭代进化，终于有一天能够到达L4。

第三种是进化派，更适合创业公司，可以先做相对低速的L4，只不过它在一定的限定区域里，比如机场、矿山、港口。虽然市场相对较小，但是能够赚钱，形成商业化闭环，下一步再逐步扩大到开放道路。

① 登月派

这三个门派之间也存在鄙视链，登月派总是嘲笑其他两派，而且说的话特别难听，说我们是要去月球的，你们都在造梯子，你造梯子能上月球吗？还有说你别以为天天努力地学跳高，有一天就能飞起来。

虽然从登月派领袖Waymo的各种数据中我们觉得他们很了不起，1.7万英里一次接管，按我们平时开车来看，得1年多才出一起事故。但是问题是现在，意味着获得一个新数据的成本太高了，我得开1.7万英里才获得一个新的数据。

同时，1.7万英里一次接管，离美国人还是有差距，美国人25万英里出一次险、50万英里出一次警，150万英里有一次致伤，9400万英里才有一次致命。

② 飞轮派

我们可以认为，单车成本高，车队规模有限，数据积累慢、成本高，目前登月派还是处在一个商业实验阶段。因此我们基本上认为登月派肯定是没办法匹敌飞轮派的，因为只有在大数据统计意义下证明比人安全，才可能大规模推广无人驾驶。

什么叫大数据统计意义呢？比如说2016年特斯拉车主打开Autopilot出现了一次致命事故，特斯拉的博客给自己辩解说：你看看我开了1.3亿英里才是撞死了一个人。人类是9400万英里撞死一个人，我不是已经比人强了吗？

但是我们如果懂得统计学的话，就知道它的数据样本不够。如果第二天又撞死了一个人，1.3亿除以2就变成6500万英里，他的这个声明就不成立了。

兰德公司做了一个数学模型，引入了一个概念叫置信度，假设你要有95%的置信度证明无人驾驶比人安全20%，那需要110亿英里来去证明。而110亿英里什么概念呢？1000辆车不吃不喝不睡不停地开要开 50 年才能完成一次证明，所以这几乎是不可能的。当然，特斯拉如果有 200 万台车，他只需要不到半年就可以完成这个证明。

从美国监管机构的数据来看，特斯拉接近1年的时间里在美国造成了273起撞车的事故，而其他的车厂特别少。很多人以这个来diss特斯拉，但是大家都不明白，数字时代的特征是迭代，你只有用得越多，犯错越多，学习迭代才更快，才能够激励大家用得更多。

正因为特斯拉使用辅助驾驶特别方便，才会有大量的里程，犯错带来成长。如果不好用、不鼓励人用，你肯定不会成长。

特斯拉其实具备了这样两个优势，一个叫数据闭环，类似草船借箭，比如说谷歌有1000台车，它必须自己买1000台车，请1000个安全员来去发现问题。

特斯拉把数百万辆车卖出去了，让车主来帮我发现问题、保障安全。另一个叫影子模式，又叫做借假修真，表面上是人在开车，其实后台的算法也在悄悄地跑，并且跟人开的结果进行比较，简单来说就是让车主变成了驾校的教练。特斯拉通过这两个方式真正形成了数据飞轮，并且发明了很多新的算法。

如果仅止于此，它还没有解决长尾问题，因为车端算力只能够用小网络，虽然是有1亿个参数的网络，但是做不到举一反三。比如，特斯拉说，你看我100 万英里只有0.2次crash，就是相当于500万英里有一次撞车。人来驾驶的话，大概是200多万英里一次撞车。

但是大数据有时候是会骗人的，大家可以看到2021年二季度Autopilot打开的情况下441 万英里发生一次撞车。未打开的情况下，205万英里发生一次撞车。

我们似乎可以马上得出一个结论，打开Autopilot果然好。但问题是：第一，这个441万英里是人再加上辅助驾驶一起获得的成绩，并不是只是辅助驾驶带来的；第二，打开Autopilot在高速和环线的场景上一般比较简单，没打开的时候在城市的一般比较复杂。

如果我们再看看再看2020年的四季度和二季度的数据对比，会发现变差了。当然这里面有很多原因，但是总的来说，特斯拉现在还是L2。

一直到这个时间为止，特斯拉所有的竞争对手都可以学，但是到下一步的时候，特斯拉祭起了端到端大一统网络的绝招。

这个时候，特斯拉展现了它巨大的优势。首先它有数据有100万个10秒长的视频片段。第二，它有算力，还有5760块A100的卡来计算数据。基于强大的算力和数据资源，以及端到端的模型，特斯拉在加速的进化，特别体现在最高级别的城市智能驾驶FSD上。

从车主上报的数据来看，特斯拉最新采用了端到端的技术在城市里面能够 260 公里有一次危险接管，这在全世界都是非常有优势的。

最新的信息让我们怀疑不排除自主驾驶也面临 ChatGPT 的时刻：

第一，它的训练算力增长了10 倍以上。从5760块A100，到近10万张H100。

第二，它的训练的数据增长10 倍以上，从100万个视频到了几千万个。

第三，它的车端可用算力增长了5倍，从144TOPS 变成720TOPS。这意味着可以跑更大的模型。

马斯克宣称，下一个版本的FSD其接管里程也有5倍到10倍的增长。这就是所谓的Scaling Law，算力大，数据大，模型也大，最终智能也大。

特斯拉看到了这个机会，因为基于大模型的自主驾驶才代表着终局。大模型先是海量数据的预训练学习，就好比我们人生前18年的社会阅历，对世界的认知，大模型训练第二步是专家来指导、微调，这类似我们进入了驾校由教练来教，大模型训练第三步人不断反馈的强化学习，就像我们拿到驾照后磕磕碰碰，边开边熟练。

因此，大模型的训练模式和人学车的逻辑是一样，所以它可能代表了自主驾驶的最高形态。就像丹尼尔·卡迪曼在《思考，快与慢》中提到的慢系统或系统2，大模型是深思熟虑、需要高算力、高功耗。结合前面低功耗、低算力的本能状态端到端自主驾驶模型，就形成了完整的自主驾驶终极框架。

我们绝大多数时间开车是端到端的形态，脑子里想着事、听着音乐，轻松开车，但一旦碰到特殊情况，就得调用更费脑的大模型模式，小心翼翼开过去。

如果特斯拉失败，上百亿美金投资进去失败，那他的股市的压力非常之大，如果他成功，这个赛道的大小公司都会被甩开。

我们再回到马斯克说的8月8日Robotaxi，因为责任认定、评价标准，是否有公信力的第三方来比较与人的安全水平等这些东西都还没成型，所以我们认为三年之内还不会有大规模的Robotaxi运营。

③ 进化派

在未来的两到三年之内，进化派可能会跑得更快，因为他们在一定的区域之内先实现了L4，比如机场中无人驾驶的行李和货运拖车、无人驾驶巴士等，在矿山和港口也有了一些无人卡车，无人配送车、无人环卫车也在最后5公里开始了运营。期待他们也慢慢进化到终极的自主驾驶状态。

四、大众期待的人形机器人还有多远？

我们从汽车行业出来再看机器人，会发现这两者有不解之缘。本田做了一个机器人叫ASMO，因为他们有一个设计师从小迷阿童木，所以他做了一个人形机器人。波士顿动力也以机器人著名，而它曾经属于丰田，现在属于现代汽车旗下。当然最近的是特斯拉的擎天柱人形机器人。

为什么汽车厂跟机器人有不解之缘呢？因为机器人对汽车制造商来说，代表着更难更高层面的挑战，同时又能利用汽车的工业体系和供应链。

Robot这个词源自捷克语，有强制劳动和奴役的意思，但是它不代表Robot一定是人的样子。而真正英语当中描述人形机器人的词是大家熟悉的另外一个词——Android。没错，安卓才是真正代表人形机器人的词。

1.2016年与2024年的机器人对比

说到安卓，不得不提安卓之父安迪·鲁宾，他在做完安卓系统以后，主管谷歌X实验室的机器人部门。当时他一口气买了8个机器人公司，其中一家公司的机器人是自动叠毛巾的。

但是这样一个机器人就要40万美金，其中一个底盘3万美金，一条胳膊4万美金，一只手1.5万美金，可是里面真正跑算法的两个CPU才几千美金。所以它贵是贵在机械部件等方面，而这些机械部件不像电子部件，它是没有摩尔定律的。

当时我一看那么贵、又没有摩尔定律，就放弃了想在机器人赛道创业的想法，但是那个时候大家并不这么想，安迪·鲁宾的一系列操作让人感觉机器人的时代要来了，很快DARPA搞了一个机器人挑战赛。

机器人挑战赛的背景是模拟核电站发生泄露以后，要派机器人去完成一些特殊的任务。在挑战赛中我们可以看到，在一个不确定、非结构化的环境里面，机器人的适用性还差得很远。

2012年初富士康说要三年用百万台机器人，但是两年以后计划受挫，如李泽湘老师所言，富士康错误地把汽车机器人制造行业技术用在了3C行业，而汽车制造行业的精度是0.05毫米，但是苹果手机对精度的要求是0.02毫米。

另外一个问题是投入产出比，汽车当中的机器人在投入之后可以五年回本，因为汽车一款车型会用五年。但是手机的生命周期可能都不到半年。

那么，什么是真正技术可行、成本可控、具有商业化价值的机器人呢？主要有如下几类，第一是简化行走机构，能够简单交流的前台接待机器人，第二是去掉移动，在工厂里能够跟人协同的机器人，第三是精度提高，能低延迟远程操作的手术机器人。

罗德尼布鲁克斯是研究机器人的科学家，作为扫地机器人iRobot的创始人，他在商业上获得了成功。他又做了一个协作机器人公司Rethink Robotics，这个机器人公司没几年时间就拿了几亿美金，但是又很快倒闭了。倒闭的原因就是过于激进的降本导致精度和稳定性下降，从而无法满足协作场景中实用性的要求。

现在是2024年了，跟2016年又有什么不一样呢？我想硬件跑在前面，第一就是零部件的精度提升、速度效率的改善，成本的大幅降低。第二个是轮式或者小型四足双足的机器人已经开始规模化的生产，比如机器狗。第三是传感器和算力在提升。

软件这一块，特别是深度学习、强化学习，再加上大模型的认知理解和多模态的交互，2024年的机器人技术和商业化条件已经极大改观。

波士顿动力的一个四足机器人在当时是几十万美金，而现在他们已经有7万多美元的量产产品。而最近大火的Mobile Aloha，大家还可以在亚马逊上搜它的原材料包和工具集，一套只需要不到3000美金。整个供应链的成熟使得机器人的成本已经大幅的降低。

2.人形机器人的构造与设计

为什么这一轮的热点围绕着双足人形机器人呢？很大的一个原因是整个社会的基础设施就是为人而设计的，把意味着服务于我们的机器人必须适应这个基础设施。

同时，基于我们对机器人通用性的要求，人形是最佳的，与这个社会集成的成本是最低的，也最容易被社会接受的。更重要的是，人的行为模式为机器人提供了学习的无限数据。

机器人的始祖莫拉维克提出了一个悖论，要让电脑如成人般地下棋是相对容易的，但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难，甚至是不可能的。电脑的心智能力的成熟曲线跟人是不一样的。

另外，斯蒂夫·平克曾说，经过35年人工智能的研究，发现到最重要的课题是“困难的问题是易解的，简单的问题是难解的”。此话怎解？我给大家分解一下：人形机器人主要的动作是靠下身的腿和上身的胳膊与手。

下身是腿负责移动，那么腿到底是四足还是两足？四足机器人的稳定性、平行平衡性更好，成本更低，十分适合户外，但是不适合人类的环境。目前两足机器人的腿可以设计成人腿的样子，也可以像鸟腿。但是无论是像人腿还是鸟腿，它都是弯的，这是为了更好的平衡，更好去控制。值得注意的是，一个机器人为了保持静止的站姿，也是消耗能源的。

还有人说会不会可以有轮足啊？就像哪吒踩着风火轮一样，在平地上可以跑得更快。没问题，这就是我们在不断地想象的部分，拆解下来就是一个双足机器人加一个自平衡车。

上身的胳膊和手负责操作的部分。首先是胳膊，胳膊有几条比较合适呢？像做手术的时候是越多越好。但是单胳膊也有自己的好处，对于协作机器人可以和人达成更好地配合。

但是人完成任务很多都是靠两只手、两个胳膊的配合，单胳膊的机器也只能完成一些简单的任务，所以我们认为两个胳膊的机器是最理想的。

接着是手的部分，比如机器人的手是一个吸盘，或者两个手指的夹爪再加上360度旋转，这是目前最常见的形态。如果说物体是很软的，最好用四个柔性的手指夹，上述的设计基本上能够完成人的绝大多数的动作。

有公司完全按照人的五个手指或四个手指（小指用处不大）去设计灵巧手，在一个机器手上需要支持几十个自由度，是很挑战的，不仅仅需要更复杂的操作，而且特别容易坏，目前还不适合大规模应用。

那么机器人的移动和操作是照抄自然界鬼斧神工的进化结果，还是跳脱自然的演化轨迹、结合机械特质重新设计？事实上还有一种操作就是机器人根据环境和自身的能力来去自己去演化出来一种运动模式。比如在家里上楼梯，就可以有很多新的模式。

如果我们再回到三大路径，分阶段训练模式在今天的机器人当中就不太有用了，而后面两种模式在机器人当中大量的使用。

比如DeepMind的强化学习就是假设这个人进化伊始不知道怎么跑，就通过强化学习训练出来最好的跑步模式。再看这个案例，有了英伟达的算力，可以进一步细致模拟人体的肌肉肌腱结构，只需85分钟可以从0训练成跑步健将，并理解肌群发力规律。

再比如机器人的模仿学习，现在通过人的远程操作，机器人在这个过程中不断学习。一旦学会了以后，就要把这些动作形成肌肉记忆，变成了端到端。

基于Transformer的算法，把人类操作分解成上千个小的动作序列，生成准确而平滑的动作轨迹甚至提取到人动作的风格，是果断、用力还是轻巧、小心，学习15分钟或者50次，就能够形成一定成功率的自主完成任务的能力。当然，虽然视频看着很惊艳，但实际成功率还不算特别高，就拿Mobile Aloha来说，目前“烹饪虾” 40%的成功率，“清理溢出红酒”95%的成功率，“开橱柜放锅”85%的成功率。

机器人的通用性、速度和准确性这三个不可能全部实现，但是通过不断地优化，成功率会逐渐提升。当然，最后需我们还是希望机器人成为移动的腿、操作的胳膊与手、交互、自主完成任务的结合体。

苹果的创始人史蒂夫·沃兹尼克有一个咖啡测试，他说机器人走进任何一个普通的美国家庭，如果能够找到咖啡机，找到原材料，自主地把咖啡做出来，那么它就跟图灵测试一样，说明机器人的时代来临了。如今有89%的人认为2040年前这一天会来临。

3.机器人真的要像人吗？

说了这么多人形机器人的功能，最后再问大家一个问题，机器人是不是真的要特别像人？是像人一样好，还是呆萌可爱点好？

这就涉及到机器人当中的一个恐怖谷理论。随着机器人越来越像人，人们对它的喜爱是增加的，但是到了一定程度的相似性后，人们的喜爱度就开始下降了，觉得对方像僵尸，一直到你分辨不出来是人还是机器人的时候，喜爱度又上升了。

如果像人，机器人要面临一个很重要的问题是情商、眼力界。有人说最好的机器人是集和珅的察言观色，以及纪晓岚的风趣幽默于一体。当然这里面就需要机器人的五感能力、情感识别的AI算法、做到英式管家的眼力界，并且有恰如其分的情感反馈。

那么，我们距离一个真正可商业化的通用人形机器人多远?我认为还很远，应该还有5 年到 8 年的时间。

当然在这过程当中其实还有具身技术的另外一种路径——知道自己的身体想要什么，并且放大它。

比如说可以帮助残疾人行走的外骨骼，这种具身技术不是一个机器人，但是也是非常有用的。还可以有一种增强体力劳动者力量的外骨骼，穿戴之后比自己的本身的力量强大很多。

五、准备好迎接自主驾驶和机器人，以及AGI了吗？

我们认为这些技术对社会带来的价值是巨大的，因为它解决了我们亿万人的痛点。

1.自主驾驶的无限畅想

今天交通的痛点是堵车，又导致大量的废气排放，今天一辆车正常行驶的时间，在它生命周期当中只占2.5%。那时间都去哪里了呢？95%的时间是停在停车位，还有0.8%的时间是在找停车位。

当共享出行成为主流，未来的某一天，你的车在你需要的时候自己用，不需要的时候在外面跑，晚上还可以自己停到停车场，这样就解决了停车的问题。

今天一辆五座车平均坐了1.5个人，未来可以变成两座的小车，而且可以像雁群一样排得紧紧密密地跑。这样不仅减少风阻，而且单个车道的密度可以极大提升。再加上大数据的计算，十字路口可以不停车通过，让城市通勤的平均速度极大提升。

另外一个痛点是每年交通事故会死亡100万人以上，有了无人驾驶以后，可以减少90%以上的交通事故，这和AI司机有千亿公里的经验，百万年的驾龄，不自私、不疲劳、不路怒，没有酒驾有关。

2013年全社会的物流成本18.2万亿，每个公民承担了 1.3万元。有了无人驾驶以后，会使得物流的成本极大地降低。无论是干线的物流，还是末端的物流，未来有很多小机器人在送物流，而且用的是新能源。马路上会专用的车道支持无线充电，同时有很多无人驾驶的移动充电宝来供电。

自主驾驶还会激活零售业，记得我大学时期晚上出校门的时候，没有星巴克，有煎饼果子、臭豆腐等等，但是未来有了自主驾驶以后，你可以随时把这样的美食车叫到身边来。每一辆车都可以是一个移动的餐厅、移动的办公室、移动的棋牌室。你要买鞋，又为自己的脚非标而烦恼，那么鞋店可以开到你家门口。你在景区突然内急，一辆无人驾驶的厕所可以从天而降。

你的通勤变得更加丰富多彩，可以叫一辆移动影院车，移动KTV车，或移动按摩车，甚至是移动健身房，车在路上跑，你在车上的跑步机上跑。车来的时候甚至还带着一杯小酒，社会学家预测因为无人驾驶，酒类的销量会提升30%。

2.让城市成为活的城市

未来的城市可以变成一个活的城市，你只需要一块空地，然后开来很多的商业车辆，围成一个同心圆，中间是拳击赛，你可以边看、边做各种消费。这不由让人想起幼时农村的打麦场，晚上可以放露天电影。

你坐着一辆无人车去一个风光宜人的地方，到了目的地，车辆安营扎寨，底盘自己开走了，这用古人的一句诗，停车坐爱枫林晚，特别贴切。

这样一来，城市里大量被汽车占用的空间就释放出来了，人和物和空间可以相对移动，使得距离缩短，当车里出现丰富生活，使得路途不再漫长，所有的这些会产生一个综合效果，使得房价下降。这是一个对社会的综合性影响。

当然，它也面临着很多的挑战，首先人们接触一个新事物是需要时间的。纽约的第五大道在1900年的时候几乎全是马车，只有少量的汽车。到了1913年的时候，就全部变成了汽车，只有少量马车。我们可以想象，未来有一天你要自己开车只能到赛车场去了，因为外面马路上全部都是无人车。

3.人工智能的下一步AGI距离我们多远？

我们把GPT跟人脑比较，GPT需要数万张卡进行学习，成本非常高，能耗特别大，能够支持的最好模型是万亿级别的参数。我们人脑860亿个神经元，每天工作的功耗只有20瓦，但有100万亿的突触，可以认为是百万亿级别的参数，所以人脑是更厉害的。

但是，GPT可以学习数十万亿的token，一百天就学完了。人就算过目不忘，可能需要 10 万年才能学完这些东西。机器用100天就能进化一代，因为每一个终端都在获得数据，这些数据汇聚到一起能够更快地进化。但人进化得特别慢，长达数万年或更久。

同时，机器新学到一个模型，就可以迅速的可以铺到每一个机器人身上，但是一个人学会了要教另一个人学会，实在是太难了。

从表面上来说，我们认为人工智能会以更快的速度进行进化，未来几年会有几种可能性。

第一种可能性是突破AGI，但是这里面有很多问题，比如说 AI 的基础设施投资能不能到位？比如说数据枯竭的问题，再往下没有数据了，能不能更好地生成数据？

第二种可能性是Scaling Law撞墙了，可能会大量的投资无法收回，股票大跌。这个时候我们如果没有100%的AGI，0.9版的AGI有没有应用场景？大家都转向去找应用场景去了。

第三种可能性是Scaling Law还在，但是能源变成了瓶颈。比如3万张H100训练100天，要花费上亿度电，要知道上海整个城市一天的消耗是5亿度电。所以大家就会寻找可控核聚变等等，寻找新的方向。未来几年就这三种可能性，我们可以拭目以待。

4.人工智能会主宰地球吗？

如果说AGI真的来了，会不会让人类失去对地球的主宰？

我们可以畅想一下，AGI会不会瞬间跃迁，成为超级智能？会不会产生自我意识？是否会遵守机器人四大定律？有没有机会具有“善”的价值观？是不是只有一种价值观？是AI的价值观还是AI创造者或拥有者的价值观？

一旦发现危险，是否能夺回控制：拔电线、网线行不行？人类未来的命运：降临派、拯救派、生存派、反抗派？

那么，在AGI来临之际，我们怎么来去面向未来呢？现在科技前沿有两派，一派叫有效加速派，认为人工智能不可怕，我们只需加速，技术的发展一定对社会带来更多正面，另外一派是有效利他派，认为我们要保守一点，机器人可能会给我们带来很多的问题。

其实我们现在要考虑的是怎么利用今天的人工智能技术，让人类变成更好的人类。比如说人机融合方向，是否从脑机融合、外骨骼开始？金字塔底部人群是彻底失业，还是晋级成为更具竞争力的腰部人群？用新技术强化人脑：能买卖的技能包？

如WSJ想象的：做视网膜植入，恢复/增强视力；做人工耳蜗，恢复/增强听力；读过的内容存入存储芯片，供海马体调用，变成超级记忆者；你甚至可以买个高尔夫球技能包，从小白变成高尔夫球的高手。

5.面向未来的教育方式

今天我们灌输给孩子的很多知识，在明天AI一定是做得更好。所以我们的建议在从四个方面去改变教育。

第一，孩子们的体魄要一定非常的强健，具身智能是跟人的身体相关的，注意力能长时间的集中是非常重要的。

第二，孩子们要具有人情味，如果周边都是机器，一定是缺乏人情味，而更具有人情味的孩子一定是能够在社会当中能够生活得更好的。让周围的人类更喜欢你，是至关重要的。

第三，外面的东西变得太快，孩子们的快速学习能力要增强。

第四，孩子们能不能利用AI放大自己的能力。

我们的社会要准备好迎接具身智能带来的巨大效益，巨大变化，同时也要让人类变成更好的人类，让孩子能够面对一个人工智能越来越强大的未来世界。

我的分享就到这里，谢谢大家。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。