来源:智能车参考

  擎天柱机器人,这次自己登场!

  在刚刚结束的特斯拉 2022 AI Day 现场,马斯克押注未来的人形机器人擎天柱(Optimus)——一系列新进展得到披露。

  先是用手指倒计时开启展示,其后缓步登台,有模有样,还展示了一段马斯克最爱跳的举手摇摆舞。

  马斯克强调,这是擎天柱机器人首次独自登台。

  接着就通过视频,展示着这个机器人目前的日常:在特斯拉工厂里搬包裹、浇花、学习各种人类做的事情。

  但作为测试版本,这个原型擎天柱还比较粗糙,线圈裸露、胸口有醒目的电机等等。

  所以紧接着第二版本、更美观的擎天柱机器人也登场了——暂时还不会走,却有更具设计的外观,甚至还给配了一个得州牛仔腰带。

  马斯克对特斯拉机器人的进展相当满意,他说虽然很难,但一定会比特斯拉的车更便宜,要服务于人类生活和经济,成本和售价要瞄准 2 万美元(14 万元)的标准去量产和商用。

  在最后的问答中,马斯克还给出了时间表:3 年量产,5 年商用。

  总之,特斯拉的 AI Day 在经历延期之后,果然不负众望,国内十一假期和国外周五夜晚都没能阻挡热情,数万人在线实时观看。

  而且马斯克家的擎天柱机器人一登场,立马就让不少网友感慨:相比之下,XX 家的 XX 就是个遥控玩具而已呀。

  擎天柱机器人,究竟有何不同?特斯拉 AI Day 上,又分享了哪些自动驾驶和芯片、超算方面的进展?

  智能车参考,带你一文看尽。

  “擎天柱”机器人亮相

  擎天柱首次登场,自己走上台,向观众挥手。

  还跳了一段马斯克最喜欢的举手舞。

  动作还比较生涩,但这已经是目前完成度最高的 AI 人形机器人了。

  波士顿动力?

  马斯克特意强调了擎天柱是第一个没有外部稳定辅助、没有遥控、没有外带电源,完全靠 AI 算法、自身电池电控、高集成的电驱执行器驱动的人形机器人。

  怎么实现?特斯拉在这个项目上有哪些创新?

  一一来看。

  整体情况

  擎天柱机器人身高 170cm 左右,重 73 公斤。整个机器人由一块 2.3 度电池供电。

  电控系统,包括充放电的功率半导体模块,都集成在了机器人胸口的电池包中。

  机器人静坐时,功耗为 100w,快步行走时,功耗为 500w。

  可以估算,这样的能耗水平和电池容量,可以支撑擎天柱不间断持续工作 1.5-2 小时之间。

  擎天柱全身最大实现 200 度自由活动范围。

  负责完成主要任务的手部,有最大 27 度活动范围(腕部)。

  我们看到的这个能走路、挥手、跳舞的擎天柱,是目前的最新版本,没有包覆外壳。

  马斯克介绍,今年 4 月擎天柱第一次实现站立行走,到现在也不过半年时间。

  下一个完成度较高、包裹“皮肤”的机器人,未来几个月内就能下地走路。

  售价吗…马斯克也给出了一个让人期待的估计:

  很可能 20000 美元以内,肯定比汽车便宜。

  擎天柱能做到什么?

  擎天柱 200 多个自由活动维度,由全身 28 个结构执行器实现。

  控制这些执行器的,也是从特斯拉 FSD 自研计算平台衍生而来的 SoC。

  擎天柱机器人能做到什么?

  简单的展示中,能够自己搬运物品,完成精细动作比如浇花。

  通过模仿人类的关节和肌肉工作方式,特斯拉为擎天柱开发了 6 种不同的执行机构:

  甚至可以提起 500 公斤重的钢琴:

  如何使 6 种、28 个不同的执行机构像人一样协调统一的活动呢?

  整体策略:AI 像人学习

  机器人有 28 个驱动机构,基础已经具备。

  但难点在于执行器级别优先度不明确。

  所以需要 AI 模型理解不同任务下各个关节的调动方式。

  特斯拉的方式是采集不同这是任务下的人类关节运动模式,提取其中关键参数,比如扭矩分布、关节旋转角度等等,然后合成一个整体的多维向量数据,并灌输给系统。

  如何让擎天柱完成一个具体任务?

  总体分为两个步骤。

  首先是前面说的将人类的示范动作映射成多维向量,并让系统首先模拟出这个具体任务的关节运动轨迹:

  紧接着,再通过实时系统将已经生成好的轨迹指令,发送到机器人对应的执行机构上。

  但这个过程中,涉及到许多细分技术难题,特斯拉分别介绍了感知识别、行走与平衡、执行策略,以及手部动作几个方面。

  感知:特斯拉自动驾驶同源技术方案

  擎天柱看到的世界是这样的:

  目标感知和识别算法的基础,其实就是 FSD 的相应模块。

  这一部分如何提高识别的准确度和规划擎天柱前进的路线,其实和自动驾驶算法相同。

  “相当于一个低速、两条腿的自动驾驶汽车”。

  后面介绍 FSD 时会详细说明。

  如何保持平衡

  从工程角度看,行走并不是一件简单的事。最重要的是保持平衡。

  其次保持整体动作的协调。

  机器人上如何实现?

  特斯拉开发了一个全新的机器人运动模型。

  预设路线规划好,输入给系统后,系统会自动绘制出机器人的下一个落脚点,并且和整个机器人重心联动,保持迈步同时的平衡。

  不过 ,这里仍然存在工程上的控制挑战。

  如何实现规控

  刚刚说的运动规划,是在理想条件下实现的,只存在于系统模拟之中。

  擎天柱真正迈出这一步,其实很容易受现实世界复杂环境的干扰而摔倒。

  特斯拉的方案是在执行决策中加入修正步骤。

  利用传感器数据的真实性,不断修正运动学模型对轨迹的估计。

  这张图解释的很清楚:

  基本运动模型,由本地已经训练好的算法模块(以真实世界模拟为素材)为基础。

  这个模型首先对环境进行模拟,预测出下一步行动轨迹。然后由传感器数据预测修正。

  最后将修正后的指令发送到执行机构。

  手部复杂系统

  擎天柱手指单独成一个系统,有 6 个执行机构,每个关节实现最大 11 度的自由运动。

  基本灵活性和人类手掌相当,也能做到每秒 300 度的转动速度,而且关节、指尖触点装有传感器。

  能够承重 20 磅(9 公斤)、使用工具,以及抓取细小物品。

  擎天柱明年开始量产,马斯克尽管说它的售价可能不超过 20000 美元,但同时也认为人形机器人的价值其实并没有被大众真实认知。

  所以之前马斯克也在推特上说,最先应用擎天柱的场景,可能就是特斯拉自己的超级工厂。

  关于这一部分,他画了一张很大的饼。

  特斯拉之所以把机器人造成人类模样,主要目的就是取代人类完成几乎所有经济活动中需要的劳动。

  “因为这个世界的所有工具、系统都是为人类的形体特征建造的。”

  而马斯克认为,一旦机器人变成主要生产力,人类完全就能实现个人的全面发展。

  得到你想要的一切物质财富,学习享受一切你感兴趣的东西。

  我们中国群众一点都不陌生,这不就是共产主义吗???

  特斯拉 FSD,和背后的数据闭环

  首先登场的是特斯拉 Autopilot 负责人 Ashok Ellaswamy。

  他表示,特斯拉 FSD 自动驾驶车队规模从去年的 2000,到现在已经扩充到了 16 万。

  紧接着说道,之所以能达到这个成绩,主要归功于过去一年里工程师们的血汗付出——对 75,000 多个神经网络模型进行训练。

  整个特斯拉 FSD 系统由以下部分组成:

  更准确的说,这是特斯拉典型自动驾驶算法的开发流程。

  FSD 的主体算法框架,由车道、障碍物识别算法,以及环境建模算法(可供行驶的空间)组成。

  当然,这些都是已经预训练好的框架。

  然后将经过自动标注、模拟的训练数据喂给算法,这就形成了完整的迭代过程。

  之后将这套算法部署在车端,完成自动驾驶任务。

  接下来还详细介绍了特斯拉 Autopilot 系统如何与现实世界进行交互。

  每 50 毫秒可以实时做出一个决策,具体依靠如下的框架,将其概括为“交互搜索”。

  决策的依据,是现实存在的车道线、以及其他移动的交通参与者。

  根据轨迹预测算法,计算出多种可能的运动轨迹,这里需要用到不同的限制条件过滤掉那些明显不安全、不合规的轨迹。

  这些规则,其实也是 FSD 系统通过巨量的真实道路数据学习得来的。

  而且不仅仅是机械的交通准则,更多是人类老司机处理极端场景时的策略和方法。

  后台训练方面,特斯拉目前的计算集群,由 14,000 个 GPU 构成,其中使用 10,000 个 GPU 来训练,4000 个 GPU 则用来标记。

  关于自动标注,以复杂路口的车道线为例,特斯拉每天有超过 50 万个 case 被收集,如果全部使用人工标注,将耗费数个月的时间。

  所以,特斯拉开发了一种新的系统:3D 自动“打标工厂”。

  第一步,数据从 8 个摄像头处获得,并且使用 Transformer 为基础的 BEV 模型从不同传感器的 2D 数据中恢复 3D 场景。

  然后从这些初步处理过的数据中,先进行轨迹预测。

  第二步,对于多车道的场景进行重建,这里指的是在系统中重建用于模拟训练的场景。

  最后,则是在新建的模拟场景中,标注出新的数据要素,比如其他目标的轨迹策略、车道线的不同形式等等。

  整个流程不过 30 分钟时间。

  标注之外的另一个环节,是模拟。

  重建模拟环境,通常需要几个星期的人工。

  但特斯拉的 Lanegraph 工具,几分钟内就能完成。

  生成模拟环境,基础还是车辆在路径上采集到的真实信息。

  Lanegraph 会基于这些数据,学习到关于某一类道路环境的基本要素(ground truth),包括车道线形式、道路宽度、人行道边界、交通标志信息等等。

  然后,Tile creator 模块会根据这些要素,自动生成一个模拟场景。

  然后,场景中的物体几何信息,与时间维度的实时状态会被提取出来。

  最后,再使用虚幻引擎将这些特征渲染成高真实度的场景。

  有多真实?包括道路标牌信息上的文字、路旁树木形成的斑驳阴影等等都能呈现。

  数据闭环最后一步,就是训练和迭代。

  这张图展示特斯拉整个数据闭环的过程:

  其中,值得关注的是“影子模式”,即车主在使用过程中传回的高价值场景数据。

  这也构成了特斯拉最主要的训练数据来源,也是 FSD 快速进步的最主要原因:

  以识别路口静止车辆这个具体案例来说,真实场景数据远高于模拟场景,一年时间内识别准确率从 85% 左右提升到近 100%。

  这次的 AI Day,特斯拉 FSD 讲了很长时间,但和去年相比,颠覆性技术革新并不多。更多的是特斯拉展示已经建成的高度自动化的数据闭环体系,以及这套数据闭环带来的高效迭代速度。

  有意思的是,这些技术思路,比如对 Attention 机制、Transformer、语言模型化用等新进展,跟国内更早之前自动驾驶公司毫末智行的 AI Day 上的大同小异——也意味着对于自动驾驶的工程化探索,目前业界到了合流的时候。

  最后总结一下:

  数据前融合,采用基于 Attention 的 Transformer 进行。这是一个由特斯拉开创、其他自动驾驶玩家纷纷跟进的趋势。

  模型优化方面,应用了不少 NLP(自然语言处理)领域的思路。

  格外重视的,还云端训练,这就带出了 AI Day 的另一个重要内容:

  特斯拉超算 Dojo 新进展

  这一部分,几乎都是黄仁勋和英伟达的受难时间。

  Dojo 由特斯拉自研计算芯片 D1 集成。

  具体来看,25 块 D1 集成为一个计算模块。

  一个计算模块,相当于 6 个通用 GPU 性能,而成本和能耗,仅相当于 1 个 GPU。

  另外,去年特斯拉介绍了自建超算的基本模块单位 ExaPOD,集成 120 个训练模块,包含 3000 个 D1 芯片,超过 1 百万个训练节点。算力达到 1.1EFLOP。

  当时只是 PPT,最新消息是,明年特斯拉即将在加州 Palo Alto 开建,总共规划了 7 个 ExaPOD 组成计算集群。

  不用说,建成之后肯定是人类有史以来最大的 AI 专用训练、模拟基础设施。

  马斯克在问答中也透露,DOJO 不光会特斯拉自己用,也会考虑 AWS 一样的方式对外商用,总之有这样的大杀器,不愁商业模式。

  问答马斯克

  最后,作为 AI Day 的互动交流环节,马斯克亲自上阵,尽可能回答了所有问题。

  这些问题主要集中在三个方向上:

  第一,擎天柱机器人和通用人工智能。

  第二,自动驾驶。

  第三,马斯克的认知和特斯拉未来。

  我们言简意赅传送如下。

  问:擎天柱机器人现在用的肌腱系统定型了吗?

  马斯克:我们现在的方案是为了更快实现工程化制造,即便有很多方案可以选择但也有取舍,但根本上依然保持开放心态,会在不断迭代中改进方案。

  问:擎天柱机器人会有认知智能吗?比如开开玩笑。

  马斯克:肯定能跟人聊聊天,有简短的交谈,但也不要走到终结者那样……我们希望擎天柱能够安全、有保障地为人类服务。

  现在的擎天柱核心是实用主义的完成任务,以后会推进创造性认知的一面…擎天柱机器人肯定不是无聊的执行器。

  问:如何保证擎天柱机器人的“意识”始终是正确的,不会伤害人类?

  马斯克:我们的机器人跟科幻电影的里的还不一样,主要还是你希望做什么它就执行什么,当前还是比较偏执行的机器人。

  机器人工程师补充:机器人的“意识”一方面可以通过数据训练,二是确保可以远程控制,一旦发现有不对的倾向可以接管。

  马斯克补充:或许会有一个终极控制按钮。

  问:擎天柱机器人的开发还跟加速可持续能源的特斯拉使命有关吗?

  马斯克:严格讲不是一个路线。擎天柱核心还是希望让世界更美好,能够让人类更美好。

  我是真的想看看最酷的最前沿的技术,让世界在 5 年后、10 年后变成什么样……我是真的很感兴趣。

  问:擎天柱机器人正在走向通用人工智能(AGI),你担心吗?

  马斯克:我是人工智能的忠实信徒,并且认为需要像监督汽车、飞机和药物一样,确保 AI 的正确使用。应该有一个裁判的角色,保证 AGI 的安全使用。

  但实现 AGI,可能需要一个史无前例的超大数据集。不仅是互联网数据,还有诸多线下的数据。于是就需要有更大的超算来训练……这样才能实现 AGI。

  问:AGI 的发展预估?

  马斯克:AGI 一定会来。比如 5 年、10 年会有很大的改变,但下周可能不会有大的更新…所以前途是光明的,道路是曲折的,还有很多工作要做。

  机器人的本质是传感器和执行器,以及如何控制执行器。

  问:擎天柱机器人啥时候会投入使用?

  马斯克:现在就已经在特斯拉工厂测试,搬东西,从一个地方搬到另一个地方。

  我希望很快能进入到开放订购的状态。

  三五年吧。三年量产、五年随便买,能够当个礼物送人。

  问:特斯拉 FSD 为什么开始引入语言模型?

  工程师:车道和路口啥的,只能通过语言模型的方式,可以实现更好的……视觉信息的建模没那么完整的时候,语言模型、语言生成模型可以起到很好的作用。

  问:FSD 的公测推送标准?

  工程师:我们会有好几个版本,通过公测推送的不是内部最新的那个版本。

  马斯克:内部最新的版本通常都是我来测,我是 FSD 的首席测试。经常给他们 debug。(现场笑)

  问:特斯拉会始终坚持视觉方案?

  马斯克:自动驾驶的本质就是生物神经网络,你始终可以参照人类的方式。

  问:FSD 的推进计划?

  马斯克:很多国家需要批准才能开始 FSD 测试,但我相信我们已经准备好了。FSD 今年年底还会有大的更新。目标就是一个停车场到目的地停车场的连续自动驾驶。

  问:如果回到 20 岁,你会告诉自己什么?

  马斯克:(认真思考了一会儿),我会想办法给 20 岁的自己说点实用的吧。比如尽可能站到人前,和更多聪明人认识,读更多的书。以及不要太羞涩内向……偶尔送送玫瑰啥的也很好。

  享受每一个时刻。比如我们火箭在小岛研发的时候,该喝一杯的时候就喝一杯,因为那个时刻的感觉转瞬即逝,不会再有了。

  问:特斯拉何以为特斯拉?独特性在哪里?

  马斯克:我们现在是很大的公司了,有不同领域知识的人才,而且我们做的事情几乎都相当成功,因为在做正确的事情。也因为我们的使命是工程师用技术让世界变得更美好。

  其实很多硅谷公司都这么想,但能让工程师真正快乐、且发挥才能的,不多。多数就是被画饼进去,然后得不到有效地成长。

  但特斯拉不是,这里非常酷,也很辛苦,解决很多艰难的挑战,但如果你是一个天才,不管是哪个方面的,总有你的用武之地。

  问答最后,马斯克带动现场参会者感谢了特斯拉工程师们,还讲了一下 AI Day 的意义,说之所以披露大量的细节,就是希望感兴趣的人可以随时挑着看自己感兴趣的东西,加入我们,改变世界。