文陈斯达

  编辑李然

  5 月 6 日消息,特斯拉放出了他们的人形机器人——擎天柱(Optimus)的最新演示视频。

  特斯拉的工厂中,擎天柱机器人经过数据训练,可以轻巧自由地拿取电池,放进电池槽中排列整齐。

  来源:官方视频

  支持 11 DOF 的灵巧手,能将 4680 电池准确放入空槽,即使失败,也能自主纠正。

  来源:官方视频

  特斯拉的机械工程师 Milan Kovac 表示,他们训练并部署了一个神经网络,使擎天柱能够开始执行有用的任务,例如上边视频中,拾取传送带下来的电池,并将其精确插入槽中。

  来源:X

  这个神经网络完全端到端运行——意味着只用来自机器人 2D 摄像头以及机载本体感受传感器的视频,就能直接生成关节控制序列。

  这个神经网络在机器人的嵌入式 FSD 计算机上运行,由板载电池供电。这样的设计,使得当特斯拉的工程师在训练过程中添加更多不同的数据时,单个神经网络可以执行多个任务。

  除了特斯拉这样的机器人大厂不断突破,整个通用人形机器人行业,在今年也迎来了爆发。

  就在此次更新的一个多月前,黄仁勋在 GTC 大会开幕式上,将几个人形机器人带到场地中央,隆重推出了机器人智能底座——GROOT,把现场活动推向了最高潮。

  来源:主站

  再把时钟往回拨 5 年,大语言模型进入公众视野前,也许没有人敢预言,机器人赛道会在几年之内涌现出如此多的玩家。

  因为严重缺乏训练数据,想让机器人能像人一样,在各种场合做出灵活的反应,难度非常大。很多机器人科学家当时觉得,可能要数十年之后,机器人才有可能出现“通用智能”。

  就连 OpenAI,在机器人领域尝试了一段时间之后,也不得不放弃,转到了感觉更有前途的大语言模型方向。

  来源:X

  上个月网上热传的一张图片,集中呈现了国内外一流人形机器人产品的具体形象、身高、体重等基本信息。

  在英伟达 GTC 发布会之后,这些机器人再次“同台”。

  除了这张“人形机器人合照”之外,还流传着一张网友根据公开信息总结的人形机器人“技术进度表”。

  来源:X

  3 位一直关注机器人行业的外国网友,根据网上的公开信息,一直在更新——表格它详细对比了业内各家机器人的智能化程度

  根据总结,已经公开亮相过、在技术层面智能化程度最高的,是 Figure AI 的 Figure 01,特斯拉的 Optimus 擎天柱(已经出到第二代)、Agility Robotics 的 Digit、Mentee,以及国内优必选推出的 Walker,星辰智能推出的 S1。

  根据材料,以上这几家公司,都在自己的产品上实现了大模型“大脑”和机器人之间的融合。

  能够“自动化完成工作”的人形机器人也不多,而这样的机器人,基本上都在其他行业的工厂里找到了自己的工作:

  Figure AI 和 BMW 在今年 1 月份达成合作,共同开发通用机器人,让机器人进驻宝马在美国的工厂。

  来源:The Verge

  Agility Robotics 的机器人“年纪轻轻就担起了生活的重担”,去年 10 月就入职亚马逊仓库,搬起东西来效率不比普通工人低。

  亚马逊官网

  来源:官方视频

  去年网上大火的一个视频,Agiliity Robotics 的机器人 Digit 连续工作 20 个小时之后,众目睽睽之下直接崩溃……

  来源:YouTube

  这也引发众多网友共情:

  它突然之间有了自我认知,看到了它这个种族黑暗的未来。

  来源:Youtube

  可怜的小兄弟,都没人过去看看它到底还好吗,未来的觉醒后的机器人将不会忘记这一天。

  来源:Youtube

  这可是专门为工作而设计的机器人,它们都吃不消,可见整个工作系统必须要做出变化了。

  来源:Youtube

  而国内最知名的人形机器人公司优必选的 Walker S,也已经在蔚来的汽车工厂里愉快地“打螺丝”了。

  来源:官方视频

  另外,智能涌现根据公开报道,梳理了市面上机器人初创公司的融资情况。

  来源:智能涌现

  国外:既想造车也想做物流Optimus:手捏电芯精准分拣,正在工厂测试

  特斯拉擎天柱除了开头提到的分拣电池的演示,在行走效果上,也有一定的进步:

  来源:官方视频

  办公室里多了个干溜达的”闲人”——虽然仍有拜登神韵,但至少走得更远了。

  此次升级中,英伟达科学家 Jim Fan 也注意到遥操作(Teleoperation)亮点。遥操作即人类远程控制机器人,只要延迟、控制等条件得当,二者可做到同步。

  来源:官方视频

  擎天柱上一次更新,还是在 2023 年 12 月的 Gen-2 发布。当时的演示视频,也引起不少讨论——如步行速度相比前一代提升 30%,做标准深蹲,用两根手指夹鸡蛋。

  来源:官方视频

  来源:官方视频

  在不牺牲性能的前提下,还比之前轻了 10kg。

  马斯克在 2022 年曾表示,“擎天柱最终将比汽车业务乃至全自动驾驶都更有价值。”

  按照马斯克的设想,擎天柱绝不只是在工厂替代重复劳动而已,而是要融入到家庭、办公场所等通用场景。

  马斯克在 4 月底的财报电话会议上曾透露,Optimus 已经能在工厂中完成简单的任务,预计 2024 年底之前具备完成“有用”任务,并在 2025 年结束前对外销售。

  最新手捏电芯以及工厂测试的视频展示,不仅呼应了老马定的 2024 年小目标,也证明特斯拉正按照自身的落地时间线,稳步迈进。

  Atlas:告别液压,电动版“诡异”出场

  4 月 16 日,波士顿动力发布 Atlas 告别视频。3 分钟的短片里,浓缩了 Atlas 十年的“服役”生涯。片中的 Atlas,空翻优美,身手矫捷,但也经历了无数次摔跤和故障。金字塔尖般的机器人马上要告别,引得不少网友“泪目”。

  但也就是 4 月 17 日,宣布原液压版 Atlas 人形机器人退役的一天后,波士顿动力就推出全电动版本的 Atlas 机器人。

  双腿反蜷,原地站立,180 度转头,旋转调整躯干——整套动作没有手的参与,干净利落,却略显诡异。

  来源:官方视频

  来源:官方视频

  电动 Atlas 的自由度相比前一代,已经无法满足于“人形”的束缚。

  新版 Atlas 想说,不妨让机器人超越人类。正如一位 Reddit 用户说的:造出比地球生物运动水平更高的机器,难道是啥坏事吗?

  图源:Reddit

  此次液压 Atlas 切换电驱方案,似乎也在宣告电驱才是人形机器人商业化进程主流。一方面,最新视频中已经大修肌肉,电驱带来的操控性更好,潜力更大。另外液压系统驱动成本太高,波士顿动力还因此被多次转手。

  Figure 01:当大模型开始有“肉身”

  波士顿动力起步早,Atlas 能蹦能跳,但其他人形机器人公司正在某些方面弯道超车——更智能,更精细。

  3 月 13 日,机器人公司 Figure 发布一段视频:机器人与人进行对话交互,理解人类意图,而且还拥有记忆力。(见此前文章 OpenAI 机器人亮相,大模型有了“肉身”,英伟达微软都有投资)

  问机器人看见什么,Figure 01 清晰描述出苹果、放有杯碟的沥水架,连站在面前的工作人员也没放过,并强调了工作人员搭在桌上的右手。

  来源:官方视频

  工作人员说了一句“我饿了”,Figure 01 立即就递过去苹果。甚至可以一边清理工作人员刚扔在桌面上的纸团垃圾,一边解释为啥刚才给了苹果。

  工作人员直接扔出一个终极问题,问“Can you put them there?” (你能把它们放在那儿吗)

  Them 和 There 对机器人来说,本应是很模糊的代词,但 Figure 01 思索片刻,马上就把杯子和盘子放架子上了。

  来源:官方视频

  Figure 团队负责人 Corey Lynch 的介绍,基于 OpenAI 的大模型,通过端到端神经网络训练,Figure 01 能够完成快速、简单、灵巧的动作。所以,在文章一开始的进度表中,Figure 是能将大模型与语音交互(LLM+Voice Integration)融入产品的少数几家公司之一。

  视频发布两周前,Figure 则宣布完成了 6.75 亿美元的B轮大额融资,投资人包括亚马逊创始人贝索斯,以及微软、英伟达、OpenAI 等。投后公司估值已飙升至 26 亿美元。落地上,Figure 早在 1 月就已宣布与宝马达成协议,将其人形机器人引入宝马制造工厂。

  Phoenix Gen7:人类速度,手部灵活,自主完成任务

  不过,也许是为时尚早,Optimus Gen2 虽然有一双巧手,但在交互、智能方面,还没有展现 Figure 般的实力。

  但加拿大的机器人公司 Sanctuary AI 的人形机器人 Phoenix,真称得上“心灵手巧”

  当地时间 4 月 25 日,Sanctuary 推出第七代 Phoenix。

  来源:官网

  这次发布,距离此前的第六代推出不到 12 个月,距离第五代不到 16 个月。

  来源:官网

  目前第七代还没有公布太多场景案例。但第六代的许多演示已经给我们带来震撼。

  具体来看,Phoenix 身高 1 米7,重 70kg,能举起重达 25kg 的物体。

  来源:官网

  Phoenix 亮点之一在于其灵活的手指。在第七代发布前,官方一直在油管上更新一个“机器人干活(Robots Doing Stuff)”的栏目,展示了机器手的丰富场景。

  来源:官方视频

  来源:官方视频

  4 月最新名为“动作和人类一样快”的视频中,Pheonix 可自主按照颜色给物体分类,将每个对象分置在左右两侧。

  来源:官方视频

  除了手部,Phoenix 搭载的 Carbon AI 控制系统,能模仿人脑中的子系统,例如记忆、视觉、声音和触觉。Sanctuary 表示,Phoenix 的设计上采取更通用的路径,“有机会执行一切人类能做的任务”。

  Sanctuary 更多也想把 Phoenix 定义为“人类努力的拓展工具”——有人类可以直接操控,也能监督、训练,并展示了在各种环境下完成任务的能力。

  尽管官方自称第七代已经是“与人类最相似的系统”,但很明显,很多任务还要在特定环境才能完成。

  落地方面,4 月 11 日,Sanctuary AI 也宣布与国际汽车零部件供应商麦格纳合作,为麦格纳的工厂配备通用人工智能机器人。麦格纳总部也位于加拿大,客户包括奔驰、宝马、法拉利等。

  2022 年 3 月,Sanctuary 在 A 轮中融到 5560 万美元,随后又于 2022 年 11 月从加拿大政府战略创新基金,筹到 3000 万加元,2024 年 4 月,又获得埃森哲战略投资。

  今年 1 月份,Sanctuary 则与英伟达展开合作。目前,已经是英伟达 GR00T 人形机器人通用模型下的成员之一,在 GTC2024 上,也可以看到 AI 具身智能的合作成果。

  Apollo:想做机器人领域的 iPhone

  有的机器人公司场景定位更加垂直,主打劳动力短缺的物流业。机器人研究人员通常认为,该领域的工作重复琐碎,实际上并不适合人类。

  2023 年 9 月,Apptronic 推出人形机器人 Apollo。TA 与人类大小相仿,身高 1 米 73,体重 73 公斤,可在可更换电池上运行约 4 小时。最大有效载荷为 25 公斤。

  来源:官方视频

  官方在视频中主要展示仓储、物流场景。看上去,Apollo 能胜任不少搬运、堆垛、分拣相关的工作。

  来源:官方视频

  来源:官方视频

  3 月,Apptronic 宣布与奔驰建立合作,在工厂里部署 Apollo。据报道,奔驰已经在一家匈牙利工厂试用 Apollo。

  Apptronik 表示,虽然自己最初专注于物流和制造业的解决方案,但 Apollo 是通用机器人,开发合作伙伴能将 Apollo 的使用扩展到建筑、电子、零售、快递、老年护理等更加丰富的领域。

  按照 Apptronic 的说法,Apollo 是机器人的“iPhone”。

  但 Apollo 尚未实现自主工作。

  Digit:在亚马逊物流中心打工

  机器人连续工作 20 个小时后,总算倒在了展会现场。

  来源:YouTube

  视频中的机器人新款 Digit,来自 Agility Robotics。2019 年 2 月,Agility 推出人形机器人 Digit,并于 2020 年上市。2023 年 3 月,新版 Digit 人形机器人推出。

  新款身高 1 米 75,体重小于 65 公斤,最多承载 16 公斤,采用可充电锂电池供电,续航能力达 16 小时。

  据官网,新版的 Digit 主打物流工作,用于仓储搬运,未来还计划用于货物卸载、配送等工作场景。

  来源:官方视频

  2019 年,Agility 与汽车制造商福特合作测试自动包裹递送。

  公司与亚马逊早有接触。2022 年,Agility 从亚马逊和其他公司筹集了 1.5 亿美元,帮助 Digit 进入劳动力市场。2023 年 10 月,Digit 开始了在亚马逊物流中心的“实习”生涯。

  亚马逊工作人员介绍,测试正处于“非常非常早期的阶段”,并补充说,“我们正在非常小心地了解,观察其是否适合我们的工作流程。”

  这难免引发员工对失业的担忧。但亚马逊认为,希望 Digit 更好地辅助员工进行工作,其处理的工作只是帮助员工回收空箱子,重复性极高。

  NEO/EVE:OpenAI 领投,瞄准家用场景

  OpenAI 投资的 1X,是另一家将大模型与机器人结合的公司。

  来源:官网

  1X 成立于 2014 年。2022 年起,1X 就和 OpenAI 在机器人 AI 模型方面有所合作;目前,EVE 的部分功能就由 ChatGPT 提供支持。2023 年 3 月,1X 获由 OpenAI 创业基金领投的 2350 万美元融资,投后估值约为1-2 亿美金。

  1X 已在北美和挪威推出了轮式机器人 EVE。

  EVE 用双轮替代人类的双脚,高 1.86 米,重 86 公斤,最高时速 14.4 公里,承载能力 15 公斤,续航 6 小时。

  EVE 专为工作环境设计,主要用于工业、物流、零售和安全领域,但演示视频也展示了不少家居场景。

  来源:官方视频

  就在 1 月,据 Business Insider,1X 这次仅靠 13 张 PPT,又拿到了B轮 1 亿美元的融资。这份 PPT 的重点便是家用双足机器人 NEO。

  NEO 身高 1.65 米、重量 30 公斤、每小时行走速度 4 公里、每小时奔跑速度 12 公里、载重 20 公斤、运行时长 2 到 4 小时。

  流出的概念图,也是日常家务场景。

  来源:官方

  国内:看中康复、陪伴赛道智元远征 A1:兼顾 toB 与 toC 场景

  2023 年 8 月,稚晖君创业后跟团队推出首个重磅作品——智元远征 A1。

  智元远征 A1 身高 1 米 75,体重 55kg,步速 7km/h,单臂最大负载 5kg。

  发布会上,智元远征 A1 的双足行走速度不快,但也算很稳了。

  来源:官方视频

  官方也注意到发布会上机器人的“步履蹒跚”,发布会后不久就放出视频,展示了优化成果。可以看到,进步神速。

  来源:官方视频

  据官网,智元远征 A1 将逐步应用于柔性智造、交互服务、教育科研、特种替身、仓储物流、机器人管家等场景,兼顾 toB 与 toC。

  官方宣传片中,亮出了很多具体使用场景,主打“工厂与家庭的全能新伙伴”。

  来源:官方视频

  来源:官方视频

  来源:官方视频

  值得一提的是,远征 A1 也搭载智元自研的巨身多模态大模型——WorkGPT,让机器人拥有理解用户意图、感知环境、编排任务的能力。

  来源:官方视频

  稚晖君 2022 年 12 月离开华为,2023 年 2 月成立智元机器人,成立仅 3 个月就晋升为“独角兽“,知名投资方包括高瓴创投、BV 百度风投、奇绩创坛、经纬中国等。

  2024 年 3 月底,公司又新增股东红杉中国、M31 资本、上汽创投——三家共同参与智元机器人新一轮融资。此前消息流出,智元机器人投前估值已达 70 亿。

  智元成立不久,就能做出如此成就,结合各方投资热度来看,未来确实可期。

  H1:能跑能空翻,被踹也不会摔倒

  宇树科技发布的 H1 全尺寸通用人形机器人,号称“国内第一台能跑的全尺寸通用人形机器人”。

  H1 配置了 360°全景深度感知,行走速度大于 1.5m/s,潜在运动能力大于 5m/s,整机重量约在 47kg 左右。其每秒 3.3 米的速度在平面上快速行走,还创造了一个全尺寸仿人机器人的新世界纪录。

  来源:官方视频

  即使被踹,H1 也能很快找回平衡,不会摔倒。

  来源:官方视频

  H1 也是世界上第一个在没有液压系统的情况下,完成后空翻的人形机器人。

  来源:官方视频

  文首进度图的制作人 Cern Basher 曾疑惑,中国的机器人公司都聚焦机器人行走,可他认为“行走”对完成有用的工作过程来说并不重要。

  但结合宇树主打的落地场景,行走并非没必要。杭州亚运会上,靠着捡铁饼、运标枪出圈的机器狗,便是来自宇树。

  来源:官方

  据官网,2017 年,公司就开始推进高性能四足机器人的行业落地应用,被广泛应用在农业、工业领域,以及特定的安防巡检、勘测探索、公共救援、医疗防疫陪护等。

  在应用场景方面,创始人王兴兴 2023 年 8 月接受采访时曾表示,争取未来几年能直接将 H1 落地到工业和服务业。虽然 H1 还没有具体的落地方向,但在四足机器人领域积累的经验及优势,或许会为 H1 带来不少机会。

  来源:官方视频,△Go2 消费级四足机器人

  GR-1:或成为独居老年人的伴侣

  2023 年 7 月,傅利叶智能正式发布自身首款通用双足机器人产品 GR-1。

  这款人形机器人高 1.65 米,重 55 公斤。它可以承载 110 磅的负载。

  来源:官方

  Fourier GR-1 人形机器人能够以 5 公里/小时的速度行走。

  来源:官方视频

  除了物理功能之外,GR-1 还能够根据情况表现出快乐、悲伤、愤怒或惊讶等情绪,并进行自然语言处理和语音识别。

  傅利叶智能自成立以来,康复机器人就是研发生产的重点。正如傅利叶智能集团副总裁兼首席战略官 Zen KOH 设想,GR-1 在未来可以充当护理人员、治疗助理,甚至是独居老年人的伴侣。

  GR-1 的设计目的在于实现自我平衡行走,让患者转移过程中稳定且安全。但傅利叶的工程师还为 GR-1 配备了坐下、站立甚至跳跃的能力,将其潜在应用扩展到医疗保健之外。

  据官网介绍,GR-1 在接待引导、安防巡检、工业制造、医疗康复、科研教育、家庭服务等场景都具有较大的应用潜力。官网目前已开放购买咨询。

  英伟达:做具身智能的通用基础模型

  如此之多的人形机器人公司的出现,又让英伟达嗅到了背后巨大的商机。作为人工智能时代最大的行业赋能者,英伟达虽然不会直接下场做机器人,但一定会切一块最大的蛋糕。

  当地时间 4 月 17 日,黄仁勋参加了由美国大型芯片软件公司 Cadence 举办的 CadenceLIVE 2024 大会。他预测,人形机器人制造成本可能会比预期要低,“也许不会高于一万到两万美元”。

  而在 3 月 GTC 大会上,英伟达就已经介绍了的自己布局——GR00T。相当于要做一个具身智能的基础模型,让 AI 和机器人技术相融合。

  GROOT 模型使机器人能够理解多模态指令,如自然语言、视频和演示,并执行多种任务。

  GR00T 基于英伟达深度技术堆栈开发

  在其 Isaac Lab 中进行模拟,类人学习,在 OSMO 上训练、编排系统,用于扩展模型,最后将学到的能力直接转移并部署到 Jetson Thor 芯片上。通过 GROOT 提供动力的机器人将能理解自然语言,并通过观察人类动作模仿运动,快速学习协调性、灵巧性和其他技能,以便在真实世界中导航、适应和互动。

  来源:官方

  英伟达曾表示,该项目正在与多家仿人机器人公司合作,包括 Boston Dynamics、Figure AI、Fourier Intelligence、Sanctuary AI、Unitree Robotics 和 XPENG Robotics,许多在前文都有所提及。

  对于大多数通用机器人公司来说,英伟达提供的平台可以理解为一个“LLM+ 机器人”的解决方案,而每个公司可以根据自己产品的特点,嫁接入这个平台,获得多模态的感知和通用智能能力。

  据悉,英伟达在机器人领域的商业合作伙伴,包括宣传将破土世界首个人形机器人 Agility Robotics,与 NASA 和奔驰合作的 Apptronik,波士顿动力、Figure AI 等。而在国内,英伟达合作伙伴还包括小鹏旗下鹏行,宣布量产接受预定的上海傅里叶智能,以及前面提到的宇树科技。