摘要

  李想没亮相的这场发布会,却展示了其硬核实力。

  随着特斯拉 FSD(完全自动驾驶)进入中国市场的步伐加快,各大车企纷纷跟进,推出自己的端到端大模型方案。

  6 月,理想汽车董事长兼 CEO 李想在 2024 中国汽车重庆论坛上表示,理想汽车将在今年三季度推出无图 NOA(自动辅助导航驾驶),最早今年年底最晚明年年初,推出基于理想自研大模型和 VLM 视觉模型的 L3 级自动驾驶系统。同时,随着这套技术的演进、算力的增强、模型的加大,无监督的 L4 级别自动驾驶至少三年内一定可以实现。

  7 月 5 日,理想汽车举办了理想 2024 智能驾驶夏季发布会。这次发布会李想并没有出席,而是由三位技术专家介绍了理想智能驾驶的现在和未来。

  在发布会上,他们以对话的形式,介绍了最新的端到端 +VLM 双系统智能驾驶模型,通过世界模型的学习和思考环境,这一系统将加速自动驾驶技术的迭代。

  首批推送 OTA 6.0 版本的,是 AD Max 用户图片来源:理想汽车

  同时,理想推出的 OTA 6.0 版本智能驾驶升级,将引入无需高清地图的 NOA 功能,并覆盖理想 MEGA 和理想 L9、L8、L7、L6 的 AD Max 车型,惠及超过 24 万名用户,实现全国范围内的智能驾驶体验。

  目前,多家厂商都在追逐「端到端」,但理想汽车是首个公开技术方案的车企。那么,理想的「端到端」方案到底有何特殊之处呢?

  「紧跟」特斯拉

  作为自动驾驶行业的标杆企业,特斯拉的技术路线一直备受关注。自 2023 年 5 月, 伊隆·马斯克首次公开提到「特斯拉 FSD v12 是一个端到端 AI」,到 2024 年 3 月,特斯拉开始大规模推送 v12 版本,特斯拉的端到端技术不断进步的过程,也见证了中国自动驾驶行业逐渐达成共识的历程。

  尽管行业内对端到端的发展趋势已形成普遍共识,但在具体技术路线上的分歧仍然存在。例如,「模块化端到端」采用监督学习的训练方式,而「单模型端到端」可能更倾向于自回归和生成式的训练方法。

  理想这次公布的自动驾驶方案,有点类似 Momenta 的双系统模式。其理论来源是诺贝尔经济学奖得主丹尼尔·卡尼曼的《思考,快与慢》理论,提到了认知心理学里系统 1 与系统 2 的概念。其中,系统 1 是基于人们过去的经验和习惯形成的直觉,能够迅速做出决策。系统 2 则代表着思维推理的能力,面对复杂问题和未知场景,人们需要思考、推理来解决。总之,系统 1 和系统 2 相互协作,构成了人类认知和理解世界以及做出决策的基石。

  理想自动驾驶系统 1 的演进路径图片来源:理想

  具体到理想汽车的自动驾驶技术架构,主要靠三个部分来实现:系统 1 由端到端模型(E2E)实现,主要用于快速响应常规驾驶问题。这个系统经历了三个阶段:

  • 模块化设计,包含感知、定位、规划、导航、NPN,支持了 100 个城市的 NOA。
  • 无图模式。只有感知和规划两个模型,最大的变化是去掉了 NPN,不依赖于先验信息
  • 类似特斯拉的 One Model 的端到端模型,只有一个模型,输入的是传感器,输出的是行驶轨迹。

  理想智能驾驶系统 2 的技术架构图图片来源:理想

  系统 2 是视觉语言模型(VLM),具备处理复杂场景的能力。它由 Transformer 模型组成,将提示词(Prompt)文本进行分词编码,并将摄像头图像和导航地图信息一起传输给模型进行自回归推理。系统 2 的输出包括环境理解、驾驶决策和驾驶轨迹,然后传递给系统 1 来控制车辆。

  与大多数单帧的 VLM 模型不同,理想设计了流式视频编码器,能够缓存更长时间的视觉信息。此外,系统还增加了记忆模块(Memory bank),可以缓存多帧历史信息,从而解决长时间序列推理时延的问题。

  可以这样理解,系统 2 就像是一位智能导航和决策专家,它不仅能够看到当前的路况和环境(摄像头图像),还能够根据地图信息和用户的指令(Prompt 文本)来进行决策和规划行车路径。

  与此同时,理想汽车介绍了端到端方案的测试和验证方法。一般来说,业内主流的做法是通过 3D 虚拟环境、重建仿真、生成仿真等进行仿真测试。理想则结合了重建仿真和生成仿真两种技术路径。

  可以用一个比方来说明:假设你在准备考试,有两种题型需要练习:真题和模拟题。真题是过去考试中实际出现过的问题,模拟题则是根据考试大纲编写的新题目。真题可以让你熟悉考试的风格和类型,而模拟题可以帮助你应对可能出现的新情况。

  理想的测试方法类似于这个准备过程。他们先使用 3D 高斯溅射(3DGS)技术,像是真题一样重建真实场景,然后利用生成模型,像是模拟题一样补充新的视角。这样一来,他们创建的测试环境既真实又多样,可以更全面地评估自动驾驶系统的表现。

  此外,他们采用了动静态分离的策略,就像是分开练习不同类型的题目:静态部分是环境重建,动态部分则是对动态物体进行重建和生成新视角。通过这种方法,他们创建了一个 360°可编辑的 3D 物理世界,能够模拟各种不同的驾驶条件,比如天气变化、时间不同、车流量等,来全面测试自动驾驶系统的适应能力。

  开城大战继续玩下去

  除了自动驾驶新架构,理想汽车还发布 OTA 6.0 版本的智能驾驶升级,带来无需高清地图支持的 NOA 功能。这次升级将覆盖理想 MEGA 以及理想 L9、L8、L7、L6 的 ADMax 车型,惠及理想超过 24 万名用户。

  在 2023 年,中国智能驾驶行业的焦点集中在「城市 NOA 开城大战」。目前,华为和小鹏已经推出了无需高清地图的高阶驾驶辅助功能,蔚来也推出了全域领航辅助 NOP+ 城区功能。

  理想无图 NOA 的推送节奏,图片来源:理想汽车

  这次,理想也紧随其后。据了解,理想汽车最新发布的无图 NOA(导航辅助驾驶)功能不仅可以在城市和城镇中行驶,还能适应二级道路。相比之前的版本,新版无图 NOA 在 BEV(鸟瞰视图)、感知能力、规控能力以及整体系统能力上都有了全面提升,能够应对更多复杂的行驶环境。

  发布会上,理想汽车拆解了无图 NOA 的四大核心能力,其中最值得关注的是前两个:

  • 哪里都能开。无图 NOA 无需依赖大量的「先验信息」。理想汽车的智能驾驶系统中有许多「小机器人」在运行,虽然部分「小机器人」可能仍需一些先验信息,但整体能力的提升,使得系统能够更灵活地应对各种路面情况,而无需事先验证。
  • 绕行丝滑。该能力结合了时间和空间的双重规划。在实际驾驶中,常常会遇到车辆或行人阻碍通行。这时,「绕行顺畅」能力就显得尤为重要。其背后的时空联合能力,可以同步规划横纵(前后左右)的空间,并持续预测自车与他车之间的空间交互关系。通过规划出「未来一段时间内」的所有可行驶轨迹,筛选出最优、最高效的行驶路径。

  除此之外,理想汽车还对 AEB(自动紧急制动)和 AES(自动紧急转向)进行了多项优化。在日常生活中的低速场景,特别是在地库停车等复杂环境中,用户可能会遇到柱子、墩子等障碍物。理想汽车的低速 AEB 能够在这些情况下自动刹停,避免剐蹭,减少用户的烦恼。

  在高速行驶时,如果前车突然急刹并避让,而当前的车与前车距离过近,无法及时刹停,理想汽车的 AES 功能会自动减速并紧急转向避让。这个功能在“消失的前车”场景中尤其重要,可以显著提升行车安全。

  目前,端到端自动驾驶已经成为行业的共识。华为、小鹏、元戎启行、商汤绝影、零一汽车等主机厂和智能驾驶技术公司纷纷进入这一领域,并在最近半年陆续披露了上车量产规划。

  然而,端到端技术不是一项「一招鲜」的技术,它需要一整套支持系统才能真正发挥作用。以特斯拉为例,虽然其他公司也在使用端到端技术,但效果却不如特斯拉理想。特斯拉的成功不仅是因为采用了端到端,还因为他们在每个细节上都做得非常出色。不过,对在智能驾驶上的布局虽然相对较晚的理想汽车,端到端还是让它有了追赶的机会。