蔚小理端到端:形式不同,悲欢相通

在中文互联网,马斯克日常被调侃为“源神”,用以嘲讽“特斯拉不开源,中国就造不出纯电车”的恨国党。

不过在智驾领域,特斯拉确实在相当长的时间里,通过举办AI Day分享技术细节的方式,扮演着引领行业前景方向的灯塔(注:灯塔可能不止一座)。

可从去年开始,特斯拉取消AI Day举办,只宣告技术进展,不再讲技术实现,留给外界的,只有采用端到端技术方案的FSD频传的捷报。今年,各家智驾企业翻开特斯拉给出的端到端习题,赫然在答案一栏处发现一行小字:解题过程略。

没有参考答案的端到端,究竟要怎么做?端到端智驾的研发,有没有合理商业模式的支撑?

问题率先给到造车新势力代表蔚小理。

01

打开黑箱

去年到今年上半年,国内智驾头部玩家的竞争主旋律,是在传统的模块化技术架构下,以人海战术比拼开城速度。

在此过程中,蔚小理的智驾团队都扩充到千人(或以上),星夜兼程地训练、测试、验证,攻克Corner Case。

特斯拉FSD验证了端到端的效果,让大家有机会从重复劳动中解放出来。但代价则是,智驾传统技术栈的各个模块可以被测试、验证,而端到端的智驾系统,是一整个只知结果不知过程的黑箱。蔚小理们走向端到端,面临的共同问题是:

在智驾这种强安全需求的功能下,完全的黑箱是不可接受的,势必要想办法打开这个黑箱,了解系统“为什么会想这么干”,或者至少让它的输出相对可控。

小鹏的选择是分段式端到端的渐进式路线,其技术方案是感知神经网络XNet+规划神经网络XPlanner+侧重场景理解的视觉语言模型XBrain。

小鹏分段式端到端

在端到端的技术鄙视链中,分段式端到端目前处于下游。

激进派认为分段式端到端仍然没有摆脱传统方案的范畴,尽管感知与规划都实现了神经网络化,但一个关键点没有改变——连接两个神经网络的依然是人类定义的接口,这意味着信息损失,以及大量人工标注,整个流程不利于全局最优,也不利于自动化。

但分段式端到端的优点也同样在此:有人类定义的接口,意味着会输出人类能看懂的中间结果,便于检查、定位问题,不至于牵一发而动全身,比如感知出问题了不用把整张网络都重新训练一遍。训练两个较小的模型拼起来,也比训练一个大端到端模型难度更低、消耗的算力资源更少。

更重要的是,这种方式理论上更容易保住智驾表现的下限。

7月30日,小鹏XNGP智驾全国全量开放的发布会后,何小鹏说,“楼要一层一层搭,想跳跃式发展或许有可能,但风险会极高“。

这句话被解读为对友商的劝诫。

7月初,理想在夏季发布会上介绍了正在开发中的一段式端到端方案:4D One Model 端到端。在一段式端到端中,感知与规划被打包到一张参数量数亿的神经网络中,老司机的驾驶视频成为最主要的训练数据。这一方案支持信息无损传递,数据流转的自动化程度更高,比小鹏、华为的端到端方案更加激进。

不过这一端到端方案存在泛化性不强、可解释性差、下限不稳定等问题,为此理想给端到端模型并联了一个22亿参数规模的VLM(Vision-Language Model,视觉语言模型)大模型。这个模型对复杂交通场景、交通文字标识有更强的理解力,能够为端到端模型的驾驶决策提供参考,提升智驾系统的表现。

理想端到端+VLM快慢系统智驾方案

8月,理想这套端到端+VLM快慢双系统智驾方案面向专业用户开启千人内测,官方预计今年底或明年初面向普通用户推送。

在此之前,理想在用户认知中智驾并不领先,给销售带来了不利影响(尤其对战问界时)。端到端+VLM被理想定义为智驾能力弯道超车、跻身第一梯队的关键战役。

相比之下,蔚来对端到端则采取了一种保守且激进的态度。

蔚来的保守在于,目前对端到端的使用非常局限,并未将其用于城市NoA,仅用于主动安全功能。7月11日,蔚来开始推送采用端到端方案的AEB,来解决传统方案AEB覆盖场景不足的问题。

蔚来激进的一面则是,今年晚些时候将推送的智驾,似乎准备跳过目前流行的端到端上车潮,直接前往下一个阶段:世界模型上车。

世界模型是智驾行业找到的最新方法论。2023年人工智能顶级会议CVPR上,特斯拉展示了世界模型的研发成果,以自动驾驶世界模型GAIA-1闻名业界的初创Wayve.ai,则在今年5月融资10亿美元。

世界模型通过学习海量真实驾驶场景视频,可以预测并生成未来一定时间内的驾驶场景视频,做出正确的驾驶决策。它的本质是时空推演。这与人类的驾驶行为相仿,老司机会在脑海中预判、推演其他交通参与者行为和交通流的变化,在此基础上规划驾驶操作。

世界模型比目前的端到端更进一步的是,它的核心任务不仅仅是给出规划路径,更有“预测驾驶场景的像素变化”。这个难度极高的任务,会逼迫模型不仅仅学习优秀驾驶员的行为,还必须广泛地学习交通知识与物理常识。

而蔚来在NIO IN上提出来的是一个难上加难的“世界模型PLUS”,它的复杂度更高、输出维度更多,这意味着可以和真值比对形成的监督信号更多,加速神经网络的训练,同时也可降低系统运行的黑箱程度。但代价是更高的开发难度。

蔚来世界模型,有大量的预测任务输出

作为参考,为了训练仅仅是用于demo、只输出规划路径和视频的世界模型GAIA-1,Wayve.ai就使用了4700小时的视频数据,以160块A100训练了15天。蔚来要训练的世界模型,需要的是高不止一个数量级的数据和算力资源。

而在训练完成之后,如何在保证精度和运行速度的前提下,将一个复杂而巨大的世界模型压缩、塞进算力和带宽都十分有限的Orin-X中,又是另一堆复杂的问题。

而在眼下,初试端到端(即使是谨慎采用)的蔚小理不同程度感受到了端到端“提高上限,降低下限”的效果。

比如小鹏的最新版本XNGP获得了前所未有的掉头能力,但被反馈称高速上智驾表现出现了回退。

理想正在内测中的端到端+VLM方案呈现出了上限高、下限飘的情况。

而蔚来已经推送的端到端AEB,既有在弯道盲区这种非标准场景极限规避鬼探头的表现,也被用户批评出现误刹增多。

02

L4的研发,L2的前景?

在下限不好把握的情况下,车企还不约而同地转向端到端,很大程度上是因为端到端的上限,将带来足够大的用户体验提升和相应的商业机会。

但随着车企对端到端的涉入越深,一个问号在脑中经久不散:智驾的投入产出比,到底能不能算过账?

为了卖出更多的FSD,特斯拉今年3月将其订阅价格从199美元/月降至99美元/月(买断价格从1.2万美元降至8000美元)。然而今年5月国外数据咨询机构通过对3500名用户信用卡付费信息的分析,判断FSD的转化率仅有2%,引来马斯克在X上辟谣“转化率远超2%,拜托”。

不过远超2%也还远远不够。特斯拉正在德州工厂建设一个预计规模达到10万张H100/H200的超算集群,以每张H100 2.5万美元的优惠价格计算,仅购买计算卡的资本支出就会超过25亿美元(将其建设为数据中心并持续运营的成本更高),抵得上208万辆特斯拉一整年的FSD订阅费

国内车企的智驾商业模型更不乐观。

小鹏今年为AI准备的研发费用为35亿元,理想这个月则将智驾的资金门槛设定为10亿美元,但无论是小鹏的XNGP还是理想的NOA,都随高配车型标配,无需付费购买。蔚来未采用免费策略,高阶智驾功能NOP+定价每月380元,曾经短暂地取得过收入,但目前新车随车附赠1-2年NOP+免费使用期。

包括特斯拉在内,国内外高阶智驾仍处在赔本赚吆喝的阶段。

矛盾在于,在进入城市NOA的比拼、转向端到端范式后,这些企业的智驾研发强度实际已经面向L3乃至L4级自动驾驶,但主流市场对其的价值认定仍然是“不值得为软件额外付费的L2级辅助驾驶”。

要解决这个“期望价值与实际价值的落差“,看起来最有前景的方式是进入最大的L4自动驾驶市场,Robotaxi。

2018年,大摩为Waymo的Robotaxi开出了800亿美元估值。而马斯克的铁粉,方舟投资的木头姐今年6月给出一份预测,2029年特斯拉Robotaxi的收入“保守估计”会达到6030亿美元,助推特斯拉市值届时达到7万亿美元。

在此之前,马斯克在推上宣布将在8月推出Robotaxi车型(已经推迟到10月10日)。

03

商业回报还没大力出奇迹

要不要做Robotaxi,今年成为摆在蔚小理面前的热门问题。

对特斯拉跟得最近的小鹏,答案是YES。7月,何小鹏公开透露,小鹏汽车将在2026年推出Robotaxi。

何小鹏认为Robotaxi的硬件需求远比想象中复杂,但能力可以快速成长的端到端+大模型的软件算法组合,足以解决L4自动驾驶。何小鹏为团队定下的目标是2025年下半年,XNGP的体验对标谷歌Waymo的Robotaxi。

不过,造车本身已经是一项重资产生意,造出大批Robotaxi并经营一个无人驾驶打车平台,将无限拉长商业链条和投资回报周期。谷歌今年向Waymo注资50亿美元,小鹏不可能如此财大气粗。

6-7月,何小鹏先后拜访了滴滴CEO程维与Uber CEO达拉·科斯罗萨西。他说,小鹏并不想运营Robotaxi,而是希望向全球合作伙伴输出车型和自动驾驶技术。

Uber的Robotaxi,目前与现代合作

车企携端到端向Robotaxi的迫近,引来了不少L4自动驾驶从业者的反弹,包括前图森未来CEO侯晓迪、小马智行CTO楼天城、轻舟智航总裁侯聪。他们有的怒喷车企神话端到端,有的说车企相关能力体系不健全,但核心论点保持一致:

车企的高阶智驾虽然进步神速,但本质上还是在辅助驾驶的框架内设计,关注的核心目标是可用范围与成本,而Robotaxi最重要的是可靠性与安全性。目标的不同决定了两者难以使用相同的软硬件,车企的高阶智驾很难平滑过渡到Robotaxi[1][2][3]。

这正中李斌下怀。在7月27日的采访中,他明确表态,”不认为Robotaxi是让人兴奋的建树和商业模式“,并怒斥:

“智能驾驶的价值,不是把今天那么辛苦的专车司机、出租车司机的工作搞没了”。

他不看好robotaxi的另一个理由是,因为道路资源有限、政府部门管制,robotaxi不可能无限制投放,这让其很难拥有像软件云服务一样高边际收益的生意模式。

李斌一直坚持人们会想要拥有一部自己的车,因此蔚来智驾的目标是帮助驾驶员解放精力、减少事故,商业路线的关键词则是规模效应——面向普通用户多卖车,向足额用户收取高阶智驾的订阅费用,摊薄成本、获取收益。

不过,在成本高昂的智驾面前,蔚来不到60万的累积用户规模仍然不够,对外输出智驾能力成为一种选择。蔚来智驾负责人任少卿,最近首次表达了蔚来向其他车企开放智驾方案的意愿,就像蔚来开放换电那样。

相比之下,李想对智驾是“技术判断激进,商业策略保守”。

李想今年在重庆汽车论坛上立下Flag,端到端+VLM的组合,会在三年内实现L4级别自动驾驶。但不同之处在于,理想完全没有想过Robotaxi这门生意。甚至于,理想到目前为止仍没有表露出对智驾软件收费的兴趣,其官网挂着的LOGO仍然是“全场景智能驾驶,终身零订阅费”。

这与理想所处的竞争态势相关。过去一年,理想直面鸿蒙智行,销量承受了显著压力。而鸿蒙智行最锋利的矛,是华为的ADS智驾能力。

在鸿蒙智行众界携华为ADS 3.0(买断落地价约1万元)汹涌而来,进一步给理想上压力的时刻,理想比之前好用但又免费的AD MAX智驾,可以帮助抢下更多订单。与小鹏、蔚来不同,理想的智驾KPI并不是取得经营收入,而是为销量服务。

然而,在国内汽车行业进入淘汰赛的阶段,蔚小理的智驾业务不可能再长期处于交个朋友的状态。

一张训练卡的成本10万元起跳,一个千人团队的人力成本每年10亿起步,作为蔚小理本就最烧钱的业务之一,智驾迈上了更消耗资源的大力出奇迹道路,但能不能同样收获大力出奇迹的回报,还写满了不确定。

参考资料

[1] 慎勇者侯晓迪,甲子光年

[2] 和楼天城谈Robotaxi:“L2越厉害,就离L4越远”, 腾讯汽车

[3] 特斯拉把 Robotaxi 想简单了 | 对话轻舟智航联合创始人侯聪,云见insight

编辑:罗松松

视觉设计:疏睿

责任编辑:罗松松