特斯拉提出的端到端概念再次在自动驾驶领域引起轩然大波。目前,国内维小丽花、帝爵元魔等公司已经进行了数百轮端到端的战斗。端到端也加速了行业的快速发展和出清。行业方面,于凯和曹旭东都认为,凭借端到端技术,自动驾驶将在3-5年内迎来大爆发;在企业方面,市场也在加速淘汰技术落后的企业。 Momenta疯狂接单、袁榕七星获得的巨额融资就说明了这一点。
此时,我们需要对端到端有一些清晰的认识:端到端已经到了哪里?目前谁是该技术的领先者?
从目前公司公布的情况来看,我们可以梳理出一些基本信息:
1、整车厂在端到端实施方面普遍落后于供应商;
2、整车厂在技术进步方面也落后于供应商;
3、除了端到端之外,企业还应该有自己的know-how。
端到端实施,供应商快一步
在这波新技术浪潮中,抛开特斯拉的引领作用,国内供应商普遍领先于整车厂。
在国内整车厂中,理想是最早公开提出端到端概念的。与整车厂惊讶地发现端到端新天地相比,供应商早已在端到端暗流涌动。
2023年,地平线作为第一作者提出统一自动驾驶(UniAD),首次为自动驾驶端到端通用网络架构的愿景提供了具体范式,并荣获CVPR 2023最佳论文。
如果按照公告标准来看,商汤绝影是国内首家端到端智能驾驶公司。 2022年底,商汤推出业界首个感知与决策融合的自动驾驶通用模型UniAD。 2023年,UniAD荣获CVPR最佳论文奖。
目前整个行业在端到端方面基本上有三种思路:一种是非常传统的两端端到端,一种模型用于感知,一种模型用于调节和预测。这是目前大多数企业采用的解决方案;另一种是第一种是三网合一模型。感知和控制是两种模型,但它们相互交叉。有一个路口,加上一个安全的网络。典型代表是小鹏、华为。官方称之为“三网合一”;第三种是完整的一步模型,在一个模型中感知、调节和预测。官方通讯口径中,目前只有圆融七星、Momenta、商汤绝影采用这种结构。
尽管车企一直强调全栈自研的可控性,但在巨大的生存危机感面前,供应商表现出了比主机厂更强的内生动力,这也体现在端到端的执行上。圆融七星实际上已经在2023年中期量产了城市导航高端智能驾驶,并邀请企业进行测试。 2024年,圆融还通过激进的技术路线获得了长城汽车1亿美元的战略投资。
曹旭东在接受媒体采访时也表示,Momenta早在2023年4月就已经实施了两阶段端到端。甚至更进一步,它在2019年就开始了端到端监管的研发,但当时还没有两阶段的端到端开发。分段端到端的概念还没有向外界提及。今年,它改为单段格式。技术的不断演进,让Momenta成为智能驾驶供应商的宠儿。其合作的车企包括上汽、广汽、比亚迪、丰田、日产、奔驰等多家国内外车企。
此外,地平线、商汤科技、博世等供应商也明确表示,将在2025年量产一阶段端到端无地图NOA解决方案,大部分集中在明年上半年。
相比之下,整车厂在这方面落后于供应商。
小鹏选择在5月20日当天推送两级端到端架构,也算是抢到了一家整车厂的第一个宣传口径; 10月,理想向所有用户推送“端到端+VLM”双系统。按照7月会议的描述,应该是分段端到端的;华为今年下半年还推出了分段端到端ADS3.0版本。
最新消息显示,蔚来将于2025年4月推出分段式端到端架构。《36氪汽车》报道称,华为今年7月动员一批人开发One Model大型车型,并将推出ADS 4.0明年将推出基于单级端到端的智能驾驶系统。
这里还有另一个有趣的情节。尽管采用了多种车型,但小鹏汽车坚持采用一级端到端结构。小鹏汽车智能驾驶负责人李立云认为,虽然采用三网,但小鹏汽车的系统端到端属于One Model。 “这个(小鹏汽车的智能驾驶系统)不是一个分段的架构,因为三个网络是相互重叠、重叠的。它们在网络的本机级别共享许多部分。它是一个有焦点的网络,可以单独预训练,也可以联合训练。 ”
小鹏汽车自动驾驶产品高级总监袁婷婷解释道:“分段的做法是先完成A,A的箭头指向B,B的箭头指向C。三网合一的模式我们现在做的是三个圆圈,它们实际上是耦合在一起的,有重叠的部分,也有独立的部分,它们不是独立的网络,所以不是一个分段的逻辑。”
但也有技术人员认为,把完整的模型拆开,加上基于规则,逻辑上应该属于分段结构。
当然,车企代表中争议最大的还是特斯拉目前的技术现状。虽然直到今天特斯拉还没有公布其技术细节,但很多人还是从现有的信息中发现了一些端倪。特斯拉全球副总裁陶林近日在微博透露,特斯拉目前的大模型已经达到了“光子进来,决策出去”的效果。考虑到分割带来的信息损失,很多人推测Special Silla实际上实现了一个单阶段的端到端大模型,而且大参数量非常大。
端到端的一阶段还是两阶段,哪一个更好?
另一个争议点是端到端两阶段和一阶段方法的优缺点。保守派和激进派有不同的看法。保守派认为端到端是无法解释的,上限高,下限低,必须采取一定的措施,比如添加大量基于规则的规则来覆盖问题。激进派认为,一级端到端结构更完整,信息损失更低。
端到端的影响是巨大的,很多车企被迫基于端到端来调整组织架构。传统的规则算法还有生存空间吗?一年来,双方人员进行了激烈的“交火”。
李丽云认为,从头到尾中间有些部分可能是无法解释的。通过“三网合一”架构,小鹏可以调试,看看问题出在哪里。
然而,技术激进分子商汤决影认为,两阶段感知和决策模型之间的信息传递仍然会被过滤和丢失。 “两阶段”的端到端方案降低了难度,同时也降低了能力。上限。
处理低端到端下界的传统想法是为他提供基于规则的解决方案。但曹旭东认为,基于规则根本无法提供端到端的保护。他将规则比作小脑,将端到端比作大脑。小脑很难为大脑提供端到端的保护。因为基于规则可以考虑的场景有限,而极端情况场景却是无穷无尽的。所以,Momenta的解决问题的思路是把模型构建到底,然后用数据训练来保证系统能力。
曹旭东介绍,虽然Momenta会有少量的规则算法,但并不是用来提供端到端的覆盖。虽然目前或多或少存在一些规则,但随着AI技术的不断演进,整个行业正在朝着“去监管”、一阶段端到端的方向演化。
除了端到端,智能驾驶企业还需要更多的know-how
端到端优势明显,但并不是自动驾驶的最终答案。这并不意味着端到端一切都会好起来。即使从大多数公司的反馈来看,端到端可能只是一个先决条件。
圆融七星CEO周光介绍了其最新的自动驾驶VLA模型,这是一种将端到端和文本视觉语言模型合二为一的模型。周光表示,VLA是目前最先进的自动驾驶架构。
有趣的是,这一说法得到了理想汽车的认可。虽然今年理想汽车一直在大力倡导“端到端+VLM”,但他本人也承认VLA架构确实优越,而且理想汽车也在悄悄研发VLA。建筑学。
Momenta创造了长记忆和短记忆的逻辑。按照曹旭东的解释,短记忆可以理解为一种数据过滤器。海量的数据被扔进去,然后过滤掉对系统有帮助的高质量、有帮助的“黄金数据”,输入到长内存中。长记忆就像内存一样,将这些高质量的数据存储起来,供系统随时调用。这两种记忆形成循环神经网络,形成数据飞轮。这与理想的快慢思维完全不同的逻辑。
小鹏汽车强调大模型的优势,大致就是在云端训练更大的模型,然后将其提炼到汽车中。小鹏认为,只有大模型才能解决自动驾驶的长尾问题,但很多自动驾驶公司没有云芯片和数据资源,所以只能使用单一模型。
端到端可以很好地处理常规场景,但无法处理复杂和罕见的驾驶场景。它还需要一个大型视觉语言多模态模型(Large Vision-Language Models,LVLM),它与端到端模型相辅相成,充当驱动决策的“大脑”。
请注意,这实际上包含两个模型,这有点类似于理想的“端到端+VLM”。但Horizon的想法是通过Senna系统连接两个模型,重点解决端到端模型鲁棒性差、泛化性弱的问题。
塞纳具有三大优势:
1、模型层层推进。大模型生成决策指令,并通过端到端模型生成特定轨迹。针对环视、多图进行了专门优化,通过图像令牌压缩和环视提示,提高对多模态大车型驾驶场景的理解。
2.数据问答。大规模自动标注的面向规划的驾驶问答数据,包括场景描述、交通参与者行为预测、交通信号识别、车辆自主决策等。
3、三阶段大模型训练策略。不仅提升了塞纳在驾驶场景中的表现,还有效保留了其常识知识,且不会造成模型崩溃。
这就是地平线独创的“大模型高维驾驶决策——端到端低维轨迹规划”的新驾驶范式。我这里的理解是大模型负责复杂场景,端到端模型负责常规场景。
车企正在形成基本共识的同时,新的问题也不断出现:模型类型、规模、参数数量、规则算法是否还有必要等等,需要时间来给出答案。然而,一个不争的事实是,在新一轮的端到端竞争中,车企普遍落后于供应商。
本文来自微信公众号“原州知行”,作者:原州知行,36氪经授权发布。