端到端自动驾驶是未来几乎成为了一种行业共识。
理想汽车智能驾驶副总裁郎咸朋博士在北京车展期间地平线的生态圆桌论坛上讲道,“去年大家还在讲高速NOA、讲Transformer和BEV,今年行业却已对城市NOA司空见惯,几乎都在讲无图方案和端到端。”此外,另一个更明显的变化是,智能驾驶的核心正回归至消费者本质——更好用、更拟人、更安全,但由于城区场景计算复杂程度大幅提升,传统分离式的架构性能瓶颈逐渐凸显。所以,基于数据驱动的端到端系统自然也就成为了行业发展的必然方向,也是推动高阶智驾从可用走向好用、爱用的关键。
从时间线来看,理想汽车在去年12月进行的OTA5.0更新( AD Max 3.0 ),就是在端到端架构的支持下整合了BEV大模型、MPC模型预测控制以及时空联合规划等能力,还新增了Occupancy占用网络算法;今年5月20日,小鹏汽车则跟进了国内首个量产上车的端到端大模型:神经网络XNet+规控大模型XPlanner+大语言模型XBrain。根据小鹏的描述是,这套模型基于折算10亿+里程的视频训练、超646万累计公里数的实车测试、超2.16亿累计公里数的仿真测试,小鹏汽车端到端大模型能够做到“2天迭代一次”,在未来18个月内智驾能力提升30倍。
而在这次的2024智驾科技产品发布会期间,凭借前沿的端到端软件算法技术,地平线发布结合端到端技术的量产级高阶智能驾驶系统SuperDrive,就试图提供打造“好用”智驾方案的解法。地平线创始人&CEO余凯看来,软硬协同是地平线的独特优势,依托领先的前沿软件算法研究,去设计最先进的硬件计算架构,然后支持最先进的算法,使芯片架构与应用软件配合得严丝合缝,能使计算方案效率更高。
当然,余凯本人也针对SuperDrive做了更接地气的解释,他认为:“端到端End-to-End Training就是去学习很多司机的驾驶行为,更加拟人化,使得自动驾驶不仅仅只是在简单的case里面靠直觉就能丝滑地处理,它在复杂的case里面,也能够通过自己的思考、自己的博弈去举一反三,能去处理长尾的情况。这个就能进一步推动整个智能驾驶从拟人化到anytime、anywhere,就是“每刻”、“每程”。这就需要慢思考,慢思考需要逻辑的推理,需要在脑子里面整个的仿真,甚至是脑补未来发生的任何情况,这就是交互、博弈。交互博弈是更复杂的一种决策行为。”
总结起来,就是端到端系统性能上限更高,不仅可强化学习、提高计算效率,同时系统维护成本也要更低。通过端到端的方案可以把汽车“驯化”出更高阶的智驾方案,且通过大量有价值数据的训练,逐步提升车端的“智力”水平,最终使得系统开车的技术水平犹如人类老司机。也就是说,软硬协同才是实现端到端最佳量产效率的最优解。
端到端量产落地之路:软硬协同是最佳解法
为什么说软硬协同才是实现端到端最佳量产效率的最优解?这里我们先简单了解什么是端到端。其实,学术界对端到端的研究始于1988年的ALVINN,随后发展出端到端CNN原型系统。2016年,地平线率先提出了自动驾驶端到端的演进理念,并在2017年就开始采用训练端到端系统,同时发布软件框架Hugo。再到2022年,地平线又提出行业领先的自动驾驶感知端到端算法Sparse4D,2023年,由地平线学者一作的业界首个公开发表的端到端自动驾驶大模型UniAD,荣获CVPR 2023最佳论文。
论文中,UniAD框架被首次提出,成为业界首个感知决策一体化的自动驾驶通用模型。
而从之前的BEV+Transformer,到后来的占用网络,再到如今的端到,它们本质上指的均是一种计算模型,其中端到端的概念可以定义为:将整个驾驶任务进行切分,定义并划分出多个子模块,分别负责不同的任务,这些子模块通常包括地图/定位、预测、决策、规划和控制。最后,通过系统集成来完成整个智能驾驶任务。开发模式则是各个子模块可以进行独立的开发和测试,等子模块开发测试完成之后,再进行系统集成,进行系统级的测试和验证。
一位算法方案开发工程师曾对新智驾指出,“将感知与决策融合到同一个模型中,使得端到端模型能有效避免联级之间的误差值,无需任何人工规则介入,更加接近人类驾驶行为的高阶智驾。”
在他看来,高阶智能驾驶最终的技术架构应是完全端到端的方案,以摄像头、毫米波雷达、激光雷达等多传感器、多模态的输入,作为端到端的输入端,车辆的控制命令成为输出端,跳过了中间的定位、预测、规划、决策等模块,只有输入和输出这两端,这是将来的技术框架。
也就是说,端到端的路线意味着系统功能更聚焦、易维护、且拥有更高性能上限、更接近人类驾驶行为,这无疑是驱动城区NOA迈向“好用、爱用”的最优实现路径。所以,随着端到端系统的加速落地,行业关于高阶智能驾驶的比拼也将迎来新节点。
从“能用”到“好用”的跨越,业内“老司机”SuperDrive来了
4月24日,地平线发布新一代车载智能计算方案征程6系列以及Horizon SuperDrive™全场景智能驾驶解决方案。作为发布会的压轴之作,地平线对SuperDrive的定义为“全场景”高阶智驾解决方案,也就是在功能上覆盖高速NOA、城市NOA以及自主泊车等主流智驾场景。从发布会演示的视频来看,SuperDrive主要是面向城区开放道路,提供高阶的智能驾驶领航功能,可以实现复杂的路口交互、拥堵换道、拥堵汇流、礼让VRU(VRU vulnerable road user 弱势交通参与者,例如行人、骑行人)等城市典型场景能力,甚至城市环岛也可以丝滑顺畅通行。
在环岛驶入驶出时,SuperDrive甚至完成了几个令人惊艳的动作:不受违停车辆和绿化带限制,灵活绕行维持高效通行;进环岛时避让低速两轮车,确保安全;环岛内妥善避让路中行人,证明其高效与安全兼备的驾驶能力。过去的智能驾驶系统依赖“白名单”进行物体识别,能够独立辨认车辆和行人,但面对“人车并存”的复合场景时,却暴露出识别盲区,这一缺陷不幸引发了多起引人注目的事故。而SuperDrive在这个场景下的表现,说明地平线已经突破了过去以规则驱动为主的自动驾驶技术体系。
而面对变道场景,这一直接区分智驾水平高下的试金石,SuperDrive的表现也相当优异。当旁车道空间不足,多数系统会放弃变道或减速等待,SuperDrive能根据前方空间条件主动加速,创造变道机会;以及在密集的车流中,对于转瞬即逝的变道空间,SuperDrive抓住机会干净果断完成变道;其他诸如向快车道变道、汇出汇入变道等等SuperDrive也是手拿把掐。
事实上,虽然目前城区NOA功能上车已久,各家车企对城区NOA功能的落地和推广也都相当看重,但从市场反馈的情况来看,大多数车企的城市NOA仍处于起步阶段,尚且无法满足用户的智驾需求,要么适用场景有限,要么驾驶体验不佳,难以称得上好用。基于此,地平线也把目前的智能驾驶发展规划为从可用、好用到爱用的三个阶段。
尤其是用户层面,变道场景是智驾“可用”与否最关键的因素,因为当前市面上标榜为“高阶”的智驾系统,在实际量产应用中,其变道规划与执行大多并未采用先进的神经网络技术,而是遵循预设的手动编程规则,表现为以极其保守的速度和异常平滑的角度进行变道操作,这样的问题就在于技术不够类人,很难在复杂交通流下与多个不同交通参与者协同。
而SuperDrive的两大关键技术模块就是端到端感知架构和数据驱动的交互式博弈算法。其中端到端感知架构体现在SuperDrive将动态、静态、OCC(Occupancy占用网络)三网合一,统一在一个Transformer架构下,不需要对感知数据进行抽象和逐级传递,“所见即所得”:实现感知端到端同时,又保证了每个子网络的可解释性,有效解决感知架构时延高、规则多、负载重的问题。
另外,SuperDrive还通过数据驱动的交互博弈大幅提升了智驾系统在复杂交通环境中的感知和交互式博弈能力,做到在拥堵场景下变道成功率提升50%,路口通行效率提升67%,再加上SuperDrive还具备无高精地图的感知能力,能做到对高精地图轻依赖,从而快速上线各城市NOA功能,做到高效拓城。计算方案层面,SuperDrive则与征程6旗舰版协同,打造出最佳的软硬结合高阶智驾系统,让好用的城区NOA方案加速规模化量产落地,实现人人可及。
值得一提的是,这次征程6系列共推出六个版本,包括征程6B、征程6L、征程6E、征程6M、征程6H、征程6P,其中征程6旗舰版——征程6P面向的就是高阶智驾市场,其拥有高集成度、高算力、高效率、高处理能力、高接入能力以及高安全等六大产品特性。
也就是说,通过更低成本、更高性能上限和更高效协同的全栈式软硬件能力,让高阶智能驾驶系统SuperDrive+征程6旗舰版的协同指向了一个终极方向——帮助产业玩家更高效地实现基于端到端模型的高阶智驾大规模量产落地。
据地平线透露,在合作车企方面,地平线的SuperDrive方案已经与多家车企和顶级Tier 1达成合作,预计到今年第四季度将会有标准量产方案推出,而到明年第三季度,首款搭载SuperDrive方案的车型也将进入交付期。可以看到的是,从可用到好用,国内的汽车高阶智能驾驶之路刚刚走向转折点,而SuperDrive全场景智能驾驶计算方案的到来,显然会加速端到端自动驾驶技术的发展和应用,同时也会巩固地平线作为国内头部智驾科技企业的行业地位。