2022年11月8日-10日,由中国汽车工业协会主办的第12届中国汽车论坛在上海嘉定举办。作为党的“二十大”召开后的汽车行业首场盛会,本届论坛以“聚力行稳 蓄势新程”为主题,共设置“1场闭门峰会+1个大会论坛+16个主题论坛”,以汽车产业的高质量发展为主线,与行业精英一起贯彻新精神,研判新形势,共商新举措。其中,在11月9日下午举办的“主题论坛1:第四届全球汽车技术发展领袖峰会”上,地平线总裁陈黎明发表精彩演讲。以下内容为现场演讲实录:
首先谢谢付炳锋会长,尊敬的付炳锋会长和各位嘉宾、来宾,大家下午好!我是地平线的陈黎明,非常感谢大会的邀请,非常荣幸有这个机会来参加今天这个大会给大家进行一些分享,刚才(付炳锋会长)也讲了多讲点技术的东西,今天准备的也比较技术一些,希望能够满足付炳锋会长的要求。
今天从三个方面分享,一是把技术相关方面的一些趋势和痛点先做一个分享,同时也介绍一下地平线在技术方面的解决方案,从技术上如何来推进智能化的发展,以及在商业模式创新上如何推动汽车智能技术的发展。
首先,我们一起来看一下整个软件开发范式和智能计算架构的演变,刚才百度的王总和亚马逊的顾总都谈到了数据驱动和云的应用等,做了很详细的介绍,计算架构和开发范式正在进行比较大的变化。在AI技术应用到智能驾驶汽车之前,应该说整个开发的范式和计算架构都是基于SW1.0的开发范式,它主要是基于Rule-Based和逻辑驱动进行软件的开发,是基于我们对物理世界的认知,通过规则、逻辑对我们的物理世界进行建模,来进行感知和控制。从计算架构来讲更多基于车端的计算平台来进行感知和控制的计算。基于Rule-Based和逻辑驱动的软件开发遇到很多困难,比如刚才王总也分享的,即使对已知的红绿灯识别也很难用Rule-Based的方法来解决,对于红绿灯的识别人工智能深度学习、神经网络就能够发挥它的优势。随着自动驾驶技术发展对感知的需求不断增加,我们对周边的感知也需要更加具体和细化,这进一步推动了AI在自动驾驶中的应用。基于数据驱动的SW2.0开发范式,它的整体计算架构不是在车端,而是一个车端加云的计算架构,这使得整个开发范式发生比较大的变化。
这里简单看一下数据驱动的SW2.0开发范式带来优势,之前在整个控制、驾驶比较简单的时候,我们基于规则的开发和投入都是相对比较低的,也可以很好解决我们应用中的问题。但随着自动驾驶复杂性越来越高,需要对周围世界感知越来越强,基于Rule-Based开发范式需要的人力投入会呈指数级的增长,而且还不能解决所有的问题。对于数据驱动开发范式来讲,虽然简单问题前期投入比较大,但是随着问题复杂程度的增加,它的优势逐渐显示出来,它不需要写更多的code,而是基于一些算子和对模型进行训练,随着数据量的不断增加能够更好地去理解和感知我们周边物理环境,能够使得我们开发更快速地迭代。
目前数据驱动的SW2.0开发范式在自动驾驶里进行了比较广泛的应用,特别是感知方面应用已经非常深入了,比如现在最新的BEV算法是基于神经网络的模型对物理世界进行感知。同时在地图融合方面也有比较好的应用,在规划和控制方面还是在起步阶段,规划可能多一点。数据驱动的SW2.0开发范式在自动驾驶里的应用已经成为大趋势。
随着对周边感知精度和细度需求不断增加,对复杂神经网络的需求也越来越高,我们看到在过去几年里,算法对算力的需求提高了六个数量级,这对芯片算力提出了非常高的要求,自动驾驶的实时计算不是发生在云里,而是在车端,所以芯片面积是在不断的增加,也就是算力在不断的增加。但是我们也看到摩尔定律在逐渐放缓,已经在先进制程上逼近了物理极限,比如说14纳米、7纳米、2纳米都在做,这在物理上是有极限的,计算性能不可能无限制地根据摩尔定律两年翻倍。那么接下来怎么能够去突破瓶颈,进一步去增加芯片的性能,这是行业的挑战。我们看到更需要在制程、封装、架构、软件方面打一个组合拳,这样才能可能更好来解决这个问题。
地平线在2016年提出了智能计算的新摩尔定律,也就是在后摩尔时代怎么来提高芯片的效率,能够让芯片在同样面积上或者同样的功耗下有更大的算力,我们提出用每一秒处理多少帧图像来衡量芯片的计算效率。这个公式右边是每一瓦功耗或者每一个doller能够让芯片每一秒处理多少帧图像,这里可以拆解成三个元素,等式右边最左边一项是每一瓦功耗或者每一个doller它能支撑多少Tops或支撑多少算力,这主要还是由芯片的架构来决定。在这个公式最右边是每个Tops能够支撑多少效率 (每一秒处理多少帧图像)。每一个Tops能够释放出多少效率来,取决于算法本身的架构和从浮点到定点转化的工程化过程,这也需要一定的工程沉淀来进行优化。实际上非常重要的一点是中间这一部分(utilization),就是如何充分使用芯片的算力,最后体现出来的效率就是每秒能处理多少帧图像。这里非常重要的一点是如何把芯片的架构与神经网络或深度学习的算法进行很好的匹配,这是一个需要不断迭代设计的过程,同时,也是通过算法编译去适配硬件架构,让芯片发挥出更高的效率,这就是软硬协同的创新。
很有意思的是在2020年6月MIT的学者也提到类似的观点,后摩尔时代它的计算性能提升是在于软件工程、算法和硬件价格的联合优化,这里讲的软件、算法跟我们提到的三个方面是一致的,所以大家都看到后摩尔时代它需要在三个方面进行组合拳。
下面谈一下地平线的解决方案,这张图可以比较简单表达我们讲的软硬结合协同的创新,目前大家都谈得比较多的都是软硬解耦、软硬分离,但我们这里谈的软硬结合或者协同也不矛盾,它实际上是矛盾的对立统一。各种不同的神经网络都有大量的计算,同时它们也有很多共性的东西。如何通过硬件来加速计算,用最小的能耗去进行计算,设计出最适合常用的神经网络芯片架构是非常关键的。通过优化的芯片架构能够更好来支持多种算子和神经网络的计算速度,所以说我们的硬件设计是从软件需求中来,最后再回到软件应用中去,从而实现高性能、低功耗、低延迟的计算解决方案。
这里再把我们具有知识产权的BPU做一个简单的介绍,这个架构支撑了高性能、低延迟、低能耗。通过芯片架构与算法协同优化来适配目前我们常用的一些神经网络。我们知道在不同驾驶场景下需要的神经网络不是一个神经网络,需要不同的算子来支撑不同场景下的需求,我们的BPU的架构设计更好适应了常用的算子,使得它能够在各种场景下更好支持自动驾驶。它有几个独特的地方,一个就是我们要利用大规模异构算子来加速计算,同时也采用了近存计算技术,来减少数据的移动和读取,利用高灵活的大并发数据桥,对数据不同异构算子之间的移动来增加片上的带宽,这样可以在低成本的前提下实现大算力。最后就使得我们芯片能够具有128Tops的算力,同时它的计算效率也很高。
如我之前所说,软硬分离和软硬结合是矛盾统一体,既对立又统一,通过软硬结合,我们的常用算子库和底层芯片实现高效的配合,使得整个芯片的计算效率能够极大的发挥。同时通过中间件把上层应用隔离开,使得我们的客户主机厂和Tier1的客户以及合作伙伴能够在一个硬件平台上进行快速高效的应用开发迭代,当然主机厂也希望他的应用软件能够跑在不同的芯片架构上,而不是一家的芯片架构。
根据我们前面讲到BPU的一些特点 (超适配性再加上软硬协同),我们征程5芯片达到了128Tops算力,延迟只有60毫秒,功耗也是比较低的,只有30瓦。我们去年发布这个芯片的时候,它当时的率每秒处理1283帧的图像,我们通过对编译器和工具链的优化,我们从去年的1283帧每秒提升到现在的1531帧每秒,也就是说在不改变硬件的情况下,通过对工具链和编译器的优化,我可以进一步提升芯片的效率。同时这款芯片是非常可靠得到了各方面的功能安全和信息安全认证。
当然只有一款好的芯片还不够,还需要有一个强大的工具链来支持芯片的应用,来支持我们客户去进行开发,我们天工开物的工具链它可以支持先模型量化再进行训练,或者先进行训练再量化,通过训练量化之后,对AI模型进行自动编译、优化、部署到芯片里去,实现高效的计算,我们看到它的成功率、精度、投入都有非常大的改善。
这里还有一点也想特别分享,如何通过我们讲芯片架构的适配性和灵活性再加上工具链和编译器的优化,来进一步去使用新的算子和算法,最近几年Transformer是比较流行的,是大家比较关注的神经网络模型,它是从语言领域开始的,现在已经在不同领域都得到了很多的应用,它有可能成为统一神经网络架构的趋势。Transformer在视觉领域最重要也是最彻底的一个应用是叫Swin Transformer,这个工作也得到了机器视觉领域最高奖,马尔奖。Swin Transformer是在2021年提出的,而我们征程5芯片设计是在2019年,那对于这个新的算法,我们在几年前设计的芯片架构能不能去适用?基于BPU高适配性和灵活性,以及对工具链的持续优化,目前我们在征程5上成功运行了SwinT模型,并达到每秒184帧的性能并且优于友商的芯片。同时我们会不断持续优化我们的工具链,进一步来提升计算性能,我们今后预计会有更多的Transformer模型会在我们芯片上运行来。
再一个就是云训练平台,刚才顾总和王总讲得比较多,在我们地平线有AI训练开发平台,它实现了两个闭环,一个是在云端可以对数据进行挖掘、标注、训练、测试、集成等这些,数据从车端来最后回到车端去,使得整个车在开发过程中以及整个生命周期可以得到不断的进化和性能得到不断的提升,这里有一些数据来展示了AIDI开发平台对整个训练开发效率和成本上都得到非常大的改进。
最后想从商业模式创新上分享如何助力我们的合作伙伴,我们合作伙伴有三类,Tier1、软件开发和硬件开发。主要是通过多重的开放模式根据客户需求进行合作,最上面我们知道是Mobileye的合作模式,我们地平线采用的是英伟达的模式,主要是在整车上层应用上和整车厂合作进行合作。除此之外,我们进一步开放在底层中间件和操作系统,我们跟整车厂开放合作,使得整车厂能够更早在开发过程当中对它的系统进行定义,然后对整车控制架构进行设计优化。更进一步,对一些有自定义芯片需求的主机厂,我们也开放BPU IP,通过对IP授权提供相应的工具包和技术支持,使主机厂能够缩短整个开发流程和时间,并且有更多的主动性。
最后一页也做一个简单的总结,从我们征程2在2020年6月份首先在长安的UNI-T上、征程3在理想One上首先得到了量产,今年我们征程5也在理想L8上已经得到了量产,应该说这个月最终用户就能拿到车了,在他们第一个吃螃蟹之后,也得到了众多主机厂的认可。
目前,我们与一百多家生态合作伙伴一起服务于二十多家车厂共的七十多个项目,到目前为止我们出货超过200万片,这也证明了我们芯片的性能、质量以及可靠性。
对地平线来讲,我们特别相信开放,只有开放共创我们才能共赢,所以我们希望与所有合作伙伴一起征程与共,共同拥抱价值共创,共同推进智能汽车的快速发展。