9月8日,在CTDC首席技术官领袖峰会上,小鹏汽车自动驾驶副总裁谷俊丽博士发表了题为“AI car 和自动驾驶进化论”的主题演讲,分享了小鹏汽车正在推动的中国式自动驾驶研发之路以及在这一领域的最近进展。
小鹏汽车自动驾驶副总裁谷俊丽博士
同期,谷俊丽博士宣布,小鹏汽车近期已经获得美国加州自动驾驶路测许可。
小鹏汽车已经获得美国加州自动驾驶路测许可
CTDC首席技术官领袖峰会是国内最顶级、最具前瞻性的互联网峰会之一,聚集了业内顶尖的技术领导者。“AI智享未来”是本届峰会的主题,功能汽车到智能汽车的变革也是本届峰会探索的重要议题。
”自动驾驶国际化存在不少瓶颈,自动化驾驶进化的必然趋势是软件的强本地化。没有中国实际驾驶场景数据的积累,很多自动驾驶功能在中国“水土不服”、甚至“目中无物”,无法适应中国的实际驾驶路况、交通密度和中国用户的驾驶习惯,”谷俊丽博士表示:“小鹏汽车的目标是大规模量产具备六维感知能力的高智能互联网汽车(AI Car),使得车辆能够具备自我感知、物体感知、高精定位、预测未来、交互和事件及决策推理能力,提高自动驾驶在中国驾驶场景的安全和创新。”
今年年内,小鹏G3即将上市,并启动交付。小鹏G3将搭载领先的自动驾驶硬件,配有20余个智能感应设备,适配本地化自动驾驶,并将提供覆盖高频生活场景的自动泊车功能。
以下为谷俊丽博士演讲实录:
谢谢大家!今天非常高兴有机会和大家分享关于中国式自动驾驶的思考。
先简单的自我介绍一下,我是去年10月份加入到小鹏汽车,之前在特斯拉总部负责人工智能和自动驾驶,我带领团队做了Autopilot。从前期对于AI的思考,到对于自动驾驶的研发,我都是从最前期开始介入的,所以我个人有一些感触今天来跟大家分享。
我重点讲解一下自动驾驶,它本身上是一个AI驱动的技术,一个系统,我叫它AI Car。我会跟大家分享自动驾驶整体的国际上的进化论,以及在中国我们想怎么做。
首先,我先来总结一下,因为在中国,自动驾驶这个概念是从2016年开始炒,到2017年炒到火爆,到现在我觉得公众已经失去感知了,已经不知道自动驾驶是什么了。所以,我想讲解一下自动驾驶到底是什么,以及西方的技术并不能真正拿到中国来使用,比如说特斯拉的Autopilot。
我先讲解一下人类历史的交通变革,我经常想,其实人类历史的交通从我们摆脱原始的交通工具,比如说马车、驴车到我们现在林林总总的各种汽车,其实也只有一百年的时间,真的只有一百年的时间。那发生了什么?我们一开始的这个原始的到一个模拟的机械的器件,然后通过汽车轮子福特的Model T(T型车)开始往前演进,出现奥迪、奔驰这样的品牌,我们在机械层面,在控制层面,在发动机、燃油机层面做了一百年的工作,现在已经几乎饱和了。那之后这个车现在发生一种悄然的变化,它在从一个模拟的器件悄悄的变成一个数字化的器件,就像我们21世纪年初,我们还在用诺基亚的功能机,通过键盘来按,到后来慢慢的我们现在几乎所有的人都不再用一个满是键盘的满是按钮的一个手机了。从功能机到数字机到智能机的一个演变,同样的一个革命正在发生在车辆上。数字化包括说我要有传感器,我要有计算单元,我要嵌到这个车上,且让用户感觉不出来,所以这是个数字化的过程,是个对车本身变革的过程。然后我们在这个基础上,再做一些辅助驾驶、预警,然后脱手,然后眼睛可以离开的各种智能化的工具功能,所以它是这么一个变革的过程。
抛去外表它发生的变化,在技术本身,自动驾驶让我自学了很多专业,从做芯片到做AI算法,到软件,到做自动驾驶。自动驾驶是我做过的最难的、最复杂的一个工程,没有其一。为什么呢?因为它抛开自动驾驶这几个字,它里面涵盖了我们过去人类一百年几乎所有最重要的技术、信息革命的一些关键的突破。那我来讲解一下在我眼中大家所说的这个自动驾驶包含哪几代技术的框架。自动驾驶第一代是由像特斯拉这样的公司搞起来的,它当时用的方案就是采用融合供应商的方案,比如说目前主流的国外融合MobileEye,国内融合博世。国内的自动驾驶绝大部分都是由博世来控制的,这就是第一代集成方案。我们的汽车本身是一个复杂的工程,它是一个拼接的系统工程,就是把上万个零部件集成到一起。造车本身不是一个造技术的过程,技术是由供应商在各个角度,比如说控制单元,发动机单元,电池单元以及感知算法单元,它们分别去突破的。这是第一代技术。但第一代技术它有一个瓶颈,你无法打通,供应商的东西你是无法改变的。所以就出现了第二代,第二代就是我用自己选择一个芯片,我把车、数据以及自我编程打通,那我可以改变我的功能。这是第二代,在芯片以及自主研发的算法上做自己的一个软硬一体的这个设计。第三代是我们现在也发现AI是一个对计算能力需求无穷尽的一个应用,尤其对自动驾驶,它的应用场景你在私家车上做应用,它的海量场景它是无限量的,你无法完全描述自动驾驶这个车会遇到什么。所以它对计算的需求也是无穷尽的,那我们现在出现了像很多公司,尤其是国际巨头Waymo也好,特斯拉也好都是自己做芯片,为什么?过去人类60年做的所有的芯片是针对通用计算的,一个是尺量计算,都是通用计算。我们真正到车上,这种复杂的流水需要更强大的芯片。这是第三代。
第四代我们大家其实想起自动驾驶,可能很多人,关注过的人可能都想起林林总总的各种各样的车。Waymo的车上面是架了一个像船一样的盒子,Cruise的车上pony 面是架了很多雷达,八到十个雷达。然后我们中国的很多自动驾驶公司,景驰也好,都是上面挂着很多东西的。这是第四代自动驾驶,它是什么呢?第四代自动驾驶通常是说在特定场景下不需要人了,是完全的driverless,没有驾驶员。为了做到这一点,它很难,我先限定场景,我再对这个车针对这个场景挂各种传感器,做各种计算单元。所以,整个到第四代的时候,这个车就为这个自动驾驶来设计的。所以,你看它好像不像台车,就是因为传统的车不涵盖这个东西,现在两者是一种嫁接关系,还不是一个产品的形态。
我从特斯拉来到小鹏,我是想解决中国化的自动驾驶,我们第一代车,今年的量产车上会介于第一代跟第二代技术之间,我们会采用部分集成供应商,部分自主研发。那这个也是基于的我们自主研发的节奏,它需要一定的时间去启动。我们在第二代车上,2020年的车上,会将自己自动驾驶这个自主研发的通道从算法到芯片,一直到车上进行一个打通。我们为什么要做这个事情?很多人来问我说,不管是吉利也好,沃尔沃也好,特斯拉也好,都有这个产品,为什么还要再做一下?是,是有这个产品,但是在大部分的中国场景下没人敢用,因为它不适合中国的驾驶场景。它会有水土不服,比如说中国路上的障碍物它是不规则的,你几乎无法辨别你在中国道路上遇到的所有的障碍物。中国的交通规则是不规范的,因为中国的文化跟西方的文化是不一样的,这个驾驶问题确实是反映人的文化问题跟习惯问题以及社交问题。它不是一个简单的在实验室内的一个技术,所以它有水土不服的问题,也就是说我们为什么在中国这么多车,但使用率不是特别高。
我个人认为,中国的自动驾驶只能中国人自己来解决。还有人在微博上提问我,说我从来没有听任何一个技术是带着国家边界的。我倒不是说这个是国家边界,而是说整个通道,就像打通这个任督二脉时,我们现在还没有打通,这个打通是什么?我们要真正的形成中国的海量的大数据,然后我们要选择适合我们的芯片。然后我们在这个基础上要搭建适合中国自动驾驶的传感器系统,而这个系统一定要针对中国的场景,你要涵盖中国的一些特定的轨迹、特定的场景、特定的一些交通动态。在这个基础上再做中国的算法研究。我认为在中国解决这个自动驾驶这个技术要比西方要难十倍以上,所以整个这是一个框架性的问题,也是一个创新性的问题,也是需要很多技术积累的一个问题。而这个解决一定要中国人自己来深耕解决。
第二部分我想讲解一下小鹏汽车我们对AI Car的一个定义,定义很重要。我认为一个车应该有三重智能才能在中国的马路上去开,是一个科普性的一个概念吧。我们先说这个AI Car,AI Car它包含着很多东西,比如说我有几十个传感器来感知环境,我有互联的功能,然后去取地图,我有云的功能、芯片的功能、人工智能实时的计算功能,然后自适应学习以及各种林林总总的,我来分解一下它是怎么一种三重智能。首先,我个人认为不仅仅依靠云端智能,车一定要自己会开,所以一定要在车上有实时的足够感知环境的,比如看200米也好,150米也好,这种摄像头加上雷达,再做融合。我们为什么要做这么多种类的传感器?因为没有一种传感器能够满足驾驶所看到的环境的需求。比如摄像头能看到扁平的二维物体,雷达能看到速度跟三维,这两者要加起来。我们如果有一种传感器能够准确告知它的三维的方向以及它的语意,那这个也是对自动驾驶将会产生推动性作用的一个技术创新。AI是很重要的,没有人可以否认自动驾驶的问题,本质上就是由AI推动的一个问题,那AI将会对它的周围的这个传感器拿来的数据进行识别,对其他车辆进行识别,从而作出自己的一些决策跟轨迹规划。而这个计算因为AI它要求的是高性能级的计算,所以一定要有一个高性能级别的芯片,且满足车规,在车去运行。可能我这个问题大家一想觉得很简单,我们不是有很多云,我们不是有很多GPU吗?但那些是不完全满足车规的,一个车跑在马路上,它是五星级的安全规格,它是不允许随时硬盘坏掉,随时可以重启。而我们的任何云端的东西都是存在故障率的,这个是不允许的。当然了,我们也要互联,因为互联可以告诉我们地图,互联可以告诉我们交通信息以及更多。刚才讲的是个体智能,你个体搜集这么多信息,你做一个决策,这是个体智能。
那我们车多了,可以增加群体智能,有十台车开过这里,看到这里马路断了,就可以告诉后面的车这里断了,叫群体智能。就像我们的蚂蚁蚁群一样,那车也可以做到同样的一个智能。另外一个辅助智能,大家会讲,尤其是在中国很流行,我觉得中国政府做事情弯道超车的概念它很难去避免。比如说我个体智能做不到这么多东西,那我在马路上加上各种东西,这就是辅助智能。你不管怎么搞,这个东西没在这车上,这就是辅助智能,借助环境本身的感知能力。V2X让这个车可以给各种东西发信号,但这只是一种愿景,你很难做到把世界(改造),你改造一辆车已经很难了,把世界都改了,装上传感器,且传感器日异月新,且传感器也不是百分之百可靠的,这个本身是个浩大的工程。所以,我个人认为它只是一个辅助性的东西。
接下来简单分享一下我们说中国式自主研发,到底它的关键点跟我们自己的一个分解是怎样的。做自动驾驶有这么多核心的东西,你规避不开,一定要去深耕,一定要去沉淀。比如芯片一定要有,没有不要搞AI。第二,自主研发措施打通任督二脉,把数据,也就是代表场景跟车,跟算法连接起来,这是真正自动驾驶是一个框架性的东西。海量中国场景大数据,不管你再怎么海量,世界天天变,所以这个东西是一个永恒的难题。我逐一分解一下,我们海量大数据场景,这个场景要在公开的任意的,不能是限定场景。我们经常有朋友开车,在硅谷开得好好的,车一旦开到中国,发现什么都不行了,就是因为场景变了,一切都变了。所以,场景是一切的源泉,而场景体现在大数据里边,而这个场景是要不加限制的,只要用户开过的地方,你都要去开,去搜集。拿这个数据到云端经过组织之后,把它进行AI的一个创新,肯定是创新的一个你要识别,所有的东西你要做预测,你要更多接下来我会讲一下,然后把这个算法弄到车载上,不要再仅仅在云端控制这个车辆。弄到车载上,你要在车上能算得动,你才有产品。这个东西形成闭环就是最关键的一个框架,形成闭环之后,让这个算法通过数据进行生长,让这个算法在车上得到验证,再回来一些你解决不到的问题重新增长这个算法。这是一个框架跟智能它得以演进的一个东西。解决中国的自动驾驶一定要让这个框架转起来,要让这个智能可演进,因为没有人可以一步解决所有。
AI我总结了大家认为对AI的定义,每个人有不同的理解。那在车上,我们需要AI的“六维感知”,第一维感知,你得知道自己是怎么动的,怎么运转,车辆动力学。第二维你要知道周围是什么问题,物体。第三维你要知道物体精准的在什么地方。第四维你要知道互相之间它的这个预测,它未来。因为人驾驶,人的反应弧其实是很长的,反应弧比如是400毫秒,很长,甚至比算法要长。但是人能够驾驶很好,因为人对未来有预测,他是基于预测在开车,而我们算法它总是基于历史,过去看到的传感器看到再算,算完决策,这个反应弧你是基于过去在做预测。所以,我们为了弥补这种延时,要对每个车辆的轨迹,每个账号的轨迹进行预测,所以这第四维时间维度。第五维你要理解车辆之间它不是孤立的,它是有相互影响的,它是有事件的。你加塞了,别人可能不让你加塞,别人可能会换道,你到底怎么想,你才能做出最好的一个决策。第五维,你做了一个决策,每个人开车不一样,有的人就是我尽快走,有人就是说我要安全第一,有人我要舒适第一。所以,你做决策要理解你基于什么样一种规则做的决策,这是第六维。六维感知之后才能真正的做到自动驾驶,我们现在的AI其实最多到了第二维或者到第2.5维。从2012年突破大数据的深度学习,它给大家提供了一个很好的水平线,就一下大家都水涨船高,在一个水平线上了,能够识别上千物体、上万物体的98%的精度比如说,所以这是二维。到第三维,我们需要高精定位,高精地图在量产车上量产方案做,现在是一个全世界都没有完全解决的问题。所以,我们现在在二跟三之间,但我们同时可以在研究界以及算法界可以做第四维、第五维的一些突破,一些预言,但是真正落到产品上还需要一些的实践跟积累。所以,自动驾驶真正做起来,它是结合传统经典算法,结合对scenarios的理解,有很多 scenarios,有很多场景。再结合AI做了各种各样的复杂流水,所以为什么你看各个自动驾驶公司,有些人说我三个月车都可以开了,那你接下来这两年你在干吗?我在解决各种 scenarios,没完没了的scenarios,且我这个车只要一换城市,我原先在广州开,我换到深圳发现这个什么东西都变了,我要重新再搞一下,这就是自动驾驶的难处了。
另外,车它不是一台手机,它也不是一个电脑,安全要第一,要做到安全是很复杂的,这个车本身有控制单元,有感知单元,现在又有芯片,各种各样的东西加到一起。为了解决这个问题,我们是说在传感器上面做了一些冗余,在我们的控制单元上,在我们的急刹车上都做了一些冗余,把整个安全的以及智能分成了四个层次的框架系统,一层一层往上去涨。那我的一个基本的原则就是任何高级的智能都是不能以牺牲性命关天的安全性为原则。比如说Uber前几个月发生了一些车祸,就是AEB没有启发,那这种情况下,我不管整个车有多智能,我是不会去用的,因为我AEB是我性命攸关的。所以我们在设计我们的系统上会第一步保证我这传统一百年造车留下的精华不要被损害。第一层。第二层我有一个冗余。第三层、第四层我再说高级的智能,如果高级的智能做不到,我就回到下面的一些智能上去,保证人的性命安全,比这个智能的fancy的未来更重要。
最后很快我想跟大家分享一下我们的产品的智能演进。我说过,要解决自动驾驶问题,我不相信有一家厂商可以站出来说我落后的都解决了,这是不科学的,这个问题有它的科学性。所以它一定有一个演进的道路。我们把自动驾驶分成了,中国人驾驶他的焦虑痛点跟外国人不一样,比如说外国人很少有这个停车焦虑,停车场都很多。但是中国人停车焦虑是很大的,所以我们第一步先从这个停车焦虑开始解决,从耳朵,就是先用超声波,基于超声波的泊位像蝙蝠探测一样,你要有前后、左右有车辆才能去检测,这个超声波也是现在市场上大部分的停车系统用的这个技术框架。我们在此基础上加了视觉,你这个车场空空的,超声波探测不出来任何车位这是很傻的,这是人不能理解的。所以加上视觉,让他能够看到各种停车位。最后再加上语音,让人可以跟它交互,再到一些记忆性的东西,一步一步的去演进它的智能。对于自动驾驶来讲,驾驶焦虑,比如说春运的时候长途开高速公路的焦虑,比如说每天上下班,在一线城市每个人平均50分钟、一个小时的堵车,上下早晚高峰的焦虑。这种焦虑已经使得人这个车的生存空间变成了人除了家、除了公司之外非常重要的一个生存空间,所以我们有自己发挥的这个空间。那我们解决完驾驶焦虑之后,会从先说高速自动驾驶开始去做,L2、L3的比如说人,L2就是人可以不允许脱手,你手要实时在上面,L3你可以允许脱手了,你这样长途跋涉的时候,人的这个焦虑性、疲劳性可以得到更大程度的改善。再到拥堵情况下,车可以自己的跟停,然后handle一些换道,handle一些别人的加塞的问题,解决早晚驾驶高峰的焦虑。再到未来以后,城市十字路口怎么去过,现在也是一个永恒的难题,怎么上下高速,是真正做到从A点到B点的一个自动驾驶的关键技术门槛。再到最后,其实就算这些技术问题都解决了,自动驾驶问题也没有完全解决,因为人的驾驶习惯,用户体验是我们最重要解决的问题,每个人他驾驶的习惯不一样,有人喜欢用激进型的,有人喜欢平稳型的,所以最后我们要解决个性化的驾驶问题,这是我们的一个演进之路,粗框架的。
同时,我们要说车内智能也要去做,当人越来越多的解放出来之后,双脚、双手、眼睛都解放了,人在车里干吗,你在真正做到无人驾驶之前,其实这个车是一个人机共同体,有一部分场景是车,有部分场景是人,只是在L2的时候,人大部分的还要驾驶,车驾驶少部分场景,越往上车越来越多的不需要人去管。在这个过程中,我们要通过驾驶员状态监测来告知这个系统,来进行一个协同,说我人现在疲惫了,你要给他十秒钟的时间接管,或者是这个人他现在看手机,你要节他八秒钟的时间来接管,你要提前提醒他。才能够说在车开的越来越多的情况下,你能够做到更好的无缝的一个更安全的一个功能的一个配合。
最后我想跟大家分享一下,我们现在这个自动驾驶中心是一个两岸四地的一个跨国的团队,我们在广州总部解决造车测试的问题,我们在硅谷有团队解决软件研发的问题,我们在上海,在北京也都有团队。那我们近期也有好消息,是我们在硅谷取得加州自动驾驶路测许可。那我们希望在今年,我们只做少量的事情,其中一件最重要的事情就是把任督二脉打通,把框架建立起来,然后实现基本的功能,开始真正的上车做实验。我希望我们是一个做正确的事,然后用正确的方法来做事的一个团队,也希望大家能够关注我们接下来的一个成绩和一个结果。谢谢大家!