清华大学智能技术与系统国家重点实验室 邓志东教授
大家上午好!今天跟大家报告的题目是人工智能,快速扫描一下快速落地中的全球自动驾驶产业,三个方面都有:第一,是从智能驾驶到无人驾驶;第二,产业的平静与技术路线之争,里面包括三个方面的内容;第三,人工智能在自动驾驶产业落地中新的机遇。
我们知道美国SAE关于自动驾驶的分级,从L0—L5,总共6级,大家可能关心的是L2和L3,目前一个是部分的自动驾驶,一个是有条件的自动驾驶,我们认为L0和L1是一种辅助驾驶或者智能驾驶,L2和L3是我们的自动驾驶,我们更关注无人驾驶的L4和L5,L5是完全跟人一样的,比较遥远,但是产业关注重点可能L3、L4。我们看到自动驾驶,在L0和L1方面,驾驶主要半自动和辅助驾驶方面,L0是告警式的开环,L1是闭环的。我们看到L2阶段,全球搞自动驾驶,不管是科研还是产业基本上在L2阶段,实际上已经把手脚解放了,需要随时的接管,需要一个安全驾驶员、还有一个监控驾驶员,但是机器不能够处理极端环境和紧急情况。在L3阶段我们把眼睛解放了,我们不需要去看了,不需要非常紧张的看到周边的行车环境,是一个绝对可靠的机器感知,有监控驾驶员,显著的标志是司机的位置没有人,这样就可以认为这应该是L3的水平的一个自动驾驶。还可以看到,如果在L4阶段或者L5阶段,就是把脑袋彻底解放了,我们可以完全放心它的安全性,这个自动驾驶出去以后我们不用担心会因为安全问题给你带来任何麻烦,这是一个真正意义上可以颠覆未来出行方式的技术。他们之间区别在于,L4要限定区域和限定功能,L5不用限定任何的功能和区域,跟人类驾驶相同的,人可以去的地方它也可以去,人去不了的地方它也去不了,这个时候显然我们不需要方向盘、也不需要踏板和后视镜了。
我们现在关心的重点可能是在L4这个水平上面,他也有限定区域和限定功能,也要遵从一个商业模式,就是从简单到复杂的商业模式,比如我们首先开始在封闭区域里面做轨迹跟踪,这种自动驾驶,就是园区、景点、工业区,可以在封闭里边沿着固定线路或者是一个固定的车道自动驾驶,这个场景是比较简单的,也是比较容易实现的,也容易获得商业模式,比如机场、港口。另外一种是更加复杂一点的,比如简单的城区路况做自动驾驶,在高速公路或者在城市特定里边里边做自动驾驶,这个应用场景相对简单,需要用高精地图,障碍物检测和行为预测,比较容易L3和L4。更复杂的,在高速公路与城区的全部道路自动驾驶,最后扩大所有道路可以实现,就是到L的阶段了。应用场景其其复杂,全路网高精地图,还有障碍物检测,行为预测和复杂检测。
我们看到还有关于产业的瓶颈,这个方面首先看到环境感知与环境建模之争,我们到底是完全用环境建模的方法、还是完全用纯感知的方法,如果用环境建模的方法,优点我们采取RTK厘米级精度的轨迹跟踪,可以做到像人类这样的水平道路行使能力又快又好,但是他的缺点是明显的,没有环境适应性、没有自主性、成本高,仅适合于封闭场景,比如采用厘米级的拓补+RTK和障碍物的检测方法。
这是全路网的拓补地图,这是高精地图,激光雷达扫出来的。看到高精地图有什么好处呢?用他来做地图匹配,可以进一步降低导航系统的硬件成本,而且容易实现全路网的自动驾驶,采用这种轨迹跟踪RTK装置。还有纯感知的,完全用摄像头、完全用视觉解决自动行驶的问题,优点就是可以全路网的自主行驶,人靠两个眼睛什么地方都可以去,根本不用地图,也不用GPS,这样具有高度的自助行和环境适应性,因为他依靠摄像头、激光雷达,无高精地图,无RTK,成本低,缺点是受车道线质量的影响较大,车速降低,可靠性差,机器视觉和人的视觉是有很大区别的,这样有很大问题,应该把环境感知和环境建模结合起来,同时获得高兴能的路面行驶能力,还要有自主性。
第二,视觉主导还是激光雷达之争。我们知道有两个产业化落地平静,其中之一从L2到L3,一个是特斯拉的方案,还有一个是规格Waymo的方案,就是采用激光雷达的主导。这两个方案都是要面向低成本,因为产业化落地瓶颈的观点是要高可靠、低成本。这里边有两种,一个是视觉可能摄像头+毫米波+超声波+低成本激光雷达,激光雷达以低成本的激雷达+毫米波+超声波+摄像头。
视觉主导的解决方案,被动视觉,受光照影响大,目标检测与SLAM较不可靠,但成本低。特斯拉Autopilot2.0,8个摄像头,有一个OTA空中下载,还有云平台进行ECU软件和功能升级,它的功能是通过软件OTA升级的,自动驾驶可以从L2演化到L4+。视觉主导的技术,特斯拉Mobileye技术过渡到运行于Nvidia Drive PX2上。激光雷达主导方案,主动视觉,目标检测与SLAM都比较可靠,但是成本比较贵,缺乏纹理和颜色。所以现在Waymo把这个激光雷达成本降下来了,自己搞了一个削减了90%以上,他今年刚刚上个月在美国凤凰城进行无人驾驶出租车的社会公测,完全无人的,上面没有一个人,不像Uber那个,他在匹兹堡上面有工程师的,现在一个人没有了,实现了无驾驶员社会公测的无人驾驶出租车,已经看到在进行公测了,所以它的技术应该是相当可靠。激光雷达主导就是进一步,比如摄像头跟激光雷达组成一个模组,使用彩色激光点运输局,进一步降低激光雷达的硬件成本,现在比如4万6就可以买一个16线的激光雷达,如果研发固态激光雷达成本可以进一步的降低。
循环渐进还是一步到位之争。我们知道第二幕,我们说科研主导是第一幕,很早做科研、做自动驾驶、做无人驾驶,这一幕基本上结束了,以市场为主导的自动驾驶开始上演,因为现在看到全球竞争产业竞争格局非常激烈,这里边有两个技术路径,一个是渐进路线,我们从很多传统的主机厂可能愿意就这件事情,从L2逐步演化到L3,再演化到L4,另外一个路线就是这些互联网企业或者科技巨头,他们愿意做一个完全无人干预的L2+L4+以上的技术路线,因为他不需要人干预,人干预反而干预不了,因为人往往注意力不集中,要说让他随时接管可能他不愿意做这个事,可能注意力不集中反而容易引起事故。我们可以看到现在全球产业的格局,我们看到大量的企业,尤其创业公司特别多搞的动驾驶的,我们看到老的车企,比如通用的Cruise,福特的通过收购Argo AI,还有日产的、沃尔沃、奥迪、大众、奔驰,还有我们国内的这些企业,基本上都在搞自动驾驶。新的车企可以看到特斯拉、Wheego,还有国内很多新的互联网的新能源汽车,还有Tier1,我们可以看到跨界科技巨头像Google Waymo、Uber、Apple,还有百度、腾讯、华为等等。初创企业特别多,初创企业可以列出很长的名单出来,有nuTonomy,很多都是有华人背景的企业。
这是百度的阿波罗,可能集中在云上面的服务,提供云的服务,高精地图,在数据平台的服务上面、云服务上面。自动化自动驾驶,我们觉得应该以信息化汽车作为底层平台,我们说互联网汽车如此重要的原因,因为我们知道数字化和总线化或者网联化是智能化的基础和条件,所以需要在信息化汽车里面使用OTA还有云,还有使用SDU,我们用软件定义它的功能,跟我们现在智能手机一样,通过软件来实现它,这就为我们的自动驾驶或者无人驾驶打下了一个非常好的基础。
第三次变革,有可能从电动汽车到智能汽车,然后到自动驾驶汽车。我们看到新的“四化”趋势非常明显,就是要做电动化、信息化、智能化、共享化,自动驾驶有可能是人工智能最具商业价值,而且有可能是最早落地的垂直领域之一,要解决绝对的安全性、低成本,还要提供整体的解决方案,还要形成产业生态,还要催生商业模式。我们可以看三个核心问题,第一个问题是目标识别的问题,比如我们对交通稠密的复杂情绪,怎么可靠的进行周边障碍物的检测、行为意图的预测,还有自主导航,它不受比如GPS卫星导航的影响,比如激光的SLAM、是觉得SLAM,还有多传感器的信息融合。
人工智能新机遇,我们知道深度学习是完全用真实大数据,不需要进行预处理,一般数据包括了视频的图像,包括激光的点云、毫米波雷达等等,而且实时性有GPU、TPU、FPGA、ASIC和类脑芯片,已经成为自动驾驶感知、决策、控制的基础技术,深度学习是环境感知和自主决策的决定性技术,可望使自动驾驶汽车具有人的环境感知还有驾驶技能的自主学习能力。我们人通过学习或者驾驶技能的,我们在驾校通过监督学习,师傅手把手教,我们离开驾校以后到你开了几十万公里,完全靠强化学习、好自主学习,靠经验失败与成功进行学习的。我们可以看到环境感知与基于认知地图的自主导航,比如深度卷积神经网络,加上低成本的激光雷达,还有高精地图、5G通讯、智能网联以及智慧交通系统和智慧城市的合力支撑,有可能使极端环境的感知与低成本、高可靠自主导航成为现实,这是两个关键的问题,成为L2跨越到L3最大的产业瓶颈,就是要做到可靠的感知,还有低成本、高可靠的自主导航。我们可以看到自主学习的智能决策和控制,由AlphaGo推动的深度强化学习的应用,让我们汽车以后是不是像人驾驶汽车一样的,驾驶技能有自主学习能力。
人工智能我们可以说主要涉及到五个维度,有算法、有数据、有计算、有细分的场景,还有垂直整合,这个算法包括卷积深度神经网络,深度强化学习,数据包括目标大数据、行为意图大数据、驾驶行为大数据、驾驶轨迹大数据,计算有移动端、云端、离线训练深度学习和加速器。我们看到学习算法,大家知道深度学习的开源算法,包括TensorFlow等等。还有他的共享技术,我们看到深度卷积神经网络,深度学习可以用环境感知、信息融合、决策/控制,里边可以有行为意图的预测、认知地图的创建、多模态导航信息融合,还有基于深度学习的自主学习与控制。与高精地图的结合,极端环境下的比如说可行驶区域的检测,还有车道线的检测。
这是我们做的用KITTI基于深度卷积神经网络做的,可行驶路面与车道线检测,这是完全语义分割的。还有基于深度卷积神经网络作障碍物检测与识别,机动车、非机动车、行人识别。做行为意图的预测,通过与高精地图的结合,高精地图是非常重要的,超越了人类的先验知识。还有认知地图。用端到端的自主决策,用AlphaGo Zero这样的技术,用Actor—critic做控制,与知识驱动结合,效果非常好。
我们看到大数据,看到大数据对自动驾驶如此重要,在深度学习算法中,看到采集喂食大数据越多,获得更好的驾驶知觉。可以看到在美国加州路测企业已经有37家企业以上,很多都是创新企业,尤其是互联网的创新企业。产业竞争的焦点两个,一个是基于大数据的里程数,还有就是看人工干预频度,比如1万公里干预多少次,比如人可能10万公里一次,最好的水平是谷歌的水平,最好已经做到1万公里干预次数是1.25次,所以这个代表了最高的一个技术水平。可以看到通用量产的无人驾驶汽车,这是在量产的,量产车间出现的无人驾驶其他。
我们看到要解决这个问题其实做到后面是更难的用大数据,因为现在方法必须要用完备的大数据,所以他就是要疯狂的追逐自动形势大数据,而且大数据还有一个什么问题呢?就是长尾效应,我们现在识别率比如从99.999%提高到99.99999%,99.99999%需要大数据是指数增长的。我们看到计算能力,GPU/TPU。计算能力,还有云端的、终端的。
也可以看到汽车芯片巨头,包括我们全球的芯片巨头都开始聚焦人工智能芯片,尤其是关注自动驾驶的芯片,自动驾驶芯片形成了好几个阵营,其他的基础条件,我觉得今后基于深度学习高精地图,包括栅格地图和认知地图,可能形成巨大的产业,因为是充分的先验知识,会形成数字化、网络化、智能化的交通基础设施。原因是目前的学习不能解决语义理解的问题,这是存在根本的缺陷,现在只能够进行,如果有完备的大数据他能够做到人类水平的检测、分割与分类,但是他没有理解,人开车为什么两个眼睛就可以开车呢?因为我们对环境有理解,就是有抽象或者显象,这个可以理解有语义,因为这个缺陷,这个缺陷就是你用多大的数据也不能解决他语义理解的问题,到目前的算法,这样就必须要利用其他方面的合力,来解决环境绝对可靠的感知问题,因为刚刚说L2到L3一个瓶颈。我们怎么办呢?要注意其他条件,一个条件非常重要的,就是我们高精地图,包括偶然的栅格地图,另外一个条件是5G和NB—IoT,还有智能网联技术,还要用智能交通系统ITS,可以在基础设施道路上做一些改造,还有智慧城市等等,形成合力,这样才有可能解决极端和紧急情况下的可靠感知问题。
我们会在这个上面,如果有L2、L4技术的瓶颈突破以后,我想很快会迈向共享化的无人驾驶汽车社会。比如说这个时候共享无人驾驶,还有人工智能的增值服务,会成为我们最终的目标,包括智慧共享出行,包括发展智能的增值服务,智能增值服务很多人为自动驾驶可能有1万亿美元的市场空间,如果加上智能增值服务的话,可能要乘以10,我们手机现在每天打电话可能打不了一次,都是干其他事情了,今后可能在无人驾驶出租车或者汽车上面也会出现这样的模式,可能出行是一个基本的功能,更多是在上面享受很多增值的商业服务,最终是要建立一个共享的网联电动的无人驾驶的生态。
最后结语,具有巨大产业价值的L4,正遵循限定区域可以从简单到复杂的商业模式演变之路。就是说不管是简单的商业模式、简单区域的还是复杂区域的都会有商业模式,都会找到他的商业价值。环境感知还必须与环境建模(高精地图)结合起来,原因就是我们现在无论算法或者人工智能算法还存在缺陷,不能对环境进行理解,这样的话他需要与高精地图结合,需要与5G通信、与NB—IoT、车联网、ITS、智慧城市形成合力,这样才可以解决极端环境和紧急情况这种可靠感知,助推L2到L3,为自动驾驶产业的落地迈出最关键的一步。高可靠、低成本是视觉或者激光雷达主导技术路线的共同要求,要求高可靠、低成本,这个事情要做成最后我们要多传感器融合的解决方案,多传感器融合就成为必须要解决的共性的核心的关键技术问题。深度学习是环境感知与自主决策的决定性技术,可望使自动驾驶汽车具有类似于人的环境感知与驾驶技能的自主学习能力,其中大数据与干预数成为评测的关键。人工智能的深度融入,必将加速L4+无人驾驶产业的商业落地。
(根据发言整理,未经本人审阅)