2017北京车联网与智能驾驶论坛于9月6-7日在北京昌平小汤山佐智自动驾驶园召开。会上,北京中科慧眼CTO崔峰博士做了题为《车辆驾驶环境的多维视觉感知》的演讲。
崔峰:非常感谢佐智汽车和佐思产研的余总和各位朋友们。先介绍一下我们公司北京中科慧眼科技有限公司,中科慧眼成立于2014年10月份,目前不到30个人,还是一个较小的初创公司。我们公司主要致力于多维汽车视觉传感器的研发与制造,目前聚焦的是车用双目立体视觉传感器,是国家高新技术企业,也是北京中关村前沿科技企业。
我们在2017年的1月份获得了由中国电动汽车百人会主办的全球智能汽车创新创业大赛(有520多个创新项目)的总冠军。我既是创始人也担任CTO,于2005年毕业于中国科学院自动化研究所,模式识别与智能系统专业,曾在三星,诺基亚等公司从事图像与智能系统行业十余年。
我们公司目前主要致力于车用智能视觉传感器的一系列前端到后端的解决方案和系统的研发上。我们认为立体视觉是未来在车用传感器领域必不可缺的主要组成部分。国内有没有这类公司和主机厂做这方面的研究呢?其实有,但少之又少。我们可以说是第一家能够量产车用双目立体相机的公司,这个时间点比较符合交通部《营运客车安全技术条件》制定的时间点,在今年的第四季度我们可以向车厂以及一些合作单位提供满足汽车前装标准要求的量产产品。在这之前,我们面向后装的双目ADAS产品已经率先向渠道商批量发货。
我们公司的团队主要来自于中国科学院以及微软、诺基亚包括韩国三星的同事,可以说我们从前端技术研究到中间的工程化、软件化、硬件化,到量产生产,都具备一个比较完整的小而全的体系。
我们认为在感知方面多传感器融合是自动驾驶的必由之路,智能驾驶从L1到L5各个阶段的提升,需求的增多以及对环境复杂感知需求的提高,使得对车辆对传感器的数量、传感器的性能、反应速度以及对环境甄别能力的要求也是逐步的提高。根据2015年来自于法国的研究资料,他们认为至少从L3开始,在车辆的前向视觉上,双目会逐渐的取代目前装备在一些车辆上的单目摄像头,当然我们不是说双目跟单目是对立的关系,他们是一个相互依存融合的视觉关系,包括我们会提到的360度环视和车内的视觉监控。
我们可以看到,从2007年开始量产的斯巴鲁eyesight系统,到2016年全球的奔驰宝马以及捷豹路虎高端车辆上,以及2017年的雷克萨斯都在普及双目立体视觉,也就是说原来的单目视觉产品正在或者已经被双目立体视觉所逐渐替代,这也是豪华车型以及国际汽车市场上自上而下的选择。
这是我们产品的外观图。现在我们已经做出两代产品,第一代产品分辨率较低,有效的报警距离也较短,第二代产品我们的分辨率上升,而且反应帧率上升,包括报警距离也会成倍的提高,所有的零配件都是按照前装的标准设计制造的。我们这样的立体视觉产品有什么差异点呢?智能传感器在车辆行驶中要负责完成对车辆行驶环境快速准确的感知,而我们的双目立体视觉产品成像中的每一点都可以得到比较准确的深度距离值,没有空洞和遗漏,这种特性非常类似于现在大家寄予厚望的激光雷达传感器的特性;同时作为视觉传感器,我们的产品有两路图像输入,所以我们所熟知的基于视觉的深度学习、机器学习,道路的车道线学习识别以及车辆的分类、行人的分类等等都可以通过算法系统完成,所以我们可以说中科慧眼的车用双目视觉产品融合了激光雷达和视觉学习两者的特性。更进一步,我们本身也是做视觉以及模式识别有近二十多年经验的团队,我们在360度环视以及视觉疲劳检测等都有比较多的积累,所以未来会在人机互动方面做出更多工作。
我们近期会做多维的视觉远程监控方案,无论是乘用车还是客车,都可以装配两组视觉系统,一个是双目前向视觉模块,还有一个车内视觉的模块,通过4G网络,把监控数据发回车辆远程监控系统,与远程监控系统进行双工通讯,以满足智慧城市和智慧交通的需求。
我们在多维的视觉里,尤其是在立体视觉3D视觉里,有什么独特的特点?首先关于3D视觉大家可以看左下角的图,道理其实很简单,我们利用一个左相机、右相机同步对环境成像,可以看到左相机成的像里面所有的物体比较偏右,右相机的成像里面所有物体偏左,如果两个图叠加到一起,近处的物体在两个图里面的位置差比较大,远处的物体在两个图里面的位置差比较小。如果我们能够完全精确的同步成像以及快速的完成左右图点对点的精确匹配,就可以得到视场中某一点在左右眼相机的视觉差异大小,再根据相机的标定数据就可以映射得到这一点离相机的实际距离。右下角图是基于面的双目测距示例,伪彩色图,色调越暖距离越近,一颗灌木丛通过距离点云分析都可以被很快的识别出来。其实这就是我们为什么认为激光雷达在未来有很大的意义,就是在于能够实时提供精确密集的三维测量数据。很多的车企也希望能找到实用廉价的车辆传感器,如果仅仅靠视觉识别,这样算法的任务就非常重,我们如果希望视觉做到万物识别,这样的误检率就难以控制了。如果能利用更简单直接的方式做到环境的感知,利用密集的测距点阵得到很多的环境信息,就可以在较短时间内达到较好的效果。而密集匹配的双目传感器就具备了稠密点云和视觉识别的双重特点,成本又可以得到有效控制。
(播放视频)下面播放几段路测视频。这是我们一代后装产品与Mobileye的后装M560的对比视频,可以看到我们对于车辆的侧面识别非常快;这是对大客车的侧面碰撞试验;这个是对电动自行车的碰撞探测;…。这是对城市道路3D视觉感知的实验结果的实时点云,可以看到,车辆以及栏杆、路灯还有树木、建筑物的实际距离都可以被很好的测量与呈现出来。
我再挑几个我们双目产品关于视觉识别方面的演示,这是我们的车道线识别的视频,将车道线在实时图像上划出来,通过机器学习实现;还有很多下雨天或者在大客车上做的实验,前装的Mobileye产品有时会因为积水的反光以及阳光的反射,造成对很多道路不识别车道线,但是我们的产品能够比较鲁棒地识别;这是我们3D点云以及机器学习对于夜间暴雨时车辆的碰撞预警视频,雨雪雾是一个难点,我们为什么可以做到这么稳定的报警或者追踪?一个是借助密集点云比较精确的测距,第二个,与机器学习对障碍物进行准确的分类以及判断有关。
我们回到PPT,这是2014年日本做的报告,里面分析了斯巴鲁、日产以及宝马他们装配了单摄像头毫米波雷达和红外线激光的产品对标。可以看到,立体视觉的防碰撞安全等级最高。因为即使是对比现在尚未普及列装的16线以及64线的激光雷达,双目视觉仍然有自己鲜明的特点和独有的优势。
举个例子,上图是VLP- 16雷达和中科慧眼二代产品SmartEye C2 的对比。我们二代产品是2米到80米测距,而激光雷达远端的误差非常小,可以在0.5米到100米正负3毫米的范围内测距。从视场角度来讲,视觉的产品必然会受到光学的限制,我们的视角低于360旋转的激光雷达。但是从点云的分辨率来看,我们水平角分辨率高3倍至13倍,垂直角分辨率高64倍,所以我们对小目标的检测能力更高。假如0.5m宽的静态障碍物,我们如果假设在物体水平方向上得到12个点的测距值,就可以依靠点云信息比较稳定的把障碍物框图从点云中提出来的话,这样我们的产品可以在74米处把障碍物提取出来,而VLP- 16这样的16线激光雷达会下降到23.9米至6米。这解释了为什么大家装了激光雷达,但是对行人、儿童以及路上的三角锥等小目标障碍物的提取距离仍然比较近,而我们的双目产品对于行人等小目标有较好的检测能力。对于大目标,比如两三米宽的车辆,利用激光雷达足够在一百米以上得到足够多的测距值,这时我们的双目视觉就有相对劣势。所以比较完备的智能驾驶传感器方案是立体视觉与毫米波雷达以及激光雷达相结合。
我们的产品可以在零下20度到零上85度正常工作,但是现在激光雷达是在零下10度到零上60度工作,并未满足车规要求。我们视觉产品在夜间及雨雪雾天气会有降质,而激光雷达仍然会受到雨雪沾染的降质,同时阳光等光源的干扰也会造成障碍物提取降质。另外视觉识别障碍物类型的技术也是比较成熟的。最后,一个16线激光雷达要7000美金,我们可以小于200美金对外发货,售价差不多是40分之一,今年第四季度大家就可以拿到这个产品。
我们越做车用传感器,越对车辆的驾驶环境和需求产生敬畏之心,车用双目产品确实不好做,很多的公司放弃了对立体视觉的研发与制造,其实是比较可惜的。
还有对64线雷达的对比,结果也是相似的。
前面讲到了基于可见光的完全对称的双目视觉的特性,其实多维传感器不仅仅限于3D立体视觉,还涉及不同的光学特性相机的组合。例如,我们对车道线、交通标志进行检测,单纯靠一个光路无法对远距离和近距离的交通标志进行识别,一定要结合不同的焦段和倾角完成对道路环境的感知。150米处有一个红绿灯,靠一个角度上倾的相机是看不到的。如果5米处有一个红绿灯,我们不抬头头也看不到,这个时候多个相机的组合就产生了效力。也就是你可以用一个更大仰角的近焦相机观察近处的交通标志,靠一个更小仰角的远焦相机观察远处的红绿灯和交通标识。
还有很多视觉传感器的组合,比如远近外、近红外,为你提供白天、夜间或者特殊光影环境下的道路环境和障碍物感知。
谢谢大家。
提问:第二代Smarter Eye距离大概是80米左右,您估计以后发展能够到多少距离?
崔峰:我们觉得3D的视觉传感器跟光学特性有关系,如果我用长焦的镜头,我加大相机基线可以看到150米甚至200米的东西,但是视角会比较小。可能我们在看到120米左右,能维持10%的测距误差,而视角小于10度;如果看到150米估计视角会小于5度,或者在7度左右,这就是视角受限。有可能会产生一些需求,就是你多个双目相机的融合,比如我一个视角在40度左右,看80米以内,一个视角在20度以内,我们看120米之内的,还有一个是视角在10度左右的,我们看160米之内。我们可以看到像沃尔沃或者Mobileye,他们有一个三单目融合,双目也可以做三组双目融合,但是体积受不了。可以做单目和双目融合。
提问:双目相机以后会不会有变焦的摄像头?
崔峰:其实我觉得也可能产生这样一种需求,就是科研单位或者院校用一种变焦的镜头,可以设计好固定的几个焦距来做实验,但是行车过程中变焦比较危险,至少有来回变焦的延时,这一段时间内采集的图像不清楚,这个时候所有的感知都不可靠。不采用变焦镜头,成本不是主因,主要是看它是否满足我们车辆对安全行驶的需求,如果是一辆低速车辆,3公里之下行驶,变焦头应该还是可以的,车速80,变焦头就比较危险,毕竟车辆每秒钟行使两米多。
提问:我还是很关心误差,你刚才讲80米左右误差5米,5米来讲是不是还是有可能把误差降低一点?
崔峰:一个光学系统所能达到的精确程度,跟很多的因素有关,比如镜头的选型,还有镜头的分辨率,以及对焦准确性,成像的环境是怎样的。我们在晴朗平坦的地方测距精度肯定要好于雨雪天气下的测距精度。另外,定焦镜头的测距的有效范围也是有限的。我们要做到一组双目相机,尽量近处看到最近,远处尽量远,这是矛盾的。我们想如果看到80米很精确,我们就要用更长焦的镜头,但是问题在于如果你要想在2米看的清楚,又想在80米看的清楚,可能最准确的地方是在50米左右,前后焦段都是逐渐降质的。80米以上的高精度测距,可能需要16分之一的像素匹配精度,这样数据字节的宽度会变大。同时光学系统精度也不是单纯的数据可以解释,跟系统整个的精度有关。
提问:刚才你也讲了误差跟标定有关系,这个是自动标定吗?
崔峰:我们的设备在用户安装的时不需要标定。我们在生产时有自动标定的设备,标定在生产时都完成了。我们大概做了8种很特殊的自动化设备,生产中人工参与的过程非常少,我们现在的自动标定速度比较慢,基本是一分钟完成一台双目相机的标定。我们知道有些同行很快,我们也在追踪这些技术,并希望把误差变得更小一些。但是我想说对于双目来说,国内的研发团队少之又少,做产品的更是凤毛麟角,非常难做,尤其是我们能得到的公开的资料也是非常少的,我们的很多设备其实比较简陋,一开始都是按照我们的设想,人工锯木块做模型试验结构行不行,到了今天我们自己研发了好几种自动化设备,很不容易。当然我们如果想进一步的提高,还有一个成本的问题,为什么我们的产品成本在200美金以内,也是在于我们在研发成本、物料成本上以及自动化工序做的一个妥协,作为一个初创公司,有时我们想买一个特殊的物料都有困难。
提问:您介绍双目视觉方案这里面,点云万点每秒的速度,明显会比激光雷达快得多。但是我想激光雷达为什么会有速度限制,是因为它必须是现场,因为激光雷达有一个特点,是有脉冲的方式,必须等到脉冲回来才能计算,通过反射波的时长计算距离。按照我对光学的理解,是通过时差来计算距离的。那我的前提是两个左右眼成像要是精准的,如果成像不是精准的,比方说我的焦距设在10米,但是我的观察点是在100米,它的原点一定是不同的,在这种情况下,在100米去计算时差,应该是非常不精确的,得到的点也是不精确的。所以我想对于双目视觉,同样会有扫描的过程,这个扫描就不是我们讲的激光扫描,是调焦距的,因为我们在做分子级的电子显微镜的时候,我们是在不断的调焦距,我们必须要把每一层都要拍下来,才能得到准确的图像。但是因为你刚才提到一个问题,就是没有变焦,如果用一个镜头肯定只有一个距离是最清晰的,其他距离是不清晰的,我们可以推断出来,你刚才彩色的那个图上只有一个点是准确的,其他非焦距点都是不准确的。
崔峰:清晰不清晰是看大家怎么定义,比如可以容许的弥散圆半径,与设备的焦距,光圈,以及镜头与sensor的素质,安装精度等息息相关。不是说清晰就是某一个物理点的成像聚焦在一微米上,这是没有意义的。所谓的清晰就是一个物理点在成像里是能被一个像素的尺寸范围涵盖住,还是被半个像素的尺寸范围涵盖住,如果这个像素的感光面积是6微米大小的,你成的像是三微米大小,那一个像素就可能含有两个物理点的信息。
设备需要达到的清晰度是由使用者来设定的,需要通过对镜头的分析以及传感器的分析来实现,里面有一些的计算公式和原理,感兴趣的朋友可以搜索了解一下。在某一个对焦距离上,该处的物体成像肯定最清晰,但该位置前后清晰度容许的景深范围内的物体成像都是清晰的。另外,成像清晰双目视觉的一个重要需求,第二个需求是匹配算法能不能实现实时准确的匹配。
还有一个问题,双目视觉的远端测距误差大,是因为障碍物距离的越远,对应的视差值越小,例如,远处的障碍物视差为3的时候,距离是150米,视差为2的时候,距离是200米,一个整数视差值差了50米,这样的情况下的障碍物提取分析就不容易稳定。因此,我们说真正产品开放出来的测距或者障碍物提取的距离,是缩小到2米到80米的区间,原因是在于让设备提供的功能在该范围内是真实可用的,不是夸大其词。
车用视觉传感器在物体特别近的时候,太高的测距准确性意义没有特别大,因为这个时候测距值相对变化较小,假如这一个点是10.212米,下一个点变成了10.211米,这种误差用途不大。双目视觉与人眼的视觉感受相似,越近的物体测的越准,越远越不准,但是这种感觉是真实可用的,可以帮助我们安全驾驶,因为一个驾驶员只要有健全的双眼就能把车开好。所以我们的双目视觉也在模拟人眼进行学习和实时道路感知,也在提升我们设备的精度和体验,我们相信这种性价比很好的传感器一定能应用到10万元的家用轿车上。
我们中科慧眼是一个工程师团队,我们会跟大家一起努力,推进国产车用视觉智能传感器的商业化步伐。