新智元报道
作者:胡祥杰 零夏
【新智元导读】 夜间消息,地平线刚刚宣布获得近亿美元的A+轮融资。领投方正是此前地平线要“对标”的英特尔,双方将联手重点在自动驾驶上发力。从对标英特尔到牵手英特尔,地平线经历了哪些变化?公司现在的定位是什么?新智元对地平线创始人兼CEO余凯进行了专访,他谈到了地平线现在的公司定位和在自动驾驶生态中的地位,还有联手英特尔后对待其他硬件厂商比如英伟达的态度。
人工智能初创企业地平线刚刚宣布了A+轮融资情况:总额近亿美元,英特尔投资领投,嘉实投资联合投资,其他参投方包括现任股东晨兴资本、高瓴资本、双湖投资和线性资本。泰合资本担任本轮融资的独家财务顾问。英特尔全球副总裁丹尼尔·麦克纳马拉尔 (Daniel McNamara)将加入地平线公司董事会。
本轮(A+)融资预期于2017年年底全部完成。
地平线创始人兼CEO余凯在于美国旧金山当地时间19日举办的英特尔投资 CEO 会议上正式宣布了这一消息。
此前曾多次在公开场合放言“对标英特尔”“成为人工智能时代的英特尔”的余凯和他的地平线,现在看起来,是更进了一步。
根据地平线官方的介绍,地平线现在是一家全球领先的嵌入式人工智能核心技术和系统级解决方案提供商,致力于为自动驾驶汽车、智能摄像头等终端设备安装“大脑”,让它们具有从感知、交互、理解到决策的智能。
地平线表示,将用本轮融资来加速技术产品研发和商业落地,打造以人工智能处理器架构和算法软件系统为核心的关键技术,并面向自动驾驶和智能城市等重大应用场景,推出系统级嵌入式人工智能解决方案。
余凯对新智元表示 :对于自动驾驶来说,计算部分的软件和处理器是最核心的部分,代表了自动驾驶的大脑。毫无疑问英特尔在自动驾驶技术和通用处理器方面拥有全球领先的实力,尤其是在CPU,FPGA,5G,以及其车规级芯片制造等方面都可以让地平线的解决方案更加有竞争力。英特尔最近还收购了全球领先的Mobileye。未来我们和Intel在自动驾驶解决方案方面会深入合作,包括面向全球市场和中国市场共同开发解决方案。同时需要指出的,地平线的定位是解决方案提供商,所以地平线在选择硬件方面是开放的,不仅仅只考虑英特尔的处理器,也可以选择其他厂商的,包括英伟达的GPU,甚至地平线自己设计的新的处理器架构。
我们注意到,此前地平线的公司全称是“地平线机器人”(Horizon Robotics),最近公司官方网站改版,公司对外的名称也简单地改为了“地平线”。
英特尔方面,此前这家芯片巨头斥资153亿美元收购了以色列自动驾驶公司Mobileye,引起业界轰动。自动驾驶是英特尔在大力布局的一个方向。此前,英特尔推出了英特尔® GO™ 自动驾驶开发平台,并且与宝马和德尔福等车企结成联盟。有消息称,英特尔也在与谷歌的自动驾驶公司Waymo共同开发无人驾驶芯片。
新智元了解到,早在 2016 年 11 月,地平线便与英特尔公司展开深入合作,双方于 2017 年1月在美国拉斯维加斯国际消费电子展(CES2017)上展出了基于地平线 BPU 架构联合开发的高级辅助驾驶系统解决方案。地平线在自动驾驶感知和决策技术、深度学习算法、人工智能处理器架构等方面展现的领先世界的技术实力,受到业界广泛认可。
余凯:地平线应该是中国第一家自动驾驶创业公司
地平线创建于2015年7月,由百度深度学习研究院(IDL)创始人余凯联合前百度主任架构师(T10)黄畅、Facebook 人工智能研究院(FAIR)创始成员杨铭共同创建。
因为拥有豪华的团队阵容,地平线被认为是新一轮人工智能浪潮中的创业明星。那么A+轮的融资以后, 地平线的公司定位具体是什么?会侧重发展什么样的核心技术?
余凯对新智元介绍说,地平线的定位是嵌入式人工智能软硬一体解决方案提供商。相比于大部分人工智能公司侧重于在服务器端实现人工智能,我们专注于在自动驾驶汽车和智能摄像头等终端实现超低功耗,高性能,低延迟,实时处理的人工智能技术解决方案。
地平线为什么会选择自动驾驶作为切入点?现在国内自动驾驶初创企业众多,地平线相比其他公司的独特优势在哪?
余凯说:“如果我没有记错,地平线应该是中国第一家自动驾驶创业公司,而且我本人在2013年创立了百度自动驾驶团队。我们相信在未来10-20年最大规模影响人类生活的人工智能产品就是自动驾驶,所以很自然我们选择这个激动人心的方向。”
他解释说,相比于其他自动驾驶创业公司,地平线是中国唯一强调软硬结合的自动驾驶解决方案公司,而不仅仅是只开发软件算法,还包括硬件架构设计。正如苹果公司所信仰的,地平线坚定的相信只有通过软件和硬件的深度联合优化,才能真正的保证系统的效率和可靠性,这对自动驾驶至关重要。
据了解,地平线也是目前中国唯一在世界四大汽车市场(美国、德国、日本和中国)与全球顶级 OEMs 和 Tier1s建立合作伙伴关系的自动驾驶初创企业,获得了众多投资机构、合作伙伴及行业客户的认可和支持。
提到地平线现在和未来在自动驾驶行业生态中的地位。余凯说:“在自动驾驶产业生态中,我们是核心解决方案的提供商。我们不是传统意义上的芯片厂家,我们提供的是软硬一体的全面解决方案。相比于半导体企业,我们有强大的软件基因,我自己本人就是一直做软件算法研发的,所以我们会把核心放在高效的人工智能软件算法研发,侧重于硬件友好的算法设计,然后基于软件来设计我们的处理器架构。而我们提供给业界的,是“软件+硬件”的解决方案。”
此前在参加新智元闭门论坛“百人会”时,余凯也曾表达过对“苹果模式”的欣赏,他说,软件定义硬件,有自己硬件的软件才是最牛逼的,因为它有别人无法复制的能力,就像苹果。这是最强大的商业模式。而且这种模式不可被替代。芯片的核心竞争力可能还是在于软件跟场景。未来的趋势一定是场景驱动的软件定义硬件的设计,这同样也反映在商业生态上面。
Wendell Brooks, Intel Senior Vice President, President of Intel Capital
与余凯,地平线创始人兼CEO
地平线嵌入式人工智能计算机视觉处理器“盘古”即将面世
地平线即将推出业界第一款嵌入式人工智能计算机视觉处理器“盘古”,应用于智能驾驶和智能摄像头。据了解,该处理器在降低成本的同时拥有超低功耗、超高性能。地平线表示其目标是将单位成本、单位功耗里面的性能提高到目前业内最好芯片的上百倍左右。
地平线有很大的精力和资源都投入到了芯片的研发中,此前也被认为是一家芯片公司。芯片的研发“烧钱”是众所知周的。余凯对新智元表示:“处理器架构研发的成本还是挺高的,千万美金级吧。更重要的是时间成本,从立项到成熟方案做出来需要2-3年时间,需要耐心。”
谈及此次融资的感受,余凯说,我们感受到市场上对人工智能的态度已经从盲目乐观转向比较谨慎乐观,趋于理性。一方面大家普遍相信人工智能有巨大的未来,另一方面也在资本市场也不断拷问创业者如何连接人工智能商业和应用场景。纯技术型的创业团队融资会比较困难,而从具体应用需求出发,从商业场景来倒推技术路线会比较容易被投资人认可。
余凯演讲:新的摩尔定律,从云到边缘计算,边缘计算
余凯是业界公认的技术大牛,在此,我们推荐他此前在新智元举办的“百人会”闭门论坛上的演讲。一起听听他对技术与行业的观察和认知。
他谈到三大趋势:新的摩尔定律,从云到边缘计算,边缘计算上的竞赛会更强。还提到地平线的三大核心支点:算法、云、处理器。
1. 新摩尔定律:大脑的并行加速、通用芯片、专用芯片
我们一开始在刚创业的时候,那个时候少不经事,我记得对标要做人工智能时代的英特尔,后来我不讲了。因为我们跟英特尔的合作其实也越来越紧密,非常紧密的合作。
我在算法领域干了20年,突然一下在做硬件了,还是蛮好玩、蛮新鲜的事情。现在从我的角度来讲我们怎么干这个事情,能给大家带来不一样的东西。
第一个我想讲的,是所谓新的摩尔定律。
谈到摩尔定律应该感谢英特尔,这一定律在过去30年时间里不断地往前发展。最近大家也发现在物理上面,可能摩尔定律已经在逼近它的物理极限,英特尔本身自己也在减少自己往前递进的速度。这里打一个问号,我们怎么样保持摩尔定律?
实际上还是可以做到的,手段不是通过物理上的工艺提升,而是通过软件算法的变革带来芯片架构设计的一个突破潜力。这样,在特定的目标应用场景上面,我们还能不断地往前发展。
打个比方,我们人类的大脑实际上是有通用处理器的部分。有很多专用的硬件,比如听觉的、视觉的神经网络结构,包括有研究在三年前发现了在人脑里面有一个地方是专门用来做定位的。就是说,因为特殊目的去定义的这个硬件,使得你对特定的问题效率可以更高,新的摩尔定律可以继续往前奔跑,这个是新的摩尔定律。
我们比较通用的处理器架构跟人工智能处理器架构,其实可以发现它们之间有很多不同,即使看人脑,也有很多问题让我们很费解。我相信绝大部分同学都不能立刻回答这样一些看似简单的问题。因为人脑不是为这些东西设计的。它是为什么设计的?
人脑有一些很奇妙的结构,我们处理视觉信号的时候,它是并行的,我们对它的结构并不是那么敏感。实际上视觉信号从接收到处理到后面,基本是200毫秒到300毫秒的传输时间,非常慢,但是这么慢的时间我们还可以开车,还可以打乒乓球,就是因为有特殊的加速结构。
实际上我们能够打乒乓球、能够开车,除了并行加速以外,还有一个就是——我们在每个时间点在预测未来,能够提前预知。因此,如果前面的车突然刹车,你会发现你好像处理不了,因为你这个预测突然不准了,但是打乒乓球大部分的时候你会预测。所以有一句话说:人工智能不断往前发展,还是有赖于对人脑的结构跟它的功能有更深刻的理解。我是非常同意这个观点。同样这样的观点也会影响我们对处理器架构的设计。
在过去的几年我自己也非常有幸参与整个过程,这是一个时代的变革。
2. 趋势从中央到边缘计算,车是最大的场景
第二个趋势从中央到边缘,我们可以看到从PC到移动,到现在的Internet of Smart Things。可以看到,很多计算其实都是应该在边缘部分进行,尤其是我们面对感知、人机交互到实时决策的时候。
在中国,车实际上是边缘计算的一个最大的场景,我很难以想象更大的一个场景。因为汽车的计算如果都要传到云端去,那是不可想象的。包括在中国还有这么多的摄像头,它们都要实时的在本地处理,做人脸抓拍这些应用,这些都是人工智能在往前发展的动力。
第三个趋势就是,我认为在边缘的竞赛更快、更高、更强。举个例子,就是说我非常关心的自动驾驶,相机数量从1个发展到8至12个,同时车的速度也在不断地提升,对计算的要求是稳定,要在车上面计算而不是在云端。关于车上的计算,可以说到目前为止我们还没有很好的解决手段。
所以去思考未来5-10年的颠覆性的产业机会:一个To B的商业模式变得成熟了以后,很多To C会在这一基础上发展起来,不断发现新的应用。比如说虽然我不知道互联网是干什么的,但是我可以把网络铺起来,一开始就是卖铁锹的声音,其次才是淘金的声音,这就是谷歌的增长。移动互联网也是同样,一开始还没有想象可以用手机来打车,但是至少要让这些移动的设备互联。
实际上人工智能难道不也是一样吗,英伟达从两年前一个一百亿美金的公司变成现在逼近一千亿美金的公司。人工智能大家都在说,但是真正挣了钱是谁呢?
3. 地平线三大核心支点:算法、处理器、云
虽然我们一开始的时候整个公司包括我自己都有很强的算法背景,但是我们觉得还是要一插到底,至少要跟硬件非常的相关,要不然很难真正地驱动人工智能应用往前发展。
我们思考自动驾驶这件事情:首先一定要在车上部署高效的算法,也就是人工智能算法,然后运行在低功耗的实时处理器上,它不断地有Data跟数据中心交换,并且数据中心处理所有车送过来的数据,不断自主学习更新模型,最后部署到车上去。这样其实涉及三个部分,一个是算法,一个是处理器,还有一个云。
所以如果真正去思考人工智能的部署,我们觉得地平线要去建立三个核心的技术支点:首先是算法,然后从算法去驱动处理器设计,然后在云端让整个系统能够不断更新,部署越来越多的数据。
最近我们刚刚引入的吴强博士是我们的首席云架构师,他在美国普林斯顿大学获得博士学位,然后在Facebook干了9年,一直负责云端的大数据架构,在我们这边主要是负责云端的架构。
我们团队本身有很强的算法基因,包括黄畅博士在2004年就研发人脸检测算法,现在这一算法已经运用在绝大部分的相机上。在算法方面我们有很多的积累。2010年我们是首届ImageNet的冠军,并且在所有的比赛都是最早拿世界冠军。
我们怎么去看芯片这件事情?其实不能单独谈芯片,硬件一定是跟随着软件而来。未来的TPU一定是为TensorFlow设计的。
首先我们讲软件算法,实际上我们希望推动什么?我们希望能够让基于Camera的驾驶系统能够达到人类水平。基于此,我们再把Radar和Lidar加上去,使得自动驾驶能够比人类做的好得多。这是我们在自动驾驶推动的方向。
这其中,从一开始的感知,到基于3D的定位,再到Movement Prediction。今天大家的竞争都在前面两个:感知和定位。但是一旦走到自动驾驶时代,你会发现行人的Intention和司机变道的Intention很重要,因为换道的时候你其实要跟周围的车辆进行沟通,这个决策正确与否取决于对Intention理解正确与否。
第二个支点就是处理器,地平线的处理器架构的研发路线就是说从现在的面向感知的,今年我们会有这方面的推出,然后到感知更强,有简单的决策到更加复杂的决策。
自动驾驶就是一系列决策,你要怎么并行加速。比如决策时候的Tree Search,在云端的话实际上就是说基于大数据,我们希望自动驾驶系统是能够不断地自主学习,去主动学习,而不是被动训练,现在大部分的人工智能系统其实都是被动训练。但是那些死角是以前没有见过的,所以一定要有主动学习系统。
地平线在建立云端大脑,包括我们在今年到明年会部署上千辆的Learning Cars,我们会建立最大的数据集Crowd base Platform,用真实的数据学习,基于GTC不断的Drive我们的Driving Policy,建立虚拟的测试,可以积累上百万公里的数据。
4. 中国自动驾驶的复杂需求驱动架构设计
今年我们会推出一个ASIC处理器,对于视频的处理有一些专门的优化跟设计,使得它能够更加实时、高效地去应对中国复杂场景的处理需求。
明年我们的第二代架构会推出来,它的核心是基于像素级的识别,而不是基于Bounding Box。识别会非常精准,尤其像城市道路这些细节,是传统的BoundingBox 不能达到的。我们一定要突破,从物体级的识别到像素级的识别,能够真正的抓住核心。这对中国来讲更加的重要,因为中国的自动驾驶道路跟欧美的Highway First不一样。在欧美你在一个小城居住,然后在另外一个城市工作,经常要穿梭在高速公路上。但是在中国大家都是在同一个城市生活工作,在这种情况下实际上最重要的对用户来讲是Parking,这是刚需的刚需的刚需!还有Traffic Pilot,也是刚需的刚需,而不是Highway。这样也会驱使我们做架构设计的时候更多考虑这些需求。
最终来讲,我们希望构建对场景的动态三维理解,它不光知道这里有车,也知道它的朝向,知道它的长宽高,知道它的位置,我们知道它以什么速度往前走,然后能够去完全地还原对驾驶最重要的那些方面。这需要基于计算机视觉,需要算法,需要软硬件的联合优化,去达到这一步。
如果仅仅是基于算法,我的看法是——你可能跑的不足够快。这是我的看法。谢谢。