车国兴：AI处理器助力自动驾驶产业化

来源：编辑：小可爱时间：2019-10-04 09:55:26

车国兴：

各领导、各位同行，大家上午好!很荣幸能在这里跟大家分享自动驾驶领域的热门话题：自动驾驶处理器。

谈到自动驾驶芯片，大家首先想到两家公司，英伟达和Mobileye，到目前为止大部分量产车是Mobileye芯片，大部分初创公司使用的是英伟达芯片解决方案。Mobileye被Intel收购之后，市值直接增长50%，而英伟达，过去三年市值增长了十倍。

从自动驾驶产业链有三大块：传感器、处理器、控制器。其中，处理器是产业最集中的。而传感器领域，无论是摄像头，还是激光雷达，都有非常多的供应商。

为什么在处理器部分，率先形成了一个集中度高的格局?有人说英伟达脱颖而出是因为GPU非常适合做人工智能深度学习计算，但这没办法解释同样有GPU的AMD的问题。也有人说Mobileye起步很早，但无法解释为什么像NXP、TI等有30年以上从业经验的厂家没有拿下这个市场。

为什么要软硬结合?这句话其实经常提到，但是真正去深刻的理解它的人非常的少。那最初的思想来源于一个天才的计算机科学家叫艾伦，他发明的东西其实现在每个人都在用，就是我们图形用户界面，但是他还讲过一句话“如果你严肃地考虑软件，就必须做你自己的硬件” ，这句话其实很少有人记得，但乔布斯把这句话一直作为他整个苹果公司运营的宝典，后来他也把艾伦请到苹果公司。

Mobileye和英伟达两家公司，谁最有资格评论?是特斯拉，因为他用过这两家公司的产品。去年年底，特斯拉爆出一个大新闻，要自己做芯片。为什么使用过这两家的产品后，特斯拉自己要生产芯片?引用马斯克说过的一句话：“我们的硬件战略比任何硬件解决方案都要好”。也就是因为他们自己是自动驾驶应用的集大成者，所以能够充分掌握芯片的应用。这就是应用场景决定算法，算法定义芯片的时代。

软硬件发展道路上看，场景和算法的驱动，促使软硬件结合。从最开始通用的CPU，到后面的GPU，到后面进行更加深层次的定制化，再到现在大家都在讲的软件系统。本质上来讲，如果你需要获得提升的性能，无论是功耗、成本、性能，你都需要专门针对一个场景进行构架的设计和算法的优化。

根据公开统计，在中国至少有39家做人工智能芯片的初创公司，所以这个赛道突然间就变的很拥挤，大家都在做，也在探讨是否可以做出一款通用的处理器?

人工智能业领头的公司，他们成功的产品，有很大差异性。英伟达推出超过300T计算能力的产品，苹果仅仅做脸部ID，就需要0.6T的计算能力。不管是300T还是不到1T的运算能力，但都要很完美的体现在产品上。

对于非常复杂的自动驾驶产业，可靠性、实时性、计算力、功耗的要求都非常苛刻，所以，仅使用一个通用的计算构架，是无法满足这样的需求。

在过去十年里，手机驱动整个计算工业的发展。鉴于对手机功耗、极致的人机交互追求，使手机处理器发展非常快。

但是在今天，面对自动驾驶，它所需要的计算能力至少是手机的5倍以上;所生成的数据至少是手机的4个数量级以上;响应的时间要求从秒级缩短到毫秒级。为了同时满足这种苛刻的要求，为了达到高可靠性的功能安全，它即需要满足AEC-Q100，又需要达到ASIL-D安全规格。所有这些要求使得自动驾驶的研发非常困难，这也是为什么出现了双寡头的格局。

地平线机器人在成立之初，就非常笃定地把人工智能芯片作为自己的核心发展目标。对于这做芯片，是长跑的跑道上事业，我们不能像做算法那样快速迭代，也不能像自动驾驶样车几个月之内就造出来。所以，在过去两年地平线一直在低调地做这件事情，直到去年年底发布了第一代的芯片——征程、旭日。

这是我们地平线旭日处理器的智能摄像机的产品，从上面数字可看，芯片的功耗，同时抓拍的人数，每秒处理帧数，都会比基于GPU芯片的智能摄像头产品效率高出不少。

这是我们在西直门地铁站里换乘处做的测试。

使用征程处理器做的第一代ADAS产品，可以非常准确地识别车辆、车道线、行人、交通标志牌，尤其对侧面车辆识别也是非常精准的，这是在中国道路环境下面临的非常大的挑战。

今年，我们还会发布第二代芯片征程2.0。相对于第一代芯片来讲，最大的提升是把基于传统的检测框感知，推进到基于像素级别的感知，所以在识别上要清晰很多，对每一个像素进行语义分类。

从简单场景到复杂场景、高频目标到一般目标、2D感知到3D感知。

这在后面会详细分享。

在今年加州的CES展会上，已经展出了基于征程2.0计算构架的自动驾驶计算平台Matrix。可以直接接入毫米波雷达或者超声波雷达，同时接入两组四路摄像头，可以非常方便的支持像自动泊车类的360度感知应用。随着这个计算平台的推出，接下来会做一款带有域控制器功能的平台，集成视觉感知、传感器融合、决策、控制的开发平台。该开发平台可以很好地跟合作伙伴一起快速推进L3甚至L4的自动驾驶开发。

其实，我们今天谈到感知，不只是对静态环境进行识别，也不仅仅是把一个目标识别出来就结束。我们要做的是面向决策和规划的感知，所以对于运动目标的运动朝向，以及各个运动目标的之间关系都非常重视。

基于视觉感知的结果发展—语义地图，是业界的重大趋势。Mobileye有REM，BOSCH有博世道路特征BRF，都是这个思路。

而我们这种视觉感知技术——像素级语义分割，这也将代表新一代的感知发展趋势。这样的好处是可以极大提升整个系统的准确性，在各种环境下都可以非常准确地识别所需要的关键特征和目标。同时，这种超过20个目标的分类，使得我们可以提升对整个场景深度全面的理解，低层语义为接下来的高层语义提供了坚实的基础，高层语义分割会对关键定位有很好的辅助作用。

这是2018CES会展期间，我们在加州进行了高速道路实测，无论是可行驶区域、天空、树木、路肩、车道线都有不同颜色来表达。同时我们还对车辆进行了3D姿态的识别，它的优势是什么?第一，因为是像素级别的，所以当侧面切入的车辆只要录到一小部分，就可以及时感知到;第二是全方面判断的语义分割，提供丰富的低层语义信息。

与传统的检测框相比，基于像素级的语义分割与目标识别的优势是决定性的：

对于目标识别的准确度(有效解决遇到的遮挡、截断、以及尺寸变化范围大的难题 )、

目标识别实时性都有所提升(能够大幅度缩短目标识别的时间，在移动出现的第一时刻就可以识别。下图显示了在识别实时性方面，像素级目标识别相比传统的检测框有决定性的优势。 )，

并提供丰富的低层语义信息(对与全场景的语义分割使得各个不同的类别可以做到交叉验证，例如，路肩、人行道对于可行驶区域的判断有明确的辅助验证作用，路侧的固定目标，如交通标识牌、路灯等对于定位有很大的帮助。 )。

使用单一深度神经网络将目标的检测、3D结构的感知和预测放在了一起，这样得到了一个端到端的深度学习系统，充分共享检测和姿态估计的计算权重，使得整个网络在一个比较小的计算量下，同时获得物体检测和3D姿态估计的结果。

行人、非机动车驾驶人等，也是感知预测中的核心难题，因为人的行为更难预测。

目前自动驾驶系统中对人的检测，往往只检测人的属性，并通过检测框来预测人的位置和距离，这种感知结果无法对人的运动进行精确估计。尤其是对城市环境的自动驾驶，需要非常精确的人的运动估计。因此对人的姿态估计和运动建模，成为视觉感知的一个非常重要的研究热点。

图中，通过使用一个17点的人体外骨骼检测模型，对人的各个关节进行感知和建模，并同时学习，从对人的行为做精确的预测。

在唐人街实测时，城市道路状况非常复杂，密集的建筑物、交通标识牌、红绿灯、行人，我们对所有的对象都进行了非常精准的分割，对所有的关键移动目标也进行了识别。比如行人，不仅仅是把行人的轮廓识别出来，还对他们进行了包含17个关节的外骨骼描绘，我们可以清晰了解行人的运动朝向。

早期关于整个自动驾驶的技术走向，像谷歌和百度都是使用高精度雷达加地图的方式，而地平线机器人是使用摄像头+导航地图。我们希望通过导航级别的地图，基于感知技术发展语义地图，再加上视觉的感知技术，打造一款可落地的低成本、高性能产品。

应该说激光雷达点云生成的地图非常精准，但是有弱点，数据量非常大，更新成本也非常高。我们相信语义地图是一个真正的趋势。通过对于关键特征物提取，生成精简但是足够准确的语义地图，把地图作为一个超级传感器，与现场、车端实时感知结果进行匹配，然后进行定位，决策和规划。

感知是复杂的，跟决策又是密不可分的。所以更精准的来讲，包括对于语义分割、目标识别、轨迹预测，希望在一个高度统一的3D环境模型里建模，该3D环境模型可以做到与传感器无关。无论使用什么样的传感器，都可以把语义结果适配到这样一个环境中来。利用一个像素级别的感知技术，可生成高可靠性的语义地图。

自动驾驶在决策方面面临很大挑战。阿尔法狗的成功，代表人工智能在决策方面非常出色的应用案例。但是对于围棋来讲，感知环境全透明，可以获取一切信息，博弈主体只有两个，这是一个封闭空间，信息充分博弈的场景。即使这样我们看到阿尔法狗都需要具有非常强大的计算能力才能够满足要求。

对于自动驾驶，我们有可能面对的是一百个主体的互动，一步决策会直接导致博弈主体对于结构的变化，这个难度事实上比感知还要大。基于以上的分析，我们采用基于贝叶斯网络的理性构架，贝叶斯网络可以非常好地去融合不同的决策手段，比如说基于规则和基于AI的决策。这种融合是以模块为基础的，即使整个网络不是透明的，如果决策出了问题，对后面的分析也非常有帮助。

可以这样理解，在决策这件事情上，AI和规则其实是不矛盾的。AI就好比人的大脑，高级的感知。决策系统更像人的边缘，原始，但是能够应对紧急情况。所以我们相信在未来的决策系统里面，通过AI增强做驾驶体验，通过规则保证它在最低象素上的可靠性是未来的趋势。

在去年年底，我们已经完成了第一代基于高思构架的人工智能芯片的开发。今年，我们已经展示了基于贝努利架构的第二代芯片原型，后面我们还会推出基于贝叶斯构架的第三代芯片的开发。所以，我们会持续提升计算力，我们会持续发展计算构架。

　　不久前，地平线创始人兼CEO余凯入选了新一代的人工智能战略规划委员会委员，同时入选的人工智能公司包括BAT和讯飞。地平线是唯一一家初创公司入选，同时也是唯一一家致力于做人工智能芯片的公司，这说明国家已经充分意识到人工智能芯片的重要性。如果说人工智能对我们国家科技发展至关重要，芯片就是这里面的核心。

PC时代英特尔成为主导，手机时代高通成为主导，在人工智能时代我们看到英伟达和谷歌持续地推进他们的势力范围。但是人工智能这事足够重要，而智能驾驶事关国家安全同样重要。想要赢得自动驾驶，就像中美的战略竞争，就不能放弃自动驾驶芯片。做芯片中国有很好的基础，在计算机视觉领域，差不多华人学者占了业界的一半，有非常好的人才储备。在汽车芯片的开发方面，也积累了多年经验，中国本土已经有足够多优秀的工程师，可以去做自动驾驶芯片。

自动驾驶芯片日益成为自动驾驶的主战场，谁能掌握它，谁就能够赢得未来。自动驾驶芯片难度足够高、需求足够强，我们中国一定要有人去做，这就是地平线的目标。我们希望在这个非常长的跑道上持续推进，到2025年希望为3000万辆车装上自己的芯片，使我们在自动驾驶上真正有自己的话语权，不会受制于人，不会让主机厂在英特尔和英伟达之间做艰难选择，我们给你新的选择。

这就是地平线的使命，谢谢大家!

标签：助力产业化处理器驾驶国兴