自动驾驶专家会议纪要 20220421

  • 自动驾驶

posted on 21 Apr 2022 under category 工程技术

专家:惠尔智能CEO

各家方案点评

几级自动驾驶定义是不准确的,特斯拉其实更多是L2,它有一些功能是L2,有些是L3,有些是L4。看驾驶员有多少参与度,从L4开始,驾驶员就几乎不在接管L2和L3是责任主体做了分割。也没有L2.5这个东西,特斯拉自己弄出来的。

特斯拉视觉方案非常强大,不需要高精地图原因是神经网络里面加了时序矩阵,行驶的时候,因为没有高精地图,屏幕上斑马线或者各种道路线会抖动,但是这条路一旦走过,就会生成地图,不需要提前跑一遍。

Waymo的方案,多传感器融合的方案。有的是前融合,有的是后融合,前后之分是看再神经网络前面还是后面进行融合。传感器经过神经网络之后再融合,会导致很多corner case,比如一个公交车和一个古天乐,摄像头看到的是公交车边上有一个人,激光雷达只看到了一个方块,会出现匹配上的不准确。前融合是一个更好的方案,waymo用的就是这个方案。

谷歌的这套东西很笨重,商业模式不同导致方案不同。

特斯拉重点是卖车,自动驾驶产品只是若干产品中的一条线,卖车就得成本很低,所以特斯拉的方案就是大几千人民帀的BOM硬件成本。FSD的成本是6-7万人民帀。

但是百度、小马、文远、waymo的方案,都是改装车、自研软件。硬件是加载在车上另一套系统,参与出租车运营,是提供服务的,消费者不需要考虑车成本,A-B点安全高效到了就行,需要大量传感器,增加冗余,还需要高精地图加持。

另外一类方案,提供成套产品+运营,图森就是这种方案。比如图森拿到了FEDEX的订单,在德州一年的operating cost需要5亿美金,图森通过自动驾驶只需要4.5亿美金,这样的差价就是图森的赚的钱,是通过自动驾驶省下的钱。不是waymo,百度出租车这种类似门票的收入,5块钱、10块钱这样。

05-07年的时候,美国自动驾驶挑战赛,卡耐基梅隆和MIT这两个团队的车都很丑,前面上面都一坨一坨的。那个时候没有车规级的硬件,那个时代是硬件决定软件能走多远,waymo的方案逐渐成熟,硬件成熟、软件突破、地图加持。

目前大家的方案是正向开发,乘用车上做路测,自己造一个电动底盘,方向盘取消,做一个L5的车。跟中国大部分自动驾驶公司不一样,中国自动驾驶公司是买车进行改装。

自动驾驶软硬件

自动驾驶软件栈有6个模块:1)融合模块,就是激光雷达,毫米波雷达,摄像头,组合导航在前端有融合,收集数据,给出2)感知结果,其次基于高精地图,组合导航,GPS定位,有一个融合3)定位,感知和定位是最重要的两个模块。定位需要高精地图加持,也是重要模块,可以外包给图商;4)Planning and control,如何做规划和控制,影响到车辆的体验。比如遇到行人了,有的车调的很舒适,有的车就直接踩刹车,所以体验不好;5)仿真,如何在服务器上大量模拟日常路测的环境,一天可以模拟几十万公里的路径;6)线控底盘,可以外包给主机厂,让主机厂把一个具备线控底盘的车直接提供。燃油车和电动 车没有谁更适合自动驾驶,要看线控。五菱宏光EV,4-5万,里面大部分的转向助力、刹车都是机械的,即使是EV,但是不适合做自动驾驶。奔驰的S600,虽然是油车,但是底盘的零件都是精度很高的线控,所以适合做自动驾驶。

硬件:如果是多融合方案,需要有毫米波雷达、激光雷达、强大的计算单元、鲁棒性很高的组合导航。相机、天线等融合单元,也叫融合盒子,收集传感器的 signal做预处理。

激光雷达,主流的、能上车规有4种。传统的机械雷达被淘汰了,一个是尺寸不合适,还有一个是robustness,就是鲁棒性不够高,出错率很高。4个里面,棱镜式是大疆用的,flash是禾赛用的,MEMS是速腾的M1,以色列的innoviz在用。

MEMS的问题就是需要拼接,每个点云产生的图像需要拼接,所以会产生缝隙,有Blu的地方。而且因为有振镜,有振动的地方,过车规 的时候可能会有问题,可能会跟车辆发生共振。

flash雷达是最容易过车规,但是问题就是850纳米的光源的光和太阳光会产生背景噪音问题,距离相对较近。这个可以通过后续的芯片SOC方式,或者数字信号放大器去解决的,原理上没问题。

OPA的雷达到现在也没有量产。

车载摄像头是很大的领域,是除了激光雷达以外,单车用最多的,特斯拉用了8个,小鹏和理想都是12个。车规级别的 摄像头分为3部分,镜头总成、感光元件和信号处理器。信号处理器这个里面有三个巨头,安森美,OV(被韦尔收购了),索尼。安森美本来是最大的,但是OV已经做的很大了,它收购了信号处理器领域里面排名4-8的所有公司。

镜头里面就是舜宇是龙头。

无论是用那个感光元件和信号处理器,要看算法,是根据算法来的。看多远,精度多高,不是一个通用产品,是一个定制化产品。L2的时候很多公司推出相机总成,直接装到车上就行,但是L2以上,就需要对车的内参外参进行调试,总成就不行了,得针对每一个车进行设计。

毫米波雷达解决的问题是得到障碍物的速度和位置信息。毫米波雷达发射频率越高,解析度越高现在都是77G赫兹,将来可能还有更高的79G赫兹,取决于国家是否开放波段。

激光雷达智能分辨物体的长宽高和位置,毫米波雷达是分辨物体的相对位置和相对速度,摄像头看到的是彩色的世界,所以这三个传感器看到了7个维度融合在一起,能得到一个障碍物的速度、位置、ID信息。多传感器融合的优点就是这个。

特斯拉算力上不是最高的,只有100多T,没用激光雷达,没用毫米波雷达,摄像头数量也不是最多的,只有8个,小鹏都12个。蔚来算力有1000多T,4个orin芯片,一个激光雷达,5个毫米波雷达。蔚来这个方案是大力出奇迹。神经网络训练是一个很庞大的项目,匹配的不好,即使算力很高,真正的有效算力也不是很高,不是绝对的算力。越多的传感器会导致绝对的感知优势,传感器越多,冗余度高,报错率也高,匹配失误率也高,这个是考验每一个自动驾驶团队水平的地方。国内大部分公司都是堆硬件,起到多好的效果需要打问号。

Q:tsla不用激光雷达,是不是算力上不需要很多?

A: tsla的神经网络和其他公司不一样,hydro网络。主干网络是相同的,50个障碍物的主干网络合并了,头出来,所以这个就是为什么叫hydro的原因,九头蛇。

激光雷达给的是长宽高,位置信息。tsla用了BEV layer,birds eye view layer,摄像头在收集周围信息的时候,这一帧照片,tsla就已经在这个空间上打上了一个戳,鸟瞰图拍扁了,丢到神经网络里面训练,所以每一个camera有一个自带的位置信息。比如长20米的卡车,在tsla model3的前面,侧面和后面都可以看到,传统的方法没办法将这个车合起来的,这个时候就需要激光雷达的感知。但是tsla用了BEV layer之后,把这个长的车丢到神经网络之后,就可以把这个车准确的合成起来。之前不能生成一个矢量的空间,是因为没有做这个BEV layer,没办法把全图扣出来。这样就不需要激光雷达了,也不需要高精地图 了。

特斯拉这个方法节省了算力,前提是设计了一个非常优秀的神经网络,至少领先其他公司5年以上,andrew karpathy, 2018提出hydro net的时候,产业是不相信能做出来的,过了4年了,做出来了,效果还很不错。其他公司也是有路径依赖的,就是在做多传感器融合的路径,不可能回到纯视觉的方案了。

Q:到了L4、L5之后,tsla需要多少tops?

A:现在只是100t,下一代产品肯定不会到1000t,因为算力大,功耗也高,会做平衡,到底要为自动驾驶消耗多少瓦的电力,不会弄一个超高算力出来。但是它一定会在北美实现L3、L4,而不是在中国大陆。

是基于视觉神经网络的训练方式,需要环境比较单一统一,unify。从旧金山到纽约,美国的大部分路况都是很相似的,单一的模型就可以实现自动驾驶的部署。中国,从深圳到上海到北京到东北,车道线、路牌都不一样,复杂程度太高了,这种场景做很多训练的话,这个模型会非常庞大,就会需要很多算力。所以tsla可以实现L3、L4,但前提是这个环境要单一和统一。

Q:特斯拉欧洲卖了很多,欧洲路况很复杂,未来怎么实现自动驾驶?

A:欧洲国家很分散,不会有一套完整的系统适应全欧洲,会在部分地区开放。如果FSD是订阅的商业模式,应该是在某个地理位置内,可以实现自动驾驶,而不是满大街都能实现FSD。这个也可能会用在中国,小鹏也会用这个定价。

小鹏的方案很重,需要图商提供高精地图,高德,这个成本很高,而且中国基建的变化也很快,图商压力也很大。所以不会说小鹏的NGP解决方案,全国范围内都可以跑,不是的,不同的软件包,比如大湾区,江浙沪等等这些地方有自动驾驶包,可以订阅这个包。如果车开到其他地方,也需要额外付费,其实只能更新 特定的包。

特斯拉的问题是如果开放全中国或者全欧洲,会给模型带来很大挑战,小鹏不是,小鹏的问题是如果开放了全中国的NGP,成本会非常高。一个算力吃不了,一个成本太高,Tsla欧洲如果要做,就是分不同的国家去开放。

Q:蔚来小鹏理想的技术哪个好?

A:小鹏是对自动驾驶最用心的,挖了tsla的人,自研团队的数量和质量都不错,蔚来的自动驾驶团队人员稳定性比较差。理想是外包给tier 1, tier 2做自动驾驶,这个效果最差。

In-house 的团队蔚来和小鹏都有,这个也要分,有些in-house是full stack,有些是只做感知,把地图等等能力外包。蔚来很多都是外包,小鹏的团队可以是全栈的概念。

为什么三家都要上激光雷达,因为他们在视觉,或者视觉+高精地图这个方案做出来的体验就是非常差,不是技术本身问题,是中国的路况、交通参与者太复杂,视觉的方案走不通,所以要上激光雷达

这个目前的软件架构,上了激光雷达,算力达不到,所以要提高算力,这个是一连串的。不是说蔚来一定要把这个算力弄的这么高,用orin的芯片,而是因为视觉的神经网络带来了问题,得切换到具备激光雷达能力的神经网络,这个网络很吃算力,还需要一个更精确的能适应激光雷达的高精地图,整个的成本就上去了,这是一个不得不的情况。

Q:如何理解先行优势?积累了很多里程,后进入就一定不好吗?

A:技术路径依赖,一个神经网络的建立,训练和部署,是一个很漫长的过程。虽然有很多开源的神经网络,大家都可以去训练,但是这个是实验室的产品,一个实用的产品,需要足够的冗余和鲁棒性。

神经网络的切换不会特别频繁,2-3年会升级一次。一旦锁定了一个路径,之后就是对这个模型进行训练,但是选择路径的时候考虑的不够周全,或者硬件的发展跟我们想的不一样。

4年前我们采用多传感器的方案的时候,基于的前提是激光雷达是复合摩尔定律的,但是激光雷达并没有按照我们的预期发展,即使用寿命得到了增长、价格降低、性能满足要求。

激光雷达的价格基本过去4年是横着的,现在卖的雷达,和早期我在百度工作时候的雷达,几乎没有太大差别,价格有降低,但是不是从60万到6万的降低,而是20万到8-9万的降低。激光雷达不是按照我们预期的想法来的,我们当时想的是,这个东西会便宜,我们能用的起,所以弄了一个冗余度高的神经网络。但是现在发现用了这个方案的公司,在硬件上面的投入是巨额的,这个方案落不了地。

反而是选了轻量的视觉方案,或者视觉+毫米波雷达方案的公司,率先把产品投入到了市场。有的是运气成分,有的就是团队没想清楚。

如果就是一条路走到黑,里程是有用的。如果中间频繁切换算法和硬件配置,里程数的用处不大。只能提供一些处理corner case方法论上的改良,并不是说100万英里比50万英里要好。

Q:已知的自动驾驶企业可以排序吗?

A:L4如果做商业化有问题的,可以降低到L3,卖给主机厂。深圳有家做自动驾驶的公司,说把激光雷达的自动驾驶方案做到了1万美金以内,这个主机厂会买单。但是目前的公司都是20-30万人民币,这个主机厂不会买单的。固态激光雷达+摄像头+英伟达芯片,整体成本降到1万美金以内后,市场格局会打开。

百度没做到,百度是在中国做自动驾驶最早的公司,不是因为早就能怎么样,早可能会因为路径依赖问题,不能把产品很好的投入市场。

Q:L4为啥不能大规模商用?

A:L4的责任在主机厂和车辆本身。

tsla的FDS在美国有beta版本,给7-8万美国人用,FSD在用的时候,上面有一行字,说这个责任是在驾驶员本身。但是L4,责任就在主机厂了。我们做到绝对的安全,中国的路况是不现实的,美国的交通参与者和路况都是很理想。

一个L4的方案,大部分不是针对终端消费者的,是滴滴这种去运行车队的时候,省掉了一个司机的成本。L4运行的环境需要ODD, operation design domain的商业附加值很高。中国的地方,商业附加值越高,场景越复杂,比如上海陆家嘴、北京国贸,这些是技术上很难实现的L4的场景,但是美国的富人都在郊区,不在downtown。中国downtown从地图的角度和交通参与者的角度都过分复杂。

Q:新闻上看到了大力推行robotaxi的,在特定的区域?

A: 中国做robotaxi,拿了投资人的钱做了慈善事业

Q:造车新势力做辅助驾驶,如果看1-2年,2-3年的格局,这些公司,还有百度、小米等,这个差距有多大,做辅助驾驶?

A: L2是直接跟主机厂打交道,对价格很敏感,但是性能不敏感,有些供应商能做到1000-2000元,但是如果做好,需要1-2万。

但是上汽,广汽这些在选择供应商的时候,不会上来就选1-2万的这个供应商,即使技术很好。他们会选1000-2000的供应商,然后挤牙膏式的去做市场的promotion,主机厂的目的是卖车,不是卖自动驾驶。所以行业里面有一些二把刀公司,有很多订单。但是技术做的很好的公司,因为贵,所以没有订单。

自动驾驶领域,只要不是很严重的路径依赖的情况下,大部分公司的技术差距可以在2-3年内完全拉平。比如我们从百度阿波罗出来,我们每一个人的公司都在1-2年内跟阿波罗一样了,甚至文远和小马可以超过阿波罗。这个行业的技术不是在于神经网络,而是这个人有没有对技术有很深的理解,有了理解之后,这个人可以迅速找到需要的人才,把这个模型部署、训练、找传感器供应商、上车

我们招的人,没有自动驾驶的,就没有这个专业。我们招的人,都是语音识别,图像识别的,这些人是背景都是跟神经网络相关的。一个team leader知道自动驾驶的全栈技术之后,可以找到 一群在语音识别,或者图像识别的人,改出一个比百度神经网络更好的模型,这个可能性是极高的。任何一个公司找到方法论,2-3年就可以拉平。

国内头部的自动驾驶公司,小马,里面的人跳出来又做了4家公司。小米进来,很快就会把这个gap拉平。给小米做代工的公司很厉害,也是我们百度的同事出来开的公 司,小米钱够了,就可以买到一个很酷炫的产品。再比如给点补贴等,就可以拿到市场。小米的产品24年问世,我觉得会跟小鹏拉平的。

Q:华为怎么看?华为会不会出来?造车这事儿靠谱吗?

A:英伟达也可以做自动驾驶,甚至会比特斯拉做的不差。但是芯片厂的目的不是做自动驾驶,是卖芯片。英伟达drive,是给了行业一个很全套的framework,从感知到控制,到高精地图,去填空就行了。

比如用Orin平台的时候,英伟达已经提供所有传感器的参考设计,按照这个方法去摆放,会提供一个vendor list。这也是为啥国内的主机厂都用英伟达,英伟达从芯片组,到软件架构到硬件参考设计全给大家。

华为的技术路线,我也不知道华为是卖芯片,还是卖solution,还是卖车,这三件事情,是相斥的。如果卖车,这个设计不会给 其他主机厂。如果卖solution,那芯片的配套不会免费给大家。如果卖芯片,就是另外一回事。如果卖芯片就可以用英伟达这个策略,买我的芯片,所有的硬件 驱动和软件架构我都弄好了,买就完了。

Q:国内的自动驾驶公司都依赖高精地图,地图的审批会有问题,城市的毛细道路,审批很麻烦,很有可能高精地图这个方案有问题,会不会之后大家会调整方案?

A:我们公司也做了高精地图,但是我们不能卖,因为我们没有资质,得找一个图商挂靠。一年200-1000万。这些有甲级资质的公司,如果有些道路不能采集,那大家都是一样的。有高精地图能力和没有这个能力,技术是不在一个水平上,我们可以基于高精地图进行一些算法上的调试。先自身有这个能力,一部分的采集可以挂靠事业单位,但是城市有些地方是敏感地带,所以就不能去采集了。而且目前业内没办法抛弃高精地图的方案。

Q: V2X怎么看?

A:V2X车路协同是一个伪需求,自动驾驶的终局就是单车智能

一公里的改造费用6个亿人民帀,这个钱政府可以出,但是做了这条路,不能要求主机厂去装OBU,—个2000-3000块钱,这个商业模式上走不通。为了所谓的车路协同,增加每个车的成本2000-3000。

政府的基建,要做这个路,车路协同的设备,做完了就完了,但是没人跟。杭州到上海的这个路具备了初级的车路协同的能力,市场上没有反馈。自动驾驶的终局就是单车智能,对网络要求都不高,不要甩锅。5G、北斗都没有那么重要,还是得把技术做上去。单车智能是一个产品的终局。

Q: L4、L5落地,是不是落地要走robotaxi, consumer end是不是很难?

A:对。目前L4的方案,除了车之外的硬件投入,至少20万人民帀,还是在不考虑高精地图的情况下,这个消费者没办法接受。滴滴,百度可以接受,比如如果 一套设备20-30万,我一个专车司机一年10万,如果可以用3-5年,就可以回本,这个是这么算的。责任的话,如果有交通事故,就是滴滴的,不会再参与者身上。