【智能驾驶】自动驾驶深度感知技术对车和行人的检测_第1页
【智能驾驶】自动驾驶深度感知技术对车和行人的检测_第2页
【智能驾驶】自动驾驶深度感知技术对车和行人的检测_第3页
【智能驾驶】自动驾驶深度感知技术对车和行人的检测_第4页
【智能驾驶】自动驾驶深度感知技术对车和行人的检测_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、【智能驾驶】自动驾驶深度感知技术对车和行人的检测今天我主要想分享自动驾驶感知技术在探索的过程中,采用的传统方法和深 度学习方法。传统方法不代表多传统,深度学习也不代表多深度。它们有各 自的优点,也都能解决各自的问题,最终希望将其结合起来,发挥所有方法 的优点。感知系统简介感知系统物体迫踪UOARComeraRadar物体分n物体收石信息计it (蛙度.加博度.方向茎物体检相物体分关场景理解号灯识别道修侍征分析首先介绍下感知系统.感知可以被看作是对周围世界建模的过程,比如车 辆在行驶过程中,需要知道其他物体的地理位置、速度、运动方向、加速 度等各种各样的信息,自动驾驶系统接收这些信息之后,再通过

2、后续的规 划和控制模块来对车的运动做真正的调节。感知可以类比为人类眼睛的功能,即观察周围世界的能力: 采用的传感器:激光雷达、照相机、毫米波雷达等。 帧信号处理:多传感器深度融合、物体分割、物体检测、物体分类。 物体追踪:当有多帧信息之后,可以推算速度、加速度、方向等更有意 义的信息,甚至可以用多帧的信息调整物体分割的结果。 道路特征分析:对道路特征进行理解,比如交通信号灯、交通指示牌 等。感知可以认为是自动驾驶系统的基础部分,假如感知不到这个世界,就谈 不上对这个世界做出反应,更谈不上后续的路径规划和车辆控制的过程。2D物体检测我今天主要介绍关于物体检测部分,因为必须先有了准确的物体检测和分

3、 割结果,我们才能对物体做出准确的分类、追踪等。我首先介绍下2D物 体检测。pOC£传统2D物体检测方法2D物体检测是指以2D信息作为输入(input )的检测过程,而典型的 2D输入信息来自于照相机。传统2D物体检测方法及缺点传统的2D信息检测方法是使用检测框遍历图片,把对应的图片位置抠出 来之后,进行特征提取,用Harris计算子检测角点信息,Canny计算子 检测边缘信息等。物体特征被提取并聚集在一起后,通过做分类器(比如 SVM),我们可以判断提取的图中是否存在物体,以及物体的类别是什 么。但传统2D物体检测方法存在不足:检测物体时,需要预置检测框,对不同物体需要设置不同的检

4、测框。自动驾驶需要高级的组合特征,而传统方法提取的特征维度比较低, 对后续的分类会造成比较大的影响。基于深度学习的2D物体检测基于卷积神经网络的2D物体检测a Anchor Based Methods: o RCNN(fast, faster) o SSD(DSSD)o YOLO(vLvZ v3) o RetinaNetBounding* box regresscFulty-connected layersa Anchor Free Methods o ComerNeto FSAFo FCOSRegions of interest (Rols) from a proposal methodIn

5、put imageconvS" feature map of imageforward whole image through ConvNet5oftmax I卷积神经网络的出现,解决了部分传统2D物体检测方法的不足。卷积神经网络首先是多层感知机加卷积操作的结合,它的特征提取能力非 常不错。因为卷积神经网络经常会有几十、上百个卷积,使其具备高维持 征提取能力。其次,通过ROI pooling和RPN ,整张图可以共享同样的特征,物体检 测时不用遍历整张图片,还可以在单次操作中对图片中所有物体进行检 测。这种检测方法使物体检测模型真正具备了应用于实际场景中的性能。目前基于卷积神经网络的

6、2D物体检测有两类分支: Anchor Based Methods :跟传统方法比较类似,先预置检测框,检 测过程则是对预设框的拟合过程。 RCNN ( fast , faster ) SSD ( DSSD ) YOLO ( v1 , v2 , v3 ) RetinaNET Anchor Free Methods :直接对照特征金字塔的每个位置,回归对应 位置上,判断物体是否存在、它的大小是多少等。这类方法是2018年底 开始大量出现的,也是未来的一个发展方向。 CornerNet FSAF FCOS这是路测场景中的一个真实检测案例(上图),2D物体检测已经应用于 检测路面上一些小物体。同时远

7、距离物体检测也是2D物体检测中关注的重点。受限于激光雷达和 毫米波雷达的物理特征,远距离物体缺乏良好的检测效果,而照相机在这 方面比较有优势,可以和其他的检测方法进行互补。2D物体检测面临的问题物体相互遮挡但是采用照相机做2D物体检测不可避免要面临一些问题。因为照相机回 馈的图像只有两个维度,当两个物体堆叠时,对一个神经网络而言,图像 的特征就比较聚集。一般做物体检测的过程,会用一些非极大值抑制的方法,对检测结果进行 后处理,当特征结果非常密集的时候,这种方法往往会受到影响。成像质量波动2D物体检测面临的主要问题一成像质量波动照相机是可见光设备,因此会受到光照强度的影响,成像质量出现波动。 但

8、我们总是希望图中的特征不管是在哪个位置,都能得到足够的表达。例如,2D图像中远处的车灯和路灯很难区分开,导致可能都被检测为车或 者路灯。在这种情况下,特征总会难以区分。测距另一个的问题就是测距问题。因为照相机是被动光源的设备,它不具备主 动测距的能力。如果希望借助照相机进行物体测距,就需要做很多的假设或者求解一些病 态的数学问题,用以估算车与物体的距离。但这个结果通常不如主动测距 设备的结果,比如激光雷达和毫米波雷达。正是因为照相机存在上面提到的问题,所以我们物体检测也使用了其他的 传感器,将它们的结果共同结合起来,最终达到更可靠的检测效果。什么是3D物体检测?3D物体检测,顾名思义就是把3D

9、的一些数据坐标,聚集起来进行物体检 测。比如激光雷达,类似于我们拿一支激光笔不断扫描周围,它会提供相 对明显的信息。当把3D数据聚集起来之后,我们可以用来推测周围物体 的位置,大小,朝向等等。3D物体检测一个很大的好处就是,我们在2D物体检测中很难区分的物 体,有了 3D数据提供的距离信息之后,将更容易从距离的维度上分开。 这样感知系统在进行物体分割的时候能使用的信息更多,达到一个更好的 工作效果。传统3D分割方法及限制传统的3D分割方法包括: Flood Fill DB scan Graph Cut传统分割方法介绍它主要是利用一些点的距离信息、密度信息或者点的一些天然属性,比如 它的强度,把

10、物体聚类分割。传统分割方法也存在不少限制,首先是过度分割。比如上图中的异形车,由于车尾和车头之间有缝隙,在3D检测中,它可 能会被分割成多个物体,因为点和点之间有间隙,在激光雷达检测时呈现 的是离散信息,就会出现过度分割。传统分割方法的另一个问题是分割不足。我们将上图出现的情况称为“三人成车",就是当三个人离的很近的时候, 有可能被传统分割方法识别成一辆车。基于深度学习的3D分割方法基于深度学习的3D物体检测给人:点元特征位置反磐克度高该国I79当深度学习与卷积神经网络引入到3D物体检测中时,我们发现传统3D 分割方法遇到的问题得到较好解决。首先让点云信息进行特征工程,即将点的位置、

11、反射强度、高级特征聚合 在一起,组织成类似图片或者图的关系。随后进行卷积神经网络特征提 取,再进行多帧特征的聚合(它的意义是对运动的物体有一个更好的反 映),最后输出物体的位置、聚类信息、物体速度。通过上述深度学习方法,"三人成车"的情况得到避免。系统不仅可以提取 人的距离关系,还可以提取到更多的高级信息,比如在点云变化中,人类 的点云形似长的柱体,而自行车类似于小山一样的点云分布,这样感知系 统可以了解这些障碍物不属于同一物体,而将其割离开。深度学习3D分割方法的限制另一方面,我们也要认识到深度学习分割方法也可能面对的挑战。深度学习分割方法的限制InputBlackbox

12、Output »aiA结果的不完全可控无法保证100%的recoilA易导致过拟合结果的不完全可控:首先卷积神经网络经常有几百层的卷积层,参数总 量可能有百万级,并且是自动学习的,这可能会导致对网络的输出缺少把 控。换句话说,系统无法预期数据输入(input )后会得到怎样的数据输 出,于自动驾驶而言,这是比较致命的。因为自动驾驶对场景的召回率和 精度有非常高要求,如果车辆在行驶中,前面的一位行人miss (丢失), 这是极其严重的隐患。无法保证100%的召回(recall):如上图所示,垃圾桶和行人的特征 其实非常相似,那么深度学习可能会出现把人学成了垃圾桶,最后导致行 人在感知系

13、统中出现丢失的情况。易导致过拟合:由于卷积神经网络有非常好的特征提取能力,固定的数 据集训练可能导致神经网络过拟合。例如同样的数据集训练后,在北京路 测的表现很好,但是当到达一个新的城市进行测试时,因为路面特征和北 京有所区别,可能导致物体分割效果下降,这对感知系统非常不友好。优点兼得:传统方法和深度学习方法的结合为了解决分割方法的限制,我们的想法是将传统方法和深度学习方法的结 果进行结合: 使用深度学习的分割结果调整传统分割方法的结果。 使用传统分割方法的结果补足深度学习结果的召回。 基于多帧追踪的概率模型融合:比如利用马尔可夫分布的特点、贝叶斯 的方法对多帧数据进行一定的平滑,以得到更好的

14、效果。通过传统方法和深度学习方法的相互结合与补充,我们最终可以实现优点 兼具的物体检测策略。做自动驾驶真的是一个很崎岖的旅程,不断的解决问题之后又出现新的问 题,不过正是因为过程的湿难,才带来更多的快乐。感知系统,自动驾驶看懂周围世界的“魔法感知系统基本介绍Perception (感知)系统是以多种传感器的数据与高精度地图的信息作 为输入,经过一系列的计算及处理,对自动驾驶车的周围环境精确感知的 系统。它能够为下游模块提供丰富的信息,包括障碍物的位置、形状、类别及速 度信息,也包括对一些特殊场景的语义理解(例如施工区域,交通信号灯 及交通路牌等)。感知系统的构成与子系统 传感器:涉及到传感器的

15、安装,视场角,探测距离,数据吞吐,标定精 度,时间同步等。因为自动驾驶使用的传感器比较多,时间同步的解决方 案至关重要。 目标检测及分类:为了保证自动驾驶的安全,感知系统需要达到近似百 分之百的召回率及非常高的准确率。目标检测及分类往往会涉及到深度学 习方面的工作,包括3D点云及2D Image (图片)上的物体检测及多传 感器深度融合等。 多目标追踪:跟进多帧的信息计算并预测障碍物的运动轨迹。 场景理解:包括交通信号灯,路牌,施工区域,以及特殊类别,比如校 车,警车。 机器学习分布式训练基础架构及相关评价系统 数据:大量的标注数据,这里包括3D点云数据及2D的图片数据等。传感器详解目前自动驾

16、驶应用的传感器主要分为三类:激光雷达(LiDAR ),相机 (Camera ),毫米波雷达(Radar)。开头提到,感知系统的输入为多种传感器数据和高精地图,而上图展示了 感知系统物体检测的输出结果,即能够检测车辆周围的障碍物,如车辆、 行人、自行车等,同时结合高精度地图,感知系统也会对周边的 Background (环境背景)信息进行输出。如上图所示,绿颜色的块状代表一辆乘用车,橙色代表一辆摩托车,黄色 代表一位行人,灰色则是检测到的环境信息,如植被。感知系统结合多帧的信息(上图),还能对运动的行人和车辆的速度、方 向、轨迹预测等进行精确的输出。传感器配置与多传感器深度融合了解了关于感知系统

17、从输入到输出的大致介绍,接下来,我简要介绍一下 小马智行第三代自动驾驶系统PonyAlpha的传感器安装方案以及多传感 器深度融合的解决方案。传感器安装方案目前PonyAlpha传感器安装方案的感知距离能够覆盖车周360度、范 围200米以内。具体来看,这套方案用到了 3个激光雷达,在车的顶部和两侧。同时, 通过多个广角的摄像头来覆盖360度的视野。远处的视野方面,前向的 毫米波雷达以及长隹相机将感知距离扩到200米的范围,使其可以探测 到更远处的物体信息。这套传感器配置能保证我们的自动驾驶车辆在居民 区、商业区、工业区这样的场景进行自动驾驶。多传感器深度融合解决方案多传感器深度融合的基础多传

18、感器深度融合的方案首要解决的是将不同的传感器的数据标定到同一 个坐标系里,包括了相机的内参标定,激光雷达到相机的外参标定,毫米 波雷达到GPS的外参标定等等。传感器融合重要前提是使标定精度达到到极高水平,不论对于结果层面的 传感器融合还是元数据层面的传感器融合,这都是必要的基础。通过上图你会发现,我们的感知系统将3D的激光点云精准地投射到影像 上,可见传感器标定的精度是足够高的。不同传感器的标定方案整个传感器标定的工作基本上已做到完全自动化的方式。Camera Intrinsic Calibrationinlrinsic calibration is Io c<xrtx;l llw di

19、slorfcd irriogc pixels caused by esnera intenial chczaGtcdstias. e.g. focal ler»g!h.skew, cfctothon. image center ar>d etc.With Pony.ai fools, only 2 - 3 niinufGS caBtxalion elforl is required for each camera serisor.(Be4<xe Intrnsic CMbrahon)(After Inlnmic CaMxatxxi)14;首先是相机内参的标定(上图),这是为

20、了修正由相机自身特性导致的图 像扭曲等。相机内参的标定平台使每一个相机能够在两到三分钟之内完成 传感器的标定。其次是激光雷达与GPS/IMU的外参标定(上图),激光雷达的原始数 据是基于雷达坐标系,因此我们需要将点由雷达坐标系转换为世界坐标 系,这就涉及到激光雷达与GPS/IMU相对位置关系的计算。我们的标定 工具在室外通过优化的方案,能够快速找到最优的位置关系。Good calibfotton exampte: rhe War obslaclc shape and camcru obstacle slope ere matched perfectly for a 50, mph cunnin

21、g tnjek.第三是相机到激光雷达的融合(上图)。激光雷达的感知环境是360度 旋转的方式,每旋转一周是100毫秒,而相机是某一瞬时曝光,为了保 证相机的曝光与激光雷达的旋转保证同步,需要对二者进行时间同步,即 通过Lidar来触发相机曝光。比如说,可以通过激光雷达的位置信息来触 发对应位置相机的曝光时间,以达到相机与激光雷达的精确同步。3D (激光雷达)和2D (相机)彼此互补,二者更好的融合可使得感知得 到更精确的输出。Bkie truck is driving in the middle of the kJ ne at the speed 8.19m/sec.Black SUV is

22、driving across lane at the speed 7.93 m/sec.iso最后是亳米波雷达(Radar)与GPS/IMU的标定(上图),同样是将 Radar数据由Local (本地)坐标系将其转换到世界坐标系,我们将通过 真实的3D环境来计算Radar与GPS/IMU的相对位置关系。好的标定 结果能够保证感知系统给出200米距离以内障碍车的车道信息(如位于 车道内或压车道线等)等。下面这个demo视频简明生动地展示了多传感器深度融合的部分处理效 果。车载感知系统架构那么车载感知系统架构是什么样的?它的解决方案又是什么?Perception OnboardTrackingp。

23、%UDARCameraRadarSensor FusionDetection ClassincaWonTracker vbith multi-frame and multi- source observationsState Computation (c.g. beading, speed, acceleration)Scene understandingTraffic LightConstruction Area AnalysisFrome-based上图展示了整个车载感知系统的架构。首先激光雷达、相机、毫米波雷达 三种传感器数据须进行时间同步,将所有的时间误差控制在毫秒级。结合 传感器数据

24、,感知系统以帧为基础(frame-based )进行检测 (detection )、分割(segmentation )、分类(classification )等 计算,最后利用多帧信息进行多目标跟踪,将相关结果输出。这个过程中 将涉及到多传感器深度融合和深度学习相关的技术细节,我这里不做过多 的讨论。感知系统的解决方案应保证以下五点: 首先是安全,保证近乎百分之百的检测(Detection )召回率 (Recall )。 精度(Precision )要求非常高,如果低于某个阈值,造成False Positive (误报),会导致车辆在自动驾驶状态下行驶得非常不舒适。 尽量输出所有对行车有帮助的

25、信息,包括路牌,交通信号灯及其它场景 理解的信息。 保证感知系统的高效运行,能够近实时处理大量的传感器数据。可扩展性(Scalability )也很重要。深度学习(Deep learning )依 赖大量数据,其训练模型的泛化能力对于感知系统非常重要。未来,我们 希望模型(model )和新算法有能力适配更多的城市和国家的路况。感知技术的挑战感知精度与召回率相平衡的挑战Perception Technical Challenges: Precision vs. Recalla Busy Intersection上图展示了晚高峰时期十字路口的繁忙场景,此时有大量行人、摩托车穿 过十字路口。Per

26、ception Technical Challenges: Precision vs. Recalla Busy Intersection通过3D点云数据(上图),能够看到此时对应的感知原始数据。这里挑战是,经过计算处理后,感知系统需要在这样环境下输出所有障碍 物的正确的分割(segmentation )结果和障碍物类别。除了繁忙的十字路口,感知系统在处理一些特殊的或者恶劣的天气条件, 也面临不小挑战。突降暴雨或者长时间降雨往往会造成路面积水,车辆经过自然会溅起水 花。上方视频中白色点云展示了激光雷达检测到其他车辆经过溅起的水花 并对其进行filter (过滤)的结果。如果感知系统不能对水花进行准确的 识别和过滤,这会对自动驾驶造成麻烦。结合激光雷达与摄像头(Lidar&Camera )的数据,我们的感知系统对水花有很高的识别率。长尾场景挑战洒水车上图是我们在路测时曾遇到的两类洒水车(上图)。左边洒水车采用向上 喷的雾炮,而右边是向两侧喷洒的洒水车。Perception Technical Challenges: L

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论