【《多目标跟踪系统关键技术分析案例》4800字】_第1页
【《多目标跟踪系统关键技术分析案例》4800字】_第2页
【《多目标跟踪系统关键技术分析案例》4800字】_第3页
【《多目标跟踪系统关键技术分析案例》4800字】_第4页
【《多目标跟踪系统关键技术分析案例》4800字】_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多目标跟踪系统关键技术分析案例目录TOC\o"1-3"\h\u13173多目标跟踪系统关键技术分析案例 1253211.1Yolov5目标检测原理 1237351.2DeepSort目标跟踪算法 81.1Yolov5目标检测原理Yolov5是由UltralyticsLLC公司于2020年5月份提出,其图像推理速度最快达0.007s,即每秒可处理140帧,满足视频图像实时检测需求,同时结构更为小巧,Yolov5官方代码中,给出的目标检测网络中一共有4个版本,分别是Yolov5s、Yolov5m、Yolov5l、Yolov5x四个模型,Yolov5s版本的权重数据文件为Yolov4的1/9,大小为27MB。在前面已经介绍过Yolo系类目标检测原理。本节会以Yolov5s的网络结构为主线,讲解与其他三个模型(Yolov5m、Yolov5l、Yolov5x)的不同点。4.1.1Yolov5网络结构Yolov5s网络是Yolov5系列中深度最小,特征图的宽度最小的网络。后面的3种都是在此基础上不断加深,不断加宽。如下图4-1所示是Yolov5四种网络的深度。图4-1Yolov5四种网络的深度。在上图中,有两种CSP结构:CSP1和CSP2,其中CSP1结构主要应用于Backbone中,CSP2结构主要应用于Neck中。需要注意的是,四种网络结构中每个CSP结构的深度都是不同的:(1)以Yolov5s为例,第一个CSP1中,使用了1个残差组件,因此是CSP1_1。而在Yolov5m中,则增加了网络的深度,在第一个CSP1中,使用了2个残差组件,因此是CSP1_2。而Yolov5l中,同样的位置,则使用了3个残差组件,Yolov5x中,使用了4个残差组件。其余的第二个CSP1和第三个CSP1也是同样的原理。(2)在第二种CSP2结构中也是同样的方式,以第一个CSP2结构为例,Yolov5s组件中使用了2×X=2×1=2个卷积,因为X=1,所以使用了1组卷积,因此是CSP2_1。而Yolov5m中使用了2组,Yolov5l中使用了3组,Yolov5x中使用了4组。其他的四个CSP2结构,也是同理。Yolov5中,网络的不断加深,也在不断增加网络特征提取和特征融合的能力。图4-2Yolov5四种网络的宽度如上图4-2所示,四种Yolov5结构在不同阶段的卷积核的数量都是不一样的,因此也直接影响卷积后特征图的第三维度,即厚度,这里表示为网络的宽度。(1)以Yolov5s结构为例,第一个Focus结构中,最后卷积操作时,卷积核的数量是32个,因此经过Focus结构,特征图的大小变成304*304*32。而Yolov5m的Focus结构中的卷积操作使用了48个卷积核,因此Focus结构后的特征图变成304*304*48。Yolov5l,Yolov5x也是同样的原理。(2)第二个卷积操作时,Yolov5s使用了64个卷积核,因此得到的特征图是152*152*64。而Yolov5m使用96个特征图,因此得到的特征图是152×152×96。Yolov5l,Yolov5x也是同理。(3)后面三个卷积下采样操作也是同样的原理,这里不过多讲解。四种不同结构的卷积核的数量不同,这也直接影响网络中,比如CSP1,CSP2等结构,以及各个普通卷积,卷积操作时的卷积核数量也同步在调整,影响整体网络的计算量。当然卷积核的数量越多,特征图的厚度,即宽度越宽,网络提取特征的学习能力也越强。4.1.2Yolov5核心基础内容Yolov5的结构和Yolov4很相似,但也有一些不同,如下图4-3所示即Yolov5的网络模型结构图,可以看出,还是分为输入端、Backbone、Neck、Prediction四个部分。图4-3Yolov5的网络模型结构图(1)输入端:Mosaic数据增强:Yolov5的输入端采用了和Yolov4一样的Mosaic数据增强的方式,Mosaic是参考2019年底提出的CutMix数据增强的方式,但CutMix只使用了两张图片进行拼接,而Mosaic数据增强则采用了4张图片,随机缩放、随机裁剪、随机排布的方式进行拼接。如下图4-4所示:图4-4主要有几个优点:a.丰富数据集:随机使用4张图片,随机缩放,再随机分布进行拼接,大大丰富了检测数据集,特别是随机缩放增加了很多小目标,让网络的鲁棒性更好。b.减少GPU:考虑到很多人可能只有一个GPU,因此Mosaic增强训练时,可以直接计算4张图片的数据,使得Mini-batch大小并不需要很大,一个GPU就可以达到比较好的效果。自适应锚框计算[23]:在Yolo算法中,针对不同的数据集,都会有初始设定长宽的锚框。在网络训练中,网络在初始锚框的基础上输出预测框,进而和真实框groundtruth进行比对,计算两者差距,再反向更新,迭代网络参数。在Yolov3、Yolov4中,训练不同的数据集时,计算初始锚框的值是通过单独的程序运行的。但Yolov5中将此功能嵌入到代码中,每次训练时,自适应的计算不同训练集中的最佳锚框值。当然,如果觉得计算的锚框效果不是很好,也可以在代码中将自动计算锚框功能关闭。自适应图片缩放:在常用的目标检测算法中,不同的图片长宽都不相同,因此常用的方式是将原始图片统一缩放到一个标准尺寸,再送入检测网络中。比如Yolo算法中常用416×416,608×608等尺寸,比如下图4-5所示对下面800×600的图像进行缩放。图4-5在项目实际使用时,很多图片的长宽比不同,因此缩放填充后,两端的黑边大小都不同,而如果填充的比较多,则存在信息冗余,影响推理速度。因此在Yolov5的代码中datasets.py的letterbox函数中进行了修改,对原始图像自适应的添加最少的黑边。如下图4-6所示:图4-6图像高度上两端的黑边变少了,在推理时,计算量也会减少,即推理速度能够很快,即目标检测速度会得到提升。(2)Backbone:Focus结构:在Yolov3和Yolov4中并没有这个结构,其中比较关键是切片操作。比如下图4-7所示的切片示意图,4*4*3的图像切片后变成2*2*12的特征图。以Yolov5s的结构为例,原始416*416*3的图像输入Focus结构,采用切片操作,先变成208*208*12的特征图,再经过一次32个卷积核的卷积操作,最终变成208*208*32的特征图。图4-7CSP结构:相对于Yolov4中只有主干网络使用了CSP结构,而Yolov5中设计了两种CSP结构,如下图4-8所示以Yolov5s网络为例,CSP1_X结构应用于Backbone主干网络,另一种CSP2_X结构则应用于Neck中。图4-8主要有三个方面的优点:优点一:增强CNN的学习能力,使得在轻量化的同时保持准确性。优点二:降低计算瓶颈优点三:降低内存成本(3)Neck:Yolov5现在的Neck和Yolov4中一样,都采用FPN+PAN的结构,FPN是自上而下的,利用上采样的方式对信息进行传递融合,获得预测的特征图。PAN采用自底向上的特征金字塔[24]。具体结构如下图4-9所示:图4-9FPN+PAN的结构如下图4-10所示,Yolov4的Neck结构中,采用的都是普通的卷积操作。而Yolov5的Neck结构中,采用借鉴CSPnet设计的CSP2结构,加强了网络特征融合的能力。图4-10(4)Prediction:损失函数是深度神经网络误测样本评判的依据。损失函数的选择对模型收敛效果影响较大,选择合适的损失函数可获得更好的识别效果。目标检测任务的损失函数一般由ClassificitionLoss(分类损失函数)和BoundingBoxRegeressionLoss(回归损失函数)两部分构成。BoundingBoxRegeression的Loss近些年的发展过程是:SmoothL1Loss->IoULoss(2016)->GIoULoss(2019)Yolov5中采用其中的GIOU_Loss作为Boundingbox的损失函数[25],其公式为:(4,1)函数增加了相交尺度的衡量方式,有利于解决边界框有时不重合的问题[26]。使得预测框回归的速度和精度更高一些,提高了识别效果。在目标检测的后处理过程中,针对很多目标框的筛选,通常需要nms操作。Yolov5中采用加权nms的方式,获得最优目标框。4.1.3Yolov5算法性能测试Yolov5有四种深度和宽度不同的网络结构,如图4-11展示了Yolov5在COCO数据集上mAP与推理速度的对比。可以看出,Yolov5在兼顾速度的同时精度也非常高,性能十分出色[27]。图4-11Yolov5的算法性能测试图Yolov5s网络最小,速度最快,AP精度也最低。其他的三种网络,在此基础上,不断加深加宽网络,AP精度也不断提升,但速度的消耗也在不断增加。1.2DeepSort目标跟踪算法Sort(Simpleonlineandrealtimetracking)是一种更为简单的框架,该框架使用匈牙利算法和可测量边界框重叠的关联度量,在图像空间中执行卡尔曼滤波和逐帧数据关联。Deepsort算法在Sort基础上加入了外观度量信息,而且应用了经过训练的卷积神经网络,以区分大规模人员重新识别数据集上的行人,使Deepsort算法能够更好地处理遮挡问题。本节将从以下几个方面介绍Deepsort:4.2.1状态估计运动状态估计:轨迹处理和卡尔曼滤波框架与Sort算法中一致,跟踪方案是在8维状态空间进行估计,其中包含boundingbox中心坐标(u,v),长宽比r,高度h及表示在图像坐标中的速度信息的4个变量。使用一个基于常量速度模型和线性观测模型的标准Kalman滤波器估计目标的运动位置,预测的结果为(u,v,r,h)。4.2.2轨迹处理关于跟踪器处理以及新检测结果出现的处理,DeepSort和Sort的做法相同。目标的创建与移除:对于每个轨迹k,计算自上一次成功关联以来的帧数。设置计数器,在Kalman滤波器预测期间,此计数器将递增,并在跟踪结果与检测结果相关联时将计数器重置为0。如果超过预定义的最大阈值的轨迹(即一段时间内跟踪结果一直没有与检测结果相关联)被视为结束跟踪,并从轨迹集中删除。对于无法与现有轨迹相关联的每次检测,会启动新的轨迹假设,认为可能出现新的目标。如果这些新的轨迹在连续前3帧中都能被成功关联。则确定出现新的跟踪目标,如果在前3帧中未成功与目标检测关联的轨迹将被删除。4.2.3匹配问题在分配问题上,Sort是把检测框和跟踪框的IoU情况作为输人,采用匈牙利算法,输出检测框和跟踪框的匹配结果。DeepSort同时考虑了运动信息的关联和目标外观信息的关联,使用了融合度量的方式计算检测和跟踪轨迹之间的匹配程度。(1)运动匹配运动信息的关联:为了合并运动信息,使用预测的卡尔曼状态与目标检测结果之间的(平方)马氏距离如公式(4.2)所示。(4,2)其中表示第i个轨迹分布到检测空间的投影,表示第j个检测框的位置,表示第i个跟踪器对目标的预测位置,表示检测位置与平均跟踪位置之间的协方差矩阵。马氏距离通过计算检测位置和平均跟踪位置之间的标准差对状态测量的不确定性进行了考虑。此外,使用此度量,可以通过在从逆分布计算出的95%置信区间内对马氏距离进行阈值化来排除不可能的关联。使用的函数如公式(4.3)所示。(4,3)如果第i个跟踪轨迹与第j个检测结果之间是相关联的,则结果为1。设置。(2)目标外观匹配当运动不确定性较低时,马氏距离是一种合适的关联度量。但是,当运动相机发生快速移动时,卡尔曼滤波不能准确的预测目标的位置,而且马氏距离不能很好地处理遮挡的情况。因此,引入了第二个关联度量。Deepsort相对于Sort增加了DeepAssociationMetric,也就是ReID的模块,这部分借用了行人重识别领域的网络模型,这部分的网络是需要提前离线学习好,其功能是提取出具有区分度的特征,目的是区分出不同的行人,其网络结构如图4-12所示。图4-12深度特征网络结构该网络使用了宽残差网络,该网络具有2个卷积层和6个残差块,网络最后的输出是一个128维的向量用于代表该部分表观特征(一般维度越高区分度越高带来的计算量越大)。最后使用了L2归一化来将特征映射到单位超球面上,以便进一步使用余弦表观来度量相似度。通过计算行人间的余弦距离,余弦距离越小,两行人图像越相似。对于每个边界框检测,求一个特征向量,限制条件就是。此外,对于每个轨迹k,创建一个外观描述符的图库,用于存储最近100帧成功关联的特征向量。然后,第二个度量将计算外观信息中第i个轨迹与第j个检测之间的最小余弦距离如公式(4,4)、(4,5)所示。(4,4)(4,5)如果上面的距离小于指定的阈值,那么外观匹配就是成功关联的。阈值是从单独的训练集里得到的。(3)两种关联方式的融合使用加权总和将两个指标结合起来使用如公式(4,6)所示。Ci,j这里,只有当两个指标都满足各自阈值条件的时候才进行融合。可以通过参数λ来控制每个关联度量对组合关联的影响。当摄像机运动较大时,可以将λ设置为0,仅使用外观信息度量。在进行目标跟踪的过程中要根据实际情况调整λ大小。(4)级联匹配当物体被长时间遮挡时,卡尔曼滤波器不能对目标状态准确预测。因此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论