深度学习准备_第1页
深度学习准备_第2页
深度学习准备_第3页
深度学习准备_第4页
全文预览已结束

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目标检测系列(1)介绍目标检测网络YOLO以及SSD系列原理。目前比较具有代表性的目标检测算法可以分为两大流派,一个是以fasterRCNN为主的二阶段算法,第二个是以YOLO和SSD为主的一阶段算法(one-stage)。fasterRCNN的原理是先用一个RPN(regionproposalnetwork)提取regionproposal,再用一个分类网络判断RP中是否含有目标,所以fasterRCNN的检测阶段其实是分类问题。YOLO:YOLOv1:是one-stage的开山之作,它将目标检测看成了回归问题,直接从图像像素得到边界框坐标和类别概率。不同于RCNN只对某个RP预测,YOLOv1可以看到整张图像,所以预测错误的概率比fasterRCNN要小,YOlov1的预测结果,精确率高,但是召回率低,定位误差多。YOLOv1的损失函数由:回归框loss、置信度loss和分类loss三个部分组成。YOLOv2:解决了YOLOv1定位误差多,召回率低的问题。相比于v1,它做了如下改进:(1)增加BN层,移除dropout层,这一操作可增加mAP(2)使用高分辨率的分类器,v2使用448X448的分辨率微调分类网络,使模型在检测数据集之前适应了高分辨率输入。(3)增加了anchorbox,v1用的是全连接预测bbox的位置坐标;v2借鉴了FasterRCNN中RPN网络的anchorbox策略,移除了YOLOv1的全连接层,采用了卷积和anchorboxes来预测边界框,提高定位精度。值得一提的是,v2的检测模型输入是416X416维度,经过32倍的下采样,会很容易找到中心点。对于一些大物体,它们中心点往往落入图片中心的位置,这样我们就可以通过中心点预测它的边界框。YOLOv1只预测7X7X2=98个框,v2预测的边框个数为13X13Xanchor_num,这样虽然损失了一点map,但是召回率提高了不少。YOLOv3是原作者在YOLOv2上的一些改进,首先将骨干网络从Darknet19改进为DarkNet-53,利用特征金字塔实现了多尺度检测,使用逻辑回归代替了softmax层。Darnet53与19相比,主要做出了如下改进:1.引入了残差网路的思想2.在网络中间层和后面某一层的上采样进行张量拼接,达到多尺度特征融合的目的3.引入了FPN网络,解决了小目标检测效果不好的问题,骨干网络使用DarkNet53,分类器由softmax改为了sigmoid。SSDSSD算法是一种直接预测目标类别和bbox的多目标检测算法。传统的做法是先把图像转换成不同大小(图像金字塔),然后分别检测,最后使用NMS。而SSD则利用不同卷积层的featuremap进行总和也能达到同样效果。算法的骨干网络是VGG-16,不过它将最后两个全连接层(FC)改成了卷积层,随后增加了4个卷积层来构造网络结果。对其中5中不同的卷积层输入(featuremap)分别用两个不同的3X3卷积核进行卷积。一个输出的是分类用的置信度(confidence),每个bbox可生成21个类别confidence;一个输出回归用的localization,每个bbox生成4个坐标(x,y,w,h)。多尺度featuremap预测:接下来进行预测的时候,会对接下来的六个不同的尺寸分别进行预测,这六种不同的尺寸输出也就是后续检测层的输入。这六种尺寸分别包括6个不同大小的featuremap,分别是38*38,19*19,10*10,5*5,3*3,1*1.(2)YOLO对小目标检测效果不好的原因,怎么改善?小目标像素特征少,不明显。小目标检测率低,这个在任何算法上都无法避免。目标检测算法对小目标检测效果不好的原因,在于卷积网络结果的最后一层featuremap太小,例如32*32的目标经过VGG网络会变成2*2,这就导致之后的检测和回归无法满足要求。卷积网络越深语义信息越强,越低则是描述的局部外观信息越多。相比于YOLO,SSD是多尺度特征图提取,它更稳定;YOLO只是通过全局特征直接得到预测结果,完全靠数据堆积,因此对于小目标可以考虑减少池化。如果物体过小,在训练阶段,GT可能没有办法找到相应的defaultbox与它匹配,效果肯定不好。可以考虑调低尺度或者进行多尺度预测。YOLOv2里边就是使用多尺度预测。(1)小目标往往更依赖浅层特征,因为浅层特征有更高的分辨率,但是语义区分较差(2)YOLOv1为了速度,本来是全卷积网络,但是却固定了尺寸,因此它对大图中的小物体检测效果较差。(3)怎么防止过拟合在数据层面,做数据增广,筛选高质量的特征在网络层面,选择简单的模型,网络剪枝,加入正则项,加入drop-out层,加入BN层。在训练操作界面,使用earlystopping(早停法)过拟合的表现形式:模型在训练数据中损失函数较小,预测准确率高;但在测试数据中损失函数较大,预测准确率较低。Dropout层可以比较有效的缓解过拟合的发生,在一定程度上达到正则化的效果。(4)DropOut层的作用是什么?dropout层的主要作用就是为了防止过拟合,那么为什么可以防止过拟合呢?(1)取平均的作用:我们用相同的训练数据训练5个不同的结果,此时可以采用5个结果取均值”或者“多数取胜的投票策略”决定最终结果。例如3个网络判断结果为9,其他两个网络给出错误结果,那么很有可能这个结果就是9,这就是取平均的道理。同时因为不同的网络可能产生不同的过拟合,取平均可以让一些“相反的”拟合相互抵消。dropout掉不同的隐藏神经元,这种互为“反向”的拟合相互抵消就可以达到整体上的减少过拟合。(2)减少神经元之间复杂的共适应关系:(3)增加稀疏性:在数据量较小的时候,可以通过稀疏性,来增加特征的区分度。(5)BN层的原理和作用分别是什么?BN层的作用主要有三个:(1)加快网络的训练和收敛的速度在深度神经网络中,如果每层的数据分布都不一样的话,将会导致网络非常难收敛和训练,而如果把每层的数据都转换为均值为0,方差为1的状态下,这样每层的数据分布都是一样的,训练会比较容易收敛。(2)控制梯度爆炸和防止梯度消失(3)防止过拟合(6)YOLO与RCNN网络的区别首先,YOLOv1是anchor-free的one-stage目标检测算法;Faster:anchor-based是two-stage的目标检测算法(1)YOLOv1并没有预先设置anchor,而是直接预测bbox,并针对每一个特征点,只预测2个候选框;FasterRCNN是featuremap上的特征点预先设置9种尺寸的anchor,之后引入RPN网络,基于预先设置的anchor预测候选框的偏移(使预设的anchor在偏移后能更接近GroundTruth)。总的来说,YOLO的bbox和faster的anchor本质上不同。(2)YOLO中的NMS算法仅在预测的时候使用;fasterRCNN是在训练RPN网络的时候已经用了NMS。总的来说,两个算法对于NMS的使用不同,这也和他们bbox和anchor的定义和使用有关。(3)YOLO采用预测相对于当前gridcell左上角坐标的offset,宽高也是相对于特征图大小的值。而fasterRCNN首先预设了9中不同尺寸的anchor,fasterRCNN在预测中心点是是基于这些预设anchor的中心点进行计算偏移得到的。(4)损失函数区别很大,YOLOv1的损失函数由5部分组成(7)目标检测中的评价指标是什么?TP:正样本,预测结果为正;FP:正样本,预测结果为负;TN:负样本,预测结果为正;FN:负样本,预测结果为负;(1)精确率:又叫precision、查准率。就是预测是正例的结果中,确实是正例的比例。TP+TN/(TP+FP+TN+FN)精准率=TP/(TP+FP)(2)召回率:Recall、查全率。就是所有正例的样本中,被找出的比例。召回率=TP/(TP+FN)(3)PR曲线:查准率和查全率是一对矛盾的度量,所以引入PR曲线。(4)top值:top1&top3&top5:如果模型给出的最大概率值显示为狗,那这就是Top-1;如果狗的预测概率值在给出的所有概率值中排在前5,那就是Top-5。(5)map:AP是某一PR曲线下的面积;mAP是所有类别的AP值取平均。(6)F1指数:精确率(prediction)和召回率(recall)的调和均值。F1=2TP/(2TP+FP+FN)(8)anchor、groundingtruth,boundingbox、候选框这些都是什么?边界框(Boundingbox)它输出的是框的位置(中心坐标与宽高),confidence以及N个类别。用来表示物体的位置,一般有(xyxy)和(xywh)两种表现形式。锚框(anchorbox)只是一个尺度即只有宽高;它与物体边界框不同,是由人们假想出来的一种框;先设定好锚框的大小和形状,再以图像上某一个点画出矩形框。在目标检测中,通常会以某种规则在图片上生成一系列锚框,将这些锚框当成可能的候选区域。模型对这些候选区域是否包含物体进行检测,如果包含目标物体,则还需要进一步预测出物体所属的类别。锚框不一定和物体边界框重合,所以需要模型进行预测微调的幅度。预测框(predict

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论