详细解读Faster RCNN.ppt

上传人：灯*** IP属地：河北上传时间：2020-01-22 格式：PPT 页数：26 大小：1.71MB 积分：12 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

解读FasterRCNN 2018 12 26 FasterRCNN简介经过RCNN和FastRCNN的积淀 RossB Girshick在2016年提出了新的FasterRCNN 在结构上 FasterRCN已经将特征抽取 featureextraction proposal提取 boundingboxregression rectrefine classification都整合在了一个网络中使得综合性能有较大提高在检测速度方面尤为明显论文作者看来FasterRCNN可以分为4个部分 1 Convlayers 作为一种CNN网络目标检测方法 FasterRCNN首先使用一组基础的conv relu pooling层提取image的featuremaps 该featuremaps被共享用于后续RPN层和全连接层 2 RegionProposalNetworks RPN网络用于生成regionproposals 该层通过softmax判断anchors属于foreground或者background 再利用boundingboxregression修正anchors获得精确的proposals 3 RoiPooling 该层收集输入的featuremaps和proposals 综合这些信息后提取proposalfeaturemaps 送入后续全连接层判定目标类别 4 Classification 利用proposalfeaturemaps计算proposal的类别同时再次boundingboxregression获得检测框最终的精确位置 Convlayers部分共有13个conv层 13个relu层 4个pooling层在Convlayers中所有的conv层都是 kernel size 3 pad 1 所有的pooling层都是 kernel size 2 stride 2 最终一张MxN的图像经过Convlayers之后固定变为 M 16 x N 16 下图展示了RPN网络的具体结构可以看到RPN网络实际分为2条线上面一条通过softmax分类anchors获得foreground和background 检测目标是foreground 下面一条用于计算对于anchors的boundingboxregression偏移量以获得精确的proposal 而最后的Proposal层则负责综合foregroundanchors和boundingboxregression偏移量获取proposals 同时剔除太小和超出边界的proposals 其实整个网络到了ProposalLayer这里就完成了相当于目标定位的功能 1 在论文中使用的是ZFmodel中其ConvLayers中最后的conv5层num output 256 对应生成256张特征图所以相当于featuremap每个点都是256 d2 在conv5之后做了rpn conv 3x3卷积且num output 256 相当于每个点又融合了周围3x3的空间信息同时256 d不变3 假设在conv5featuremap中每个点上有k个anchor 默认k 9 而每个anhcor要分foreground和background 所以每个点由256dfeature转化为cls 2kscores 而每个anchor都有 x y w h 对应4个偏移量所以reg 4kcoordinates4 全部anchors拿去训练太多了训练程序会在合适的anchors中随机选取128个postiveanchors 128个negativeanchors进行训练一副MxN大小的矩阵送入FasterRCNN网络后到RPN网络变为 M 16 x N 16 不妨设W M 16 H N 16 在进入reshape与softmax之前先做了1x1卷积可以看到其num output 18 也就是经过该卷积的输出图像为WxHx18大小这也就刚好对应了featuremaps每一个点都有9个anchors 同时每个anchors又有可能是foreground和background 所有这些信息都保存WxHx 9x2 大小的矩阵后面接softmax分类获得foregroundanchors 也就相当于初步提取了检测目标候选区域box 一般认为目标在foregroundanchors中那么为何要在softmax前后都接一个reshapelayer 其实只是为了便于softmax分类至于具体原因这就要从caffe的实现形式说起了在caffe基本数据结构blob中以如下形式保存数据 blob batch size channel height width 对应至上面的保存bg fganchors的矩阵其在caffeblob中的存储形式为 1 2 9 H W 而在softmax分类时需要进行fg bg二分类所以reshapelayer会将其变为 1 2 9 H W 大小即单独腾空出来一个维度以便softmax分类之后再reshape回复原状 boundingboxregression原理如图所示绿色框为飞机的GroundTruth GT 红色为提取的foregroundanchors 那么即便红色的框被分类器识别为飞机但是由于红色的框定位不准这张图相当于没有正确的检测出飞机所以我们希望采用一种方法对红色的框进行微调使得foregroundanchors和GT更加接近对于窗口一般使用四维向量 x y w h 表示分别表示窗口的中心点坐标和宽高对于上图红色的框A代表原始的ForegroundAnchors 绿色的框G代表目标的GT 我们的目标是寻找一种关系使得输入原始的anchorA经过映射得到一个跟真实窗口G更接近的回归窗口G 即给定anchorA Ax Ay Aw Ah GT Gx Gy Gw Gh 寻找一种变换F 使得F Ax Ay Aw Ah G x G y G w G h 其中 G x G y G w G h Gx Gy Gw Gh ProposalLayer负责综合所有 dx A dy A dw A dh A 变换量和foregroundanchors 计算出精准的proposal 送入后续RoIPoolingLayer ProposalLayer有3个输入 fg bganchors分类器结果rpn cls prob reshape 对应的bboxreg的 dx A dy A dw A dh A 变换量rpn bbox pred 以及im info 另外还有参数feat stride 16 首先解释im info 对于一副任意大小PxQ图像传入FasterRCNN前首先reshape到固定MxN im info M N scale factor 则保存了此次缩放的所有信息然后经过ConvLayers 经过4次pooling变为WxH M 16 x N 16 大小其中feature stride 16则保存了该信息用于计算anchor偏移量进ProposalLayerforward caffelayer的前传函数按照以下顺序依次处理 1 生成anchors 利用 dx A dy A dw A dh A 对所有的anchors做bboxregression回归这里的anchors生成和训练时完全一致 2 按照输入的foregroundsoftmaxscores由大到小排序anchors 提取前pre nms topN e g 6000 个anchors 即提取修正位置后的foregroundanchors 3 利用im info将fganchors从MxN尺度映射回PxQ原图判断fganchors是否大范围超过边界剔除严重超出边界fganchors 4 进行nms nonmaximumsuppression 非极大值抑制 5 再次按照nms后的foregroundsoftmaxscores由大到小排序fganchors 提取post nms topN e g 300 结果作为proposal输出之后输出proposal x1 y1 x2 y2 注意由于在第三步中将anchors映射回原图判断是否超出边界所以这里输出的proposal是对应MxN输入图像尺度的RPN网络结构就介绍到这里总结起来就是生成anchors softmax分类器提取fganchors bboxreg回归fganchors ProposalLayer生成proposals 而RoIPooling层则负责收集proposal 并计算出proposalfeaturemaps 送入后续网络从前面图中可以看到Rolpooling层有2个输入 1 原始的featuremaps2 RPN输出的proposalboxes 大小各不相同传统的CNN AlexNet VGG等对于输入图像尺寸不固定采用的方法一般为上图两种方式可以看到无论采取那种办法都不好要么crop后破坏了图像的完整结构要么warp破坏了图像原始形状信息所以FasterRCNN中提出了RoIPooling解决这个问题 RoIPooling是从SPP发展而来 RoIPoolinglayerforward过程在之前有明确提到 proposal x1 y1 x2 y2 是对应MxN尺度的所以首先使用spatial scale参数将其映射回 M 16 x N 16 大小的featuremaps尺度之后将每个proposal水平和竖直都分为7份对每一份都进行maxpooling处理这样处理后即使大小不同的proposal 输出结果都是7x7大小实现了fixed lengthoutput 固定长度输出 Classification Classification部分利用已经获得的proposalfeaturemaps 通过FC层与softmax计算每个proposal具体属于那个类别如人车电视等输出cls prob概率向量同时再次利用boundingboxregression获得每个proposal的位置偏移量bbox pred 用于回归更加精确的目标检测框 Classification部分网络结构如图从PoIPooling获取到7x7 49大小的proposalfeaturemaps后送入后续网络可以看到做了如下两件事 1 通过全连接和softmax对proposals进行分类 2 再次对proposals进行boundingboxregression 获取更高精度的rectbox FasterRCNN训练 FasterCNN的训练是在已经训练好的model 如VGG CNN M 1024 VGG ZF 的基础上继续进行训练实际中训练过程分为6个步骤 1 在已经训练好的model上训练RPN网络对应stage1 rpn train pt2 利用步骤1中训练好的RPN网络收集proposals 对应rpn test pt3 第一次训练FastRCNN网络对应stage1 fast rcnn train pt4 第二训练RPN网络对应stage2 rpn train pt5 再次利用步骤4中训练好的RPN网络收集proposals 对应rpn test pt6 第二次训练FastRCNN网络对应stage2 fast rcnn train pt ZFNet 训练RPN网络在该步骤中首先读取RBG提供的预训练好的model 这里使用VGG 开始迭代训练来看看stage1 rpn train pt网络结构如图与检测网络类似的是依然使用ConvLayers提取featuremaps 整个网络使用的Loss如下上述公式中 i表示anchorsindex pi表示foregroundsoftmaxpredict概率 pi 代表对应的GTpredict概率即当第i个anchor与GT间IoU 0 7 认为是该anchor是foreground pi 1 反之IoU 0 3时认为是该anchor是background pi 0 至于那些0 3 IoU 0 7的anchor则不参与训练 t代表predictboundingbox t 代表对应foregroundanchor对应的GTbox 可以看到整个Loss分为2部分 1 clsloss 即rpn cls loss层计算的softmaxloss 用于分类anchors为forground与background的网络训练2 regloss 即rpn loss bbox层计算的soomthL1loss 用于boundingboxregression网络训练注意在该loss中乘了pi 相当于只关心foregroundanchors的回归其实在回归中也完全没必要去关心background 由于在实际过程中 Ncls和Nreg差距过大用参数平衡二者如Ncls 256 Nreg 2400时设置 10 使总的网络Loss计算过程中能够均匀考虑2种Loss 这里比较重要是Lreg使用的soomthL1loss 计算公式如下 1 在RPN训练阶段 rpn data pythonAnchorTargetLayer 层会按照和test阶段Proposal层完全一样的方式生成Anchors用于训练2 对于rpn loss cls 输入的rpn cls scors reshape和rpn labels分别对应p与p Ncls参数隐含在p与p 的caffeblob的大小中3 对于rpn loss bbox 输入的rpn bbox pred和rpn bbox targets分别对应t于t rpn bbox inside weigths对应p rpn bbox outside weights对应 Nreg同样隐含在caffeblob大小中通过训练好的RPN网络收集proposals 利用之前的RPN网络获取proposalrois 同时获取foregroundsoftmaxprobability 如下图然后将获取的信息保存在pythonpickle文件中训练FastRCNN网络读取之前保存的pickle文件获取proposals与foregr

人人文库> 全部分类> 行业资料 > 管理策划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

详细解读Faster RCNN.ppt

文档简介

温馨提示

最新文档

评论

详细解读Faster RCNN.ppt

文档简介

温馨提示

最新文档

评论

相关文档