MaskRCNN原理详解.ppt_第1页
MaskRCNN原理详解.ppt_第2页
MaskRCNN原理详解.ppt_第3页
MaskRCNN原理详解.ppt_第4页
MaskRCNN原理详解.ppt_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,Mask RCNN解读,2019/11/11,Faster RCNN,2,Faster R-CNN可以简单地看做“区域生成网络RPNs + Fast R-CNN”的系统,用区域生成网络代替Fast R-CNN中的Selective Search方法。Faster R-CNN这篇论文着重解决了这个系统中的三个问题: 1. 如何设计区域生成网络; 2. 如何训练区域生成网络; 3. 如何让区域生成网络和Fast RCNN网络共享特征提取网络。 在整个Faster R-CNN算法中,有三种尺度: 1. 原图尺度:原始输入的大小。不受任何限制,不影响性能。 2. 归一化尺度:输入特征提取网络的大小,在测试时设置,源码中opts.test_scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。 3. 网络输入尺度:输入特征检测网络的大小,在训练时设置,源码中为224*224,Faster RCNN,3,1:向CNN网络【如VGG-16】输入任意大小图片: 2:经过CNN网络前向传播至最后共享的卷积层,一方面得到供RPN网络输入的特征图,另一方面继续前向传播至特有卷积层,产生更高维特征图; 3:供RPN网络输入的特征图经过RPN网络得到区域建议和区域得分,并对区域得分采用非极大值抑制【阈值为0.7】,输出其Top-N【文中为300】得分的区域建议给RoI池化层; 4:第2步得到的高维特征图和第3步输出的区域建议同时输入RoI池化层,提取对应区域建议的特征; 5:第4步得到的区域建议特征通过全连接层后,输出该区域的分类得分以及回归后的bounding-box。,RPN,4,RPN的核心思想是使用CNN卷积神经网络直接产生Region Proposal,使用的方法本质上就是滑动窗口(只需在最后的卷积层上滑动一遍),因为anchor机制和边框回归可以得到多尺度多长宽比的Region Proposal。RPN网络也是全卷积网络(FCN,fully-convolutional network),可以针对生成检测建议框的任务端到端地训练,能够同时预测出object的边界和分数。只是在CNN上额外增加了2个卷积层(全卷积层cls和reg),Anchors,5,RPN:训练样本 考察训练集中的每张图像: a. 对每个标定的真值候选区域,与其重叠比例最大的anchor记为前景样本 b. 对a)剩余的anchor,如果其与某个标定重叠比例大于0.7,记为前景样本;如果其与任意一个标定的重叠比例都小于0.3,记为背景样本 c. 对a),b)剩余的anchor,弃去不用。 d. 跨越图像边界的anchor弃去不用 代价函数 同时最小化两种代价: a. 分类误差 b. 前景样本的窗口位置偏差,Roi max pooling,6,roi_pool层将每个候选区域均匀分成MN块,对每块进行max pooling。将特征图上大小不一的候选区域转变为大小统一的数据,送入下一层。对于roi max pooling,一个输入节点可能和多个输出节点相连。,Mask RCNN,7,其中 黑色部分为原来的 Faster-RCNN,红色部分为在 Faster网络上的修改: 1)将 Roi Pooling 层替换成了 RoiAlign; 2)添加并列的 FCN 层(mask 层); Mask-RCNN 的几个特点 1)在边框识别的基础上添加分支网络,用于 语义Mask 识别; 2)训练简单,相对于 Faster 仅增加一个小的 Overhead,可以跑到 5FPS; 3)可以方便的扩展到其他任务,比如人的姿态估计 等; 4)不借助 Trick,在每个任务上,效果优于目前所有的 single-model entries;,Mask RCNN,8,Mask-RCNN 技术要点 通过 ResNeXt-101+FPN 用作特征提取网络,达到 state-of-the-art 的效果。 采用 ROIAlign 替代 RoiPooling(改进池化操作)。引入了一个插值过程,先通过双线性插值到14*14,再 pooling到7*7,很大程度上解决了仅通过 Pooling 直接采样带来的 Misalignment 对齐问题。 虽然 Misalignment 在分类问题上影响并不大,但在 Pixel 级别的 Mask 上会存在较大误差。 结果对比能够看到 ROIAlign 带来较大的改进,Stride 越大改进越明显。 每个 ROIAlign 对应 K * m2 维度的输出。K 对应类别个数,即输出 K 个mask,m对应 池化分辨率。 Loss 函数定义:Lmask(Cls_

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论