已阅412015算法详解博客对于网络结构参数的描述比较易懂_第1页
已阅412015算法详解博客对于网络结构参数的描述比较易懂_第2页
已阅412015算法详解博客对于网络结构参数的描述比较易懂_第3页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2018/8/15【目标检测】Fast R 算法详解 - CSDN博客【目标检测】Fast R2016年04月12日 13:05:42算法详解阅读数:118638Girshick, Ross. “Fast r- .” Proceedings of the IEEE International Conference on Computer Vision. 2015.继2014年的R 之后,Ross Girshick在15年推出Fast R ,构思精巧,流程更为紧凑,大幅提升了目标检测的速度。在 上提供了源码。同样使用最大规模的 ,Fast R 和R 相比,训练时间从84小时减少为9.5小时,测试

2、时间 从47秒减少为0.32秒。在PASCAL VOC 2007上的准确率相差无几,约在66%-67%之间.思想基础:R简单来说,R 使用以下四步实现目标检测:a. 在图像中确定约1000-2000个候选框b. 对于每个候选框内图像块,使用深度 提取特征c. 对候选框中提取出的特征,使用分类器判别是否属于一个特定类d. 对于属于某一特征的候选框,用回归器进一步调整其位置细节可以参看这篇博客。改进:Fast RFast R 方法解决了R 方法三个问题:问题一:测试时速度慢R 一张图像内候选框之间大量重叠,提取特征操作冗余。本文将整张图像 化后直接送入深度 。在邻接时,才加入候选框信息,在末尾的少

3、数几层处理每个候选框。问题二:训练时速度慢同上。在训练时,本文先将一张图像送入 ,紧接着送入从这幅图像上提取出的候选区域。这些候选区域的前几层特征不需要再重复计算。问题三:训练所需空间大R 中 的分类器和回归器需要大量特征作为训练样本。本文把类别 和位置精调统一用深度 实现,不再需要额外 。1/72018/8/15以下按次序特征提取基本结构【目标检测】Fast R算法详解 - CSDN博客三个问题对应的解决方法。图像化为224×224直接送入。前五阶段是基础的conv+relu+pooling形式,在第五阶段结尾,输入P个候选区域(图像序号×1+几何 位置×4,序

4、号用于训练)?。注:文中给出了大中或者增删了norm层。种,此处示出最大的一种。三种基本结构相似,仅conv+relu层数有差别,roi_pool层的测试(forward)roi_pool层将每个候选区域均匀分成M×N块,对每块进行max pooling。将特征图上大小不一的候选区域转变为大的数据,送入下一层。2/72018/8/15【目标检测】Fast R算法详解 - CSDN博客roi_pool层的训练(backward)首先考虑普通max pooling层。设xi xi为输入层的节点,yj yj为输出层的节点。0= (i, j) = false (i, j) = true Lx

5、i L yjLxi=0(i,j)=falseLyj(i,j)=true函数(i, j) (i,j)表示i节点是否被j节点选为最大值输出。不被选中有两种可能:xi xi不在yj yj其中范围内,或者xi xi不是最大值。对于roi max pooling,一个输入节点可能和多个输出节点相连。设xi xi为输入层的节点,yrj yrj为第rr个候选区域的第j j个输出节点。 L= r,j (i, r, j) L xiyrjLxi=r,j(i,r,j)Lyrj函数(i, r, j) (i,r,j)表示i节点是否被候选区域r的第j个节点选为最大值输出。代价对于xi xi的梯度等于所有相关的后一层梯度之

6、和。参数训练3/72018/8/15参数初始化【目标检测】Fast R算法详解 - CSDN博客除去末尾部分如下图,在ImageNet上训练1000类分类器。结果参数作为相应层的初始化参数。其余参数随机初始化。分层数据在调优训练时,每一个mini-batch中首先加入N张完整图片,而后加入从N张图片中选取的R个候选框。这R个候选框可以复用N张图片前5个阶段的实际选择N=2, R=128。特征。训练数据N张完整图片以50%概率水平翻转。R个候选框的方式如下:分类与位置调整数据结构4/7类别比例方式前景25%与某个真值重叠在0.5,1的候选框背景75%与真值重叠的最大值在0.1,0.5)的候选框2

7、018/8/15第五阶段的特征输入到两个并行的【目标检测】Fast R算法详解 - CSDN博客中(称为multi-task)。cls_score层用于分类,输出K+1维数组pp,表示属于K类和背景的概率。bbox_prdict层用于调整候选区域位置,输出4*K维数组tt,表示分别属于K类时,应该平移缩放的参 数。代价函数loss_cls层评估分类代价。由真实分类uu对应的概率决定:L cls= log puLcls=logpu参数tutu和真实平移缩放参数为vv的差loss_bbox评估检测框别:代价。比较真实分类对应的L loc = 4g(tu vi )i=1iLloc=i=14g(tiu

8、vi)g为Smooth L1误差,对outlier不敏感:g(x) = 0.5x 2|x| < 1 otherwise|x| 0.5g(x)=0.5x2|x|<1|x|0.5otherwise总代价为两者和,如果分类为背景则不考虑代价:L = L cls + L locu为前景u为背景L clsL=Lcls+Llocu为前景Lclsu为背景源码中bbox_loss_weights用于标记每一个bbox是否属于某一个类5/72018/8/15全连接层提速【目标检测】Fast R算法详解 - CSDN博客分类和位置调整都是通过全连接层(fc)实现的,设前一级数据为x x后一级为yy,全

9、连接层参数为WW,u × vu×v。一次前向(forward)即为:y = Wxy=Wx计算复杂度为u × vu×v。将WW进行SVD分解,并用前t个特征值近似:W = UV T U(:, 1 : t) (1 : t, 1 : t) V (:, 1 : t) TW=UVTU(:,1:t)(1:t,1:t)V(:,1:t)T原来的前向分解成两步:y = Wx = U ( V T ) x = U zy=Wx=U(VT)x=Uz计算复杂度变为u × t + v × tu×t+v×t。在实现时,相当于把一个全连接层拆分成两个,中间以一个低维数据相连。在的源码中,这部分似乎没有实现。实验与结论实验过程不再详述,只结论末端同步训练的分类和位置调整,提升准确度- 使用多尺度的图像金字塔,性能几乎没有提高- 倍增训练数据,能够有2%-3%的准确度提升直接输出各类概率(softmax),比SVM分类器性能略好候选窗不能提升性能-6/72018/8/15同年作者团队又推

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论