【《深度学习的网络模型概述》3400字】

上传人：E*** IP属地：湖北上传时间：2025-07-29 格式：DOCX 页数：6 大小：443.76KB 积分：10.8 举报 版权申诉

已阅读5页，还剩1页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PAGE40深度学习的网络模型概述目录TOC\o"1-3"\h\u26707深度学习的网络模型概述 1254201.1卷积神经网络（CNN） 1303291.2R-CNN、SPP-Net、FastR-CNN网络模型 2169821.3FasterR-CNN的网络模型 41.1卷积神经网络（CNN）深度神经网络，又称为深度学习，它的概念主要来源于前人对人工神经网络的研究。深度神经网络是根据动物的大脑神经结构，从信号数据的角度出发，人为地搭建抽象出来的网络学习框架。在具体的应用背景下，类比动物大脑内部神经网络中神经元各种不同的连接方式，设计人工神经网络连接方式，构建相应的网络模型。利用海量的数据样本进行训练学习，从而实现网络模型对已知样本和先验知识的训练，即可将得到的训练成果用于对未知样本目标的检测。卷积神经网络研究最早是受到对猫视觉皮层细胞研究的启发，在上世纪六十年代，Hubel等研究者因此提出了感受野这一概念。这是由于在猫的视觉皮层细胞在认知物体时，能够对视觉输入空间的子区域非常敏感。二十世纪八十年代，学者Fukushima在此基础上提出了神经认知机的概念。神经认知机的思想是将整个视觉模式分解为若干子模式，即通过感知整个目标的局部特征来识别目标，然后进入层次特征平面进行处理。第一个卷积神经网络是YanLecun[1]等人于1998年提出的LeNet-5模型。卷积神经网络主要特点表现为卷积运算操作，与上文的神经认知机相似，卷积神经网络训练的目的在于学习样本中图像的特征，它通过逐层提取和组合图像的中低层次特征进而形成高级抽象语义特征，从而有效地实现特征映射和表达。早期的CNN网络由于计算机硬件计算能力不足，以及大规模训练的数据样本稀少等原因，其训练效果不尽人意。不过随着计算机硬件环境的提高，尤其是GPU发展出来的多核计算能力，卷积神经网络模型有了极大飞速的发展。像AlexNet、ZF、GoogLeNet、VGG以及热门的ResNet模型涌现出来。卷积神经网络的结构包括:卷积层、池化层和全连通层。每一层有多个特征图，每个特征图通过卷积滤波器提取一个输入特征。将输入图像与滤波器进行卷积，提取目标局部特征。一旦特征被提取出来，就可以确定其与其他特征的位置关系。提取局部特征信号时，会产生相应的信号，当相应信号通过网络结点响应输入到激活函数中，累积超过一定阈值时便可继续将得到特征图输入下一层网络，即池化层。在这里已提取好的特征输入图进行池化操作从而实现降采样。最后则是全连接层，它通常包含两到三个隐层。第一隐藏层负责接收卷积合并后得到的特征子图，第二隐藏层负责将特征图拉伸成一维特征向量，实现高级特征到样本标签空间的映射。最后，根据为具体任务定义的目标函数，计算样本的真实值与预测值的误差以及网络模型的训练损失，并利用反向传播算法将损失值从网络的最后一层向前传播，从而实现参数更新，达到深度学习的效果。图1.1为卷积神经网络一般结构：图1.1卷积神经网络结构1.2R-CNN、SPP-Net、FastR-CNN网络模型FastR-CNN，FasterR-CNN的算法基础均是继承于R-CNN的思路框架发展而来的。因此本节将以各自算法提出的先后顺序进行展开论述。传统的目标检测算法采用的是滑动窗法依次判断图像中目标特征。滑动窗法则是通过使用特定大小的窗口（长度），一次遍历图像中每一个区域，进而提取出信息。这样的传统方法固然会消耗大量时间，也增加了运算工作量。R-CNN则是预先提取出一系列较可能是目标的候选区域，之后仅在这些候选区域进行提取特征，进行目标判断，即SelectiveSearch算法的基本思路。R-CNN算法大致的思路：首先，由一张图片生成一千至两千个图像候选区域；其次，对每个候选区域进行图像目标特征提取，在输入候选区域前，需要完成对候选区域的缩放；然后，送入每一类的支持向量机分类器，判断是否属于这一类；最后再用回归器精细修正候选框位置。图1.2则是R-CNN的框架结构图1.2R-CNN网络结构之后发展而来的SPP-Net网络模型在R-CNN的基础上继续改进，首先该网络取消了缩放图像即图1.4中的Crop/Warp过程，避免了像素损失，解决了图像变形导致的信息丢失及存储问题。其次SPP-Net采用了空间金字塔池化层（SpatialPyramidPooling,SPP）替换了R-CNN全连接层之前的最后一个池化层，放在所有卷积层的后面，有效地提高运算速度。FastR-CNN借鉴了空间金字塔池化层的思想，提出了比SPP更简单的池化层，之前的算法流程与R-CNN非常相似。FASTR-CNN在继承了SPP-NET网络之后，在提取特征前不需要对候选区域进行缩放。在每个卷积层后面还添加了一个池化层。但是FASTR-CNN的改进在于:首先，它增加了候选盒映射函数，使得网络可以往回传播。其次，结合分类和边界回归，通过Loss层进一步整合深度网络，统一训练过程，提高算法精度。具体来说，前一部分与R-CNN过程有很大的不同，后一部分将之前提取的候选区域映射到最后一个卷积层的特征图上。特征图是通过卷积层背后的池化层由每个候选区域基础上生成而得来的。最后利用SoftmaxLoss（探测分类概率）和SmoothL1Loss（探测边框回归）对分类概率和边框回归进行联合训练。探测分类概率公式如下： (1.1)其中Lcls为分类误差，p边框回归误差公式如下： (1.2)smootℎL1 (1.3)对于窗口而言，一般使用四维向量(x,y,w,h)表示窗口的中心点坐标和宽高。对于我们提出的每一个候选建议窗口不一定总是合理的，总会与我们实际需要的输出存在误差。这样的情况如图1.3所示图1.3提取候选框、实际框、回归框的分布图图1.3中红色框P代表的是原始提出来的候选区域建议，绿色框G代表的是真实窗口。显然根据之前网络提取出来的候选区域建议窗口（regionproposal）不一定完美匹配真实窗口（Groundtruth），因此边框回归的目的在于输入得到的候选区域建议窗口能够构建回归模型，使得P能够调整到上图中G的位置，即蓝色窗口，使得这个窗口G非常接近真实窗口G。1.3FasterR-CNN的网络模型对于FasterR-CNN算法而言，它在FastR-CNN算法的基础上继续改进，那就是候选区域建议窗口的提取。候选框提取不一定在原图上提取，可以在特征图上提取。鉴于特征图的低分辨率，候选区域建议窗口的提取也会降低计算量。因此FasterR-CNN提出了区域建议网络（RegionProposalNetwork,RPN）。改进后的RPN算法，比之前R-CNN、FastR-CNN提取候选区域所采用的SeletiveSearch算法计算时间缩短，而且也实现了端对端的检测。图1.4是由R-CNN到SPP-Net网络、FastR-CNN网络、再到FasterR-CNN网络的演进过程。图1.4R-CNN的演进过程FasterR-CNN算法框架[1]由特征提取网络（FeatureExtractionNetwork,FEN）、区域建议网络和目标检测网络（ObjectDetectionNetwork,ODN）组成。与前面的R-CNN、FastR-CNN算法流程相似。对于一幅输入图像，首先用基本的卷积神经网络进行特征提取，然后RPN接收FEN的输出特征图，生成候选框。最后，ODN根据区域定位网络生成的候选区域的位置，通过感兴趣区域池从分区域神经网络的输出特征图中提取候选区域的特征。从而进行目标分类和包围盒回归。基本特征提取网络(FEN)需要使用大规模分类数据集进行预训练，为特定的检测任务加载预训练好的网络参数，然后利用特定领域的数据集调整模型的网络参数，使其适合相应的检测任务。RPN使用滑动窗口方法遍历FEN输出的特征图上的所有特征点。对于每个特征点，会以该特征点为中心生成9个锚点，锚点为特定大小的边界框。随后分别送入到分类层和边界框回归层进行前景背景判别和坐标回归。考虑到不同尺度的目标，FasterR-CNN设定了三种不同长宽比（0.5，1，2）以及三种不同尺度（64×64、128×128、256×256）的9个候选边界框。即每个特征点产生了9个锚点对于RPN网络而言，限定输入图像长边不超过1000个像素，短边不超过600个像素.因此一幅图像最多能产生1000/16×600/16×9≈20000个锚点。由于锚点数量巨大，需要对锚点进行选择和筛选。该选择算法设定在每一批mini-batch从20000个锚点中挑选256个锚点。选择策略如下：①首先，随机选择128个交叉点大于0.7的锚点作为阳性样本；如果重叠度不满足0.7，检查每个真实目标框选择重叠度最高的作为阳性样本。②随机选取与任意真实目标帧重叠小于0.3的128个锚点作为阴性样本。③如果阳性样本少于128个，多选择阴性样本进行弥补，这样每批就有256个样本进行训练。关于重叠度公式如式（1.4）所示: (1.4)对于真实框A和锚点B而言，A∩B代表两个方框相交重叠在一起的面积，A∪B代表二者并集区域的面积。RPN除了利用选择锚点机制用于自身训练外，还输出候选区域给ODN用以后续的目标类别判别和位置修正。对于每幅径向图像，计算20,000个锚点属于目标标注框的概率值及其对应的位置回归值。前12,000个锚点按概率值降序排列。然后，利用非最大抑制(non-maximumsuppression,NMS)方法选择2000个锚点作为候选区域。ODN利用FEN提取的featuremap和RPN生成的2000个候选区域，通过ROIPoolinglayer提取候选区域对应的feature，从而进行后续的目标类别判别和位置回归。ODN利用F

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《深度学习的网络模型概述》3400字】

文档简介

温馨提示

最新文档

评论

【《深度学习的网络模型概述》3400字】

文档简介

温馨提示

最新文档

评论

相关文档