《人工神经网络理论及应用》课件-第8章 深度神经网络-卷积神经网络(下)_第1页
《人工神经网络理论及应用》课件-第8章 深度神经网络-卷积神经网络(下)_第2页
《人工神经网络理论及应用》课件-第8章 深度神经网络-卷积神经网络(下)_第3页
《人工神经网络理论及应用》课件-第8章 深度神经网络-卷积神经网络(下)_第4页
《人工神经网络理论及应用》课件-第8章 深度神经网络-卷积神经网络(下)_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2025/9/161第四节提要目标检测应用概述目标检测的应用案例Region-CNNBTBU-CIE2025/9/162卷积神经网络的应用背景概述计算机视觉领域的任务2025/9/163卷积神经网络的应用背景概述端到端的应用特点End-to-End输入端:图像或视频输出端:识别结果神经网络映射2025/9/164CNN在视觉目标检测的应用目标检测的任务解析:car:

1.000dog:

0.997person:

0.992person:

0.979horse:

0.993定位

Where?识别

What?2025/9/165CNN在视觉目标检测的应用目标检测任务的发展背景:

PASCALVOC挑战赛(2005年—2012年)http://host.robots.ox.ac.uk/pascal/VOC/2025/9/166目标检测评价指标Evaluationmetrics物体检测:定位出物体的boundingbox+识别出boundingbox里的物体是车辆;boundingbox的定位精度指标——重叠面积IOU;矩形框A、B的IOU计算公式为:IOU=(A∩B)/(A∪B)如果算法百分百跟人工标注的数据完全匹配,则IOU=12025/9/167Region-CNN总体框架:总个过程分为三个程序:a、找出候选框;b、候选框的标注;c、利用CNN提取特征向量并分类Step1:输入一张图片,先定位出2000个物体候选框;Step2:根据重叠区域对候选框属于正负样本的属性进行定义;Step3:采用CNN提取每个候选框中图片的特征向量,特征向量的维度为4096维;采用分类器或概率映射对各个候选框中的物体进行分类识别。[1]Ross

Girshick,

Jeff

Ronahue,

etc.Richfeaturehierarchies

for

AccurateObjectDetectionandSegmentation,CVPR,20142025/9/168Region-CNNStep1:候选框搜索阶段通过searchforobjectrecognition算法搜索出2000个候选框;搜出的候选框是矩形的,且大小各不相同。然而CNN对输入图片的大小有固定要求,需对候选框尺寸进行统一缩放;假设下一阶段CNN所需要的输入图片大小是个正方形图片227*227。2025/9/169Region-CNNStep1:候选框搜索阶段通过searchforobjectrecognition算法搜索出2000个候选框;搜出的候选框是矩形的,且大小各不相同。然而CNN对输入图片的大小有固定要求,需对候选框尺寸进行统一缩放;假设下一阶段CNN所需要的输入图片大小是个正方形图片227*227。2025/9/1610Region-CNNStep2:候选框的标注意义:用缩放后的2000个候选框图片训练CNN前,需确定哪些图片是正样本,哪些是负样本。问题:人工标注的数据图片中只标注了正确的boundingbox,搜索出来的2000个矩形框不可能会出现一个与人工标注完全匹配的候选框。怎么办?

IOU2025/9/1611Region-CNN正样本:用selective

search挑选出的候选框与物体的人工标注矩形框的重叠区域IoU大于0.5,把这个候选框标注成物体类别;负样本:IOU小于0.5,把它当做背景类别。Step2:候选框的标注2025/9/1612Region-CNNStep3:CNN特征提取与分类网络有监督预训练阶段参数初始化部分(fine-tuning):物体检测的一个难点在于,物体标签训练数据少,如果要直接采用随机初始化CNN参数的方法,目前的训练数据量是远远不够的。怎么办???Fine-tuning2025/9/1613Region-CNNStep3:CNN特征提取与分类重要概念:Fine-tuning假设要检测的物体类别有N类,需要把上面预训练阶段的CNN模型的最后一层给替换掉,替换成N+1个输出的神经元(加1,表示还有一个背景)被替换的一层直接采用参数随机初始化的方法,其它网络层的参数不变;接着开始继续SGD训练。SGD学习率选择0.001,在每次训练的时候,我们batch

size大小选择128,其中32个正样本、96个负样本2025/9/1614Region-CNNStep3:特征分类,确定目标类型分类方法:-概率映射函数-结合其他单独的分类器,例如SVM等2025/9/1615小结BTBU-CIECNN的应用背景概述视觉目标检测应用案例Region-CNN2025/9/1616第五节提要深度神经网络的网络退化问题描述解决网络退化问题——ResNetBTBU-CIE2025/9/1617神经网络的深度DeepLearningGetsWayDeeper*-----KaimingHe(何恺明)@FAIR,

CA*K.He,X.Zhang,S.Ren,andJ.Sun.Deepresiduallearningforimagerecognition.InCVPR,2016.

网络深度的作用和意义在何处?为了提取更强的特征,可否直接增加网络层数?2025/9/1618神经网络的深度网络深度的作用?CNN能够提取low-level/mid-level/high-level的特征;网络的层数越多,意味着能够提取到不同level的特征越丰富;越深的网络提取的特征越抽象,越具有语义信息。为了提取更强的特征,为什么不能简单地增加网络层数?网络退化问题高层低层中层2025/9/1619网络退化问题随着网络的加深,出现了训练集准确率下降的现象,可以确定这不是由于Overfit过拟合造成的(过拟合时训练集准确率很高)注:上图及后续多图引用自K.He,X.Zhang,S.Ren,andJ.Sun.Deepresiduallearningforimagerecognition.InCVPR,2016.

2025/9/1620深度残差网络(ResNet)--解决网络退化什么是残差?映射:y

=

残差映射F(x)+恒等映射x残差学习模块Shortcut---“抄近道”XIdentity恒等映射F(x)Residual残差映射残差学习模块的作用:若网络已达最优,继续加深网络,residualmapping被学习为0,仅剩identitymapping。这样理论上网络一直处于最优状态,网络的性能不会随深度增加而降低。2025/9/1621深度残差网络(ResNet)—解决网络退化冗余层

恒等映射

浅层网络目标:学习恒等映射函数y=xShortcut---“抄近道”XIdentity恒等映射F(x)Residual残差映射2025/9/1622深度残差网络(ResNet)---解决网络退化问题:直接拟合潜在的恒等映射函数y=x较困难,这是深层网络难以训练的原因。解决方案:如果把网络设计为y=F(x)+x,可以转换为学习一个残差函数F(x)=y-x.只要F(x)=0,就构成了一个恒等映射y=x.拟合残差为0较拟合恒等映射更加容易。Shortcut---“抄近道”XIdentity恒等映射F(x)Residual残差映射2025/9/1623深度残差网络(ResNet)---解决网络退化残差模块的种类整个残差模块结构称为一个“buildingblock”右图又称为”bottleneckdesign”降低维数,减少计算量常规Residual:用于浅层网络中(ResNet34)Bottleneckdesign:用于深层网络中(ResNet50/101/152)2025/9/1624深度残差网络(ResNet)---解决网络退化Bottleneckdesign降参作用分析第一个1x1的卷积把256维channel降到64维,在最后通过1x1卷积恢复;Bottleneckdesign参数数目:1x1x256x64+3x3x64x64+1x1x64x256=69632;不使用bottleneck即为两个3x3x256的卷积,参数数目:3x3x256x256x2=1179648,差16.94倍Bottleneckdesign:用于深层网络中(ResNet50/101/152)常规Residual:用于浅层网络中(ResNet34)2025/9/1625深度残差网络(ResNet)---解决网络退化映射的维度相加问题:F(x)和x按照channel维度相加,若维度不同,如何相加?

两种情况:“实线”连接“虚线”连接实线Connection部分(“第一个粉色矩形和第三个粉色矩形”)都是执行3x3x64的卷积,他们的channel个数一致采用计算方式:y=F(x)+x2025/9/1626深度残差网络(ResNet)---解决网络退化两种情况:“实线”连接“虚线”连接虚线Connection部分(“第一个绿色矩形和第三个绿色矩形”)分别是3x3x64和3x3x128的卷积操作,他们的channel个数不同(64和128)采用计算方式:y=F(x)+Wx其中W是卷积操作,用来调整x的channel维度的;映射的维度相加问题:F(x)和x按照channel维度相加,若维度不同,如何相加?

2025/9/1627深度残差网络(ResNet)---解决网络退化增加层(可能有冗余层)2025/9/1628深度残差网络(ResNet)---解决网络退化18层神经网络

vs.34层神经网络

vs.34层残差神经网络性能表现:图细曲线表示训练误差,加粗曲线为验证误差2025/9/1629深度残差网络(ResNet)---解决网络退化各种DNN训练结果对比:4.4919.382025/9/1630小结加深网络,提取更深层的特征网络出现退化(训练误差增大)哪些层有用?哪些层冗余?所以什么结构可达最优网络?自动学习残差映射深度残差神经网络自动构建结构最优的神经网络排除冗余层的训练负担避免冗余层的训练误差不再惧怕网络深度的加深DeepResidualNetworks——DeepLearningGetsWayDeeper2025/9/1631小结深度神经网络的网络退化问题面向网络退化问题的DNN——深度残差网络ResNet2025/9/1632第六节提要深度神经网络的性能评价过拟合与欠拟合问题描述过与欠拟合问题解决方案2025/9/1633深度神经网络的超参数三类超参数:数据相关:丰富数据库、数据泛化处理训练相关:训练动量、学习率、衰减函数、正则化方法网络相关:层数、节点数、滤波器数,分类器种类2025/9/1634深度神经网络的性能评价数据集通常分为三类:训练集、验证集、测试集训练模式:多倍交叉验证(cross-validation,cv)数据集2025/9/1635深度神经网络的性能评价评价标准:三个误差训练误差:训练集数据的学习误差交叉验证误差:学习模型在验证集上的平均预测误差测试误差:学习模型在完全独立的测试集上的平均预测误差训练误差测试误差2025/9/1636过拟合和欠拟合的判断方法误差vs训练集大小左端处于过拟合,右端处于欠拟合误差vs模型复杂度:A点处于欠拟合,B点最优,C点处于过拟合较小时(右侧)模型可能存在过拟合方法一:方法二:2025/9/1637过拟合和欠拟合过拟合现象的表现:随着训练过程的进行,在trainingdata上的trainingerror渐渐减小,可在验证集上evaluationerror却反而渐渐增大过拟合问题的本质解释:由于训练出来的网络过拟合了训练集,对训练集以外的数据却不适用2025/9/1638过拟合和欠拟合问题欠拟合现象的表现:随着训练过程的进行,在trainingdata上的trainingerror和在验证集上evaluationerror差不多,都较大;欠拟合问题的本质解释:模型没有很好地捕捉到数据特征,不能够很好地拟合数据。2025/9/1639过拟合的解决方法1)重新清洗数据:导致过拟合的一个原因可能是数据不纯,含有质量不佳的数据,需要重新清洗或过滤数据。2)增大数据的训练量:训练数据占总数据的比例过小。3)采用正则化方法:在目标函数之后加上对应的范数,在模型学习的过程中自动减小模型复杂度。正则化方法包括L0正则、L1正则和L2正则。4)采用dropout方法:该方法是ImageNet中提出的,在训练的时候让神经元以一定的概率随机不工作。2025/9/1640过拟合的解决方法L1正则化的代价函数L2正则化(权重衰减)的代价函数正则化的本质:通过让模型的全部参数的向量w变小,降低网络复杂度,从而降低过拟合风险。正则化:2025/9/16

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论