深度学习:智能网络目标识别技术 课件 ch04 可控视觉表征目标_第1页
深度学习:智能网络目标识别技术 课件 ch04 可控视觉表征目标_第2页
深度学习:智能网络目标识别技术 课件 ch04 可控视觉表征目标_第3页
深度学习:智能网络目标识别技术 课件 ch04 可控视觉表征目标_第4页
深度学习:智能网络目标识别技术 课件 ch04 可控视觉表征目标_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章深度学习:智能网络目标识别技术可控视觉表征目标识别方法01混合高斯不确定性有界理论不确定性原理是由海森堡提出的,为计算机视觉的各种应用提供理论基础。该原理指出,运动中的粒子(物体)的位置和动量不能同时被准确地测量:式中,Δx是粒子的位置标准差;Δp是粒子的动量标准差;

是约化普朗克常量。该理论还可以拓展到信号处理领域,如果两个函数

H(z)和ϕ(k)是互为傅里叶变换的,那么它们的标准差乘积将以

为下界,即这两者的标准差是不能被任意缩小的。不确定性视觉感知方法考虑到德布罗意将光的波粒二象性推广为任意实物粒子的波粒二象性,假设图像上的每个像素均为粒子,因此像素点可用概率波方程进行描述,而概率波方程的标准差则被描述为视觉感知的不确定性。波方程进行描述,而概率波方程的标准差则被描述为视觉感知的不确定性。从理论上讲,基于深度学习的视觉感知学习技术是在给定输入图像x的条件下,利用深度神经网络θ的万能拟合性质对期望目标y进行估计,因而被认为是对条件概率p(y|x)进行估计。理想情况下,我们期望深度神经网络拟合得到的条件概率pθ(y|x)满足条件:由于数据驱动的学习算法会受到噪声数据的影响,可能学到有偏于期望的概率分布,因此学习算法是否对异常点、分布飘移等噪声数据具有鲁棒性是算法设计过程中重要的一环。研究者将不确定性原理应用于常用的概率统计分布—高斯分布,提出了Gabor小波,一种能够在给定区域内对图像局部频域特征进行提取的高斯调制。图4-1所示为利用二维Gabor滤波器对二维空间信号进行拟合的结果。剑桥大学的Daugman证明了Gabor滤波器能够实现时频域同时最小不确定性:式中,σz为物体位置的方差;σk为物体动量的方差。尽管这种一般的高斯分布方法在拟合给定分布时具备不确定性小的优势,但难以适应复杂的数据分布。为解决这一问题,许多研究者将不确定性原理应用于更为复杂的分布之中,其中有代表性的是张宝昌将该原理应用于混合高斯波函数研究。相比于一般的高斯模型,混合高斯模型在理论上能够拟合任意形状的概率分布,研究指出在拟合给定分布过程中,混合高斯模型的不确定性是有界的,从而实现了经典理论的一般性扩展。针对M个形如的高斯函数混合得到的混合高斯函数H(z),其空间波动函数H′(z)为式中,为M个高斯函数各自的混合比例;ϖi是与方差有关的变量;z是变量。利用上式可描述感知目标的空间分布H′(z),同理,也可以定义H′(k)描述感知目标的动量分布。文献证明了混合高斯函数对目标进行感知时,其位置与动量的标准差具有如下关系:集合ϖ的最大值、最小值分别记作ϖmax、ϖmin。式保证了基于混合高斯模型感知系统的误差能够通过调整混合高斯模型的尺度区间(最大和最小标准差比值)而被控制在可靠的范围内,从而降低特征表达的不确定性,实现了经典理论的一般性扩展。该证明表明了复杂视觉感知系统可能更适合使用混合高斯模型进行建模,同样具有不确定性可控的特性;根据不确定性原理,还可以证明混合高斯波函数视觉感知模型能量有界,符合生物进化过程中适者生存规律,符合认知规律,笔者相关论文入选了2018年ESI热点论文

。02基于Gabor的鲁棒特征提取与模型泛化能力提升尽管CNN这种高效的、稳定的端对端网络对图像具有强大的特征提取能力,在分类、检测、分割等计算机视觉任务中取得了显著的性能提升,但不同于人工设计特征需要依靠学者的先验知识进行精巧设计,基于CNN的深度学习特征是完全通过数据驱动学习获得的。信息瓶颈(InformationBottleneck,IB)理论指出较大的CNN层数能够让模型在有限的计算资源内产生强大的特征表示,但CNN对于几何变换的鲁棒性需要通过额外的数据扩增才可获得,在训练数据不足时,CNN往往很难处理目标发生较大形变的情况。为解决这一问题,研究者提出了许多新型的神经网络结构,其中最具代表性的是方向卷积网络(OrientedResponseNetworks,ORN)与Gabor卷积网络(GaborConvolutionalNetworks,GCN)。ORN的核心是自适应旋转卷积核(ActiveRotatingFilter,ARF),通过改变卷积核的模式使卷积核在卷积的过程中能够自主旋转,提取出不同方向通道的特征。如图4-2所示,ARF是一组三维的方向感知卷积核,由N个代表不同方向的子核组成,如8方向ARF由原始的卷积核分别旋转45°、90°、…、315°形成。对于同一个感知域,不同方向的卷积核能够提取到不同方向的特征。在对同一个特征图卷积的过程中形成不同的方向通道,并通过方向对齐层或方向池化层连接到全连接层输出。ORN显著提高了网络对方向变化的学习能力,但同时存在一些问题。例如,这种空域旋转方式可能只适用于小尺寸(如1×1、3×3)的卷积核在4方向和8方向上的旋转,对于其他尺寸的卷积核或者其他数量的方向通道,虽然可以使用插值计算的方法来处理更多方向上的旋转,但较为复杂。GCN的设计灵感来自4.1节所述的混合高斯模型的不确定性原理。这一原理表明混合高斯模型的不确定性受到混合高斯分布方差控制。基于这个理论,将基于多尺度多方向高斯窗的Gabor滤波器引入CNN中,从而控制卷积核学习过程,以增强CNN的鲁棒性和可控性。在GCN中,使用Gabor滤波器作为基本的滤波算法,它是一种广泛应用于提取鲁棒图像特征的各向异性滤波算法。Gabor滤波器能够从不同的频率和方向对图像进行特征提取,产生丰富而鲁棒的特征表示。具体来讲,Gabor滤波器被定义为图4-3可视化了最经典的CNN卷积层的参数,其中CNN很多卷积核具有“结构相同但方向与尺寸不同”的模式,这种排布和Gabor滤波器的参数分布非常类似。同时,由于Gabor滤波器与CNN在结构上的相似性,许多研究者也利用或参考Gabor滤波器的设计原理来增强模型的表征能力。在文献中,GoogLeNet引入了新的卷积功能模块Inception,以1×1、3×3、5×5等不同尺度的卷积核对输入特征图进行卷积,这种思想源自Gabor滤波器。在文献中,作者先用Gabor滤波器提取特征,再将这个特征输入到CNN中进行训练。在文献中,作者使用Gabor滤波器取代了CNN的第一层或第二层,这样做能够降低CNN的复杂度,使CNN易于训练。在文献和文献中,Gabor滤波器被用于CNN的初始化。GCN利用Gabor小波变换能够从不同方向、不同尺度对图像特征进行提取的特性,通过引入Gabor滤波器到CNN与CNN卷积核进行调制,形成了特有的Gabor方向卷积核(GaborOrientationFilters,GOFs)。GOFs为CNN编码了方向和尺度通道,实现了特征增强,进而提高了CNN对方向和尺度的鲁棒性,如图4-4所示。GOFs能使模型在不引入额外可学习参数的条件下提取不同方向与尺度的特征,基于最大池化操作,可以实现不同位置对应不同方向和尺度的GOFs,从而实现深度模型对几何仿射变换的鲁棒性和可控性的提高。GOFs具有普适性,是在传统的卷积层上对卷积核进行调制而得到的,因此深度学习领域经典的网络结构,如AlexNet、VGG、ResNet等都可以通过引入GOFs演变成GCN。03GCNGCN前向传播GOFs是由U个子卷积核组成的一组三维卷积核,每个子卷积核的维度都为N×W×W,一组GOFs的维度相应为U×N×W×W。GOFs每个子卷积核由原始的可学习卷积核与一组二维U方向、特定尺度的Gabor滤波器组调制而成,编码了不同方向和特定尺度的信息。用

表示单个二维Gabor滤波器的输出,ui为方向因子,决定了Gabor卷积核的方向,U表示方向集合,V为尺度集合。在GCN结构中,v的值随着深度的增加而变化,同深度的隐藏层的尺度因子保持不变。这使得在浅层卷积层,我们能够以较大尺度的GOFs来提取低层特征,而在深层卷积层能以小尺度GOFs来提取抽象特征。GOFs的计算过程如下:给定原CNN任意层的任意卷积核

与U个方向不同但有相同尺度因子vs的Gabor滤波器组

。由于单个Gabor滤波器是二维的,而原始卷积核是三维的,因此将单个Gabor滤波器沿通道维扩展到与Ci,0维度匹配后通过逐元素相乘的方式对原始卷积核进行调制,从而得到U个子卷积核GCN前向传播由上式可知,GCN对CNN的调制属于线性调制,我们用GCConv简记调制后得到的Gabor卷积:式中,M和

分别表示某层输入和输出的特征图,按照GCN的运算规则,其方向通道数与Gabor卷积核数量一致,均为N。特征图的第k个方向通道的运算过程如下:相较于一般的卷积计算过程,其特点在于在对输入特征图每一通道M(n)进行遍历累积时,会利用相应的Gabor卷积核进行调制。这种特殊的卷积方式使GCN在前向卷积的过程中能够获取特征在每个Gabor方向通道的响应。图4-5以第1层为例展示了一个4方向通道GCN的前向卷积过程。该卷积层输入特征维度为1×4×32×32,共有10组尺度不同的GOFs,每组GOFs由4个方向不同但尺度相同的Gabor卷积核调制的子卷积核构成。输入特征经此GCN变换为维度为10×4×30×30的输出特征。GCN前向传播GCN前向传播为了更好地理解GCN前向卷积,对GCN首层卷积层进行GOFs可视化,如图4-6所示。图4-6中,每一行代表一组GOFs和它相应的特征图,每组具有4个方向通道子卷积核,分别用不同的颜色进行了标记。例如,C10,1、C10,2、C10,3、C10,4代表第10行4个不同的方向通道子卷积核。蓝色矩形框框出的GOFs表明一些GOFs子卷积核携带了不同的方向性信息。GCN反向传播GCN中,需要被学习和更新的参数只有本体核Ci,0,而前向传播过程中经由Gabor调制的子卷积核Ci,u在反向传播过程中只参与梯度传递,而不需要更新和学习。定义δ表示本体核Ci,0的梯度,即式中,L表示训练误差。在反向传播的过程中,本体核的梯度是分别计算其各通道调制子卷积核的梯度并叠加得到的,即进一步可以得到04GCN实验验证与分析手写体字符识别MNIST数据集是著名的手写体字符识别数据集,共有6万张灰度图像,其中5万张图像用于训练,1万张图像用于测试,字符被归一化为标准尺寸并固定在图像中心位置。我们采用原始的CNN作为实验的基准,同时用STN、TI-Pooling和ORN作为对比。STN是基准CNN的改进,其核心思路为在图像第一个卷积层前加入空域仿射变换层,赋予网络学习仿射变换的能力。TI-Pooling先通过数据扩增的方式产生8方向的训练样本,然后通过具有共享权重的CNN提取输入图像在不同方向上的特征,最后通过Transform-invariantPooling层来获取主方向的响应,提高旋转鲁棒性。ORN通过空域旋转产生各方向通道子卷积核来捕捉各方向响应,并通过OR对齐层(OR-Align)和ORPooling层来编码旋转不变特征。CNN、ORN、GCN的拓扑结构如图4-7所示。手写体字符识别手写体字符识别与ORN的拓扑结构相比,GCN使用GCConv层代替了ORConv层,并加入批归一化层增强网络的收敛性,在不同的卷积层取尺度因子(v1,v2,v3,v4),以不同的频域观测窗口提取深度特征。相比于普通的CNN,GCN将二维卷积核拓展成多通道的三维卷积核。为了能使模型参数量和普通CNN公平比较,将每个卷积层的宽度(每个卷积层卷积核的数量)减少为原来的1/4或1/8。由于模型的参数量与卷积核通道数为线性关系,与卷积层的宽度为平方关系,因而此种方式能使得4通道GCN的学习参数量减少为CNN的1/4或1/16。与CNN保持一致的是,两者都用最大池化和ReLU非线性激活层,在全连接后通过丢弃层减小网络的过拟合现象。手写体字符识别手写体字符识别街景数字识别街景门牌号码(StreetViewHouseNumber,SVHN)数据集收集了来自谷歌街景的数字图像,是一个真实世界图像识别数据集。SVHN数据集包含与MNIST数据集类似的32像素×32像素的图像,每张图像包含一个位于中心的数字,但不同图像之间涵盖了照明变化、背景变化、旋转变化等各种挑战。SVHN数据集共有60余万张图像,其中73257张图像用于训练,26032张图像用于测试,此外还有531131张附加图像。在本实验中,我们只用了原始的训练图像和测试图像,附加的531131张图像并未使用。SVHN数据集的训练难度和测试难度相对于MNIST数据集都有明显的提升,简易的4层CNN很难取得好的分类效果,于是我们在ResNet上进行GCN模块的搭建。ResNet基于残差单元能够搭建起非常深的神经网络结构。在文献中,KaiMingHe提出了两种残差单元结构,即ResNet基础模块和ResNet瓶颈模块[见图4-8(a)和图4-8(b)],在GCN中,我们同样设计了2种残差单元,如图4-8(c)和图4-8(d)所示。相比于KaiMingHe提出的残差单元结构,GCN将残差单元中的卷积层换成了GCConv层,因为1×1的卷积核无法携带Gabor信息,所以GCN没有采用瓶颈模块这种类型。街景数字识别ResNet在网络结构搭建上继承了部分VGG的思想,将整个网络设置成4个“卷积栈”,将它们的宽度分别设置为16、16、32、64。不同于ResNet采用的二维卷积核,GCN采用的GOFs为三维卷积核。我们搭建了一个28层和一个40层的GCN,残差结构选用图4-8(c)所示的结构,4个“卷积栈”的宽度和ResNet一致,设置为16、16、32、64,训练的超参数参考ResNet未进行修改。GCN及对比算法在SVHN数据集上的分类结果如表4-4所示。街景数字识别实验结果显示,相比于VGG网络,GCN4-28用更少的参数获得了更高的分类准确率,得到了1.2%的性能提高。同样,相比于ResNet-172和ORN4-40,GCN4-40用较少的参数分别得到了接近1.1%和0.6%的性能提高。实验结果说明,GCN针对真实世界图像分类也能获得优秀的效果。自然图像分类相比于字符分类,自然图像分类的难度非常大,这与自然图像包含较大的类内变化有关。另外,自然图像往往包含光照、旋转、噪声、尺度变化等各种干扰,这些因素影响了分类的效果。CIFAR数据集是著名的自然图像分类数据集,它包含CIFAR-10和CIFAR-100两个子集。两个数据集均由60000张32像素×32像素的彩色图像组成,CIFAR-10数据集共有10个类别,每个类别包含6000张图像;CIFAR-100数据集则有100个类别,每个类别包含600张图像。由于CIFAR数据集的图像识别难度相比于MNIST数据集更大,原始的CNN结构很难满足分类要求,因此我们同样在ResNet的基础上搭建GCN模块,并和主流算法进行对比。在CIFAR实验中,我们使用ResNet作为基线网络,同时和NIN(NetworkInNetwork)、VGG、Wide-ResNet进行对比。值得注意的一点是,在MNIST实验中,我们采用4通道的Gabor卷积核与其他网络进行对比,同时将卷积层的宽度(每层卷积核的数量)调整为基线网络的1/4或1/8,从而使得参数量大幅减少。自然图像分类而在CIFAR实验中,作为基线网络的ResNet将整个网络分为4个“卷积栈”,宽度分别设置为16、16、32、64。可以看出,ResNet的宽度相对较小,如果仍然将GCN的宽度减小为原宽度的1/4,会使得网络变得非常窄,降低网络的可学习性。因此在CIFAR实验中,我们没有将网络的宽度固定为原来的1/4,而是通过灵活地调节4个“卷积栈”的宽度,来控制网络的参数量,进而和ResNet进行对比。实验中所采用的超参数主要参考Wide-ResNet,各网络的对比结果如表4-5所示。自然图像分类实验结果表明,GCN在CIFAR数据集上也取得了非常好的实验效果。举例来说,相比ResNet-110,GCN2-110在同参数量的情况下,实验结果得到了提升。而在同卷积核数的情况下,GCN2-110的参数量因为两通道的原因变为ResNet-110的2倍,但同时测试错误率也下降了接近一个百分点。而相比于Wide-ResNet-28,GCN3-28利用1/2的参数量提升了网络在CIFAR-10数据集上的实验结果。在CIFAR-100数据集上,GCN也取得了和当前先进模型Wide-ResNet表现相当的结果。从尺度变换的角度分析在CIFAR-10数据集上ResNet-110和GCN3-28对各类别图像的识别效果,如图4-9所示。可以看出,相比于ResNet-110,在几个尺度变化比较大的类别上,GCN3-28获得了较大改进(鸟类提升4.1%,鹿类提升3.2%等)。这印证了GCN通过特征增强提升了对尺度变化的鲁棒性。自然图像分类自然图像分类另外,我们对ResNet-110、Wide-ResNet-40、GCN3-28在CIFAR数据集上的收敛曲线进行了观察,如图4-10所示。该曲线表明,在CIFAR数据集上,相较于ResNet-110,GCN3-28具有更快的收敛速度和更低的测试错误率。相较于Wid

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论