【《图像配准基础知识和卷积神经网络分析》6500字】

上传人：E*** IP属地：湖北上传时间：2026-05-10 格式：DOC 页数：18 大小：2.28MB 积分：15 举报 版权申诉

已阅读5页，还剩13页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

我国中小企业的技术创新研究图像配准基础知识和卷积神经网络分析目录TOC\o"1-3"\h\u15230图像配准基础知识和卷积神经网络分析 1107451.1图像配准数学模型 173301.2图像模型转换类型 2125541.1.1刚性变换 3313881.1.2仿射变换 4260411.1.3投影变换 4308051.1.4非线性变换 55981.3图像配准的方法 596691.4CNN和图像处理 787891.4.1CNN基本结构 7139501.4.2CNN网络结构优势 11248691.4.3经典CNN模型 121.1图像配准数学模型图像配准的操作对象往往是两幅或者多幅图像，在成像设备上获得的基于同一场景的等待进行配准操作的图像称为参考图像和待配准图像。配准的过程实际上是通过某种映射关系或者图像模型对图像进行变换，目的就是要实现参考图像和待配准图像的匹配叠加得到达到信息融合的目的，配准后的图像往往分辨率更高，信息量更大。因此，从数学模型上来理解，图像配准就是要寻求某种变换方式，求解变换系数，参考图像和待配准图像放在同一坐标系中。假设我们要对两幅图像进行配准，首先假设，分别为参考图像和待配准图像上某对应像素点位置的灰度值的坐标，求解的公式可以表示为：（1.1）由公式（1.1）可知，两幅图像经过某种变换方式可以实现对齐，表示和在二维坐标下的变换方式。表示灰度变换,最后通过对待配准图像重采样实现配准。常见的图像的几何变换方式如下图1.1所示，从数学理论上可证明不同的几何变换具有不同的性质。图1.1图像几何形变类型1.2图像模型转换类型用数学方法解决图像配准问题时，我们往往将问题转换成参考图像和待配准图像之间怎样建立一个数学模型或者映射关系，然后列出数学表达式，并通过计算求解模型变换的系数，以实现特征映射和特征匹配，表1.1列出了常见的图像转换类型[58]和它们的转换特性。表1.1图像变换模型性质（▲表示所具备的性质）由表1.1可知，常见的图像变换模型有刚性变换、仿射变换、投影变换和非线性变换等，每种变换模型对应的图形变换方式均有不同，也就导致了它们适用范围不同。在遥感图像配准中，如果选取了不适合的图像变换模型往往会导致配准失败。所以选取和建立图像变换模型的数学模型是配准的关键。因此，接下来介绍这几个图像转换方式的模型建立和适用对象。1.1.1刚性变换如图1.2是刚性变换（RigidTransform,RT）的示意图，由表1.1可知，刚性变换只能有平移、翻转和旋转三种图形变换方式，它的特点是图像变换前后对应两像素点之间的距离保持不变，并且图像中物体大小、形状和对应间夹角都不会变化。则刚性变换[59]的公式可以表示为：（1.2）其中为参考图像上的某点坐标，为该点变换后的坐标。为旋转角度，分别为水平和垂直位移，为转动中心坐标。图1.2图像刚性变换示意图1.1.2仿射变换图像的仿射变换[54]是图像配准中最常用的的几何变换模型，如图1.3所示，它被认为可模拟真实拍摄场景的变化，由图1.1可知，它能够实现平移、收缩、反转、旋转等多种图像变换，类似于数学中的相似性原理，假如我们对一幅图像进行仿射变换，以图像中原有的两条平行直线为例，两条直线仍会映射成两条平行直线。可以通过矩阵[59]表示为：（1.3）其中，为旋转角度，分别为水平和垂直位移，为转动中心坐标。图像的变换比如：平移、缩放等可通过调节等六个参数实现。由公式（1.3）可知，仿射变换是线性的。图1.3图像仿射变换示意图1.1.3投影变换投影变换[59]也叫透视变换，如图1.4所示，不同于仿射变换，投影变换虽然能保证投影后直线仍是直线但图像的平行关系发生了改变。如果和分别为投影变换前后图像之间对应点的坐标，则投影变换数学模型表述[49]如下：（1.4）其中，，，表示图像的放缩因子，表示变换矩阵。图1.4图像投影变换示意图1.1.4非线性变换区别线性变换和非线性变换是简单的，只需要观察图像在模型变换前后的直线有没有“打弯”，即产生圆形或者圆弧。如图1.5所示，为图像非线性变换示意图。非线性变换参数的求解是非常困难的特别是三维以上。在二维空间中，图像非线性变换的数学表达式[49]为：（1.5）其中，为参考图像特征点坐标，为待配准图像对应点坐标。（1.6）图1.5图像非线性变换示意图1.3图像配准的方法前面提到，常见的图像配准算法有基于灰度信息的、基于变换域和基于特征的，它们各有适用范围和优缺点，表1.2列出了几种配准方法的优缺点。比较发现基于特征的图像配准方法的无论是在配准精度还是抗噪能力上都有较强的鲁棒性，尤其不容易受到光照、旋转、缩放、平移等因素影响，故更加适用于遥感图像的配准。基于特征的图像配准方法主要由图像特征提取、特征描述、特征匹配和求解变换参数几个步骤，基于特征的图像配准流程见图1.6。表1.2常见的图像配准方法优缺点配准方法优点缺点基于灰度信息计算简单、易行对光照强度敏感基于变换域有良好的初始匹配参数，抗噪性较好要求图像的重叠区域较大；计算量较大基于特征配准精度高抗噪性能较好不易受光照、旋转等因素的影响匹配性能依赖于特征提取的质量图1.6基于特征的图像配准过程框图在特征提取阶段，我们可以通过提取图像的点，线，边缘等特征来进行参考图像和待配准图像的特征提取。其中，SIFT和CNN均是提取图像特征的强大工具；在特征描述阶段，我们往往要选用描述能力较强的算子，它要对图像的变换（如位移，缩放，灰度变换）有较强的鲁棒性，如SIFT算法中用到的是特征向量，CNN中可以用深度卷积算子；在特征匹配阶段，我们需要对参考图像和待配准图像构成的特征点集进行距离度量，常用的如欧式距离、马氏距离、豪斯多夫距离等距离度量方法等，并使用合适的方法去除误配点；在变换模型参数求解这个步骤中，可以根据文章1.2节中提到的各种变换方式对其进行建模，求解；图像变换与重采样是图像配准的最后一个步骤，因图像配准最终是要将参考图像和待配准图像放在同一二维坐标系中，所以需要对图像像素值进行插值，使得经过坐标变换后的数值变为整数。1.4CNN和图像处理1.4.1CNN基本结构传统的神经网络是以神经元为基础构建的多层网络，如图1.7所示。输入层经过与权值相乘相加求和然后经过激活函数得到输出。激活函数是为了增加模型的非线性表达能力，每个相邻神经元之间都是通过全连接方式进行连接的。神经网络通常是需要更多的数据，至少需要成千数百万个标记样本，显然这种连接方式会造成计算复杂度剧增，对计算机的软硬件要求都非常高，传统的神经网络已经不能满足时代的要求。图1.7神经网络的基本结构卷积神经网络诞生于上世纪60年代，它起源于两位科学家Hubel和Wiesel尝试用机器学习（MachineLearning，ML）模拟猫视觉系统的研究的事件，不过直到1980年，才出现现在所用卷积神经网络中卷积层、池化层等结构，另外早期的神经网络的深度和宽度均是十分有限的。到了1998年，YannLecun提出了LeNet-5模型，并将其用于手写数字识别，LeNet-5模型训练时采用信号正向传播，误差反向传播的训练思路，形成了当代神经网络的雏形。受限于当时硬件条件，原始的CNN效果并不算好，而且训练也非常困难，卷积神经网络并没有从此大热。直到2012年，AlexNet模型的出现，将图像识别，分类的错误率大大降低，引起了图像处理领域的轰动。2016年3月9日，一场有趣的世界顶级围棋手和机器人AlphaGo的比赛将更多不同领域的目光吸引到人工智能领域，比赛结果是顶级围棋手首次输了一局比赛，无疑机器人AlphaGo的学习能力会赢得未来更多次的“人机大战”。在发展过程中，研究人员不断通过增加网络深度或者宽度，添加模型功能优化CNN模型，开启了人工智能时代。CNN最早设计用于解决手写数字识别的视觉任务，与传统神经网络相比，它在处理多维图像输入时颇具优势，举例来讲，我们将一个尺寸为300×300的图片输入传统的全连接神经网络（网络中的神经元与相邻层上的每个神经元均连接），经过一个128维的全连接层，在不考虑隐藏层的情况下，参数量为300×300×128，假设我们采用10个5×5×3的卷积核替代全连接层，此时的参数量变仅为5×5×3×10=750个。按照这个原理，如图1.8所示，是一个手写数字识别的网络结构，输入一个尺寸是64×64的图片，如果使用传统神经网络，网络输入层共有64×64=4096个神经元，图中还包含隐藏层（HiddenLayer，HL）的15个神经元，隐藏层指的是网络中除却输入层和输出层的所有层。计算易知，我们需要的参数个数（包括权值w和偏置b）有：64×64×15×10+15+10=614425个，这还是仅仅包含一个隐藏层的情况下，如果尝试将全连接层换成不同尺寸的卷积核，可以大大降低参数量，降低运算复杂度。已知图像是由像素矩阵构成的，每个像素点都有三个通道，代表的是RGB，CNN的通道数是可变的，当我们输入一张尺寸为64×64的图片时，CNN可以在输入时将向量“拉平”，直接展成一个一维向量，即4096个输入神经元。前面提到的采用卷积层而非全连接结构不仅可以大大减少参数量，还降低了计算复杂度。另外CNN对图像放缩、位移和扭曲等常见的几何变换具有较强的适应性，不需要经过复杂的特征提取和模型重建即可提取到图片的形状，纹理等底层特征，这一点也得益于卷积层的引入。由此可见，CNN在处理二维图片方面具有很大的优势。图1.8CNN结构图如图1.8所示，CNN模型是由输入层、卷积层、下采样层、全连接层（FullyConnectedNetwork，FC）及输出层构成的。与传统神经网络不同的是输入层卷积神经网络的输入层主要针对的是具有三种颜色通道的图像，它一般指的是数据的输入，并不一定非得以图片形式作为输入，卷积层作为卷积神网络最关键也是用的最多的层，一般通过卷积核与输入图像像素矩阵中的部分区域进行点积运算，得到的结果也常被称为特征图谱，池化层也是当前卷积神经网络中比较重要的层，它形式多样，一般是为了解决由于卷积操作引起的数据冗余问题。全连接层可以认为是网络的分类器，通常的位置在卷积层和池化层之后，处在网络的末端，大部分神经网络的最后两层是全连接层和分类层，因为全连接层能够整合用作分类的局部特征。图像分类中输出层一般是softmax分类函数，本文中CNN仅作为特征提取器，所以会去掉不必要的分类层。图1.8CNN基本构成卷积神经网络中具体的特征提取过程实际上是CNN在卷积层的卷积运算和下采样层（池化层）的池化运算。图像输入后，卷积层进行图像特征提取，然后形成特征图。如图1.9，图像来自经典遥感分类数据集中科院大学高清航拍飞机分类，经过卷积滤波，可形成可视化特征图。图1.9卷积滤波可视化如图1.10所示，CNN中提取图像的特征用的是卷积运算的方式，图中显示的是一个8×8大小图像通过3×3大小的卷积核进行采样的过程。3×3的卷积核采样的方式是将原始图片划分成3×3大小然后每点像素值相乘再相加得到某点的目标像素值即：同理可以求出图像中每点的像素值。该卷积核以滑动窗口的方式遍历整张图片。如果用通式表示的话，我们可以假设分别为第层和第层的输出，为对应点像素，k是通道（Channel）个数，b表示的是偏置量。s表示移动步长（stride），则已知输入情况下经过卷积操作输出为：（1.7）图1.10CNN卷积运算图解1.4.2CNN网络结构优势CNN是如何通过结构优势减少了网络的连接，降低了参数量的呢？概括来讲，CNN通过局部感受野、权值共享和池化采样三大特性，具体阐述如下：1）局部感受野在图1.10中3×3的卷积核相当于“眼睛”在滑动过程中不断收集信息，我们将其称为感受野。CNN最初的设计模拟的是猫的视觉系统，所以我们很容易理解卷积神经网络中的感受野就是卷积核，而局部感受野就是说卷积核构成的卷积层和输入层或者前一层的连接方式并非是全连接，也就是说卷积核不需要去感受一个图片的所有内容，它可以将一个个局部特征拼接起来，形成全部特征。如果用一个成语来形容，卷积核这种特性就叫“见微知著”，这样的设计大大降低了运算量。2）权值共享简单来讲，CNN的权值共享指的是一幅图片在经过同一个卷积核时图像中所有位置使用的均是这个卷积核的参数，也就是权值共享可以实现不同神经元之间参数共享，这样就形成了图像的局部特征，利用不同的卷积核进行特征提取，提取到图像的整体特征了。由于这种特性的存在，CNN存在具有不变性。3）卷积下采样层（池化层）及全连接层下采样层又称为池化层，它没有权重（w）偏置量（b），一般在卷积层之后，同卷积层一样，也是由多个特征面构成，池化层通常有平均池化（AveragePooling，AP）和最大池化（MaxPooling,MP）两种，计算方式较简单，平均池化是特定区域内的所有值求和然后求均值作为输出池化结果；最大池化是以处理域中最大值作为池化结果；如图所示平均池化和1.11（a）和最大池化1.11（b）的运算。易知，经过池化层，数据的维度降低，最大池化操作取的是池化层滑动区域中最大值，平均池化取平均值。平均池化可以保留背景信息而最大池化可以保留纹理信息，一般来讲根据需要选取。图1.11（a）平均池化层图1.11（b）最大池化层1.4.3经典CNN模型深度学习发展至今，期间有许多优秀的神经网络模型不断地涌现出来。2012年ILSVRC（ImageNetLargeScaleVisualRecognitionChallenge，ILSVRC）图像分类大赛的冠军AlexNet网络，在2014年获得分别冠亚军的GoogleNet和VGG16模型，它们分别通过增加网络宽度和深度提升了图像分类的准确度。2015年深度残差网络ResNet模型使用了残差块的结构来解决在极深网络中梯度消失的问题，可以让网络达到1000多层，并且训练速度快，网络结构简单，在图像处理领域应用广泛。1.LeNet-5LeNet-5网络是1998年提出的有7层结构的网络模型，最初被设计用于手写数字识别。它的架构是深度学习领域很多网络框架设计的起点。图1.12LeNet-5模型结构由图1.12可知，C1层是卷积层，有6个卷积核，图中输入了一个尺寸为32×32图片，所选用的卷积核大小为5×5×1，经过卷积层后形成了一个28×28大小的特征图。池化层将上一层输入作为输出，步长为2，得到每个特征图谱大小为14×14。按照这样的层层叠加，最终实现的功能是手写数字的识别。利用CNN的学习能力，经过训练，网络不仅可以识别数字，还可以识别诸如字母等。1.AlexNetAlexNet是2012年ISLVRC2012基于ImageNet进行图像分类竞赛的冠军网络，分类准确率比之前的算法提升10%以上。这是深度学习领域一个大的突破，从AlexNet网络提出以来，加深网络层次提升准确率的设计结构成为卷积神经网络的一个发展方向。如图1.13所示，AlexNet的网络结构。AlexNet网络结构设计非常有建设性，比如激活函数选用了收敛速度更快且有效避免梯度消失的Relu舍弃了传统的Sigmiod，使用Dropout缓解过拟合，最重要的是为了加速网络训练，创新性的使用了GPU，这些优势在以后出现的神经网络设计和训练中都得到继承。图1.13中，输入大小为227×227像素的图片，经过卷积，池化运算，最终输出到softmax分类层输出1000分类。1.13AlexNet的网络结构3.VGG系列网络VGG16可以认为是AlexNet的升级版。因为它的设计思路是加深网络层次以达到更优的训练模型。顾名思义，它是一个16层结构的网络。VGG16网络凭借出色的分类性能获得2014年ImageNet分类任务的亚军。VGG系列网络有VGG16和VGG19。网络中的亮点是通过堆叠多个3x3的卷积核来替代大尺度卷积核，这样的设计思路也得到了继承和延伸。图1.14给出了VGG16的网络结构图：图1.14VGG16的网络结构图4.GoogleNet系列网络GoogleNet模型于2014年诞生，由谷歌团队提出，并在ImageNet分类比赛中取得了第一名的成绩。不同于LeNet,AlexNet,VGG系列模型加深网络结构的设计思路，GoogleNet网络通过叠加Inception模块增加网络宽度得到了好的分类效果。因此又称为GoogleNet模型又称为InceptionV1。图1.15GoogleNet模型如图1.15所示为GoogleNet模型，之后该团队又相继提出了InceptionV2，V3，V4等模型。InceptionV2

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《图像配准基础知识和卷积神经网络分析》6500字】

文档简介

温馨提示

最新文档

评论

【《图像配准基础知识和卷积神经网络分析》6500字】

文档简介

温馨提示

最新文档

评论

相关文档