【《图像超分辨率重建相关技术综述》6900字(论文)】_第1页
【《图像超分辨率重建相关技术综述》6900字(论文)】_第2页
【《图像超分辨率重建相关技术综述》6900字(论文)】_第3页
【《图像超分辨率重建相关技术综述》6900字(论文)】_第4页
【《图像超分辨率重建相关技术综述》6900字(论文)】_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

附录图像超分辨率重建相关技术综述目录TOC\o"1-3"\h\u8927图像超分辨率重建相关技术综述 1151671.1插值法 1260561.2重建法 353291.3学习法 4284691.4深度学习法 439041.5评价标准指标 131.1图像超分辨率重建技术在人工智能领域计算机视觉方向,图像超分辨率重建技术发展迅速。图像分辨率为图像所存储的信息量,即每英寸图像中包含的像素点,常用单位是像素每英寸(PPI)。对数字图像而言,图像分辨率越高,图像越清晰、蕴含的信息越丰富,越有助于后续的图像处理应用。高分辨率图像通常可以通过软硬件两种方式获取。图像超分辨率重建技术的本质是使用现代图形图像处理算法对低分辨率图像重建成高分辨率图像。图像超分辨率主要有单图超分辨率重建(SISR)即基于单幅低分辨的图像重建高分辨率图像和多幅图像超分辨率重建REF_Ref69572460\r\h[33](MFSR)即基于一段相邻时间序列内的多帧低分辨率图像重建高分辨率图像。多幅图像超分辨率重建图像比单幅图像超分辨率。多幅图像超分辨率重建需要计算多幅图像的映射关系,计算量大,需要耗费大量的计算资源,运算速度慢于单幅图像超分辨率重建,难以普遍应用于生活中。下面本文将系统的介绍单幅图像超分辨率的相关技术。1.1插值法在图像几何变换中,不能直接给一些像素点赋值。如把图像放大,图像必然会存在一些无法与原图像素点直接映射的点,对于这些像素点就可以通过插值法来决定它们的像素值。图像插值算法主要分为线性插值法和非线性插值法。如下图2-1所示:图2-1插值法技术分类线性差值算法主要分为最近邻插值法、双线性插值法和双三次插值法。线性插值算法通常使用一个固定的模板内核来计算被插像素点的值,通过计算放大图像所有像素点的值来实现图像的重建,但是重建的图像缺少细节信息、分辨率偏低和纹理平滑。非线性的图像插值方法主要有基于小波系数法和基于边缘信息法。其中基于边缘信息法又可以分为显式法和隐式法。隐式法中主要有四类方法:边缘导向插值法(NEDI),最小均方误差估计插值法(LMMSE),软判决自适应插值法(SAI)和边缘对比度引导插值法(CGI)。1.线性插值法:现在应用相对广泛的线性插值方法主要有最近邻插值算法,双线性插值算法和双三次插值算法。最近邻插值算法:在一维空间中,最近邻插值就相当于向上取整和向下取整。在二维图像里,像素点都是整数的,最近邻插值法就是通过选取离目标点欧氏距离最近的点。这会导致在一定程度上损失空间对称性。具体来说,映射目标图像的像素点和原图像的像素点,把最相邻的像素点的值,赋值给该像素点。最简单应用最广泛的图像缩放插值方法是最近邻插值法,当该算法应用到放大领域后,放大图像会有很多马赛克图像模糊,并出现明显的缺块现象,而在图像缩小领域,缩小的图像会失真,视觉上感官很差。双线性插值算法:双线性插值是线性插值在二维上的推广,在两个方向上一共做了三次插值,形成了一个双曲抛物线面和四个已知像素点进行拟合。具体的操作是在x方向上做两次线性插值,在y方向上再做一次线性插值。与最近邻插值法相比较,其计算相对复杂,计算量大,而且它会更通低频的图像信息,阻碍高频的图像信息,导致图像缺乏细节轮廓模糊,但是拥有连续的灰度,重建的图像更优异。双三次插值法:与双线性差值算法对比,双三次插值收敛性良好,并且具有稳定性和光滑性,三次内插值法充分的利用了周围的16个像素点的值来求目标点的像素值,与双线性插值法相比,其考虑和零用了更多的像素点,插值后的图像效果更好,但是因为考虑的像素点更多导致计算量也变得更大。1.非线性插值法:非线性插值法主要有两大类:基于小波变换的插值法,基于边缘信息的插值法。基于小波变换的插值算法:小波可以用于分析图像的多分辨率和局部细化等,于是使用小波技术应用于差值的方法快速发展。小波变化(DWT)实现独立地分析和研究不同尺度的信号的基础是把信号分解到不同尺度通道或分辨率层上。正交小波将图像高频信息完美地分解分离开,并且分解的各层子带相似。小波变化分解使得图像的大部分信息报错在低频信息中,高频信息则保留边缘信息。基于边缘信息的插值法:由于人的视觉感知可以快速的识别图像或者物体的边缘细节,于是算法研究人员根据模拟人眼视觉特性提出了基于边缘引导的图像插值法。边缘信息插值法的具体实现方法是通过非边缘像素点使用传统插值法进行无方向地插值,而对于边缘像素点则采用有方向的插值。图像重建后的效果主要取决于原始图像的边缘像素点及其方向确定的精确度。1.2重建法目前使用比较广泛的重建的图像重建方法由有迭代反向投影法(IBP),凸集投影法(POCS)和最大后验概率法(MAP)。迭代反向投影法:迭代反向投影法的基本思想是通过图像退化模型来计算低分辨率图像,并且观察其余真实低分辨率图像的误差,然后通过退化模型进行多次迭代来得到高分辨率图像。凸集投影法:凸集投影法中的凸集指的事对于集合中的每一对点,该对点连接直线上的每一个点也在集合内。凸集投影法的核心思想就是利用先验信息作为约束条件,然后根据先验信息这个约束条件在凸集上求解,求得的解就是重建的高分辨率图像。因为凸集投影法的约束条件是先验信息,所以保证了一定程度上解的唯一性,但是会深受先验信息的影响,会影响图像重建的速度和重建结果图像的稳定性。最大后验概率法:最大后验概率法是通过使用概率统计学中的理论,核心思想就是通过先验条件和条件概率来求解重建高分辨率图像,所以构建一个最符合高分辨率图像的概率函数是构建模型的关键,因为处理的内容比较大导致图像重建速度相对较慢。1.3学习法基于学习的图像超分辨率主要思想史构建模型,获得先验知识,然后充分的使用图像中的先验知识,与基于重建的方法相对比,当输入的图像样本数相同时,基于学习的方法可以获取高频的图像细节,图像重建的效果也更加优异,广泛用于文字和人脸的领域。本小节详细地概述图像超分辨率重建使用的两种传统的机器学习算法:流形学习算法和稀疏表示算法。基于流形学习法:Saul等学者在提出了基于流形学习的图像超分辨率的方法,Saul等人设定采样数据是高维空间中的低微流行,流形学习本质是高维空间的冗余数据映射到低维空间,即在高位空间中找到其在低维空间的准确映射对其嵌入相应映射。基于领域嵌入的重构策略是其中的核心方法和思想。基于稀疏表示法:稀疏表示算法是流形学习法的基础上,再构建一个稀疏字典,然后使用稀疏表示法来重建高分辨率图像。其重建过程主要为:第一步构建完美的稀疏字典数学模型;第二步训练构建完成的稀疏字典的数学模型;第三步将原始低分辨率的图像通过上采样插值放大的操作得到低频的图像特征图;第四步把低分辨率图像分划成很多小片图像,然后用先前构建的低分辨率图像稀疏字典来稀疏表示这些小片图像;第五步使用高分辨率稀疏字典来表示构建出高分辨率的小片图像,然后对这些图像片进行线性拼接来获取图像的高频细节图;第六步将低频的图像特征图和高频的图像细节图相加就完成了高分辨率图像的重建。1.4深度学习法基于图像超分辨率重建的核心思想是通过使用深度卷积神经网络来实现图像的稀疏编码。一般流程如图2-2所示:图2-2图像超分辨率一般流程第一步:获取原始高分辨率图像集HR。第二步:将HR下采样获得低分辨率图像集(LR)。第三步:通过卷积神经网络CNN将LR超分重建得到超分辨率图像(SR)。第四步:通过计算HR和SR的SSIM和PSNR(评价指标SSIM和PSNR详见1.15),根据评价指标调整网络模型参数。第五步:反复迭代训练CNN,直至满足设定的评价指标阈值。其中,比较经典的深度学习超分辨率重建网络有SRCNN、ESPCN、SRGAN、DenseNet和RDN。如图2-3所示:图2-3深度学习图像超分辨率发展进程1.SRCNN2014年,SRCNN的出现首次实现了深度学习卷积神经网络在图像超分辨率重建领域的应用。如图2-4所示,SRCNN利用双立方插值算法将输入的LR图像放大到指定倍数,然后通过三层卷积神经网络实现非线性映射,输出重建后的高分辨率图像。图2-4SRCNN网络结构图1.ESPCNESPCN创新性地提出了亚像素卷积(如图2-5所示),其主要功能是对提取的图像特征进行放大,从而得到高分辨率图像。与SRCNN相比,低分辨率图像不需要进行上采样。亚像素卷积大大地减少了SRCNN的计算量,可以满足实时性需求。图2-5ESPCN网络结构3.SRGANSRGAN与上述两种方法类似,大部分基于深度学习的图像超分辨率重建算法会使用均方误差作为网络模型训练过程中作为反馈的损失函数。然而均方误差存在的缺陷会使得重建生成的图像丢失高频信息。不同的是,生成对抗网络GAN因为有判别器的存在所以可以完美的解决这个问题,通过GAN生成的图像相对逼真真实性高,符合人眼的审美习惯。这也是Christian等学者使用GAN来实现图像的超分辨率重建的核心原因。如图2-6所示,SRGAN网络由两部分组成,生成器网络和判别器网络。生成器网络实现图像的超分辨率重建,鉴别器网络判定生成的图像的真实性。这是生成器与判别器的二元博弈,在不断的互相博弈中使得生成器网络达到最佳图像重建效果。图2-6SRGAN网络结构4.ResNet何凯明等学者在研究深度学习时,发现随着神经网络的层数增加网络偶尔会退化。即神经网络的层数会使得模型在训练集上的loss值会趋于饱和,再增加网络层数时,loss值却变大了。何凯明等学者发现当把浅层网络提取的特征传递给深层网络,那么网络训练的效果会接近于浅层网络的训练效果。从信息论来讲,处理数据不等式会使得在特征的前向传输过程中,特征图谱所包含的图像信息会随着网络层数的增加而逐渐减少。于是何凯明等学者提出了ResNet,ResNet网络加入了直接映射和残差网络,这也使得ResNet网络中L+1层比L层融合了更多的图像特征。ResNet(残差网络)是由一系列的残差块组成,一个残差块可以用公式(1.1)所示:xl+1=x残差块主要由直接映射和残差组成。其中图2-6左边的曲线为直接映射xl;右边的残差部分为F图2-7残差块图2-6中的weight是一个卷积层,addition实现两个特征的融合,因为上下层的卷积网络的特征维度存在不一致,即xl和xl+1的特征维度不相同,addition就通过使用1*1卷积层来将两个不同维度的特征融合到一块,此时残差块可由公式(xl+1=hx其中hxl1=图2-81*1残差块ResNet由前向神经网络和shortcut连接来实现。其中残差映射有前向网络来实现,直接映射由shortcut连接来实现。当ResNet网络达到最优时,这时候增加网络的层数,残差映射消失,只保留直接映射,理论上新的网络也处于最优状态,网络的性能效果不会受网络层数增加而降低。残差网络中更深层L,与l层的关系可以由l层和L-1层之间的关系递归得到,如公式(1.3)所示:xL=x其中F是残差函数,x为任意一层的特征向量。上述公式表明第L层的特征图谱可由之前第l层和残差块的特征融合表示,当l=0时,L则为各个残差块特征的融合。在SRGAN中的生成器网络就是由ResNet的ResBlock结构构成的,这类ResBlock模块虽然解决了网络层数过多导致网络退化的问题,但是也带来了多余的计算量和参数冗余,当网络层数越来越大时,网络在训练中需要学习的参数也快速提升,带来极大的计算压力,对于模型训练环境的计算资源的要求更高。5.DenseNet作为CVPR2017的最佳论文,DenseNet实现网络性能提升的方法与传统的加深网络层数和加宽网络结构不同,它开启新的思路,从特征的角度出发,通过重用特征和旁路来使得模型达到更好的效果和更少的参数,网络更易于训练具有一定的正则效果进而缓解了随着网络层数加深随之带来的梯度消失的问题,加强了特征在网络的传递和重用。DenseNet网络中的稠密块结构如图2-9所示:图2-9稠密块图2-9所示,论文中提出的稠密块有5层网络,从第一层开始每一层都会与后面的所有层连接在一起,和ResNet连接方式不同的是DenseNet采用concat方式在channel维度上对元素进行拼接,在一个L层的网络中,DenseNet共有L×L−1根据图2-8可知,第i层的输入与0到i-1层的输出有关,因此,可以将第l层的输出特征可以写作公式(1.4):xi=H上式中[]为concatenation特征拼接,即将(0~i-1)提取的图像特征x0,x由于DenseNet为了实现特征的重用广泛的融合拼接不同层的图像特征,这使得不同层的图像特征要保持一致的尺度,这也一定程度上限制了网络的降采样,于是作者就将DenseNet分割成多个DenseBlock来解决这个问题,如图2-10所示。图2-10DenseNet网络结构图在同一个DenseBlock中要求特征尺度保持大小一致,在不同的DenseBlock之间设置transactionLayer来实现降采样,transactionLayer有BN和1*1Conv和2*2Avg-pooling组成。DenseNet主要通过密集的连接融合不同层的图像特征,使得不同层的图像特征得到充分的利用,使得在训练过程中梯度不容易消失,一定程度上使得网络层数可以更深,并且能取得优异的效果。另外应用瓶颈层、翻译层和较小的增长率来使得网络收窄,降低网络参数并抑制了网络训练时可能发生的过拟合现象,一定程度上减少了网络的计算量。相较于ResNet,DenseNet的优势十分明显。6.RDN通过多层网络的不断卷积提取图像特征,可以获取多层次多尺度的图像特征,这使得CNN在图像超分领域取得了不错的进展。但是大多数的卷积神经网络的图像超分模型不能很好地利用好来自于低分辨率图像LR的各层次特征,导致性能相对低下。CVPR2018会议上,YuLunZhang等学者研究出了全新的网络——残差密集网络(RDN)来解决在图像超分领域的这一个问题。RDN可以充分的利用所有卷积层的各个层次的特征信息。RDN网络结构如图2-11所示:图2-11RDN网络结构由图2-10所示,RDN网络包含浅层特征提取网络、中间的残差密集块RDB还有全局的特种融合模块和最后的图像放大重建模块。RDN网络中的RDB模块主要负责提取多层次的图像特征,实现局部信息的富集。RDN网络中的RDB可以与之后的每一个RDB网络相连接,这种连接方式实现了网络中特征的记忆。RDB是由DenseBlock和ResBlock结合而成,具体如图2-12所示:图2-12RDB结构由图2-11可知RDN网络的主要组成部分由浅层特征提取网络(SFENet),残差密集块(RDBs),密集特征融合(DFF)和图像放大重建网络(UPNet),三个模块一起组成一个RDN网络,完成图像从LR到HR的重建过程。浅层特征提取网络(SFENet)提取出浅层的图像特征F-1和F0作为后面模块的特征输入。残差密集块(RDBs)由5层卷积层、局部融合特征模块(LFF)和局部残差学习(LSL),以此形成记忆机制。所谓的连续记忆机制就是可以将第d-1个RDB的输出直接输入到第d个RDB中的每一层去(由上图dense模块的红线所示),经过dense模块的作用,可以将Fd-1,Fd,Fd,c,Fd,C的特征利用起来形成记忆。局部特征融合(LFF)即RDB中的concat模块,,将第d个RDB前一个RDB的输出特征Fd-1,当前RDB的特征Fd中每一层的状态融合通过concat在一起形成输出Fd,LF,然后再利用1*1的卷积对concat的特征输出降低通道数,简化数据。局部残差学习(LSL),在RDB中存在多个卷积层,因此需要引入局部残差学习来充分利用浅层的图像特征,改善特征信息流。不同层的RDB提取多层次的局部特征,然后通过密集特征融合模块(DFF)融合所有特征,从全局的角度来挖掘多层次特征,DFF有全局特征融合模块(GFF)和全局残差学习模块(GRL)两个模块。全局特征融合模块(GFF)通过把多个RDBs输出的特征(F1,F2,F3,…,FD)全部concat在一起,然后经过一个1*1的卷积层,将这一系列的特征自适应的融合在一起,最后再通过3*3的卷积层,进一步得到FGF,作为全局残差学习的输入。全局残差学习通过融合浅层特征F-1与融合了RDB提取的多层次特征FGF作element-wise的融合后输出特征FDF。最后通过图像放大重建网络(UPNet)将最后融合的全局特征FDF进行放大重建,得到重建的高清图像HR。相较于ResNet和DenseNet,RDN在图像超分领域的优势相当明显。1.5评价标准指标图像超分辨率重建的客观评价指标有两个:一是结构相似性(SSIM);二是峰值信噪比(PSNR)。(1)PSNRPSNR表示为信号的峰值信噪比。是一个数字信号相关的工程术语,其值为信号最大可能功率与影响信号精度的破坏性噪声功

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论