CN117237801B 一种基于自监督学习的多模态遥感图像变化检测方法(西北工业大学)_第1页
CN117237801B 一种基于自监督学习的多模态遥感图像变化检测方法(西北工业大学)_第2页
CN117237801B 一种基于自监督学习的多模态遥感图像变化检测方法(西北工业大学)_第3页
CN117237801B 一种基于自监督学习的多模态遥感图像变化检测方法(西北工业大学)_第4页
CN117237801B 一种基于自监督学习的多模态遥感图像变化检测方法(西北工业大学)_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(45)授权公告日2025.06.27(21)申请号202311060952.8(22)申请日2023.08.22(43)申请公布日2023.12.15地址710072陕西省西安市友谊西路127号张兴国务所(普通合伙)61290专利代理师刘新琼GO6V10/82(2022.01)审查员隗仁然一种基于自监督学习的多模态遥感图像变本发明涉及一种基于自监督学习的多模态(a)Deeptrainablew21.一种基于自监督学习的多模态遥感图像变化检测方法,其特征在于步骤如下:步骤1:特征图提取将模态一变化前的图像、模态二变化后的图像和拼接后的图像作为三个独立的输入,输入到三元特征提取网络,分别获得特征图Fm,Fm₂和F;所述拼接后的图像由模态一变化前图像和模态二变化后图像安装通道维度堆叠获得;所述三元特征提取网络系统由伪孪生网络和差分信息网络两部分组成;所述伪孪生网络的每个分支由5个卷积核尺寸为3×3的卷积层组成,在每个卷积层之后,用批量归一化层和修正线性单元激活函数,来保持梯度稳定,防止网络过拟合,同时增强网络学习非线性特征的能力;模态一变化前图像和模态二变化后图像被输入到伪孪生网所述差分信息网络包括四个阶段,第一阶段包含4个残差块和一个3×3核卷积层;在第二阶段,每个分支以不同的尺度处理特征图;这些分支独立运行,由多个连续的残差块组成;第三和第四阶段模仿第二阶段的结构;在对不同分辨率的特征映射实施融合策略时,上采样部分利用双线性上采样操作之后是1×1卷积,下采样利用卷积层的核大小为3×3,步长为2;拼接图像被输入到差分信息网络结构中提取特征,得到特征图Fa;步骤2:特征图统一空间步骤3:网络自监督训练在网络的训练阶段,使用交叉熵损失来监督变化前和变化后图像特征图的有效性,使用对比损失来确保整个网络的无标签的自监督训练;步骤4:网络推理和变化图的生成采用阈值分割算法对得到的特征进行分析,生成最终的变化图。2.根据权利要求1所述基于自监督学习的多模态遥感图像变化检测方法,其特征在于:所述统一映射单元由令牌编码器和令牌解码器组成,令牌解码器的输入为三元特征提取网络得到的三个独立特征Fm,Fm₂和F;输入的特征图表示为F∈R×c×h×W,被转换为特定大小的三维令牌嵌入向量,其尺寸为b×1×c;b,c,h和w分别表示batch大小、通道数量以及输入特征的高度和宽度,1表示令牌长度;令牌编码器的编码过程:三维令牌嵌入在编码器中,用于捕获全局中的上下文信息;在此过程中,将一组可训练参数添加到令牌中,用以进行位置嵌入PE;编码器遵循标准的令牌解码器的输入:令牌解码器接收两个不同的输入;一种是卷积网络得到的特征图F,也可以认为是三元组特征提取网络提取的特征图;另一个输入是令牌嵌入向量T,其中包含令牌编码器生成的全局上下文信息;令牌解码器的解码过程:令牌解码器类似于令牌编码器的结构,利用PE赋予原始卷积特征F位置信息;它由多层组成,每层都包含自注意力和前馈神经网络的组合;下面给出两个关键的子程序:层归一化LN:在每个解码器层之前,应用层归一化来归一化特征,从而增强训练稳定33.根据权利要求2所述基于自监督学习的多模态遥感图像变化4.根据权利要求3所述基于自监督学习的多模态遥感图像变化坐标(i,j)对应的值,Margin表示手动设置的阈值,设置该阈值是为了加强特征图对的距5.根据权利要求1所述基于自监督学习的多模态遥感图像变化所述一个或多个处理器实现权利要求1-5任7.一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执4一种基于自监督学习的多模态遥感图像变化检测方法技术领域[0001]本发明涉及一种基于自监督学习的多模态遥感图像变化检测方法,属计算机视觉领域。背景技术[0002]变化检测是通过在不同时间观察物体或现象来识别其状态差异的过程。基于遥感图像的变化检测是探测地球表面变化的重要方法,在城市规划、环境监测、农业调查、灾害评估和地图修订等方面有着广泛的应用。[0003]现有的遥感图像变化检测方法主要针对来自同一传感器的变化前和变化后的图像(即变化前和变化后的图像是同一模态)。然而,在现实世界中,一些具体的应用,例如灾害管理有很强的及时性和紧迫性,而能够马上获得的变化后的图像可能和变化前的图像是不同的模态,这给遥感图像的变化检测任务带来了重大挑战。来自不同传感器的多模态双时间图像对会存在不同图像域差距,这使得变化前和变化后的图像无法直接比较分析获得变化图。除此之外,由于多模态双时态图像对需要来自不同图像领域专家的协作对图像对以进行像素级标注,这一要求使获取标记样本的成本极大,导致标记样本的数量非常稀少。[0004]利用自监督学习范式减少变化检测方法对于标注数据的依赖,以及受启发与深度学习在各行各业的卓越表现,本发明针对多模态遥感图像设计了一种基于自监督学习的变化检测框架。发明内容[0005]本发明所要解决的技术问题是:[0006]为了避免现有技术的不足之处,本发明提供一种基于自监督学习的多模态遥感图像变化检测方法。[0007]为了解决上述技术问题,本发明采用的技术方案为:[0008]一种基于自监督学习的多模态遥感图像变化检测方法,其特征在于步骤如下:[0009]步骤1:特征图提取[0010]将模态一变化前的图像、模态二变化后的图像和拼接后的图像作为三个独立的输入,输入到三元特征提取网络,分别获得特征图Fm,F₂和F;所述拼接后的图像由模态一变化前图像和模态二变化后图像安装通道维度堆叠获得;[0011]步骤2:特征图统一空间征图F′m,F′2和F;[0013]步骤3:网络自监督训练[0014]在网络的训练阶段,使用交叉熵损失来监督变化前和变化后图像特征图的有效性,使用对比损失来确保整个网络系统的无标签的自监督训练;[0015]步骤4:网络推理和变化图的生成5[0018]所述伪孪生网络的每个分支由5个卷积核尺寸为3×3的卷积层组成,在每个卷积上采样部分利用双线性上采样操作之后是1×1卷积,下采样利用卷积层的核大小为3×3,[0021]令牌解码器的输入为三元特征提取网络得到的三个独立特征Fm,F₂和Fa;输入的6[0035]其中,d:,;表示特征图F′和F′m₂在坐标(i,j)对应的像素之间的距离,y;,表示的F′a在坐标(i,j)对应的值,Margin表示手动设置的阈值,设置该阈值是为了加强特征图对的距离。[0036]本发明进一步的技术方案:所述的阈值分割算法为OSTU阈值算法。[0037]一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的方法。[0038]一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现上述的方法。[0039]本发明的有益效果在于:[0040]本发明基于自监督学习在不需要任何标签的情况下,从深度特征空间上统一多模态遥感图像特征,并且融合传统的阈值分割法直接分析深度特征图得到需要的变化图。本发明克服了之前遥感图像变化检测方法对于标注数据的依赖,减少了变化检测任务中人力物力资源的消耗,同时解决了多模态图像变化检测中存在的双时相图像对之间存在图像域附图说明[0041]附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。[0042]图1自监督学习框架。具体实施方式[0046]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。[0047]本发明基于自监督学习范式减少变化检测方法对数据的依赖,利用变化检测任务的特点,巧妙的设计了差分对比辅助任务,使得网络可以在没有标签的条件下,通过迭代训练得到能够代表多模态双时相图像的特征图。之后从图像的全局角度考虑,减少由于不同图像域引起的特征图在维度空间的距离,使图像特征在特征空间维度是可比较的。[0048]本发明提供的一种基于自监督学习的多模态遥感图像变化检测方法,如图1所示,包括以下步骤:[0049]步骤1:特征图提取。将模态一变化前的图像、模态二变化后的图像和拼接后的图像(由模态一变化前图像和模态二变化后图像安装通道维度堆叠获得)作为三个独立的输7入,训练三元特征提取网络系统(三个分支网络之间没有共享参数),分别获得特征图Fm,[0050]步骤2:特征图统一空间。通过提出的统一映射单元(UnifiedMappingUnit,UMU)将特征Fm,Fm₂和F映射到一个可比较的特征空间。得到特征图F′m,F′2和F。′,便于特征图之间的比较和学习。[0051]步骤3:网络自监督训练。在网络的训练阶段,使用交叉熵损失来监督变化前和变化后图像特征图的有效性,除此之外使用对比损失来确保整个网络系统的无标签的自监督[0052]步骤4:网络推理和变化图的生成。通过自监督训练,得到特征空间中具有可比性的双时态图像特征对F′m和F′m₂,有效地保留了双时态图像的信息。然后,采用合适的阈值分割算法对得到的特征对F′m和F′进行分析,生成最终的变化图。[0055]本发明中用于训练网络的模态一变化前图像是由Sentinel-2传感器捕获的多光谱图像(包含红,蓝,绿和红外四个光谱波段),模态二变化后图像是由Sentinel-1传感器在变化前同一位置捕获的SAR图像,拼接图像是由多光谱图像和SAR图像按通道堆叠获得的,数据集的获取地点在香港,图像尺寸为695×540。我们将三张图像输入三元特征提取网络系统,三元特征提取网络由伪孪生网络(图2)和差分信息网络(图3)两部分组成。[0057]网络的每个分支由5个卷积核尺寸为3×3的卷积层组成。在每个卷积层之后,用批量归一化层和修正线性单元(ReLU)激活函数,来保持梯度稳定,防止网络过拟合,同时增强网络学习非线性特征的能力。请注意,两个分支共享相同的结构,但具有独立的权重。与现有的深度模型相比,所提出的伪孪生网络更加简单和高效。伪孪生网络不包含任何下采样层,从而消除了下采样过程中可能造成的图像信息损失。模态一变化前图像和模态二变化后图像被输入到伪孪生网络中提取特征,得到特征图Fm和Fm。[0059]网络进行四个阶段的计算。第一阶段包含4个残差块和一个3×3核卷积层。在第二阶段,每个分支以不同的尺度处理特征图。这些分支独立运行,由多个连续的残差块组成。第三和第四阶段模仿第二阶段的结构:在原有第二阶段的两个分支两种不同尺度处理特征图的基础上,第三阶段增加一个分支;第四阶段在第三阶段的基础上再次增加一个分支。也就是第二阶段采用两个分支两种不尺度处理,第三阶段和第四阶段分别采用三种和四种进行处理。每个分支独立运行,由多个连续的残差块组成。这种设计的关键动机是,网络学习到的特征既可以保持高分辨率表示,又可以学习语义信息。除此之外,在对不同分辨率的特征映射实施融合策略时,上采样部分利用双线性上采样操作之后是1×1卷积,下采样利用卷积层的核大小为3×3,步长为2。拼接图像被输入到差分信息网络结构中提取特征,得到特征图Fa[0060]步骤2:特征图统一空间。[0061]本发明研究的是多模态遥感图像变化检测任务,由于不同模态图像之间通常存在极大的图像域差距,因此将多模态双时图像映射到可比较的特征空间仍然是多模态遥感图8像CD的一个重大障碍。为了解决这一问题,本发明设计了一个统一映射单元(UnifiedMappingUnit,UMU),将从三元特征提取网络中得到的三个独立的特征(分别为Fm,Fm₂和Fa)投影到一个可比较的特征空间中。[0062]统一映射单元由令牌编码器(图4)和令牌解码器组成,其结构如下:[0064]输入:令牌解码器的输入为三元特征提取网络得到的三个独立特征Fm,Fm₂和Fa。为了适应计算和存储的限制,输入的特征图换为特定大小的三维令牌嵌入向量,其尺寸为b×1×c。在这里,b,c,h和w分别表示batc小、通道数量以及输入特征的高度和宽度,1表示令牌长度(在本发明中根据经验设置为4)。[0065]编码过程:三维令牌嵌入在编码器中,用于捕获全局中的上下文信息。在此过程器遵循标准的transformer结构,包括一个多头注意力(Multi-HeadAttention,MHA)模块和一个前馈神经网络模块(Feedforwardneuralnetworkblock)。此外,在每个块之前应[0067]输入:令牌解码器接收两个不同的输入。一种是卷积网络得到的特征图F,也可以认为是三元组特征提取网络提取的特征图。另一个输入是令牌嵌入向量T,其中包含令牌编码器生成的全局上下文信息。[0068]解码过程:令牌解码器类似于令牌编码器的结构。利用PE赋予原始卷积特征F位置信息。它由多层组成,每层都包含自注意力和前馈神经网络的组合。下面给出两个关键的子程序:[0069]a)层归一化(LN):在每个解码器层之前,应用层归一化来归一化特征,从而增强训练稳定性。[0070]b)多头注意力(MHA):解码器采用多头注意力机制,旨在理解不同令牌之间的关Query源自卷积特征F,而Key和Value源于令牌嵌入向量T。这种安排使解码器能够专注于基于卷积特征表示的相关令牌信息。[0071]步骤3:网络自监督训练。[0072]本发明基于自监督学习进行训练。在Linux操作系统下进行,在开源的PyTorch深度学习框架下实现变化检测网络的设计,并在单个NvidiaGeForceGTX1080Ti的GPU下进行网络的训练。网络的反向传播过程采用Adam优化方法。网络的训练过程描述如下:[0075]其中,f₁(·)和fm₂(·)表示伪孪生网络的两个不是通过伪孪生网络学习到的具有代表性的特征。此外,一个能够维持高分辨率特征的差异信息学习网络fha(·)学习包含在拼接图像中的差分信息,提取差分信息的过程可以表示[0077]F表示差分信息特征。为了保证三个独立特征Fm,Fm₂和F都位于相同的可比空间9中,将这三个特征同时输入到UMU中以获得可比特征图,该过程可以表示为:阶段,使用交叉熵函数来评估伪孪生网络是否充分获得了有效的表示图像的特征图。[0080]考虑到训练数据集无标签且无法根据标签调整网络参数,需要引入伪标签以确保伪孪生网络能够捕获双时间图像对的特征。将F′m的K个维度通过argmax函数转换为一维标签Cm作为F′m的伪标签。在实验中,伪孪生网络的损失函数可以表示为:[0086]除了要求伪孪生网络提取的特征具有代表性外,还期望得到的双时相特征图对具有足够的特异性(可区分性)。为此,使用差分信息来监督关于伪孪生网络输出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论