CN120107604B 基于sam2clip模型的钢轨表面缺陷分割方法 (西南石油大学)_第1页
CN120107604B 基于sam2clip模型的钢轨表面缺陷分割方法 (西南石油大学)_第2页
CN120107604B 基于sam2clip模型的钢轨表面缺陷分割方法 (西南石油大学)_第3页
CN120107604B 基于sam2clip模型的钢轨表面缺陷分割方法 (西南石油大学)_第4页
CN120107604B 基于sam2clip模型的钢轨表面缺陷分割方法 (西南石油大学)_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(10)授权公告号CN120107604B(65)同一申请的已公布的文献号(73)专利权人西南石油大学地址610599四川省成都市新都区新都大(74)专利代理机构成都正德明志知识产权代理有限公司51360GO6N3/0464(2023.01)(54)发明名称基于SAM2-CLIP模型的钢轨表面缺陷分割方法本发明属于钢轨缺陷检测技术领域,具体公开了一种基于SAM2-CLIP模型的钢轨表面缺陷分割方法,包括:将轨道原始图像和文本提示分别输入至CLIP的图像编码器和文本编码器,得到CLIP图像特征和CLIP文本特征;对CLIP图像特征和CLIP文本特征进行加权融合得到CLIP加权特征;将轨道原始图像输入至SAM2的图像编码器,图像特征进行交叉注意力;将交叉注意力融合特表面缺陷分割结果。本发明解决了现有的钢轨表开始开始S1获取轨道图像数据集将轨道图像数据集中的轨道原始图像输入至CLIP的图像编码器,输出得到CLIP图像特征S3对CLIP图像特征和CLIP的文本编码器输出的CLP文本特征进行加权融合得到CLIP加权特征S4将轨道原始图像输入至SAM2的图像编码器,输出得到SAM2图像特征S5通过交叉注意力机制对CLIP加权特征和SAM2图像特征进行处理,得到交叉注意力融合特征S6将交叉注意力融合特征输入至SAM2的掩膜解码器,输出得到轨道原始图像的分割结果S7-对轨道图像数据集中的所有轨道原始图像进行分割,得到所有轨道原始图像的分割结果,完成钢轨表面缺陷分割结果2对CLIP图像特征和CLIP的文本编码器输出的CLIP文本特征进行加权融合得到CLIP加将轨道原始图像输入至SAM2的图像编码器,将轨道原始图像切分并展平为第二2Dpatches序列;为第二Patch嵌入向量添加位置编码,并对添加位置编码的第二Patch嵌入向量拼接将二维高分辨率特征映射至与CLIP图像特征相同的维度,并展平为序列,进而转换维将交叉注意力融合特征、提示信息和二维高分辨率特征输入至掩对轨道图像数据集中的所有轨道原始图像进行分割,得到所有2.根据权利要求1所述的基于SAM2-CLIP模型的钢轨表面缺陷分割方法,其特征在于,将轨道原始图像输入至CLIP的图像编码器,将轨道原始图像切分并展平为第一2Dpatches序列;为第一Patch嵌入向量添加位置编码,并对添加位置编码的第一Patch嵌入向量拼接将第一输入嵌入向量输入至Transformer编码器,输出得到向量x₁,进而对向量X₁进行3.根据权利要求1所述的基于SAM2-CLIP模型的钢轨表面缺陷分割方法,其特征在于,3其中,e,表示向量空间中文本提示中第i个token的词汇表索引,有e₁=We[s;],示第i个token的位置编码;4.根据权利要求1所述的基于SAM2-CLIP模型的钢轨表面缺陷分割方法,其特征在于,5.根据权利要求1所述的基于SAM2-CLIP模型的钢轨表面缺陷分割方法,其特征在于,对经过交叉注意力输出的特征进行反向维度调整,变换回2D特征图,以匹配传入掩码6.根据权利要求1所述的基于SAM2-CLIP模型的钢轨表面缺陷分割方法,其特征在于,所述将交叉注意力融合特征输入至SAM2的掩膜解码器,输出得到钢轨表面缺陷分割结果,从掩码标签中获取点提示信息输入至掩码编码器进行编码处理,输出得到提示信息4将交叉注意力融合特征、提示信息Pprompr和二维高分辨率特征P₁输入至掩码解码器,7.根据权利要求6所述的基于SAM2-CLIP模型的钢轨表面缺陷分割方法,其特征在于,所述将交叉注意力融合特征、提示信息Ppromp和二维高分辨率特征P₁输入至掩码解码器,构建初始输出token序列Tou,并将初始输出token序列Tou与提示信息Pprompr进行拼基于候选掩码的masktokens,利用多层感知器生成权重向量H,并对上采样特对最优的掩码进行多层卷积下采样处理操作,得到掩码,对二维高分辨率特征P₁5基于SAM2-CLIP模型的钢轨表面缺陷分割方法[0001]本发明属于钢轨缺陷检测技术领域,具体涉及一种基于SAM2-CLIP模型的钢轨表面缺陷分割方法。[0002]钢轨是铁路系统的重要组成部分,其质量直接影响到列车运行的安全和稳定。随着我国高铁建设规模的逐步扩大以及建设的速度加快,列车运行速度不断提高,安全保障变得越来越重要。随着运营时间的增长,钢轨长期受到列车荷载的反复作用、自然环境的侵蚀以及材料自身的老化等因素影响,轨道容易出现各种缺陷,如钢轨裂纹、磨损、点蚀等会对列车的安全运行构成严重威胁。这些缺陷如果不能及时被发现和处理,将会逐渐发展恶化,严重时可能导致列车脱轨、颠覆等重大安全事故,造成巨大的人员伤亡和财产损失。据相关统计数据显示,在过去发生的铁路事故中,相当一部分是由于轨道缺陷引发的,充分凸显了铁路轨道安全检测的重要性和紧迫性。[0003]现有的钢轨表面缺陷的检测方法有:人工巡检,指具有一定经验的铁路巡查工人进行铁轨的缺陷检测,其存在人工成本高,受个人主观性影响大,效率低下,误检测率高的问题;电涡流检测,在检测铁轨时,通过观察电涡流传感器信号的变化,来判断铁轨是否存在缺陷,但电涡流检测容易受到电磁场的影响,不能够确定缺陷类型,且检测速度慢;传统的图像处理方法,如Canny边缘检测,通过多阶段处理实现精准边缘提取,通过高斯滤波抑制噪声,同时结合直方图均衡化增强图像对比度,利用Sobel算子计算像素梯度幅值与方向场,构建原始边缘响应图,这种方法存在噪声敏感、参数固化、动态适应性差等本质缺陷,难以满足现代铁路智能化检测需求且在复杂的环境下效果欠佳。目前还提出了深度学习研究方法,例如基于U-Net模型构建缺陷图像分割,利用历史铁轨图像输入U-net模型,实现实时缺陷区域定位的方法以及改进YOLO模型的铁轨表面缺陷检测方法,其通过使用全维动态卷积ODConv替换Yolov8的传统卷积,嵌入了双层上下文增强模块CAM等提高了模型效果。但现有的深度学习研究方法在进行轨道缺陷检测时需要标注大量的数据来进行训练,消耗成本高,在样本不足的时候,训练过程中容易出现严重过拟合、梯度不稳定的问题,且在实际轨道缺陷分割中,存在提取到的图像特征丰富度不够,导致对缺陷分割不精确、边缘细节丢失等不足。[0004]本发明的目的是为了现有的钢轨表面缺陷检测方法提取到的图像特征丰富度不够,导致对缺陷分割不精确、边缘细节丢失的问题,提出了一种基于SAM2-CLIP模型的钢轨表面缺陷分割方法。[0005]本发明的技术方案为:一种基于SAM2-CLIP模型的钢轨表面缺陷分割方法,包括以下步骤:[0006]获取轨道图像数据集;6[0007]将轨道图像数据集中的轨道原始图像输入至CLIP的图像编码器,输出得到CLIP图像特征;[0008]对CLIP图像特征和CLIP的文本编码器输出的CLIP文本特征进行加权融合得到CLIP加权特征;[0010]通过交叉注意力机制对CLIP加权特征和SAM2图像特征进行处理,得到交叉注意力融合特征;[0011]将交叉注意力融合特征输入至SAM2的掩膜解码器,输出得到轨道原始图像的分割结果;[0012]对轨道图像数据集中的所有轨道原始图像进行分割,得到所有轨道原始图像的分割结果,完成钢轨表面缺陷分割结果。[0013]作为优选,所述将轨道原始图像输入至CLIP的图像编码器,输出得到CLIP图像特[0014]将轨道原始图像输入至CLIP的图像编码器,将轨道原始图像切分并展平为第一2D[0015]将第一2Dpatches序列的维度映射为D维,得到第一Patch嵌入向量;[0016]为第一Patch嵌入向量添加位置编码,并对添加位置编码的第一Patch嵌入向量拼接CLSToken,得到第一输入嵌入向量;[0017]将第一输入嵌入向量输入至Transformer编码器,输出得到向量xi,进而对向量xi[0019]在SAM2-CLIP模型训练阶段,设置文本提示,将文本提示输入至CLIP的文本编码器,进而利用CLIP的分词器,将文本提示拆分为token序列S:[0021]其中,S,表示文本提示中第i个token的词汇表索引,N表示拆分后生成的token数量;[0022]将token序列S映射至向量空间中,得到序列E:[0024]其中,e₁表示向量空间中文本提示中第i个token的词汇表索引,有[0025]为序列E中的每个token添加位置编码,得到序列Z:[0027]其中,Z,表示添加了位置编码的第i个token的词汇表索引,有Z,=e,+Pi,p₁∈RD表示第1个token的位置编码;7[0031]根据序列Z(2)提取得到CLIP文本特征Tfear:patches序列;[0044]作为优选,所述通过交叉注意力机制对CLIP加权特征和SAM2图像特征进行处理,息Ppromp;所述掩码标签在SAM2-CLIP模型训练阶段通过对轨道原始图像进行数据标注得8[0049]将交叉注意力融合特征、提示信息Pprompr和二维高分辨率特征P输入至掩码解码[0056]对二维特征图进行上采样Xu;[0057]基于候选掩码的masktokens,利用多层感知器生成权重向量H,并对上采样特征X进行reshape操作得到[0058]基于权重向量H和,利用矩阵乘法生成低分辨率掩码,构建所有低分辨率当前图像的记忆表示MIX,完成对轨道原始图像的9附图说明[0064]图1所示为一种基于SAM2-CLIP模型的钢轨表面缺陷分割方法的流程图。[0065]图2所示为一种基于SAM2-CLIP模型的钢轨表面缺陷分割方法的流程框图。[0066]图3所示为CLIP的图像编码器结构示意图。[0067]图4所示为Transformer编码器结构示意图。[0068]图5所示为记忆编码器的结构示意图。具体实施方式[0069]现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范[0070]术语解释:[0071]SAM2模型:SAM2全称SegmentAnythingModel2(分割一切2),一种图像分割视觉大模型,在原SAM(SegmentAnythingModel)的基础上,增加了记忆力机制(Memory模块),提升了分割的精度、泛化能力和适应性,有强大的Zero-shot能力,能够更高效地应用于各种复杂的视觉任务。[0072]CLIP模型(ContrastiveLanguage-ImagePre-Training),是一种多模态预训练神经网络,其使用了大量图像和文本的配对数据进行预训练,以学习图像和文本之间的对齐关系。[0073]交叉注意力机制:一种特殊形式的多头注意力,用于不同输入之间的信息交互,能有效地将不同来源的上下文进行对齐和关注,帮助模型更好地捕捉两个输入之间的相关[0074]SAM2ImageEncoder模块:图像特征提取模块,即SAM2的图像编码器,用于提取图像特征,具体是使用MAE预训练的Hiera图像编码器。[0075]CLIPImageEncoder模块:图像特征提取模块,即CLIP的图像编码器,用于提取图像特征,具体是使用VIT预训练模型。[0076]MemoryAttention模块:记忆注意力模块。[0078]MaskDecoder模块:掩模解码器,输出图像掩码。[0079]MemoryEncoder模块:记忆编码器。[0080]MemoryBank模块:记忆储存模块。[0081]实施例1:[0082]如图1所示和图2所示,一种基于SAM2-CLIP模型的钢轨表面缺陷分割方法,包括以下步骤:[0083]S1.获取轨道图像数据集;[0084]在SAM2-CLIP模型训练阶段,对轨道原始图像进行数据标注生成对应的文本提示;文本提示描述了轨道原始图像中存在哪些缺陷类型;[0085]具体的,获取轨道图像数据构建数据集,将数据集划分为训练集和测试集,通过工业相机采集铁路轨道图片,通过数据清洗,数据标注,将处理后的数据集按8:2划分为训练摩擦。[0088]S2.将轨道图像数据集中的轨道原始图像输入至[0091]VIT-B/16预训练模型的Patch:(16,16),由此产生的图像Patch数:[0093]将2Dpatches序列馈入线性投影层(LinearProjection)E∈R(P²C)xD,2D加位置编码的各Patch嵌入向量拼接一个可学习的CLSToken,用于聚合[0095]将输入嵌入向量输入至如图4所示Transformer编码器,不断前向通过由Transformer编码块(Encod寸为(b,197,768)的输出x₁;[0096]输出向量通过线性投影层将768维投影到512维,得到512维的向量[0103]其中,e表示向量空间中文本提示中第i个token的词汇表索引,有e,=We[s;], [0106]其中,Z,表示添加了位置编码的第i个token的词汇表索引,有Z,=e,+Pi,P₁∈R表示第i个token的位置编码;层包括多头自注意力机制,前馈网络,以及残差连接和层归一化,输出得到序列Z(L)∈RN×D,进而提取得到CLIP文本特征,并通过线性投影层将CLIP文[0108]S3.对CLIP图像特征和CLIP的文本编码器输出的CLIP文本特征进行加权融合得到[0112]S4.将轨道原始图像输入至SAM2的图像编码器,SAM2的图像编码器具体为MAE-[0114]将轨道原始图像输入至SAM2的图像编码器,将轨道原始图像切分并展平为2Dpatches序列;[0117]将输入嵌入向量输入至Transformer编码器,输出多尺度特征图;分辨率特征;具体的,首先在每个尺度使用1×1卷积对特征进行通道对齐,其公式为:L,=Convx(C,),j∈{1,2,3,4}。最高层特征L₄直接作为FPN的最高特L,进行融合,即P₃=L₃+Up(P₄),P₂=L₂+Up(P₃),P₁=L₁+Up(P₂),最后得到二维高分辨率特征P₁;维度,从(b,512,H,W)变成SAM2图像特征P′=(H*W,b,512),H=W=14,以匹配Transformer的输入格式。[0120]S5.通过交叉注意力机制对CLIP加权特征和SAM2图像特征进行处理,得到交叉注意力融合特征;[0122]将SAM2图像特征P′作为查询(Query),CLIP加权特征F₈作为键(Key)和值[0127]S6.将交叉注意力融合特征输入至SAM2的掩膜解码器,输出得到轨道原始图像的[0129]从掩码标签中获取点提示信息输入至掩码编码器进行编码处理,输出得到512维预测token和候选掩码的masktX₂=act₂(dc₂(src)+F₀)有X=X₂,act₁(·)和act₂(·)表示激活函数,本实施例中使用GELU激活函数,,erf(·)表示误差函数,In₁(·)表示对通道进行归一化的LayerNorm2d,dc₁和dc₂分别表示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论