版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利地址100083北京市海淀区学院路30号(72)发明人张天翔刘茜李江昀袁立责任公司11237专利代理师邓琳张仲波GO6V10/774(2022.0审查员程浩瑞基于双重视觉状态空间模型的皮带撕裂检本发明公开一种基于双重视觉状态空间模皮带表面图像输入训练完成的皮带撕裂图像缺尺寸的图像融合特征;双分支目标检测输出模21.一种基于双重视觉状态空间模型的皮带撕裂检测方法,其特征在于,所述方法包括:S2、将所述待检测皮带表面图像输入训练完成的皮带撕裂图像缺陷检测主干网络,检测输出目标检测结果,所述皮带撕裂图像缺陷检测主干网络由图像序列化模块、双重视觉状态空间皮带撕裂图像特征提取网络、多尺度特征融合模块和双分支目标检测输出模块组其中,所述图像序列化模块,将所述待检测皮带表面图像进行序列化,输出图像序列和图像微序列;所述双重视觉状态空间皮带撕裂图像特征提取网络,使用双重视觉状态空间特征提取模块,提取皮带撕裂小目标缺陷全局语义类别信息和局部细节信息;所述多尺度特征融合模块,使用基于视觉状态空间特征提取模块的特征金字塔结构,进行多尺度特征融合,得到三种尺寸的图像融合特征;所述双分支目标检测输出模块,使用两个分支,利用所述三种尺寸的图像融合特征,分别做目标识别和分类任务,并输出最终的目标检测结果;所述图像序列化模块,先将所述待检测皮带表面图像进行图像切块,得到多个图像块;再将每个图像块进行图像局部切块,得到多个局部图像块;再利用卷积下采操作,将切块后的图像块和局部图像块,分别转换成图像序列和图像微序列这两个图像序列对,所述图像序列和图像微序列都是离散的二维图像序列;所述双重视觉状态空间特征提取模块中的第一个双重视觉状态空间特征提取模块,将所述图像序列和图像微序列作为输入,首先利用一个由视觉状态空间特征提取模块构成的局部视觉状态空间分支,提取所述图像微序列内部的图像局部特征,并且和输入的图像序列通过相加的方式进行特征融合,然后将融合后的序列特征送入另一个由视觉状态空间特征提取模块构成的全局视觉状态空间分支,提取图像序列间的长距离全局语义类别信息,同时建模图像序列全局特征和图像微序列局部特征之间的关系,得到图像融合特征,将所述局部视觉状态空间分支提取的图像局部特征和所述全局视觉状态空间分支提取的图像融合特征两个部分,送入级联的第二个双重视觉状态空间特征提取模块中继续提取更深层的图像特征。2.根据权利要求1所述的方法,其特征在于,所述双重视觉状态空间皮带撕裂图像特征提取网络,使用所述双重视觉状态空间特征提取模块,分四个阶段提取皮带撕裂小目标缺陷全局语义类别信息和局部细节信息,四个阶段分别使用N1、N2、N3、N4个双重视觉状态空间特征提取模块级联,不同阶段使用步长为2的卷积进行下采样,缩小图像特征尺寸,分别含有较多噪声信息,不用来后续生成目标检测结果;下采样通过训练阶段不断的参数迭代,有效滤除上一阶段特征图中的无效信息,降低计算量,并且不会损失图像有效特征;所述双重视觉状态空间特征提取模块所提取到的局部细节信息,并不直接参与目标检测结果输出,而是在所述双重视觉状态空间特征提取模块中通过特征融合的方式,将局部细节信息融入到图像融合特征中,间接起到精确检测输出结果的作用。3.根据权利要求1所述的方法,其特征在于,所述视觉状态空间特征提取模块,负责对离散的二维图像序列进行建模,获取序列间的关系,将离散的二维图像序列作为输入时,图3像序列间除了前后序列,存在上下左右四个方向的位置关系,按照四种不同方向的交叉扫描方式,对所有由若干个图像序列构成的图像矩阵进行重排列,形成四个由图像序列组成的图像长序列,再将每个图像长序列分别送入到所述视觉状态空间特征提取模块,提取序列中相应的语义信息,得到四个特征序列,将所述四个特征序列相加并平均得到一个新的图像矩阵,然后将新的图像矩阵展平成一维向量,得到序列化图像向量;其中,所述视觉状态空间特征提取模块,将每个图像长序列依次通过层标准化、线性后与所述图像长序列的另一个分支,经过线性层和激活函数得到的权重矩阵相乘,然后将相乘后的结果,经过一个线性层得到图像特征序列,引入残差连接,将所述图像特征序列与所述图像长序列相加得到所述特征序列。4.根据权利要求3所述的方法,其特征在于,所述离散状态空间模型,将像素强度、边态空间,引入中间隐式状态提取图像中的特征,通过离散化的状态转移和观测过程,准确地建模图像序列中的复杂动态和语义关系。5.根据权利要求2所述的方法,其特征在于,所述多尺度特征融合模块,通过自上而下与自下而上两条路径逐层融合当前层和上一层的特征,生成新的特征图,并且使用基于所述视觉状态空间特征提取模块的特征金字塔结构,来融合提取特征图,生成新的特征图;其中,自上而下是指将最小尺寸的图像融合特征F4经过上采样扩充分辨率,和F3一样后与F3拼接在一起,将拼接后的特征送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,融合后的特征再上采样与更大尺寸的F2拼接,将拼接后的特征送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,得到多尺度融合特征P2;对于自下而上融合,将P2下采样至与F3同尺寸,再与自上而下融合中对应的特征拼接一起,送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,得到多尺度融合特征P3;将P3下采样至与F4同尺寸,再与自上而下融合中对应的特征拼接一起,送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,得到多尺度融合特征P4。6.根据权利要求1所述的方法,其特征在于,所述双分支目标检测输出模块,将所述多尺度融合特征P2、P3、P4,通过上采样到原图尺寸并拼接后接一个1×1卷积调整特征图维然后,分类任务分支由2个3×3卷积和1个1×1卷积组成,假设图像尺寸为H×W,C为目目标识别分支由2个3×3卷积和2个1×1卷积组成,2个1×1卷积分别用来输出H×W×4的位置检测结果和H×W×1的交并比分数;类别编号,(x,y)表示目标检测框的中心点坐标,(h,w)表示目标检测框的高度和宽度。7.根据权利要求1所述的方法,其特征在于,所述方法将皮带撕裂小目标检测任务拆分为分类任务和矩形框回归任务两个任务,损失函数由分类任务损失函数和矩形框回归任务损失函数组成,所述分类任务损失函数为二元交叉熵损失函数,所述矩形框回归任务损失函数由分布焦点损失函数和完全交并比损失函数组成,这三种损失函数按比例加权组成所4其中,所述二元交叉熵损失函数,是通过计算类别预测概率和类别标签之间的差异来所述分布焦点损失函数,能够用来让网络快速聚焦到标签附近的数值,使标签处的概散度来判断模输出情况的优劣,假设预测边界框位置的分布概率为p₀,p₁,…,p,则对于每一个真实边界框的位置y,找到最接近y的两个预测边界框位置y;和y+1,然后计算这两个位DFL_Loss(p,pi+1)=-((yi+1-y)log(p)+(y-y;)l交并比是一种描述目标检测的预测边界框与真实测边界框与真实边界框的交并比来衡量框的回归程度,完全交并比损失函数基于这一原含预测边界框和真实边界框的最小闭区域对角线长度,w和h分别表示预测边界框的宽和检测模块,用于将所述待检测皮带表面图像输入训练完成的5其中,所述图像序列化模块,将所述待检测皮带表面图像进行序列化,输出图像序列和图像微序列;所述双重视觉状态空间皮带撕裂图像特征提取网络,使用双重视觉状态空间特征提取模块,提取皮带撕裂小目标缺陷全局语义类别信息和局部细节信息;所述多尺度特征融合模块,使用基于视觉状态空间特征提取模块的特征金字塔结构,进行多尺度特征融合,得到三种尺寸的图像融合特征;所述双分支目标检测输出模块,使用两个分支,利用所述三种尺寸的图像融合特征,分别做目标识别和分类任务,并输出最终的目标检测结果;所述图像序列化模块,先将所述待检测皮带表面图像进行图像切块,得到多个图像块;再将每个图像块进行图像局部切块,得到多个局部图像块;再利用卷积下采操作,将切块后的图像块和局部图像块,分别转换成图像序列和图像微序列这两个图像序列对,所述图像序列和图像微序列都是离散的二维图像序列;所述双重视觉状态空间特征提取模块中的第一个双重视觉状态空间特征提取模块,将所述图像序列和图像微序列作为输入,首先利用一个由视觉状态空间特征提取模块构成的局部视觉状态空间分支,提取所述图像微序列内部的图像局部特征,并且和输入的图像序列通过相加的方式进行特征融合,然后将融合后的序列特征送入另一个由视觉状态空间特征提取模块构成的全局视觉状态空间分支,提取图像序列间的长距离全局语义类别信息,同时建模图像序列全局特征和图像微序列局部特征之间的关系,得到图像融合特征,将所述局部视觉状态空间分支提取的图像局部特征和所述全局视觉状态空间分支提取的图像融合特征两个部分,送入级联的第二个双重视觉状态空间特征提取模块中继续提取更深层的图像特征。6基于双重视觉状态空间模型的皮带撕裂检测方法和系统技术领域[0001]本发明涉及皮带撕裂检测技术领域,特别是指一种基于双重视觉状态空间模型的皮带撕裂检测方法和系统。背景技术[0002]在工业自动化的场景中,皮带运输系统的稳定运行是保障生产流程连续性的关键产流程,还可能对设备造成不可逆的损害,甚至可能触发安全事故。这些撕裂往往都会随着使用逐渐严重,因此,及时对早期较小的缺陷进行有效的检测并维护,能够有效减少上述设备损害和安全事故的发生。因此,开发一种高效、准确的皮带撕裂小目标缺陷检测技术,对皮带表面早期缺陷进行精确的识别和检测,对于确保生产安全和设备稳定运行具有至关重要的意义。[0003]传统的皮带撕裂小目标缺陷检测方法主要依赖于人工巡检和物理传感器。人工巡检虽直观,但对于小目标缺陷,受限于人的专注度、视力等因素,其效率和准确性均存在局限性,且存在安全隐患;物理传感器虽从原理上能实时监测皮带,但由于对安装位置和环境有着严格的要求,需要较高的维护成本,并且,如果传感器信号处理不够准确,环境扰动会严重影响早期小目标缺陷的检测。[0004]近年来,随着深度学习技术的迅猛发展,基于图像处理技术的皮带撕裂小目标缺陷检测方法逐渐有了广泛的研究和应用。深度学习模型能够通过训练学习从图像中自动提取丰富的语义特征,并利用这些特征实现多种下游任务,如目标检测、语义分割等。但是当前主流深度学习算法在高分辨率皮带撕裂早期小目标缺陷检测上仍然存在局限性:[0005]首先,在小目标特征提取方面,现有的方法往往会对皮带撕裂图像进行下采样,导致图像信息损失严重,尤其是局部小目标信息在下采样过程中损失严重;[0006]然后,受到皮带的运行场景的影响,采集到的皮带撕裂图像往往会具有复杂的图背景干扰物使得小目标检测存在漏检率高的问题;[0007]最后,要将皮带撕裂早期小目标检测技术用于实时在线检测,计算资源消耗、模型推理效率也是重要考虑因素,现有的Transformer模型在对长序列建模时,受到核心自注意力机制的计算原理的限制,就会存在模型推理时计算资源占用大、计算复杂度高两大难题,致使其难以落地。发明内容[0008]本发明提供了一种基于双重视觉状态空间模型的皮带撕裂检测方法和系统,用以解决上述现有技术存在的问题。所述技术方案如下:[0009]一方面,提供了一种基于双重视觉状态空间模型的皮带撕裂检测方法,包括:7[0011]S2、将所述待检测皮带表面图像输入训练完成的皮带撕裂图像缺陷检测主干网络,检测输出目标检测结果,所述皮带撕裂图像缺陷检测主干网络由图像序列化模块、双重视觉状态空间皮带撕裂图像特征提取网络、多尺度特征融合模块和双分支目标检测输出模块组成;[0012]其中,所述图像序列化模块,将所述待检测皮带表面图像进行序列化,输出图像序列和图像微序列;[0013]所述双重视觉状态空间皮带撕裂图像特征提取网络,使用双重视觉状态空间特征提取模块,提取皮带撕裂小目标缺陷全局语义类别信息和局部细节信息;[0014]所述多尺度特征融合模块,使用基于视觉状态空间特征提取模块的特征金字塔结构,进行多尺度特征融合,得到三种尺寸的图[0015]所述双分支目标检测输出模块,使用两个分支,利用所述三种尺寸的图像融合特征,分别做目标识别和分类任务,并输出最终的目标检测结果。[0016]可选地,所述图像序列化模块,先将所述待检测皮带表面图像进行图像切块,得到多个图像块;[0017]再将每个图像块进行图像局部切块,得到多个局部图像块;[0018]再利用卷积下采操作,将切块后的图像块和局部图像块,分别转换成图像序列和图像微序列这两个图像序列对,所述图像序列和图像微序列都是离散的二维图像序列。[0019]可选地,所述双重视觉状态空间皮带撕裂图像特征提取网络,使用所述双重视觉状态空间特征提取模块,分四个阶段提取皮带撕裂小目标缺陷全局语义类别信息和局部细使用步长为2的卷积进行下采样,缩小图像特征尺寸,分别得到四种尺寸的图像融合特征生成目标检测结果;下采样通过训练阶段不断的参数迭代,有效滤除上一阶段特征图中的[0020]所述双重视觉状态空间特征提取模块所提取到的局部细节信息,并不直接参与目标检测结果输出,而是在所述双重视觉状态空间特征提取模块中通过特征融合的方式,将局部细节信息融入到图像融合特征中,间接起到精确检测输出结果的作用。[0021]可选地,所述双重视觉状态空间特征提取模块中的第一个双重视觉状态空间特征提取模块,将所述图像序列和图像微序列作为输入,首先利用一个由视觉状态空间特征提取模块构成的局部视觉状态空间分支,提取所述图像微序列内部的图像局部特征,并且和输入的图像序列通过相加的方式进行特征融合,然后将融合后的序列特征送入另一个由视觉状态空间特征提取模块构成的全局视觉状态空间分支,提取图像序列间的长距离全局语义类别信息,同时建模图像序列全局特征和图像微序列局部特征之间的关系,得到图像融合特征,将所述局部视觉状态空间分支提取的图像局部特征和所述全局视觉状态空间分支提取的图像融合特征两个部分,送入级联的第二个双重视觉状态空间特征提取模块中继续提取更深层的图像特征。[0022]可选地,所述视觉状态空间特征提取模块,负责对离散的二维图像序列进行建模,获取序列间的关系,将离散的二维图像序列作为输入时,图像序列间除了前后序列,存在上下左右四个方向的位置关系,按照四种不同方向的交叉扫描方式,对所有由若干个图像序8列构成的图像矩阵进行重排列,形成四个由图像序列组成的图像长序列,再将每个图像长序列分别送入到所述视觉状态空间特征提取模块,提取序列中相应的语义信息,得到四个特征序列,将所述四个特征序列相加并平均得到一个新的图像矩阵,然后将新的图像矩阵展平成一维向量,得到序列化图像向量;[0023]其中,所述视觉状态空间特征提取模块,将每个图像长序列依次通过层标准化、线然后与所述图像长序列的另一个分支,经过线性层和激活函数得到的权重矩阵相乘,然后将相乘后的结果,经过一个线性层得到图像特征序列,引入残差连接,将所述图像特征序列与所述图像长序列相加得到所述特征序列。形状或运动作为状态,这些状态被量化为离散值,形成状态空间,引入中间隐式状态提取图像中的特征,通过离散化的状态转移和观测过程,准确地建模图像序列中的复杂动态和语义关系。[0025]可选地,所述多尺度特征融合模块,通过自上而下与自下而上两条路径逐层融合当前层和上一层的特征,生成新的特征图,并且使用基于所述视觉状态空间特征提取模块[0026]其中,自上而下是指将最小尺寸的图像融合特征F4经过上采样扩充分辨率,和F3一样后与F3拼接在一起,将拼接后的特征送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,融合后的特征再上采样与更大尺寸的F2拼接,将拼接后的特征送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,得到多尺度融合特征P2;[0027]对于自下而上融合,将P2下采样至与F3同尺寸,再与自上而下融合中对应的特征拼接一起,送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,得到多尺度融合特征P3;[0028]将P3下采样至与F4同尺寸,再与自上而下融合中对应的特征拼接一起,送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,得到多尺度融合特征P4。[0029]可选地,所述双分支目标检测输出模块,将所述多尺度融合特征P2、P3、P4,通过上采样到原图尺寸并拼接后接一个1×1卷积调整特征图维度;[0030]然后,分类任务分支由2个3×3卷积和1个1×1卷积组成,假设图像尺寸为H×W,C为目标检测类别数,输出H×W×C的分类结果;[0031]目标识别分支由2个3×3卷积和2个1×1卷积组成,2个1×1卷积分别用来输出H×W×4的位置检测结果和H×W×1的交并比分数;缺陷类别编号,(x,y)表示目标检测框的中心点坐标,(h,w)表示目标检测框的高度和宽度。[0033]可选地,所述方法将皮带撕裂小目标检测任务拆分为分类任务和矩形框回归任务两个任务,损失函数由分类任务损失函数和矩形框回归任务损失函数组成,所述分类任务损失函数为二元交叉熵损失函数,所述矩形框回归任务损失函数由分布焦点损失函数和完全交并比损失函数组成,这三种损失函数按比例加权组成所述损失函数,用于监督模型的学习过程;[0034]其中,所述二元交叉熵损失函数,是通过计算类别预测概率和类别标签之间的差9[0036]其中,yic表示模型输出的第i个样本的的第c个标签,pic表示输出属于标签的概的KL散度来判断模输出情况的优劣,假设预测边界框位置的分布概率为p₀,p₁,…,p,则对于每一个真实边界框的位置y,找到最接近y的两个预测边界框位置y和y列和图像微序列;[0050]所述双重视觉状态空间皮带撕裂图像特征提取网络,使用双重视觉状态空间特征提取模块,提取皮带撕裂小目标缺陷全局语义类别信息和局部细节信息;[0051]所述多尺度特征融合模块,使用基于视觉状态空间特征提取模块的特征金字塔结构,进行多尺度特征融合,得到三种尺寸的图[0052]所述双分支目标检测输出模块,使用两个分支,利用所述三种尺寸的图像融合特征,分别做目标识别和分类任务,并输出最终的目标检测结果。[0053]另一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于双重视觉状态空间模型的皮带撕裂检测方法。[0054]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于双重视觉状态空间模型的皮带撕裂检测方法。[0055]本发明提供的技术方案带来的有益效果至少包括:[0056]本发明通过改进视觉状态空间模型深度学习框架,提出了一种基于双重视觉状态空间模型的皮带撕裂小目标缺陷检测技术,该技术省略图像下采样过程,避免了高分辨率皮带撕裂图像处理的信息缺失,通过全局、局部特征融合、多尺度特征融合的特征提取手段,提高了在复杂皮带背景中模型对早期小目标缺陷的检测精度,并且利用线性复杂度的状态空间建模方式保证较高的推理效率,即本发明综合考虑现有技术在小目标特征提取、抗干扰、落地部署三个方面的不足,提供了一种更为精确、高效的皮带撕裂早期小目标缺陷附图说明[0057]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0058]图1是本发明实施例提供的一种基于双重视觉状态空间模型的皮带撕裂检测方法流程图;[0059]图2是本发明实施例提供的皮带撕裂检测方法总流程图;[0060]图3是本发明实施例提供的数据集制作流程图;[0061]图4是本发明实施例提供的图像序列化模块及双重视觉状态空间皮带撕裂图像特征提取网络结构图;[0062]图5是本发明实施例提供的双重视觉状态空间特征提取模块结构图;[0063]图6是本发明实施例提供的视觉状态空间分支扫描示意图,局部分支(上-图像微序列/局部特征序列),全局分支(下-图像序列/融合特征序列);[0064]图7是本发明实施例提供的视觉状态空间特征提取模块结构图;[0065]图8是本发明实施例提供的基于视觉状态空间特征提取模块的特征金字塔结构的多尺度特征融合结构图;11[0066]图9是本发明实施例提供的双分支目标检测输出模块结构图;[0067]图10是本发明实施例提供的一种基于双重视觉状态空间模型的皮带撕裂检测系统框图;[0068]图11是本发明实施例提供的一种电子设备的结构示意图。具体实施方式[0069]为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。[0070]本发明实施例提供了一种基于双重视觉状态空间模型的皮带撕裂检测方法,该方法可以由电子设备实现,该电子设备可以是终端或服务器。如图1所示的一种基于双重视觉状态空间模型的皮带撕裂检测方法流程图,该方法的处理流程可以包括如下的步骤:[0072]S2、将所述待检测皮带表面图像输入训练完成的皮带撕裂图像缺陷检测主干网络,检测输出目标检测结果,所述皮带撕裂图像缺陷检测主干网络由图像序列化模块、双重视觉状态空间皮带撕裂图像特征提取网络、多尺度特征融合模块和双分支目标检测输出模块组成;[0073]其中,所述图像序列化模块,将所述待检测皮带表面图像进行序列化,输出图像序列和图像微序列;[0074]所述双重视觉状态空间皮带撕裂图像特征提取网络,使用双重视觉状态空间特征提取模块,提取皮带撕裂小目标缺陷全局语义类别信息和局部细节信息;[0075]所述多尺度特征融合模块,使用基于视觉状态空间特征提取模块的特征金字塔结构,进行多尺度特征融合,得到三种尺寸的图[0076]所述双分支目标检测输出模块,使用两个分支,利用所述三种尺寸的图像融合特征,分别做目标识别和分类任务,并输出最终的目标检测结果。[0077]本发明实施例提供一种基于双重视觉状态空间模型的皮带撕裂检测方法,首先,针对现有技术因为图像下采样造成的小目标缺陷特征缺失的问题,本发明实施例的技术方案去除下采样操作以保留图像的原始特征的同时,设计局部状态空间特征提取分支,使得模型能够更有效地提取小目标缺陷检测至关重要的局部细节特征;其次,针对复杂背景下的背景目标干扰问题,本发明实施例的技术方案使用全局视觉状态空间分支,对长图像序列间的全局信息进行建模,融合上述局部特征,建立全局和局部特征之间的关系,结合基于视觉状态空间特征提取模块的特征金字塔结构,进行多尺度特征融合,增强模型的图像内容理解能力;最后,针对现有技术因计算复杂度和计算效率存在的落地部署难的问题,本发明实施例的技术方案利用状态空间模型的线性计算复杂度和并行运算能力,使模型满足实[0079]本发明实施例在皮带工作场景下,使用2048分辨率线阵相机(采集图像分辨率为2048×1)拍摄运行中的皮带图像,取连续2000帧组成一张2048×2000高分辨率的待检测皮带撕裂图像。[0080]S2、将所述待检测皮带表面图像输入训练完成的皮带撕裂图像缺陷检测主干网络,检测输出目标检测结果,所述皮带撕裂图像缺陷检测主干网络由图像序列化模块、双重视觉状态空间皮带撕裂图像特征提取网络、多尺度特征融合模块和双分支目标检测输出模块组成;[0081]其中,所述图像序列化模块,将所述待检测皮带表面图像进行序列化,输出图像序列和图像微序列;[0082]所述双重视觉状态空间皮带撕裂图像特征提取网络,使用双重视觉状态空间特征提取模块,提取皮带撕裂小目标缺陷全局语义类别信息和局部细节信息;[0083]所述多尺度特征融合模块,使用基于视觉状态空间特征提取模块的特征金字塔结构,进行多尺度特征融合,得到三种尺寸的图[0084]所述双分支目标检测输出模块,使用两个分支,利用所述三种尺寸的图像融合特征,分别做目标识别和分类任务,并输出最终的目标检测结果。[0085]本发明实施例所述皮带撕裂图像缺陷检测主干网络的训练使用训练集中的图像[0086]1)皮带撕裂图像数据收集。[0087]在皮带工作场景下,使用2048分辨率线阵相机(采集图像分辨率为2048×1)拍摄运行中的皮带图像,取连续2000帧组成一张2048×2000高分辨率的皮带撕裂图像,按此方法组成多张2048×2000高分辨率的皮带撕裂图像,筛选其中有缺陷和无缺陷图像按照一定的比例构建数据集。[0088]2)皮带撕裂图像数据标注。[0089]将收集的图像中的缺陷,根据不同的形状纹理特征以及严重程度划分为C类不同表示目标检测框的中心点坐标,(h,w)表示目标检测框的高度和宽度,x±w/2应该在0~2048范围内,y±h/2应该在0~2000范围内,输出存储为t[0090]3)皮带撕裂检测数据集划分。缺陷两个部分合并在一起,构成最终的皮带撕裂检测数据集的训练集和验证集,其中,训练集用于模型训练,验证集用于评估模型训练过程中的性能,最终选择在验证集上最优的权重用于模型推理与应用。[0092]4)皮带撕裂检测数据集图像预处理。[0093]将所有图像-标签对通过随机水平镜像翻转、随机尺度缩放、随机尺寸裁剪、对比度增强等方式进行数据增强,扩充训练数据集,得到输入图像与标签;并且,针对某些样本量较小的缺陷进行额外的数据扩增,使得量均衡。[0094]为了后续提取全局特征和局部特征(视觉状态空间特征提取模块仅能处理序列化数据),本发明实施例需要对图像进行切块序列化操作,利用卷积下采操作将切块后的图像块和局部图像块分别转换成图像序列和图像微序列,将生成的图像序列对送入双重视觉状态空间皮带撕裂图像特征提取网络中。[0095]可选地,如图4所示,所述图像序列化模块,先将所述待检测皮带表面图像进行图[0096]再将每个图像块进行图像局部切块,得到多个局部图像块;[0097]再利用卷积下采操作,将切块后的图像块和局部图像块,分别转换成图像序列和图像微序列这两个图像序列对,所述图像序列和图像微序列都是离散的二维图像序列。[0098]可选地,如图4所示,所述双重视觉状态空间皮带撕裂图像特征提取网络,使用所述双重视觉状态空间特征提取模块,分四个阶段提取皮带撕裂小目标缺陷全局语义类别信息和局部细节信息,四个阶段分别使用N1、N2、N3、N4个双重视觉状态空间特征提取模块级联,不同阶段使用步长为2的卷积进行下采样,缩小图像特征尺寸,分别得到四种尺寸的图倍下采样的关系,其中,F1因为含有较多噪声信息,不用来后续生成目标检测结果;下采样通过训练阶段不断的参数迭代,有效滤除上一阶段特征图中的无效信息,降低计算量,并且不会损失图像有效特征;[0099]所述双重视觉状态空间特征提取模块所提取到的局部细节信息,并不直接参与目标检测结果输出,而是在所述双重视觉状态空间特征提取模块中通过特征融合的方式,将局部细节信息融入到图像融合特征中,间接起到精确检测输出结果的作用。[0100]状态空间模型是一种描述动态系统行为的数学模型,它使用一组一阶微分方程(连续时间系统)或差分方程(离散时间系统)来表示系统的内部状态的演化,同时用另一组方程来描述系统状态和输出之间的关系。状态空间模型以其模型效率高、更少的图形处理器内存使用和更好的远程依赖建模能力在视觉领域也有了广泛的应用。在图像处理领域,图像序列(特征序列)被作为不同的状态,模型通过学习这种状态间的转换关系来提取图像特征信息。但是,直接将状态空间模型用于皮带撕裂早期小目标缺陷检测会因为其对局部特征(对早期小目标缺陷的检测很重要)的探索较少而导致定位不精确,甚至是漏检的情况。在本发明实施例中,为了在皮带撕裂小目标缺陷检测领域利用状态空间模型的优势,提出了一种双重视觉状态空间特征提取模块来替代当前视觉状态空间模型中的视觉状态空间模块,使其能够在利用状态空间模型的长距离建模能力,获取图像序列间的全局特征的同时,也能获取图像序列内像素间的局部的细节特征。[0101]可选地,所述双重视觉状态空间特征提取模块中的第一个双重视觉状态空间特征提取模块,如图5所示,将所述图像序列和图像微序列作为输入,首先利用一个由视觉状态空间特征提取模块构成的局部视觉状态空间分支,提取所述图像微序列内部的图像局部特征,并且和输入的图像序列通过相加的方式进行特征融合,然后将融合后的序列特征送入另一个由视觉状态空间特征提取模块构成的全局视觉状态空间分支,提取图像序列间的长距离全局语义类别信息,同时建模图像序列全局特征和图像微序列局部特征之间的关系,得到图像融合特征,将所述局部视觉状态空间分支提取的图像局部特征和所述全局视觉状态空间分支提取的图像融合特征两个部分,送入级联的第二个双重视觉状态空间特征提取模块中继续提取更深层的图像特征。[0102]可选地,所述视觉状态空间特征提取模块,负责对离散的二维图像序列进行建模,获取序列间的关系,将离散的二维图像序列作为输入时,图像序列间除了前后序列,存在上下左右四个方向的位置关系,如图6所示,本发明实施例按照四种不同方向的交叉扫描方式(状态空间建模最初使用在自然语言图像处理时,仅有前后序列之间存在时序信息,因此仅需要从前至后依次扫描一次就可以对语义进行建模),对所有由若干个图像序列构成的图像矩阵进行重排列,形成四个由图像序列组成的图像长序列,再将每个图像长序列分别送入到所述视觉状态空间特征提取模块,提取序列中相应的语义信息,得到四个特征序列,将所述四个特征序列相加并平均得到一个新的图像矩阵,然后将新的图像矩阵展平成一维向[0103]通过采用这种互补遍历路径,使模型能够整合图像中的每个像素来自不同方向所有其他像素的信息。[0104]其中,如图7所示,所述视觉状态空间特征提取模块,将每个图像长序列依次通过征进行提取,然后与所述图像长序列的另一个分支,经过线性层和激活函数得到的权重矩阵相乘,然后将相乘后的结果,经过一个线性层得到图像特征序列,引入残差连接(为了增加模型训练的稳定性),将所述图像特征序列与所述图像长序列相加得到所述特征序列。[0105]状态空间模型通常应用于连续系统,而皮带撕裂小目标检测任务中,通过上述步骤得到的数据是离散的序列化图像或者特征,因此,本发明实施例使用离散状态空间模型来对图像序列进行建模。形状或运动作为状态,这些状态被量化为离散值,形成状态空间,引入中间隐式状态提取图像中的特征,通过离散化的状态转移和观测过程,准确地建模图像序列中的复杂动态和语义关系。[0107]相较于现有基于自注意力机制的建模方式,离散状态空间建模还具有线性复杂度的优势,结合并行计算设计,能够实现较高精度的同时还具备较快的推理速度。[0108]可选地,如图8所示,所述多尺度特征融合模块,通过自上而下与自下而上两条路径逐层融合当前层和上一层的特征,生成新的特征图,并且使用基于所述视觉状态空间特征提取模块的特征金字塔结构(不同于传统金字塔特征融合模块使用卷积的设计),来融合[0109]其中,自上而下是指将最小尺寸的图像融合特征F4经过上采样扩充分辨率,和F3一样后与F3拼接在一起,将拼接后的特征送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,融合后的特征再上采样与更大尺寸的F2拼接,将拼接后的特征送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,得到多尺度融合特征P2;[0110]对于自下而上融合,将P2下采样至与F3同尺寸,再与自上而下融合中对应的特征拼接一起,送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,得到多尺度融合特征P3;[0111]将P3下采样至与F4同尺寸,再与自上而下融合中对应的特征拼接一起,送入所述视觉状态空间特征提取模块来融合两种不同尺度的特征,得到多尺度融合特征P4。[0112]可选地,如图9所示,所述双分支目标检测输出模块,将所述多尺度融合特征P2、P3、P4,通过上采样到原图尺寸并拼接后接一个1×1卷积调整特征图维度;[0113]然后,分类任务分支由2个3×3卷积和1个1×1卷积组成,假设图像尺寸为H×W,C为目标检测类别数,输出H×W×C的分类结果;[0114]目标识别分支由2个3×3卷积和2个1×1卷积组成,2个1×1卷积分别用来输出H×W×4的位置检测结果和H×W×1的交并比分数;失函数的值应当趋近于0;反之,如果此时预测值趋近于的KL散度来判断模输出情况的优劣,假设预测边界框位置的分布概率为p₀,p₁,…,p,则对于每一个真实边界框的位置y,找到最接近y的两个预测边界框位置y,和y₁+1,然后计算这两[0122]DFLLoss(p,p₁+1)=-[0123]其中,p₂和p+1是模型输出的两个预测边界框位
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中职审计实训(审计实训基础)试题及答案
- 2025年大学林业工程(林业工程设计)试题及答案
- 2025年高职(出版商务)图书发行试题及答案
- 2025年高职智能工程机械运用技术(机械操作规范)试题及答案
- 2025年中职机电一体化技术(设备趋势分析)试题及答案
- 2026年中职第二学年(眼视光技术)验光配镜阶段测试题及答案
- 2025年中职食品包装(食品包装技术)试题及答案
- 2025年本科卫生信息管理(卫生信息系统)试题及答案
- 2025年大学食品安全与检测技术(农药残留检测)试题及答案
- 2025年大学教育学(教育政策学)试题及答案
- 教师三笔字培训课件
- 河南省百师联盟2025-2026学年高一上12月联考英语试卷(含解析含听力原文及音频)
- 党的二十届四中全会精神丨线上知识有奖竞答题库
- JJF 1759-2019衰减校准装置校准规范
- 群文阅读把数字写进诗
- 京港澳高速公路段改扩建工程施工保通方案(总方案)
- 医用设备EMC培训资料课件
- 2020年广东学位英语考试真题及答案
- 锅炉防磨防爆工作专项检查方案
- 气田后期开发技术负压采气技术
- 《仪表本安防爆技术》课件
评论
0/150
提交评论