【《一种基于YOLOv4-CSP算法的条状缺陷检测算法设计》15000字】_第1页
【《一种基于YOLOv4-CSP算法的条状缺陷检测算法设计》15000字】_第2页
【《一种基于YOLOv4-CSP算法的条状缺陷检测算法设计》15000字】_第3页
【《一种基于YOLOv4-CSP算法的条状缺陷检测算法设计》15000字】_第4页
【《一种基于YOLOv4-CSP算法的条状缺陷检测算法设计》15000字】_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一种基于YOLOv4-CSP算法的条状缺陷检测算法设计目录TOC\o"1-3"\h\u19563一种基于YOLOv4-CSP算法的条状缺陷检测算法设计 113945第1章条状缺陷检测算法设计 2114441.1网络总体架构 215411.1.1YOLOv4-CSP 2313541.1.2改进后的YOLOv4-CSP 5160161.2特征提取网络优化 6260781.2.1可变形卷积 6198281.2.2非对称卷积 855411.3特征增强网络优化 9148261.4伪标签训练优化 12106271.5本章小结 143248第2章算法实验结果与分析 15142582.1数据集介绍 15147862.1.1竹条数据集 15266842.1.2铝材数据集 16176602.2实验设置及评估标准 1791262.2.1实验设置 17247292.2.2评估标准 19143002.3数据增强实验 21319842.5特征增强网络优化实验 25116592.6伪标签训练优化实验 28150752.7基线方法对比实验 2964832.8本章小结 29第1章条状缺陷检测算法设计TC"Chapter3DesignofSliverDefectDetectionAlgorithm"\l1针对工业应用高速率的需求和条状表面缺陷的特点,本章提出一种基于YOLOv4-CSP的高效且轻量的工业缺陷检测算法,该算法能够自动提取工业表面缺陷检测特征,快速准确地检测常见缺陷,并且对呈极端长宽比的条状缺陷检测性能鲁棒。本章首先阐述了基线网络YOLOv4-CSP和改进后的YOLOv4-CSP的整体架构,接着介绍算法特征提取部分的优化设计,然后进一步论述算法在特征增强部分的改进,最后介绍了用以优化训练的伪标签技术。1.1网络总体架构TC"1.1OverallNetworkArchitecture"\l2本节将介绍基线方法YOLOv4-CSP和改进后的YOLOv4-CSP的网络结构,并着重讨论两者在特征提取网络(Backbone)和特征增强网络(Neck)上的结构区别,并对梯度分流技术在Backbone和Neck残差结构中的应用进行了分析。1.1.1YOLOv4-CSPTC"1.1.1YOLOv4-CSP"\l3Wang等人借鉴CSPNet(CrossStagePartialNetwork)ADDINEN.CITE<EndNote><Cite><Author>Wang</Author><Year>2020</Year><RecNum>103</RecNum><DisplayText><styleface="superscript">[65]</style></DisplayText><record><rec-number>103</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1609937436">103</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Wang,Chien-Yao</author><author>MarkLiao,Hong-Yuan</author><author>Wu,Yueh-Hua</author><author>Chen,Ping-Yang</author><author>Hsieh,Jun-Wei</author><author>Yeh,I-Hau</author></authors></contributors><titles><title>CSPNet:Anewbackbonethatcanenhancelearningcapabilityofcnn</title><secondary-title>ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognitionWorkshops</secondary-title></titles><pages>390-391</pages><dates><year>2020</year></dates><urls></urls></record></Cite></EndNote>[65]梯度分流的思想对YOLOv4网络进行优化,构造了CSPSPP和CSPPAN结构,使得特征增强网络的梯度被分解为两个支路进行前向传播,从而减少了重复的梯度流,并降低了约40%的计算成本ADDINEN.CITE<EndNote><Cite><Author>Wang</Author><Year>2021</Year><RecNum>205</RecNum><DisplayText><styleface="superscript">[64]</style></DisplayText><record><rec-number>205</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1646384479">205</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Wang,Chien-Yao</author><author>Bochkovskiy,Alexey</author><author>Liao,Hong-YuanMark</author></authors></contributors><titles><title>Scaled-yolov4:Scalingcrossstagepartialnetwork</title><secondary-title>ProceedingsoftheIEEE/cvfconferenceoncomputervisionandpatternrecognition</secondary-title></titles><pages>13029-13038</pages><dates><year>2021</year></dates><urls></urls></record></Cite></EndNote>[64],由此形成新的YOLO算法分支——YOLOv4-CSP。此网络由特征提取部分(Backbone)、特征增强部分(Neck)和检测部分(Head)组成,其中特征提取部分负责初级特征的提取,特征增强部分主要是对前一部分输出的特征进行增强以提高网络的表征能力,最终结果由检测部分计算并输出。YOLOv4-CSP的特征提取网络为CSPDarknet53,它是由Darknet-53和CSPNet融合而成。Darknet-53作为YOLOv3的主干网络首次出现在大众视野中,它借鉴了ResNet的设计思想,使用了大量的残差连接,由53个卷积层组成,并用步长为2的卷积层替代了池化层;与ResNet-101/152相比,该网络的运行速度提升了1.5~2.1倍,并且保持了与之相当的精度。CSPNet提出“梯度分流”思想,使网络的前向传播梯度流向不同的路径:首先将输入特征图划分为两部分,接着由跨阶段层次结构(CrossStageHierarchy)分别对这两部分进行处理,处理完成后将两个分支合并,这项设计使得各路径的计算量较之前更为平均,既提高了网络计算单元的整体利用率,又大幅减少了网络的资源消耗,并且加快了推理速度。如图1.1(a)所示,在Darknet-53中,残差结构(Bottleneck)的输出由初始输入和残差块(图中红框部分)的运算结果相加而得。在CSPDarknet53中,残差阶段(BottleneckCSP)的输入特征图被分成两部分,如图1.2(b)所示,一部分依次经过一个卷积块、若干个残差块和一个卷积操作,另一部分先进行卷积操作,然后与前一部分合并,合并后的结果再经过一个过渡层(卷积块)得到最终输出。YOLOv4保留了CSPDarknet53的5个残差阶段及其数量设置(1,2,8,8,4),而YOLOv4-CSP则是将第一个CSP阶段(BottleneckCSP)替换为原始残差结构(Bottleneck),以实现精度和速度之间的最佳平衡。图1.1不同网络的残差结构对比YOLOv4-CSP的特征增强网络以YOLOv4的Neck网络设计为基石,对核心模块进行梯度分流改造,从而构建了CSP化的空间金字塔池化模块(CSPSPP)和路径聚合模块(CSPPAN)。YOLOv4的Neck网络包含SPP模块和PAN模块,其中SPP使用三个不同大小的卷积核,分别为5×5,9×9,13×13,以提取不同空间分辨率的语义信息,从而得到更大范围的感受野。PAN是对特征金字塔(FPN)的改进,如图1.2(a)所示,FPN有两条路径,一条是自下而上的前馈计算路径:特征图进行多次卷积操作后分辨率越来越小;另一条则是自上而下的聚合路径:高层特征图通过上采样操作来扩大分辨率,然后使用横向连接与底层特征图融合。与FPN相比,PAN增加了一条自下而上的聚合路径以获得更精确的位置信息,如图1.2(b)所示。图1.2展示了PAN的整体框架,其中(c)、(d)、(e)分别对应自适应特征池化、预测框分支和全连接层融合,YOLOv4主要借鉴(a)和(b)部分的设计思路。此外,YOLOv4将PAN的特征图合并方式由相加操作(Addition)改为拼接操作(Concatenation)以保留丰富的语义信息,从而增强网络的预测能力。类似于特征提取网络中的CSPDarknet53,YOLOv4-CSP算法为SPP、PAN设计了额外的分支以实现前向传播的梯度分流,该分支经由一个1×1卷积层,然后通过拼接的方式与原分支合并,合并后再进行一次卷积操作即得到新模块(CSPSPP和CSPPAN)的输出。图1.2PAN网络框架ADDINEN.CITE<EndNote><Cite><Author>Liu</Author><Year>2018</Year><RecNum>106</RecNum><DisplayText><styleface="superscript">[63]</style></DisplayText><record><rec-number>106</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1610104702">106</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Liu,Shu</author><author>Qi,Lu</author><author>Qin,Haifang</author><author>Shi,Jianping</author><author>Jia,Jiaya</author></authors></contributors><titles><title>Pathaggregationnetworkforinstancesegmentation</title><secondary-title>ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition</secondary-title></titles><pages>8759-8768</pages><dates><year>2018</year></dates><urls></urls></record></Cite></EndNote>[63]YOLOv4-CSP的检测部分沿用了YOLOv3的检测头(Head),通过特征提取网络和特征增强网络计算出三个不同尺寸的特征图,其中每个尺寸的特征图对应三个不同长宽比例的预设锚框,然后利用卷积操作对输入特征图进行维度向量转换,得到每个特征图中各锚框的类别和定位结果,从而实现了多尺度预测。1.1.2改进后的YOLOv4-CSPTC"1.1.2ImprovedYOLOv4-CSP"\l3本文设计的基于YOLOv4-CSP的条状缺陷检测算法,即改进后的YOLOv4-CSP(ImprovedYOLOv4-CSP),缩减了网络规模并增加了针对性的条状缺陷检测模块,其网络结构如图1.3所示。由于工业缺陷检测背景相对简单,如果沿用大型网络YOLOv4-CSP深度和宽度的设置容易出现过拟合现象,因此本文对网络的宽度(通道数)和深度(残差块数量)进行了缩减,两者的缩减因子分别设置为0.50和0.33,网络通道数变为原来的一半,Backbone部分的残差阶段数量由原先的“1,2,8,8,4”变为“1,1,3,3,1”,中间阶段数量“3”对应图1.3的“×3”。在网络表征能力不受影响的情况下,本文通过缩减规模以实现网络瘦身,为后续模型在工业现场的部署奠定了基础。图1.3改进后的YOLOv4-CSP网络框架为了改善网络在条状缺陷特征提炼的表现,本文在特征提取部分引入了非对称卷积。具体而言,网络在标准卷积的基础上增加了水平方向的一维非对称卷积,构造了非对称卷积模块,即图1.1(c)中ACBlock,然后结合梯度分流技术设计了新的残差模块ACBottleneck和ACBottleneckCSP,以增强模型在重要维度——水平方向的特征表达,从而提高模型在条状缺陷的检测精度,ACBottleneckCSP的具体结构见图1.1(c),其中红框部分为ACBottleneck。改进后的YOLOv4-CSP继承了原网络Neck部分多尺度融合的思想,利用CSPPAN实现空间信息与语义信息的有效融合。同时,本文还引入了混合注意力机制CBAM,并构建了新的残差模块CBAMBottleneckCSP2,以更好地校准网络的通道和空间权重,从而提高网络表达显著性特征的能力。此外,考虑到注意力机制与SPPCSP在增大感受野方面存在功能重合,本文采用注意力模块并将CSPSPP移除,简化了网络结构并减少了计算开销。1.2特征提取网络优化TC"1.2FeatureExtractionNetworkOptimization"\l2作为检测网络的首要环节,特征提取的质量对后续模块具有重要影响。本文算法将CSPDarknet-53作为特征提取部分的骨干网络,基于网络结构搜索(Networkarchitecturesearch)分析ADDINEN.CITE<EndNote><Cite><Author>Wang</Author><Year>2021</Year><RecNum>205</RecNum><DisplayText><styleface="superscript">[64]</style></DisplayText><record><rec-number>205</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1646384479">205</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Wang,Chien-Yao</author><author>Bochkovskiy,Alexey</author><author>Liao,Hong-YuanMark</author></authors></contributors><titles><title>Scaled-yolov4:Scalingcrossstagepartialnetwork</title><secondary-title>ProceedingsoftheIEEE/cvfconferenceoncomputervisionandpatternrecognition</secondary-title></titles><pages>13029-13038</pages><dates><year>2021</year></dates><urls></urls></record></Cite></EndNote>[64],CSPDarknet-53满足包含感受野、参数量和推理速度在内的众多最优架构指标,具有优良的特征提取能力。然而,该结构在条状缺陷的特征表达还有待进一步完善。本节首先探究了可变形卷积与YOLOv4-CSP结合用以提升条状缺陷检测能力的可行性,鉴于该卷积的改善效果有限,进一步研究了极端长宽比缺陷的特点,提出了一种新的非对称卷积模块以更好地满足检测需求。1.2.1可变形卷积TC"1.2.1DeformableConvolution"\l3工业缺陷检测中的条状缺陷多为水平条状,且相当一部分呈极端的长宽比。YOLOv4-CSP是基于锚框的检测算法,面对条状缺陷,预先定义的锚框和真实框可能存在较大的差异,这就要求网络能够灵活地预测锚框偏移量,并增强对尺度、形状等变化的鲁棒性。基于此,本课题首先考虑引入可变形卷积(Deformableconvolution)以提高特征提取网络应对缺陷形变的稳定性。标准卷积神经网络中的卷积操作大多以固定的方形卷积核为主,如3×3、5×5卷积,其固定的几何结构导致建模几何变换的局限性。然而,如何应对目标尺度、姿态和视点变化以及部件变形的复杂识别任务,使模型具备稳定的自适应特征提取能力,是视觉识别面临的一大挑战。为了解决传统卷积固定结构带来的问题,Dai等人构造了可变形卷积v1(DeformableConvolution,DCv1)ADDINEN.CITE<EndNote><Cite><Author>Dai</Author><Year>2017</Year><RecNum>124</RecNum><DisplayText><styleface="superscript">[36]</style></DisplayText><record><rec-number>124</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1642949043">124</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Dai,Jifeng</author><author>Qi,Haozhi</author><author>Xiong,Yuwen</author><author>Li,Yi</author><author>Zhang,Guodong</author><author>Hu,Han</author><author>Wei,Yichen</author></authors></contributors><titles><title>Deformableconvolutionalnetworks</title><secondary-title>ProceedingsoftheIEEEinternationalconferenceoncomputervision</secondary-title></titles><pages>764-773</pages><dates><year>2017</year></dates><urls></urls></record></Cite></EndNote>[36],如图1.4所示,该卷积在原有基础上附加一个平行卷积层,以学习原卷积各采样点的偏移量,然后在偏移量的指导下扩大采样范围,使卷积作用范围更能覆盖整个物体,从而提取更有效的上下文特征。作为即插即用模块,可变形卷积能够快速地集成到已有检测网络,在图像分类、目标检测多个数据集上较原网络有显著的提升,已成功应用在遥感图像分析ADDINEN.CITE<EndNote><Cite><Author>高鑫</Author><Year>2018</Year><RecNum>134</RecNum><DisplayText><styleface="superscript">[66]</style></DisplayText><record><rec-number>134</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1644376539">134</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>高鑫</author><author>李慧</author><author>张义</author><author>闫梦龙</author><author>张宗朔</author><author>孙显</author><author>孙皓</author><author>于泓峰</author></authors></contributors><titles><title>基于可变形卷积神经网络的遥感影像密集区域车辆检测方法</title><secondary-title>电子与信息学报</secondary-title></titles><periodical><full-title>电子与信息学报</full-title></periodical><pages>2812-2819</pages><volume>40</volume><number>12</number><dates><year>2018</year></dates><urls></urls></record></Cite></EndNote>[66]、钢铁缺陷检测ADDINEN.CITE<EndNote><Cite><Author>Hao</Author><Year>2020</Year><RecNum>92</RecNum><DisplayText><styleface="superscript">[30]</style></DisplayText><record><rec-number>92</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1609144136">92</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Hao,Ruiyang</author><author>Lu,Bingyu</author><author>Cheng,Ying</author><author>Li,Xiu</author><author>Huang,Biqing</author></authors></contributors><titles><title>ASteelSurfaceDefectInspectionApproachtowardsSmartIndustrialMonitoring</title><secondary-title>JournalofIntelligentManufacturing</secondary-title></titles><periodical><full-title>JournalofIntelligentManufacturing</full-title></periodical><number>9</number><dates><year>2020</year></dates><urls></urls></record></Cite></EndNote>[30]等领域。但是,该卷积对每个采样位置赋予相同的权重,可能会引入了无用的上下文,进而影响显著特征的表达。针对该问题,Zhu等人提出了可变形卷积v2版本(DCv2)ADDINEN.CITE<EndNote><Cite><Author>Zhu</Author><Year>2019</Year><RecNum>123</RecNum><DisplayText><styleface="superscript">[37]</style></DisplayText><record><rec-number>123</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1642949027">123</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Zhu,Xizhou</author><author>Hu,Han</author><author>Lin,Stephen</author><author>Dai,Jifeng</author></authors></contributors><titles><title>Deformableconvnetsv2:Moredeformable,betterresults</title><secondary-title>ProceedingsoftheIEEE/CVFConferenceonComputerVisionandPatternRecognition</secondary-title></titles><pages>9308-9316</pages><dates><year>2019</year></dates><urls></urls></record></Cite></EndNote>[37],升级后的可变形卷积为每个采样位置赋予不同的权重以获得更准确的上下文信息。图1.4可变形卷积v1示意图ADDINEN.CITE<EndNote><Cite><Author>Dai</Author><Year>2017</Year><RecNum>124</RecNum><DisplayText><styleface="superscript">[36]</style></DisplayText><record><rec-number>124</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1642949043">124</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Dai,Jifeng</author><author>Qi,Haozhi</author><author>Xiong,Yuwen</author><author>Li,Yi</author><author>Zhang,Guodong</author><author>Hu,Han</author><author>Wei,Yichen</author></authors></contributors><titles><title>Deformableconvolutionalnetworks</title><secondary-title>ProceedingsoftheIEEEinternationalconferenceoncomputervision</secondary-title></titles><pages>764-773</pages><dates><year>2017</year></dates><urls></urls></record></Cite></EndNote>[36]本文先后尝试将DCv1和DCv2与YOLOv4-CSP的骨干网络进行融合,具体而言,将高阶残差块的3×3标准卷积替换为可变形卷积,构造新的残差块DCNBottleneckCSP。然而,引入可变形卷积后,网络的检测结果并不理想,相关的实验结果与分析详见实验章节2.2。通过研究发现,该系列卷积学习的偏移量向四周发散,极有可能引入了无关的上下文特征,这类卷积较适用于缺陷不规则形变的检测场景,但不适用在水平方向规则形变的条状缺陷检测。为此,本文继续对条状缺陷特征进行分析,进一步探索合适的改进模块。1.2.2非对称卷积TC"1.2.2AsymmetricConvolution"\l3通过对条状缺陷数据进一步分析发现,检测对象多为条形工件,且工件的长度明显大于宽度,其中铝材长宽比值为[1.5,5],竹条长宽比值为[9,10],由此得出工件和缺陷均具有极高的长宽比。针对检测对象长宽比的特点,本文考虑加强图像水平方向的特征提取,通过借鉴ACNet中的ACBlock的结构设计适配的非对称卷积模块,以提高模型对条状缺陷检测的鲁棒性。非对称卷积的最初使用目的是减少网络参数的总和,将标准的方形卷积(d×d)转换为成两个一维卷积(1×d和d×1)串联,从而降低了网络的计算量,同时提高了网络训练速度ADDINEN.CITE<EndNote><Cite><Author>Jaderberg</Author><Year>2014</Year><RecNum>126</RecNum><DisplayText><styleface="superscript">[67,68]</style></DisplayText><record><rec-number>126</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1642949067">126</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Jaderberg,Max</author><author>Vedaldi,Andrea</author><author>Zisserman,Andrew</author></authors></contributors><titles><title>Speedingupconvolutionalneuralnetworkswithlowrankexpansions</title><secondary-title>arXivpreprintarXiv:1405.3866</secondary-title></titles><periodical><full-title>arXivpreprintarXiv:1405.3866</full-title></periodical><dates><year>2014</year></dates><urls></urls></record></Cite><Cite><Author>Denton</Author><Year>2014</Year><RecNum>125</RecNum><record><rec-number>125</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1642949060">125</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Denton,EmilyL</author><author>Zaremba,Wojciech</author><author>Bruna,Joan</author><author>LeCun,Yann</author><author>Fergus,Rob</author></authors></contributors><titles><title>Exploitinglinearstructurewithinconvolutionalnetworksforefficientevaluation</title><secondary-title>Advancesinneuralinformationprocessingsystems</secondary-title></titles><periodical><full-title>AdvancesinNeuralInformationProcessingSystems</full-title></periodical><pages>1269-1277</pages><dates><year>2014</year></dates><urls></urls></record></Cite></EndNote>[67,68]。相比之下,Ding等人ADDINEN.CITE<EndNote><Cite><Author>Ding</Author><Year>2019</Year><RecNum>105</RecNum><DisplayText><styleface="superscript">[69]</style></DisplayText><record><rec-number>105</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1609937838">105</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Ding,Xiaohan</author><author>Guo,Yuchen</author><author>Ding,Guiguang</author><author>Han,Jungong</author></authors></contributors><titles><title>Acnet:Strengtheningthekernelskeletonsforpowerfulcnnviaasymmetricconvolutionblocks</title><secondary-title>ProceedingsoftheIEEEInternationalConferenceonComputerVision</secondary-title></titles><pages>1911-1920</pages><dates><year>2019</year></dates><urls></urls></record></Cite></EndNote>[69]以一种新的视角——卷积设计,将水平和垂直方向的一维卷积整合到标准方形卷积中,构造了非对称卷积块(AsymmetricConvolutionBlock,ACBlock),然后用新模块替换部分标准卷积,从而构建了非对称卷积网络(AsymmetricConvolutionalNetwork,ACNet)。ACNet中的非对称卷积模块首先在横向和纵向添加一维非对称卷积以增强卷积核骨架部位(卷积核十字交叉的位置)的权重量级,然后将附加的特征提取分支与原分支合并以丰富特征空间,使模型的学习能力得到增强,从而改善模型应对旋转失真的鲁棒性以及迁移到新数据的泛化能力。该模块包括三个并行层,分别是带有d×d方形卷积核、1×d水平方向一维卷积核和d×1垂直方向一维卷积核的卷积层。非对称卷积模块的计算过程如图1.5所示:输入特征图分别通过并行卷积核得到三个大小相同的特征图,这三个特征图各自进行归一化操作,之后,将这三个分支的运算结果进行逐元素相加得到最终输出。图1.5ACNet非对称卷积计算过程ADDINEN.CITE<EndNote><Cite><Author>Ding</Author><Year>2019</Year><RecNum>105</RecNum><DisplayText><styleface="superscript">[69]</style></DisplayText><record><rec-number>105</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1609937838">105</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Ding,Xiaohan</author><author>Guo,Yuchen</author><author>Ding,Guiguang</author><author>Han,Jungong</author></authors></contributors><titles><title>Acnet:Strengtheningthekernelskeletonsforpowerfulcnnviaasymmetricconvolutionblocks</title><secondary-title>ProceedingsoftheIEEEInternationalConferenceonComputerVision</secondary-title></titles><pages>1911-1920</pages><dates><year>2019</year></dates><urls></urls></record></Cite></EndNote>[69]受ACNet中非对称卷积模块的启发,本节提出了一种更适合条状缺陷检测的非对称卷积模块。本文首先分析了添加水平维度非对称卷积或垂直维度非对称卷积至方形卷积对网络学习能力的影响(详见实验章节2.2),然后结合条状缺陷极端横纵比的特点——超过50%的缺陷横纵比大于8,删减了垂直维度上的非对称卷积,以减少冗余信息的干扰,同时强化水平维度上局部特征点的影响。因此,本文的非对称卷积模块仅在水平方向引入一维卷积分支,其计算过程如图1.6所示,特征图并行前向传播至标准卷积分支和非对称卷积分支,两个分支分别用方形卷积核和一维水平卷积核对输入特征图进行“扫描”,之后,将这两个分支归一化后的结果相加得到最终输出。本文用非对称卷积块替换残差阶段中的3×3卷积块,然后构建ACBottleneck模块和ACBottleneckCSP模块以实现特征提取网络的优化。图1.6ImprovedYOLOv4-CSP非对称卷积计算过程1.3特征增强网络优化TC"1.3FeatureEnhancementNetworkOptimization"\l2特征增强网络在主干网络的基础上进一步精炼特征,提高表征能力。本文采用CSP化后的多尺度检测网络——CSPPAN,作为特征增强网络(也称检测网络的颈部)的基础架构。此外,本文将注意力机制融合到颈部网络,促使网络在高层语义信息的引导下更有效地分配视觉处理资源。注意力在人类视觉系统中起着至关重要的作用ADDINEN.CITE<EndNote><Cite><Author>Corbetta</Author><Year>2002</Year><RecNum>109</RecNum><DisplayText><styleface="superscript">[70]</style></DisplayText><record><rec-number>109</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1610106155">109</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Corbetta,Maurizio</author><author>Shulman,GordonL</author></authors></contributors><titles><title>Controlofgoal-directedandstimulus-drivenattentioninthebrain</title><secondary-title>Naturereviewsneuroscience</secondary-title></titles><periodical><full-title>Naturereviewsneuroscience</full-title></periodical><pages>201-215</pages><volume>3</volume><number>3</number><dates><year>2002</year></dates><isbn>1471-0048</isbn><urls></urls></record></Cite></EndNote>[70],人类通过一系列局部的一瞥来构建他们的认知,并自然地把注意力转移到复杂场景中的显着区域,这一视觉处理过程激发了学者们对于注意力机制的研究兴致,近年来该技术得到不断发展并成功应用于计算机视觉各类任务中,包括目标检测任务。视觉领域的注意力机制通过动态地调整输入特征图的权重,以选择关键特征,从而增强模型的表征能力。根据注意力关注权重所属的数据域,可将现有的相关研究划分为:空间注意力、通道注意力、时间注意力、分支注意力以及混合注意力(空间注意力&通道注意力、空间注意力&时间注意力)ADDINEN.CITE<EndNote><Cite><Author>Guo</Author><Year>2021</Year><RecNum>127</RecNum><DisplayText><styleface="superscript">[71]</style></DisplayText><record><rec-number>127</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1642949077">127</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Guo,Meng-Hao</author><author>Xu,Tian-Xing</author><author>Liu,Jiang-Jiang</author><author>Liu,Zheng-Ning</author><author>Jiang,Peng-Tao</author><author>Mu,Tai-Jiang</author><author>Zhang,Song-Hai</author><author>Martin,RalphR</author><author>Cheng,Ming-Ming</author><author>Hu,Shi-Min</author></authors></contributors><titles><title>AttentionMechanismsinComputerVision:ASurvey</title><secondary-title>arXivpreprintarXiv:2111.07624</secondary-title></titles><periodical><full-title>arXivpreprintarXiv:2111.07624</full-title></periodical><dates><year>2021</year></dates><urls></urls></record></Cite></EndNote>[71]。空间注意力旨在通过区域选择掩码来告诉网络需要重点关注的区域,代表模块有基于RNN网络的注意力RAMADDINEN.CITE<EndNote><Cite><Author>Mnih</Author><Year>2014</Year><RecNum>229</RecNum><DisplayText><styleface="superscript">[72]</style></DisplayText><record><rec-number>229</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1647240278">229</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Mnih,Volodymyr</author><author>Heess,Nicolas</author><author>Graves,Alex</author></authors></contributors><titles><title>Recurrentmodelsofvisualattention</title><secondary-title>Advancesinneuralinformationprocessingsystems</secondary-title></titles><periodical><full-title>AdvancesinNeuralInformationProcessingSystems</full-title></periodical><volume>27</volume><dates><year>2014</year></dates><urls></urls></record></Cite></EndNote>[72]、生成空间变换的STNADDINEN.CITE<EndNote><Cite><Author>Jaderberg</Author><Year>2015</Year><RecNum>230</RecNum><DisplayText><styleface="superscript">[73]</style></DisplayText><record><rec-number>230</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1647240333">230</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Jaderberg,Max</author><author>Simonyan,Karen</author><author>Zisserman,Andrew</author></authors></contributors><titles><title>Spatialtransformernetworks</title><secondary-title>Advancesinneuralinformationprocessingsystems</secondary-title></titles><periodical><full-title>AdvancesinNeuralInformationProcessingSystems</full-title></periodical><volume>28</volume><dates><year>2015</year></dates><urls></urls></record></Cite></EndNote>[73]、自注意力相关算法ADDINEN.CITE<EndNote><Cite><Author>Wang</Author><Year>2018</Year><RecNum>227</RecNum><DisplayText><styleface="superscript">[74,75]</style></DisplayText><record><rec-number>227</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1647239866">227</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Wang,Xiaolong</author><author>Girshick,Ross</author><author>Gupta,Abhinav</author><author>He,Kaiming</author></authors></contributors><titles><title>Non-localneuralnetworks</title><secondary-title>ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition</secondary-title></titles><pages>7794-7803</pages><dates><year>2018</year></dates><urls></urls></record></Cite><Cite><Author>Dosovitskiy</Author><Year>2020</Year><RecNum>228</RecNum><record><rec-number>228</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1647240216">228</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Dosovitskiy,Alexey</author><author>Beyer,Lucas</author><author>Kolesnikov,Alexander</author><author>Weissenborn,Dirk</author><author>Zhai,Xiaohua</author><author>Unterthiner,Thomas</author><author>Dehghani,Mostafa</author><author>Minderer,Matthias</author><author>Heigold,Georg</author><author>Gelly,Sylvain</author></authors></contributors><titles><title>Animageisworth16x16words:Transformersforimagerecognitionatscale</title><secondary-title>arXivpreprintarXiv:2010.11929</secondary-title></titles><periodical><full-title>arXivpreprintarXiv:2010.11929</full-title></periodical><dates><year>2020</year></dates><urls></urls></record></Cite></EndNote>[74,75]等。通道注意力由通道域注意力掩码来告诉网络需要特别关注的通道对象,代表模块有SEADDINEN.CITE<EndNote><Cite><Author>Hu</Author><Year>2018</Year><RecNum>129</RecNum><DisplayText><styleface="superscript">[76]</style></DisplayText><record><rec-number>129</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1642993016">129</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Hu,Jie</author><author>Shen,Li</author><author>Sun,Gang</author></authors></contributors><titles><title>Squeeze-and-excitationnetworks</title><secondary-title>ProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition</secondary-title></titles><pages>7132-7141</pages><dates><year>2018</year></dates><urls></urls></record></Cite></EndNote>[76]及其改进模块ECANetADDINEN.CITE<EndNote><Cite><Author>Wang</Author><Year>2020</Year><RecNum>231</RecNum><DisplayText><styleface="superscript">[77]</style></DisplayText><record><rec-number>231</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1647240714">231</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Wang,Q.</author><author>Wu,B.</author><author>Zhu,P.</author><author>Li,P.</author><author>Hu,Q.</author></authors></contributors><titles><title>ECA-Net:EfficientChannelAttentionforDeepConvolutionalNeuralNetworks</title><secondary-title>2020IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR)</secondary-title></titles><dates><year>2020</year></dates><urls></urls></record></Cite></EndNote>[77]、GCTADDINEN.CITE<EndNote><Cite><Author>Yang</Author><Year>2020</Year><RecNum>232</RecNum><DisplayText><styleface="superscript">[78]</style></DisplayText><record><rec-number>232</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1647240791">232</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Yang,Z.</author><author>Zhu,L.</author><author>Wu,Y.</author><author>Yang,Y.</author></authors></contributors><titles><title>GatedChannelTransformationforVisualRecognition</title><secondary-title>2020IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR)</secondary-title></titles><dates><year>2020</year></dates><urls></urls></record></Cite></EndNote>[78]等。时间注意力通过生成对应的掩码以指导网络应该关注的时刻ADDINEN.CITE<EndNote><Cite><Author>Li</Author><Year>2019</Year><RecNum>235</RecNum><DisplayText><styleface="superscript">[79,80]</style></DisplayText><record><rec-number>235</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1647241021">235</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Li,Jianing</author><author>Wang,Jingdong</author><author>Tian,Qi</author><author>Gao,Wen</author><author>Zhang,Shiliang</author></authors></contributors><titles><title>Global-localtemporalrepresentationsforvideopersonre-identification</title><secondary-title>ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision</secondary-title></titles><pages>3958-3967</pages><dates><year>2019</year></dates><urls></urls></record></Cite><Cite><Author>Liu</Author><Year>2021</Year><RecNum>234</RecNum><record><rec-number>234</rec-number><foreign-keys><keyapp="EN"db-id="9atptfrtf25rebe05vrprz0qx0dzzt2s0dpf"timestamp="1647240990">234</key></foreign-keys><ref-typename="ConferenceProceedings">10</ref-type><contributors><authors><author>Liu,Zhaoyang</author><author>Wang,Limin</author><author>Wu,Wayne</author><author>Qian,Chen</author><author>Lu,Tong</author></authors></contributors><titles><title>Tam:Temporaladaptivemoduleforvideorecognition</title><secondary-title>Proc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论