深度学习：智能网络目标识别技术课件 ch03 新型注意力机制深度

上传人：h*** IP属地：山东上传时间：2026-05-12 格式：PPTX 页数：45 大小：2.74MB 积分：15 举报 版权申诉

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第3章深度学习：智能网络目标识别技术新型注意力机制深度目标识别方法01概述人类视觉系统可以迅速、高效地找到复杂场景中的重要区域，受这种现象启发，注意力机制被引入计算机视觉系统中。注意力机制已经在各种计算机视觉任务（如图像识别、目标检测、语义分割、动作识别、图像生成、三维视觉等）中取得了巨大成功。注意力机制可以理解为，计算机视觉系统在模拟人类视觉系统可以迅速、高效地关注到重点区域的特性。对于计算机视觉系统来说，上述过程可以抽象成以下公式：式中，g(x)表示对输入特征进行处理并产生注意力的过程；f(g(x),x)表示结合注意力对输入特征进行处理的过程。广泛应用的SE（SqueezeandExcitation，压缩与激励）注意力及Transformer自注意力可根据式（3.1）进行显性构建。例如，SE注意力可具体化为式中，GAP和MLP分别表示全局平均池化操作和多层感知机操Transformer的自注意力可具体化为式中，Q、K、V分别表示查询、键、值。明显地，注意力的学习过程实际上是明确g过程和f过程，并学习对应的权重参数。基于上述注意力机制原理，涌现出了多种注意力构建方法，并呈现出了一定的发展模式。如图3-1所示，计算机视觉任务的注意力机制经历了以下过程：首先，递归注意力模型（RecurrentAttentionModel，RAM）开创性地将深度神经网络与注意力机制进行结合，递归预测重要区域并借助强化学习的策略梯度进行端到端训练，更新整个网络，在此阶段中，递归神经网络是注意力机制的主要工具；其次，Jaderberg等人提出空间Transformer网络（SpatialTransformerNetworks，STN），通过引入子网络预测仿射变换参数，用于自适应选择输入的重要区域，显性预测判别性输入特征是此阶段注意力的主要特点；再次，SENet作为代表性的注意力模型，提出了一种新颖的通道注意力网络，用于隐性和自适应预测潜在的关键特征，随后大量的空间自注意力CBAM、高效的通道注意力网络ECA-Net等方法相继被提出，有效增强了特征聚合效果；目前，自注意力机制快速发展Transformer自注意力机制广泛应用于自然语言处理、视频理解、目标识别等众多任务中，并衍生了多种自注意力模型，例如T2TViT、Swin、Transformer、DETR等。02引入反馈机制的特征优化检测器IFF模块为进一步分析单阶段目标检测器特征图中存在的具体问题，本节使用在VOC数据集上训练好的SSD检测器对一些图像进行预测，并取出骨干网络提取的特征图，对特征图和检测结果进行可视化，如图3-2所示。在图3-2中，第一行为输入图像，第二行为对应的骨干网络的输出，即特征图，第三行为检测结果。为了看起来更加直观，这里将特征图转化成了热力图，其中红色为激活程度高的区域，蓝色为激活程度低的区域。将输入图像和特征图进行对比，不难发现，有许多实际上是背景的地方被错误激活（特征图中红圈中的位置）了。特别是在较为复杂的背景中，这样的背景噪声会导致许多被错误激活的区域。CNN是通过特征来做出相应预测的，错误的激活会使CNN捕捉的特征与真实物体的特征产生较大的差异，进而使目标检测器做出错误的预测，降低检测的准确度。在图3-2的第三行中，可以看到均出现了漏检的情况（红色框代表检测结果，绿色框代表漏检）。IFF模块IFF模块图3-3中的加号表示逐点相加，NMS表示非极大值抑制，ReLU为激活函数。其中，红色路线表示原检测的运算路径。假设对于一张特定的输入图像来说，其骨干网络提取的特征图记为x[0]，合理地，可以假定其存在一张理想的特征图n，n可以完美地表示该输入图像的特征，并能使后续的检测头网络做出精准的预测，则实际特征图x[0]和理想特征图n之间必然存在噪声，记为δ，则有：IFF模块为了利用第一次不精确的预测结果来优化特征，我们将第一次预测结果（记为

y[0]）作为启发信息返回给特征图，则有式中，w1为原检测头网络的卷积核；w2为新加入的反馈结构中的卷积核；*代表卷积运算。式（3.5）表示的过程可以多次重复进行，依次类推，可以得到第k次迭代的表达式为IFF模块式中，x[k]和

y[k]分别代表第k次迭代过程中的特征图和预测结果。对式（3.7）和式（3.8）应用傅里叶变换，可得式中，

表示逐点相乘；h(⋅)表示ReLU函数（本节中的ReLU函数均采用LeakyReLU）；F(⋅)表示傅里叶变换；所有大写字母表示对应小写字母傅里叶变换后的形式。若检测头网络可以进行无限次迭代，则系统表示如下：可得其传递函数为IFF模块原目标检测器只进行一次前向传播便得到最终的预测结果，而IFF模块不断引入预测信息，将其作为启发信息反馈给特征图，经过多次迭代后给出预测结果。IFF模块具备以下两点优势。一是去噪。如图3-2所示，原特征图会因为背景噪声而存在许多被错误激活的区域，这些错误的特征会削弱目标检测器的性能。IFF模块的引入使得特征图可以根据对物体的粗定位信息和类别判断而得到优化，以此来增强前景、抑制背景，从而得到更高质量的特征图和更加精准的预测结果。二是发掘高层语义信息。现有目标检测器的检测头网络有两个分支，即回归分支和分类分支。这两个分支独立于彼此，没有交集。然而，根据先验知识，我们有理由推断边界框的形状、大小与类别存在着明显的耦合关系。例如，人的边界框往往是细长的，而汽车的边界框往往是扁平的；在同一张图中，大象的边界框大概率要比猫的边界框大。因此，IFF模块中的反馈结构使得边界框的位置和类别融合，相互约束，有利于发掘出更高层次的语义信息。IFF模块稳定性证明1深度学习框架介绍本节使用目前应用最广泛的深度学习框架之一——PyTorch来实现设计的算法。PyTorch是一个基于Torch库的开源深度学习框架，在计算机视觉和自然语言处理领域有着广泛的应用。尽管PyTorch的开发重点是Python接口，但其实际上也拥有C++接口。很多深度学习框架都是在PyTorch的基础上进行二次开发得到的，如Tesla的Autopilot、Uber的Pyro、Huggingface的Transformers、PyTorchLightning和Catalyst。所有实验均在Linux操作系统下进行。在基于反馈机制的特征优化模块IFF的实验中，对于小模型的实验，使用4块TITANXpGPU进行训练；对于大模型的实验，使用8块TeslaV100GPU进行训练。本节实验中使用了3个数据集：VOC2007数据集、VOC2012数据集和COCO2017数据集。稳定性证明2实验设置将IFF模块嵌入多种单阶段目标检测器中来验证它的效果，并将其与现有最优算法进行比较。将IFF模块分别加入单阶段目标检测器FreeAnchor和CenterNet，前者代表了基于锚框的单阶段目标检测器，后者代表了无锚框的单阶段目标检测器，以此来验证IFF模块对于各种单阶段目标检测器的效果。此外，我们也将IFF模块嵌入其他主流目标检测器中，包括YOLOv2、SSD和FoveaBox。由于IFF模块只更改了检测头网络的结构，因此仍然可以借用在ImageNet数据集上预训练的骨干网络的权重对其进行初始化，以此来加速收敛，缩短训练时间。加入IFF模块后的训练时间和测试时间与它们对应的基线（Baseline）模型基本一致。选取FreeAnchor作为基线模型进行消融实验，以获得IFF模块最优的迭代次数，即图3-4中的MI；并分别在VOC2007数据集、VOC2012数据集和COCO2017数据集上进行实验，证明IFF模块的泛化性。稳定性证明3消融实验由于IFF模块的迭代次数是可变化的，因此为选取最优的迭代次数MI，在FreeAnchor（以ResNet-50作为骨干网络）上加入IFF模块，并尝试不同的MI，在COCO2017训练集上进行训练并用在验证集上进行测试，MI对检测结果的影响如表3-1所示。其中，MI等于0意味着不加入IFF模块。可见，当MI等于1，即只进行一次迭代时的效果最好，因此在后续的实验中都MI设置为1。稳定性证明4特征图优化效果为验证IFF模块是否对特征图起到了增强前景、抑制背景的作用，本节使用SSD在VOC2007数据集的训练集和验证集上进行训练，并在其测试集上进行测试。对比原本SSD的特征图和加入IFF模块后的特征图发现，IFF模块的加入确实成功使用了第一次粗定位的信息使得特征图上的前景激活程度更高且更集中，同时抑制了许多背景的错误激活，如图3-5所示（已将特征图转化为热力图）。其中，iﬀDetector表示加入IFF模块后的目标检测器。稳定性证明4特征图优化效果图3-5定性地验证了IFF模块增强前景、抑制背景的作用。本节还进行了定量实验来验证这一结论。在VOC2007数据集中随机挑选60张图像，获得两组特征图（加入IFF模块前的特征图和加入IFF模块后的特征图）。如图3-6所示，与未加入IFF模块的像素分布相比，IFF模块的加入使更多的背景像素分布在激活程度较低的区域内，而更多的前景像素分布在了激活程度较高的区域内，进一步验证了IFF模块的作用。稳定性证明5IFF模块对检测指标的影响本节选取了多个基线模型，为它们加入IFF模块来测试其性能变化情况。对于YOLOv2[和SSD300，我们将反馈结构中的卷积核（图3-3中的w2）的尺寸设置为1×1，并使用VOC数据集进行训练和测试，结果如表3-2所示。可见，在AP50这一指标上，IFF模块为YOLOv2和SSD300带来了一定提升，分别为1.1%和0.9%。稳定性证明5IFF模块对检测指标的影响对于其他基线模型，将反馈结构中的卷积核的尺寸设置为3×3，并在COCO2017数据集的训练集和验证集上进行训练，在测试集上进行测试，结果如表3-3所示。可见，IFF模块在增加极少参数量的情况下，使各个基线模型的性能均有明显的提高，有力地证明了基于反馈机制的特征优化模块IFF的有效性和泛化性。稳定性证明5IFF模块对检测指标的影响对于其他基线模型，将反馈结构中的卷积核的尺寸设置为3×3，并在COCO2017数据集的训练集和验证集上进行训练，在测试集上进行测试，结果如表3-3所示。可见，IFF模块在增加极少参数量的情况下，使各个基线模型的性能均有明显的提高，有力地证明了基于反馈机制的特征优化模块IFF的有效性和泛化性。03双分辨率骨干网络目标识别方法网络总体结构ConTNet采用串联的方式实现卷积和自注意力机制，即先对一张图像进行几步卷积操作，再进行几步自注意力机制的计算，最后进行卷积操作。这种串联的结构使两者的梯度耦合在一起，会在一定程度上约束各自的作用。CvT则是将自注意力机制中的全局权重图改为通过卷积生成的局部权重图，以此来提取局部信息，并减少计算量。然而这种方法实质上已经丧失了全局注意力的作用。基于此，本节介绍了一种并行的双分辨率网络结构DS-Net（Dual-StreamNetwork），旨在充分利用卷积和自注意力机制的优点，从而提取出更加全面和高质量的图像特征。不同于ConTNet的串联结构，DS-Net对卷积和自注意力机制采用并联方式，以解耦它们的梯度，从而最大化它们各自的优点。因此，DS-Net有两个分支：一个是卷积分支；另一个是自注意力分支，如图3-7所示。网络总体结构图3-7的上半部分是全卷积网络ResNet，只有一条前向传播的路径，下半部分是DSNet，可见有两条前向传播的路径。其中，绿色虚线框是卷积分支，其特征分辨率较大，和ResNet保持一致，浅层网络的特征分辨率最大，并逐渐向深层网络缩小，构成金字塔结构，这是为了在做检测任务时可以适应不同尺度的目标；蓝色虚线框是自注意力分支，其特征分辨率始终保持为原图像下采样32倍的分辨率。自注意力机制维持小分辨率基于两方面考虑：一方面是在高分辨率特征上计算自注意力机制的权重图时，可以发现高激活点十分稀疏，因此采用低分辨率特征仍然可以捕捉到关键信息，并且可以防止其因为图像的细节陷入局部最优，确保其提取物体层面的宏观全局信息；另一方面是因为自注意力机制的计算量是特征图边长的四次方量级，低分辨率的特征可以大大减少该分支的计算量。网络总体结构网络总体结构通过解耦卷积和自注意力分支，可以更好地发挥它们的优势。为更好地完成这一目标，本节设计了DS-Block，其包括尺度内传播模块（Intra-ScalePropagationModule）和尺度间对齐模块（Inter-ScaleAlignmentModule），DS-Block的结构如图3-8所示。尺度内传播模块是卷积和自注意力并行计算的模块，分别捕捉图像的局部特征和全局特征。对于每一个DS-Block，其在通道维度将输入特征图一分为二，上半部分进行卷积计算，下半部分进行自注意力的计算。尺度间对齐模块则引入交叉注意力机制，即分别以局部特征和全局特征为基准，计算另一种特征对该特征的注意力，旨在动态、可学习地将这两种特征合理融合在一起。网络总体结构尺度内传播模块尺度内传播模块实现了卷积和自注意力的并行计算，提取图像的全局特征和局部特征。在卷积分支，为节省计算量和计算时间，采用深度可分离（DepthWise）卷积策略。对于每一个DS-Block，将输入的特征图从通道维度一分为二，上部分特征图记为Fl，下部分特征图经过下采样后记为Fg

。记输入特征图的维度为W×H×3。Ci是输入特征图的通道数。通过对特征图fl进行3×3的深度可分离卷积计算来得到局部特征fL

：尺度内传播模块

尺度内传播模块式中，WQ、WK和WV分别表示自注意力机制中生成Query（查询）、Key（键）和Value（值）的矩阵。通过计算fQ和fV的相似度，可以获得聚合特征时Fg中不同位置的权重，然后根据这些权重对fV进行加权求和，便可得到图像的全局特征：式中，，N为自注意力头的数量。本节在DS-Net的4个阶段中将N分别设置成1、2、5、8。尺度内传播模块解耦了局部特征和全局特征的提取过程，有效降低了训练的模糊性，可以最大程度发挥卷积和自注意力机制各自的特点和优势。尺度间对齐模块得到图像的局部特征和全局特征后，一个重要的问题便是如何将这两部分融合。一个最直接的解决方案便是先将低分辨率的全局特征上采样到和高分辨率的局部特征相同的尺寸，然后按照通道的维度像素对像素地拼接起来。然而，这种做法显然是不能令人满意的，因为局部特征和全局特征在二维空间上并不一定有明显的对应关系，因此这种预先设定的固定拼接方式必然会导致一些像素点出现特征不对齐的情况，从而限制了特征的质量。受到多模态领域的启发，本节采用基于交叉注意力机制的尺度间对齐模块（见图3-8）。局部特征和全局特征可以被看作图像的两种模态信息，这一模块希望通过捕捉两种模态信息中不同特征像素组之间的相互关系，实现两种模态信息间动态的、可学习的双向信息流动。这一模块促使局部特征自适应地探索全局特征中不同位置对自身的作用，实现全局对局部的优化，反之亦然。双分辨率特征金字塔网络DS-FPN由于DS-Block包含尺度内传播模块和尺度间对齐模块，因此其既包含局部特征，又包含全局特征。而从骨干网络输出的特征图的层面来说，全局特征一般被称为上下文特征，起着非常重要的作用，可以借此进行推理。例如，如果一个球的旁边有一个网球拍，那么它大概率是一个网球而不是高尔夫球。对于特征层面探索上下文信息，研究者已经做了很多工作。而DS-Block恰好拥有这两种信息提取能力，因此，可以将DS-Block直接嵌入最经典的特征融合网络FPN，构成DS-FPN，如图

3-9所示。通过将FPN中原本的卷积部分都用DS-Block替代，来为特征融入上下文信息。实验结果01实验硬件平台为了保证和其他模型的公平对比，本节所有实验均使用8块TeslaV100GPU进行训练。本节实验使用了2个数据集，即ImageNet数据集和COCO2017数据集，采用PaddlePaddle（百度飞桨）来实现设计的算法。PaddlePaddle以深度学习的研究和应用为基础，集成深度学习核心训练和推理框架、基础模型库、端到端开发套件、丰富的工具组件，包含计算机视觉和自然语言处理领域多种任务的实现框架。02实验设置所有模型的训练均在8块TeslaV100GPU上进行。本节设置了3种不同规模的DS-Net，分别记为DS-Net-T（Tiny）、DS-Net-S（Small）和DS-Net-B（Big），如表3-5所示。这3种模型分别与ResNet-18、ResNet-50和ResNet-101的参数量相当。所有分类实验均在ImageNet-1k数据集上进行，所有检测和分割实验均在COCO2017数据集上进行。实验结果02实验设置实验结果03消融实验局部特征和全局特征的比例：如3.3.2节所述，在每一个DS-Block中，都会先将其输入的特征图按照通道一分为二，上部分用来提取局部特征，下部分用来提取全局特征。但是，一分为二的比例则是一个可以选择的超参数。设全局特征，即下部分的通道数占总通道数的比例为α，则α等于0意味着只提取局部特征，α等于1意味着只提取全局特征。本节采用DS-Net-T作为实验模型，测试α取不同值时DS-Net-T在ImageNet-1k验证集上的分类准确率，测试结果如表3-6所示。由表3-6可知，当α等于0.5时，DS-Net-T取得了最高的分类准确率。这在一定程度上反映出在提取图像特征过程中，局部特征和全局特征发挥着同等的作用，因此后续实验都将α设置为0.5。实验结果03消融实验实验结果03消融实验DS-Block各模块的作用：如3.3.3节和3.3.4节所述，DS-Block主要包含4个模块，即尺度内传播模块的卷积分支（深度可分离卷积操作）、尺度内传播模块的自注意力分支（自注意力机制）、尺度间对齐模块中从局部到全局的信息流和从全局到局部的信息流。我们逐一去掉这四个模块中的一个，保持其他三个不变。w/ofL表示去掉尺度内传播模块的深度可分离卷积操作，w/ofG表示去掉自注意力机制，w/o

L→G表示去掉尺度间对齐模块中从局部到全局的信息流，w/o

L←G表示去掉尺度间对齐模块中从全局到局部的信息流，w/o

L↔G表示直接去掉尺度间对齐模块。去掉DS-Block各模块后的分类准确率如表3-7所示。实验结果03消融实验其中DS-Net-T*表示包含尺度间对齐模块的DS-Net-T。可见，去掉DS-Block中的任何一个模块都会使分类准确率显著下降，因此，DS-Block中各个模块都是不可或缺的。实验结果04分类实验分类实验数据集为ImageNet-1k，其中包括1.28×106张训练集图像和50×103张验证集图像，物体类别为1000种。为了和其他相关实验公平对比，本节采用与基线模型DeiT相同的设置，即使用AdamW优化器训练300个回合，初始学习率（InitialLearningRate）为0.001，并使用cosine衰减策略。ImageNet1k分类实验结果如表3-8所示。实验结果04分类实验通过可视化DeiT和DS-Net的相关特征图来进一步查看DS-Net的作用，如图3-10所示。图3-10（a）和图3-10（b）分别对应DeiT和DS-Net在自注意力机制中蓝色像素点的全局权重图，可以看出，通过在自注意力分支采用低分辨率，并实现卷积和自注意力机制的信息交互，可使得注意力权重图更加集中在目标物体上，而非集中在各处背景上。图3-10（c）～图3-10（e）则分别对应DeiT、DS-Net中的卷积分支和卷积结合自注意力分支的特征图。可以看出，图3-10（e）最好地捕捉到了鱼的特征，并可以发掘它们相互的耦合关系，进一步验证了DSNet的作用。实验结果05检测分割实验在检测分割实验中，本节选取DS-Net-S*作为骨干网络，为其接上子网络进行实验，在COCO2017数据集的训练集上进行训练，在验证集上进行测试。我们用DS-Net-S*在ImageNet-1k数据集上训练好的权重对其进行初始化。对于检测和分割的基线模型，本实验分别采用具有代表性的检测模型RetinaNet

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

深度学习：智能网络目标识别技术课件 ch03 新型注意力机制深度

文档简介

温馨提示

最新文档

评论

深度学习：智能网络目标识别技术 课件 ch03 新型注意力机制深度

文档简介

温馨提示

最新文档

评论

相关文档

深度学习：智能网络目标识别技术课件 ch03 新型注意力机制深度