CN113902926B 一种基于自注意力机制的通用图像目标检测方法和装置（之江实验室）

上传人：1*** IP属地：山西上传时间：2026-06-30 格式：DOCX 页数：33 大小：1.24MB 积分：9.6 举报 版权申诉

CN113902926B 一种基于自注意力机制的通用图像目标检测方法和装置（之江实验室）_第2页

CN113902926B 一种基于自注意力机制的通用图像目标检测方法和装置（之江实验室）_第3页

CN113902926B 一种基于自注意力机制的通用图像目标检测方法和装置（之江实验室）_第4页

CN113902926B 一种基于自注意力机制的通用图像目标检测方法和装置（之江实验室）_第5页

已阅读5页，还剩28页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一种基于自注意力机制的通用图像目标检本发明公开一种基于自注意力机制的通用依次通过多头十字交叉注意力模块和多方向交和回归层得到目标图像物体边界框和物体类别2其中，所述十字交叉注意力层首先通过该层输入的所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重Â和对应的解码器值向量，然后通过所述Â和求出该层融合后的增强目标i-1层多头十字交叉注意力层输出的维度为C×W×H的增强特征fi-1按照第1个维度等分为M3叉注意力层输入的目标查询向量；将第L层多方向交叉注意力层输出的目标查询向量qL作字交叉注意力层输出的第m组的子图像特征的用双线性插值均匀采样K个点，得到维度为(N×K)×M×(C/M)的第i层第m组采样视觉特征4向量；通过改变维度的方式将所述qi-1变成维度为N×M×(C/M)的第i层第m组目标查询其维度为N×M×(N×K)；经过第i层解码器前馈网络和第i层解码器层归一化，得到第i层多方向交叉注意力层输出5cls表示分类损失函数，计算预测边界框类别概率和真实边界框类别的焦点损LZ表示预测边界框位置和真实边界框位置的L1损失，Lgiou表示预测边界框位置和真实最后使用反向传播方法对整个模型进行训练，当6.一种基于自注意力机制的通用图像目标实现权利要求1-5中任一项所述的基于自6attentionmechanism）使得Transformer架构在不同任务上取得了不错的效果。2020年，Facebook提出DETR模型首次将Transformer架构应用于目标检测领域。它针对基于卷积神7[0012]所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重Â和对应的解码器值向量，然后通过所述Â和求出该层融合后的增强第i-1层多头十字交叉注意力层输出的维度为C×W×H的增强特征fi-1按照第1个维度等分8[0028]将所有位置拼接后经过第i层1×1编码器融合卷积Wi，从而得到第i层初步增层，1≤i≤L,i∈Z，将第i-1层多方向交叉注意力层输出的目标查询向量qi-1作为第i层多方向交叉注意力层输入的目标查询向量；将第L层多方向交叉注意力层输出的目标查询向头十字交叉注意力层输出的第m组的子图像特征的维度上使用双线性插值均匀采样K个点，得到维度为NK×M×(C/M)的第i层第m组采样视觉特征向量；通过改变维度的方式将所述qi-1变成维度为N×M×(C/M)的第i层第m组目标查询[0039]将所有维度j,在第2个维度进行拼接，成为第i层第m组解码器未归一化注意力权9方向交叉注意力模块更好地聚集了第L层多头十字交叉注意力层输出的增强特征fL中局部[0064]ResNet50，ResNet50-DC5：ResNet是残差神经网络，由2015年提出并获得同年[0067]请参阅图1，本发明实施例提供的基于自注意力机制的通用图像目标检测方法包[0077]然后采用下列公式得到该层初编码器层归一化（LayerNormalization得到该层多头十字交叉注意力层输出的增强特第i-1层多头十字交叉注意力层输出的维度为C×H×W的增强特征fi-1按照第1个维度等分[0084]（2）将所述分别经过第i层第m组1×1编码器查询向量卷积和第i层第m组[0094]将所有位置拼接后经过第i层1×1编码器融合卷积Wi，从而得到第i层初步增[0098]本发明该部分是针对DETR在解码器中将全局信息作为序列进行处理的操作进行[0099]所述多方向交叉注意力模块请参阅图2和3，该模块包括L个多方向交叉注意力层[0101]首先，由下述公式计算得到该层第m组第2维度第j个解码器归一化后的注意力权[0104]然后采用下列公式得到该层融合后的增强1≤i≤L,i∈Z，将第i-1层多方向交叉注意力层输出的目标查询向量qi-1作为第i层多方向交叉注意力层输入的目标查询向量；将第L层多方向交叉注意力层输出的目标查询向量qL十字交叉注意力层输出的第m组的子图像特征的维度使用双线性插值均匀采样K个点，得到维度为NK×M×(C/M)的第i层第m组采样视觉特征向量；通过改变维度的方式将所述qi-1变成维度为N×M×(C/M)的第i层第m组目标查询特。[0116]将所有维度j,在第2个维度进行拼接，成为第i层第m组解码器未归一化注意力权后经过第i层解码器前馈网络和第i层解码器层归一化，得到第i层多方向交叉注意力层输全连接网络组成的分类层和回归层输出训练集图像的预测边界框类别概率和位置。其中，解码器输出增强目标查询向量即所述第L层多方向交叉注意力层输出供了基于自注意力机制的通用图像目标检测装[0136]本发明基于自注意力制的通用图像目标检测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或置。将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明基于自注意力机制的通用图像目标检测装置所在任意具备数据处理[0137]上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的[0140]

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113902926B 一种基于自注意力机制的通用图像目标检测方法和装置（之江实验室）

文档简介

温馨提示

最新文档

评论

CN113902926B 一种基于自注意力机制的通 用图像目标检测方法和装置 （之江实验室）

文档简介

温馨提示

最新文档

评论

相关文档

CN113902926B 一种基于自注意力机制的通用图像目标检测方法和装置（之江实验室）