CN119445205A 目标检测方法、装置、设备、存储介质和计算机程序产品 (中国移动通信集团浙江有限公司)_第1页
CN119445205A 目标检测方法、装置、设备、存储介质和计算机程序产品 (中国移动通信集团浙江有限公司)_第2页
CN119445205A 目标检测方法、装置、设备、存储介质和计算机程序产品 (中国移动通信集团浙江有限公司)_第3页
CN119445205A 目标检测方法、装置、设备、存储介质和计算机程序产品 (中国移动通信集团浙江有限公司)_第4页
CN119445205A 目标检测方法、装置、设备、存储介质和计算机程序产品 (中国移动通信集团浙江有限公司)_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

司测模型,得到开集目标检测模型输出的检测结意力机制和多层基于类别引导的多头交叉注意2获取待检测文本和待检测图像;所述待检测文本为所述待检测图像的标将所述待检测文本和所述待检测图像输入开集目标检测模型,得到其中,所述开集目标检测模型包括图像信息与文本信息括多层多头自注意力机制MSA和多层基于类别引导的多头交叉注意力机制LG_MCA,所述混所述文本编码模块,用于提取所述待检测文本的文本特征,并将所述所述图像编码模块,用于提取所述待检测图像的图像特征,并将所述所述混合模块,用于对所述第一图像类别特征向量执行MSA操作,并对MS所述颈部处理模块,用于对所述图像特征和所述第一3.根据权利要求2所述的目标检测方法,其特征在于,获取所述第一图像类别特征向若在所述图像类别特征库中检索到所述图像类别,则从所述图4.根据权利要求2所述的目标检测方法,其特征在于,获取所述第一图像类别特征向若在所述图像类别特征库中未检索到所述图像类别,则提取多张提示图从所述图像类别特征库中提取所述图像类别对应的第一图像类别根据所述混合模块,对样本文本的文本特征和所述第二图像类别特征向量进行增强,3根据所述损失函数和梯度反向传播,更新所述混合模块的结构参数,以在所述训练数据集中遍历属于标签类别i的所有标注的边界框区域坐标信息,以生成从所述坐标列表中随机选取K个边界框区域坐标信息,提取K个边界框区重复执行所述训练数据集中类别标签的遍历操作,直至遍历获取模块,用于获取待检测文本和待检测图像;所述待检测检测模块,用于将所述待检测文本和所述待检测图像输入开集目标信息的混合模块,所述混合模块包括多层多头自注意力机制MSA和多层基于类别引导的多8.一种电子设备,包括存储器、处理器及存储程序被处理器执行时实现如权利要求1至6任一项所4获取待检测文本和待检测图像;所述待检测文本为所述待检测图像的标注信息、块包括多层多头自注意力机制MSA和多层基于类别引导的多头交叉注意力机制LG_MCA,所所述颈部处理模块,用于对所述图像特征和所述第一强化文本特征进行特征融5从所述图像类别特征库中提取所述图像类别对应的第一图像类别根据样本图像的类别标签,从所述图像类别特征库中提取第二图像类别特征向在所述训练数据集中遍历属于标签类别i的所有标注的边界框区域坐标信息,以文本信息的混合模块,所述混合模块包括多层多头自注意力机制MSA和多层基于类别引导6机程序被处理器执行时实现如上述任一种所述目模块,混合模块包括多层多头自注意力机制和多层基于类别引导的多头交叉注意力机制,71、图像输入至图像编码器部分,其中,图像编码器可以为SwinTransformer、3、将多尺度图像特征与文本特征一同输入至颈部,以FPN(FeaturePyramidNetworks,特征金字塔网络)为架构典型,融入多种注意力操作,如MSA(Multi_ScaleAttention,多尺度注意力MCA(Multi_ChannelAttention,多维协作注意力MSDA(Multi_ScaleDilationAttention,多尺度空洞注意力细化多尺度图像特征的同时将文本特征带有的语义信息融入图像特征;[0028]Groundingdino的出现将开集目标检测的任务转换成为grounding任务,实现了分取决于预训练数据的种类及规模。目前,开集目标检测模型的预训练数据大致分为:编码器模块与文本编码器模块输出的图像特征与文本特征缓解开集目标检测模型零样本和少样本推理能力易受预训练数据种类及规模的8模块包括多层多头自注意力机制MSA和多层基于类别引导的多头交叉注意力机制LG_MCA,的检测结果。其中,开集目标检测模型引入了即插即用的图像信息一文本信息混合模块类别特征向量经过MSA进行增强,然后与文本特征一同输入至LG_MCA中进行文本特征的增别掩码,使得文本特征Token中的向量仅与图像类别特征向量中的对应类别的特征进行交特征Token中的单一类别特征分别与多个不同类别的图像类别特征向量进行逐一匹配,如9测模型包括图像信息与文本信息的混合模块,混合模块包括多层多头自注意力机制MSA和F_I=ImageEncoder(Image)(1F__T__Inensified=IIFB(F_T,Exra)(3Result=Head[Neck(F_I,F_T_Intensi一般来自于与待检测目标同类型的图像;F_T_Intensified为ITFB结构输出的强化文本特中检索到图像类别,则从图像类别特征库中提取图像类别对应的第一图像类别特征向量。通过颈部处理模块细化多尺度图像特征的同时将文本特征带有的语义信息融入图像特征;处理模块对检测目标进行类别判定,以及对目标的位置信息进行回归输出检测结果化文本特征再与图像编码器提取的图像特征一同送入至颈部处理模块与头部处理模块执[0049]本发明实施例提供的ITFB结构采用了新的注意力机制LG_MCA,控制文本特征并初始化一个空字典作为初始图像类别特征库;在训练数据集中遍历属于标签类别i的所[0054]例如,详细的图像类别特征库构建流程以COCO数据集为例,对应的过程如图8所射区间内的任意一个整数i,在数据集中遍历属于类别Label为i的所有标注的Bbox区域坐本发明实施例的图像特征提取模块采用开集目标检测模型中的图像编码模块叠加一个平特征进行展平拼接,并经过平均池化层进行维度压缩,生成对应的图像类别特征矩阵Mi=不断的往图像类别特征库中添加相应类别的图像类别特征抽取;当该图像数据真实类别小于5类时,按照已有的类别数在图像类别特征库中进行索本特征Token中的向量仅与图像类别特征中的对应类别的特征进行交叉注意力操作,避免类别特征分别与5个不同类别的图像类别特征向量进行逐一匹配,如匹配时对应的类别掩码为1,则用该文本特征中的类别Token与图像类别特征向量中对应的类别向量执行MCA操[0065]本发明实施例的训练方法依托于检测类型数据集进行额外文本增强结构ITFB的别特征与文本特征进行混合增强,使得对应类别的文本特征Token携带对应类别的图像语与文本信息的混合模块,所述混合模块包括多层多头自注意力机制MSA和多层基于类别引测模型包括图像信息与文本信息的混合模块,混合模块包括多层多头自注意力机制MSA和为初始图像类别特征库;在所述训练数据集中遍历属于标签类别i的所有标注的边界框区个边界框区域坐标信息所在区域的图像类别特征,以生成所述标签类别i的图像类别特征所述训练数据集中类别标签的遍历操作,直至遍历完所述训练数据集中所有的类别标签,像信息与文本信息的混合模块,所述混合模块包括多层多头自注意力机制MSA和多层基于发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以块,所述混合模块包括多层多头自注意力机制MSA和多层基于类别引导的多头交叉注意力息和描述信息中的至少一种;将所述待检测文本和所述待检测图像输入开集目标检测模息与文本信息的混合模块,所述混合模块包括多层多头自注意力机制MSA和多层基于类别以是或者也可以不是物理上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论