CN111860249B 一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法 (上海蠡图信息科技有限公司)_第1页
CN111860249B 一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法 (上海蠡图信息科技有限公司)_第2页
CN111860249B 一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法 (上海蠡图信息科技有限公司)_第3页
CN111860249B 一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法 (上海蠡图信息科技有限公司)_第4页
CN111860249B 一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法 (上海蠡图信息科技有限公司)_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(10)授权公告号CN111860249B(65)同一申请的已公布的文献号(43)申请公布日2020.10.30(73)专利权人上海蠡图信息科技有限公司(74)专利代理机构南京禹为知识产权代理事务GO6V20/40(2022.01)一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法本发明公开了一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,包括以下步骤,利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示;定义多层聚合模块,选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息,用以辅助浅层特征跟踪目标;在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪声;在所述孪生主干网络的顶层卷积特征处添加头注意模块,增强顶层特征的语义表示提高对目标的识别能力;构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪。本21.一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:包括以下步骤,定义多层聚合模块,选择地集成高层语义特征在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪在所述孪生主干网络的顶层卷积特征处添加头注意模块,增强构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪;将三层特征级联在一起,并将级联后的特征进行卷积运算生成聚合的多层聚合特征F=conv(concat(F₂1,F′z₂,F′z3),所述F充分编码来自浅层的低级细节信息和深层的高级将此输入特征输入到3个具有相同结构的卷积层中得到3个新的特征,分别为F₄、Fk和定义F₃;表示用来测量位置i处特征相对位置j处特征的影响,且两者之间的联系越紧3进行元素求和运算得到最终输出:其中λ。与空间注意中的类似,初始化为0并逐步学习,用以控制输入特征F的通道重要在所述空间注意机制和所述通道注意机制后,包括以下步骤,新生成的两个注意特征执行逐元素操作得到了空间通道注意特征Fsca;提出的所述多层次聚合和注意孪生网络的跟踪框架SiamMLAA中F即为F₂3,与浅层相似度计算类似,深层特征相似度计算可表示为:f3(z,x)=Corr(F₂s3a,Fx3),其中输入到所述头注意模块得到的空间通道注意特征。2.如权利要求1所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:所述孪生主干网络包括以下构建步骤,采用改进的ResNet22;将所述孪生主干网络分为3个阶段,其包括步长为8的22个卷积层;当所述卷积层使用填充后利用裁剪操作消除受到补零影响的特征计算,并保持内部块结构不变;在网络的前2个阶段中遵循原始的ResNet执行特征下采样;在第3阶段,由步长为2的最大池化来代替卷积层执行下采样,该层位于本阶段的第一3.如权利要求1或2所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:所述孪生主干网络包括两个相同的分支,所述示例分支接收示例样本的输入;所述搜索分支接收搜索样本的输入;两个分支在卷积神经网络中共享参数,以确保相同的转换用于这两个样本;使用ResNet22网络第3个阶段的最后3个块,即layer2-2、layer2-3和layer2-4的输出特征。4.如权利要求3所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:所述多层聚合模块后加入自细化模块包括,将所述多层聚合特征的表示与浅层特征F₂₁结合起来,输入到自细化模块中,生成如下细化特征:F₂1=SrM(conv([F₂1,FM])),其中SrM(·)表示自细化模块;将所述细化特征与搜索样本对应的浅层特征Fx₁来计算匹配相似度;5.如权利要求4任一所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其以特征F₂₁和F的聚合特征F₂作为输入,将所述自细化模块分为两个部分;在第一部分中,按输入特征的通道方向采用全局平均池化来压缩特征空间依赖,接着使用1×1的卷积conv₁x₁和Sigmoid函数o来生成通道掩码u∈R×¹×¹,最后将其与输入特征相4其中GAP是全局平均池化、⊗表示按元素方向乘法、F′表示所述第一部分的输出特征。6.如权利要求5所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法,其特征在于:所述自细化模块包括,在第二部分中,以所述第一部分的输出为输入;采用3×3卷积conv3×3将输入特征进行压缩,再使用Sigmoid函数σ进行归一化操作生成F"=F'⊗m,5技术领域[0001]本发明涉及视觉目标跟踪的技术领域,尤其涉及一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法。背景技术[0002]视觉目标跟踪是指在不断变化的视频序列中自动定位指定的目标,它是计算机视觉领域中最基本的研究问题之一,并且在视觉监控、人机交互和视频编辑等方面有着广泛的需求,目标跟踪的核心问题是如何在具有遮挡、视野外、变形和背景杂波变化等具有挑战性的场景中准确、有效地检测和定位目标。[0003]近些年基于孪生(Siamese)网络的跟踪器通过将跟踪问题转化为相似度学习问题的策略,在速度和鲁棒性方面显示出了巨大的视觉跟踪潜力,在网络离线训练阶段,它们使用卷积神经网络充当主干网络在外部海量视频数据集ILSVRC2015上学习用于分类或回归的特征,与手工特征不同的是,这些主干网络不仅能够生成组织良好的特征表示,而且它们还具有跨数据集的泛化能力。所以跟踪器只需离线训练,并且在跟踪过程中不需对网络进行任何在线微调就可以确保健壮的跟踪,这是十分让人感到高兴的。但是尽管基于孪生网络跟踪器的设计是令人信服,但它们仍然不可避免地具有一些局限性,大多数跟踪方法只是使用了深层特征,而通常该特征表示具有较低的分辨率,这会导致丢失一些目标特定的细节和局部结构信息,所以这些跟踪器往往会因为对细节的不太敏感,很难区分具有相同属性或语义的两个目标。发明内容[0004]本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。[0006]因此,本发明解决的技术问题是:提出一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,解决在孪生跟踪框架中引入位置偏差,使得目标和搜索样本的匹配相似度下降,进而导致跟踪性能降低的问题。[0007]为解决上述技术问题,本发明提供如下技术方案:一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,包括以下步骤,利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示;定义多层聚合模块,选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息,用以辅助浅层特征跟踪目标;在所述多层聚合模块后加入自细化模块抑制多层聚合产生的噪声;在所述孪生主干网络的顶层卷积特征处添加头注意模块,增强顶层特征的语义表示提高对目标的识别能力;构建多层次聚合和注意孪生网络跟踪器用于视觉目标跟踪。[0008]作为本发明所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种6优选方案,其中:所述孪生主干网络包括以下构建步骤,采用改进的ResNet22;将所述孪生主干网络分为3个阶段,其包括步长为8的22个卷积层;当所述卷积层使用填充后利用裁剪操作消除受到补零影响的特征计算,并保持内部块结构不变;在网络的前2个阶段中遵循原始的ResNet执行特征下采样;在第3阶段,由步长为2的最大池化来代替卷积层执行下采样,[0009]作为本发明所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述孪生主干网络包括两个相同的分支,分别为示例分支和搜索分支;其中所述示例分支接收示例样本的输入;所述搜索分支接收搜索样本的输入;两个分支在卷积神经网络中共享参数,以确保相同的转换用于这两个样本;使用ResNet22网络第3个阶段的最后3个块,即layer2-2、layer2-3和layer2-4的输出特[0010]作为本发明所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述多层聚合模块包括以下步骤,提取示例样本在所述孪生主干网络上生成分别为Fz₁、F₂2和F₂₃三层特征的表示;采用反卷积的方式将最后2层特征采样到相同的分辨率为F′₂2及F′z₃;将三层特征级联在一起,并将级联后的特征进行卷积运算生成聚合的多层聚合特征FM=conv(concat(F₂1,F′₂2,F′z₃)),所述F充分编码来自浅层的低级细节信息和深层的高级语义信息。[0011]作为本发明所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述多层聚合模块后加入自细化模块包括,将所述多层聚合特征的表示与浅层特征F₂₁结合起来,输入到自细化模块中,生成如下细化特征:F₂1=SrM(conv([F21,Fm])),其中SrM(·)表示自细化模块;将所述细化特征与搜索样本对应的浅层特征F×1来计算匹配[0012]作为本发明所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种优选方案,其中:所述自细化模块包括,以特征F₂₁和F的聚合特征F₂₁作为输入,将所述自细化模块分为两个部分;在第一部分中,按输入特征的通道方向采用全局平均池化来压缩特征空间依赖,接着使用1×1的卷积convx1和Sigmoid函数o来生成通道掩码u∈R×¹×1,最后将其与输入特征相乘,具体过程描述为:[0015]其中GAP是全局平均池化、⊗表示按元素方向乘法、F'表示所述第一部分的输出特[0016]作为本发明所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种3×3卷积conv₃×3将输入特征进行压缩,再使用Sigmoid函数σ进行归一化操作生成空间掩码[0019]其中F"是最后的细化特征。7[0020]作为本发明所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种[0022]定义Fsj表示用来测量位置i处特征相对位置j处[0025]作为本发明所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种[0030]作为本发明所述的基于多层次聚合和注意孪生网络的视觉目标跟踪方法的一种个注意特征执行逐元素操作得到了空间通道注意特征Fsca;提出的所述多层次聚合和注意8附图说明[0034]为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它[0035]图1为本发明所述多层次聚合和注意孪生网络的整体框架示意图;[0036]图2为本发明所述基于多层次聚合和注意孪生网络的视觉目标跟踪方法的整体流程示意图;[0037]图3为本发明所述多层聚合模块的结构示意图;[0038]图4为本发明所述自细化模块的结构示意图;[0039]图5为本发明所述头部注意模块的结构示意图;[0040]图6为本发明所述OTB2013上的成功图和精度图的示意图;[0041]图7为本发明所述OTB2015上的成功图和精度图的示意图;[0042]图8为本发明所述消融实验在OTB2013上的成功图和精度图的示意图;[0043]图9为本发明所述消融实验在OTB2015上的成功图和精度图。具体实施方式[0044]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。[0045]在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。[0047]本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此为指示或暗示相对重要性。也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。9[0051]参照图1的示意,示意为本实施例提出多层次聚合和注意孪生网络的整体框架示意图。现有的跟踪器大多依赖于孪生主干网络最后一层输出特征来对目标进行跟踪,往往忽略不同层次特征的特点。因此本实施例提出了一种新的网络,称为孪生多层次聚合和注意网络(SiamMLAA),其中包括了头部注意(HA)模块、多层聚合(MLA)模块和自细化(SR)模块。简单过程为可描述为头部注意模块添加到主干网络的顶层卷积层用来改善特征表示,并通过利用空间和通道注意来建模顶层特征更广泛和更丰富的上下文;此外多层聚合模块可以有效地集成低层空间特征和高层语义特征,用以辅助浅层特征去计算匹配相似度,之后的自细化模块更是进一步的细化和增强输入特征。[0052]本实施例提出的基于多层次聚合和注意的孪生网络跟踪模型SiamMLAA,该SiamMLAA包括孪生主干网络和三个额外的模块,分别为多层聚合模块、自细化模块和头部注意模块。[0053]由于注意到卷积神经网络(convolutionneuralnetwork,CNN)的深层特征表示语义层次高,可以有效地区分不同类别的目标;而浅层特征表示分辨率高,并可以捕获丰富的结构细节信息。这对于精确定位是非常有用的,而且也能够很好的处理同一类别具有相同语义的不同目标。所以本实施例设计了多层聚合模块,有选择地集成高层语义特征和低层细节特征来学习多层特征之间的互补信息,然后去辅助浅层特征跟踪目标。与此同时,为抑制多层融合产生的噪声,在多层聚合模块之后引入了自细化模块.最后在主干网络的顶层还添加一个头注意模块,以建模深层特征更广泛和更丰富的上下文,增强特定语义的特征表示,对目标外观的变化具有更强的鲁棒性。[0054]因此本实施例简单过程为:首先提出一种多层次聚合和注意的孪生网络跟踪模型以多层次计算目标相似度来实现目标跟踪,该模型包括多层聚合模块、自细化模块和头注意模块;其次,多层聚合模块将低层细节信息和高层语义信息有选择地集成在一起,以辅助计算浅层目标相似度,另外还引入自细化模块抑制融合产生的噪声;在顶层卷积特征处添加注意模块捕来增强顶层特征的语义表示,以提高对目标的识别能力。[0055]参照图2的示意,示意为本实施例基于多层次聚合和注意孪生网络的视觉目标跟踪方法的整体流程示意图。来自卷积神经网络的浅层特征分辨率高,可以捕获丰富的细节信息,而深层特征分辨率低,语义层次高;高级语义特征能有效识别不同类别的目标,并对目标的外观变化有较强鲁棒性,而丰富的空间细节能够准确定位目标,避免相似物体混淆;所以为了充分利用多层特征的不同特点,使得跟踪变得更加鲁棒和准确,提出基于多层融合和注意的孪生网络跟踪框架。[0056]在本实施例中,将更加详细介绍提出的跟踪框架SiamMLAA,其中孪生主干网络用来负责提取示例样本和搜索样本的多层特征表示;多层聚合模块充分利用主干网络生成的多层特征的互补信息,以用来辅助浅层特征计算相似度;而头注意模块则是用来增强顶层特征的语义表示。[0057]更加具体的,一种基于多层次聚合和注意孪生网络的视觉目标跟踪方法,包括以[0058]S1:利用孪生主干网络负责提取示例样本和搜索样本的多层特征表示。[0059]本步骤中需要说明是:强大的特征表示对于精确和健壮的视觉目标跟踪至关重要,而且近些年的深度神经网络已被证明在基于孪生网络的跟踪器中是有效的,所以可以在基于孪生网络的跟踪器中使用它们,例如VGGNet、ResNet和MobileNet等,然而值得一提的是,基于孪生网络的跟踪器都是基于全卷积性质的,只适用于所使用的主干网络没有填充操作的情况,虽然原始的ResNet可以学习到非常强大的特征表示,但是网络中使用了填充操作,会在孪生跟踪框架中引入位置偏差,使得目标和搜索样本的匹配相似度下降,进而导致跟踪性能降低。[0060]因此为了解决上述问题,在跟踪器中的网络中,采用改进的ResNet22作为孪生主[0061]将孪生主干网络分为3个阶段,其包括步长为8的22个卷积层;[0062]当卷积层使用填充后利用裁剪操作消除受到补零影响的特征计算,并保持内部块结构不变;[0063]在网络的前2个阶段中遵循原始的ResNet执行特征下采样;[0064]在第3阶段,由步长为2的最大池化来代替卷积层执行下采样,该层位于本阶段的第一个块中,即layer2-1(该层位于此阶段总共有4个块,分别为layer2-1、layer2-2、layer2-3和layer2-4)。[0065]可选的,本步骤中孪生主干网络包括两个相同的分支,分别为示例分支和搜索分支;其中示例分支接收示例样本的输入、搜索分支接收搜索样本的输入;两个分支在卷积神经网络中共享参数,以确保相同的转换用于这两个样本;为了计算多层特征的匹配相似度,使用ResNet22网络第3个阶段的最后3个块,即layer2-2、layer2-3和layer2-4的输出特征。[0066]S2:定义多层聚合模块,选择地集成高层语义特征和低层细节特征来学习多层特征间的互补信息,用以辅助浅层特征跟踪目标。[0067]需要说明的是:注意到多层相似度可以提高孪生网络的识别能力,所以与现有的基于最后一层特征计算相似度的孪生网络不同,从多个层次来计算目标相似度,用来提高跟踪器的鲁棒性,然而独立地处理每一层特征,即直接使用浅层和高层特征来进行目标跟踪,往往是不够那么有效的。因此本步骤考虑到了不同层次特征之间的内在联系,提出了多层聚合模块,将多层特征融合在一起,去辅助浅层特征学习更多具有判别性的目标特征来计算相似度,参照图3所示(多层聚合模块的说明),这对于准确和健壮的视觉目标跟踪是非常有效的。具体多层聚合模块包括以下步骤,[0068]提取示例样本在孪生主干网络上生成分别为F₂1、F₂2和F₂3三层特征的表示;由于上述三个层次的特征具有不同的空间大小,故采用反卷积的方式将最后2层特征采样到相同的分辨率为F′₂2及F′z3;[0069]将三层特征级联在一起,并将级联后的特征进行卷积运算生成聚合的多层聚合特征F=conv(concat(F₂1,F′z₂,F′z3)),F充分编码来自浅层的低级细节信息和深层的高级语义信息。[0070]进一步的,本步骤中多层聚合模块后加入自细化模块包括:[0071]将多层聚合特征的表示与浅层特征F₂₁结合起来,输入到自细化模块中,生成如下细化特征:F₂1=SrM(conv([F₂1,FM]),其中SrM(·)表示自细化模块;[0072]当将F多层融合特征与浅层特征F₂₁结合在一起并输入到自细化模块时,F中的浅层高层互补信息可以很好的辅助F₂获得强大的特征表示,将细化特征与搜索样本对应的浅11层特征F₁来计算匹配相似度,这对于最后的跟踪性能是十分有帮助的,相似度计算可表示[0073]S3:在多层聚合模块后加入自细化模块抑制多层聚合产生的噪声。[0074]在多层聚合模块中,将不同层次特征之间的互补信息结合起来,得到了综合的特不可避免地会带来一些噪声,影响最后的跟踪效果,因此开发了一个自细化模块。进一步细化和增强融合后的特征表示。[0075]具体的参照图4的示意,示意为本实施例中自细化模块的整体结构。[0076]本步骤中自细化模块包括,[0077]以特征F₂1和F的聚合特征F₂₁作为输入,将自细化模块分为两个部分;[0078]在第一部分中,按输入特征的通道方向采用全局平均池化来压缩特征空间依赖,接着使用1×1的卷积convx₁和Sigmoid函数来生成通道掩码u∈R×¹×1,最后将其与输入特[0081]其中GAP是全局平均池化、⊗表示按元素方向乘法、F[0084]采用3×3卷积conv3×3将输入特征进行压缩,再使用Sigmoid函数σ进行归一化操作生成空间掩码m∈R××¹,最后与输入特征相乘,计算过程表示为:[0087]其中F”是最后的细化特征。[0088]S4:在孪生主干网络的顶层卷积特征处添加头注意模块,增强顶层特征的语义表示提高对目标的识别能力。[0089]参照图5的示意,示意为头部注意模块的结构示意图,正如上述,浅层特征包含目标的空间结构信息,能够很好的定位目标,但网络的区分能力主要来自于深层特征的语义信息,因此获得强大的语义特征就是尤为重要的。为此在孪生主干网络的最后一层卷积上加入了一个注意模块,通过空间和通道自注意机制来一起强调与目标语义描述更相关的区[0090]本步骤中部注意模块包括空间注意机制和通道注意机制,其中空间注意机制包维度;和F,都属于R×W×;[0094]之后在F。和F的转置之间进行矩阵乘法,并应用Softmax运算生成空间注意映射:[0096]定义Fsj;表示用来测量位置i处特征相对位置j处特征的影响,且两者之间的联系[0097]将F重构成R×,并和F进行矩阵乘法得到结果为F,将FF[0107]其中λ与空间注意中的类似,初始化为0并逐步学[0111]提出的多层次聚合和注意孪生网络的跟踪框架SiamMLAA中F即为F₂3,与浅层相似[0113]其中为F₂₃输入到头部注意模块得到的空间通道注意特征。[0116]为验证上述实施例提出基于多层次聚合和注意孪生网络的视觉目标跟踪方法的准数据集上的实验结果表明,本方法在各个评估标准上都优于基线跟踪器,并在现有的跟踪方法中也有较高的竞争力,故提出的网络SiamMLAA在各个方面都取得了十分良好的性[0117]具体的,提出的网络框架在PyTorch上实现的在RTX2080Ti上使用用4块GPU训练。[0118]训练过程为:分别使用在ILSVRC分类数据集上预训练的ResNet22模型和随机噪声对主干网络和其余部分进行初始化,并在目标跟踪数据集GOT10K上离线训练。该数据集包含10000多个真实世界中移动目标的视频片段,分成560多个类别,目标的边界框全部都是手动标记完成,总计超过150万个。对训练集预处理,将图像划分为示寸大小分别为127×127和255×255像素,并采用动量为0.9、权值衰减为0.0005的随机梯度下降法(stochasticgradientdescent,SGD)来对整个框架进行训练。将学习率设为0.01,在100次迭代周期后以指数衰减到0.00001,整个过程是在四块GPU上训练,最小批处理大小为[0119]测试过程为:在测试过程中,对于每张输入图像,如果是初始帧,则以给定的第一帧标签将其裁剪调整到127×127大小,作为示例样本输入网络;如果是后续帧,则以前一帧跟踪的位置为中心裁剪调整到255×255空间大小,作为搜索样本输入到网络中。在分别得到最后的特征图后,通过相关运算来求取两者之间的相似度,生成17×17的相似图,然后使用双三次插值对相似图进行上采样以得到更准确的定位。表1:在5个跟踪基准上的性能比较。AUC个AUC个个↑18将该方法的结果与一些先进方法在五个公共的跟踪基准上进行评估,其中包括果,或者使用公开代码来重新训练并调整训练参数来获得其最佳的跟踪结果,来与本发明[0123]在OTB基准上评估:分别在包含了51个、50个以及100个完全注释的视频序列的公共跟踪基准数据集0TB2013、0TB50和OTB2015上进行了评估实验,采用一次性通过评估(one-passevaluation,OPE)的成功率图(Successplot)和精度图(Precisionplot)来比较不同的跟踪器,如图6和图7,可以从中直观的看出跟踪器SiamMLAA在0TB2013和OTB2015上的实验结果。其中在图6和图7中a为成功图的示意,b为精度图的示意。[0124]此外,还将SiamMLAA跟踪器与同样基于孪生网络的跟踪器进行比较,具体评估结果见表1。实验表明SiamMLAA在0TB三个基准数据集上的性能都是最好的,其成功图的曲线下方面积(areaunderthecurve,AUC)分别达到了0.705/0.648/0.674.与基线跟踪器相比,得到了4.1%/-/2.2%的改善,这显示了本方法的优越性。最后将跟踪器SiamMLAA和一些非实时的先进跟踪方法进行评估,其中包括CCOT和ECO等,均参照表1结果显示,本发明SiamMLAA可以在运行速度与跟踪性能两个方面取得良好的平衡。[0125]本实施例还在VOT基准上评估:VOT挑战是视觉跟踪领域最重要的年度比赛,其中VOT2016和VOT2017这两个数据集都是由60个视频序列组成,旨在评估跟踪器的短期跟踪性[0126]利用它们来测试所提出的跟踪方法SiamMLAA,在实验中使用和期望平均重叠(expectedaverageoverlap,EAO)指标来评估跟踪算法的整体性能,并同时考虑了准确性和鲁棒性,分别在VOT2016和VOT2017基准数据集上评估了跟踪器SiamMLAA,并与一些其他跟外,还包括一些同样基于孪生网络的跟踪方法(如C-RPN和TADT等),不同跟踪器的各个指标具体实验结果还如表1所示。SiamMLAA在VOT2016/2017上的EA0分数分别达到了0.387/0.298,相比于基线SiamDW本发明获得了5.2%和3.2%的绝对增益,这说明本发明的跟踪方法相对于其他跟踪器还是具有很强的竞争力。[0128]为验证所提出跟踪器中设计的各个关键模块的有效性,在本实施例中还进行了消从图8和图9可直观发现,其中在图8和图9中a为成功图的示意,b为精度图的示意。包含所有模块(即多层聚合MLA模块、自细化SR模块和头注意HA模块)的跟踪器在精度和成功率两方面取得了几乎最好的跟踪性能,这证明了本发明所提出跟踪器中的每个模块都是必要的,对最后的跟踪性能都起着十分明显的改善作用。[0129]表2:在OTB数据集上不同成分组合的消融研究。√√√√√√√√√√√√[0131]在实验中我们将SiamDW作为基线跟踪器,然后分别添加每个模块,来说明每个模块对跟踪性能的影响,从表2中可以详细看出,添加多层聚合模块后,0TB2013/50/2015三个数据集上的AUC得分从基线跟踪器的0.663/-/0.652大幅度提高到0.682/0.623/0.667。当独在顶层特征增加了头注意模块,AUC得分与基线相比也分别达到了0.677/0.620/0.656,这两个模块的组合对跟踪结果有着更显著的改善,最后将自细化模块也添加到跟踪器中并获得了本发明所需要的最佳结果。[0132]在本实施例中,通过提出了多层融合与注意的孪生跟踪网络(SiamMLAA)来实现视觉目标跟踪任务。考虑到不同层次特征的不同特点,设计了一个简单而有效的多层聚合模块来充分集成不同层次的特征,之后我们使用聚合的特征去辅助浅层特征,并引入自细化模块以抑制噪声细化特征,以便更好的进行匹配相似度计算。此外我们还在孪生主干网络顶层添加了通道与空间注意机制,用来增强深层特征的语义信息,在5个公共的跟踪基准数据集上的实验结果表明,该网络的性能是十分良好的。[0133]应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。[0134]此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。[013

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论