【《时空多尺度特征融合网络(MSTN)行人再识别技术设计案例分析》4400字(论文)】_第1页
【《时空多尺度特征融合网络(MSTN)行人再识别技术设计案例分析》4400字(论文)】_第2页
【《时空多尺度特征融合网络(MSTN)行人再识别技术设计案例分析》4400字(论文)】_第3页
【《时空多尺度特征融合网络(MSTN)行人再识别技术设计案例分析》4400字(论文)】_第4页
【《时空多尺度特征融合网络(MSTN)行人再识别技术设计案例分析》4400字(论文)】_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

时空多尺度特征融合网络(MSTN)行人再识别技术设计案例分析目录TOC\o"1-3"\h\u2703时空多尺度特征融合网络(MSTN)行人再识别技术设计案例分析 1222961.1MSTN网络结构 2223701.1.1全局特征(GlobalFeature)结构模块 3182421.1.2局部特征(BranchFeature)结构模块 4322811.1.3细粒度特征(ParticialFeature)结构模块 5317811.1.4注意力(Attention)模块 6144581.1.5时空特征流(Spatial-TemporalStream)模块 8177891.1.6联合度量(JointMetric)模块 9266591.2损失函数设计 11133311.2.1IDLoss与LabelSmooth 11168441.2.2TripletLoss三元组损失 11行人再识别技术在身份鉴别上的性能,很大程度上依赖于采取的识别方式与网络结构。传统基于部分的识别方法,主要集中在定位具有特定预定义语义的区域来学习局部表示,不仅增加了训练成本,还对具有较大方差的场景不具有泛化性与高效性。本文通过融合不同尺度判别信息,提出视觉特征结合时空信息双流学习策略,为提高行人再识别技术性能提供行而有效的方法。1.1MSTN网络结构图1.1时空多尺度特征融合网络结构细粒度特征提取。通过将特征图像均匀地分割成若干条带,并分别对粒度分支进行Pointwise卷积,从而获得具有多个粒度的局部特征表示。随着分割数目的增加,每个部分条带中集中了更加精细的判别信息,过滤其他条带上的信息。局部特征提取。经过全局最大池化将特征图二分,由于深度学习机制可以从整个图像中获取主体上的近似响应偏好,因此也可以从较小的局部区域中提取出较细粒度的局部特征显著性,通过特征图结构分割分别关注行人上下部分的细节信息。全局特征提取。在多分支的深层网络结构中,选取分支保留整体特征图用于全局特征表示。全局特征负责整体宏观上的公共特征提取,关注图像整体结构特征,获取最粗粒度的特征信息。视觉特征集成。整合细粒度特征、局部特征、全局特征,融合多尺度特征进行度量学习和表征学习。在整体框架识别的基础上,保留多尺度特征信息,增强身份鉴别的准确性,能够有丰富的信息和细节去表征输入图片的完整情况。时空特征提取。通过数据集图片时间戳与摄像机ID,建立基于底库图片的摄像机时空分布描述,通过利用行人时空分布约束,消除大量不相关的图像信息,缓解视觉特征外貌模糊以及部分遮挡问题。特征联合度量。结合视觉特征流以及时空流行人约束,建立跨模态统一联合量度,计算目标图像与底库数据的特征距离,得到目标特征距离排序RankingList。1.1.1全局特征(GlobalFeature)结构模块全局特征模块关注于行人整体特征,能够有效地作为其他特征尺度的对照基准,缓解局部分块可能造成的特征不对齐问题。图1.2BNNeck网络结构因此在MSTN网络中,本设计在批归一化瓶颈(BatchNormalizationNeck,BNNeck)REF_Ref24276\r\h[28]的研究基础上引入注意力模块,通过Attention机制强调全局特征中行人特征部分,达到近似前景提取的逻辑过程,但在结构设计上端对端的网络比前景提取算法效率更高,参数计算更少。其次移除了BNNeck中的Inferencestage以及全局平均池化(GlobalAveragePooling)层后的三元组损失(TripletLoss)REF_Ref24380\r\h[29]处理。TripletLoss在单一以全局特征为特征计算的网络结构,如BNNeck中具有性能优势,但对于多尺度特征融合的网络设计,过早在全连接层之前使用三元组损失会影响样本在损失空间的特征分布,导致模型精度下降。图1.3不同损失空间的样本分布通过图1.3样本在不同损失空间中的二维分布,可以得到不同损失之间的叠加使用未必能达到更优的分类效果。三元组损失和ID损失的叠加虽然能够因为三元组损失的性能整体有所提升,但显然不是最优的结果。加入批归一化层后缩紧了样本类内间距,同时优化类间距离,能够有效反映在模型准确率提升上。1.1.2局部特征(BranchFeature)结构模块经过Backbone网络输出的特征图,局部特征分支我们首先采取最大池化的方式对数据进行下采样,减少特征图面积达到降低参数的目的。与平均池化提取特征平均信息相比,最大池化更多是做了特征选择,选出了分类辨识度更好的特征,更多保留了纹理信息,这在本文局部特征提取任务上更具有适用性。图1.4最大池化与平均池化计算过程最大池化层中设置长方形卷积核便于进行局部特征二分离,其中卷积层计算方式见式1.1,得到输出特征矩阵为。(1.1)特征分块后分别进行1x1大小的Pointwise卷积进行通道压缩,减少最后全连接层的输入通道,有效减少全连接训练参数。1.1.3细粒度特征(ParticialFeature)结构模块细粒度特征结构模块中引入孙奕帆等人REF_Ref19005\r\h[5]提出的PCB(Part-basedConvolutionalBaseline)+RPP(refinedpartpooling)模型结构。虽然RPP策略保证了行人局部分块的位置结构信息能够对齐原特征图,但非端对端的模型让算法增加了额外的资源开销。因此本文多尺度特征融合通过采用多级分支的方式来缓解局部分块对齐压力,不同尺度之间通过三元组损失进行度量学习,使得分级之间能够互为基准,解决了需要额外算法引入的对齐需要。图1.5RPP对齐策略PCB结构通过水平均分图像成6个模块(见图1.6),根据不同水平分块设置不同的权重,达到根据不同的特点赋予不同的重视程度的目的。在实际场景的应用上,能够有效降低行人重识别技术对部分衣物特征的依赖问题。图1.6PCB网络结构1.1.4注意力(Attention)模块行人重识别任务需要深度学习模型抑制背景区域的噪声干扰,着眼于目标行人区域,因此注意力机制在行人重识别问题上大有用武之地。然而传统被广泛使用的SE注意力模块只考虑了通过建模通道相互关系来衡量通道之间的重要性,而忽略了特征图的位置关系,即空间注意力部分。但位置信息对于特征图像生成空间结构注意力权重,划分不同位置特征的重要性具有重要意义。因此本文通过引入联合注意力CA(CoordinateAttention)REF_Ref24671\r\h[30]模块,增强MSTN网络全局分支特征提取的网络性能。图1.7CA注意力在MobileNetV2上的性能CA注意力机制模块旨在增强移动网络学习特征的表达能力,拥有着计算开销小,多任务(目标检测、语义分割)性能优越的优势,对于轻量级网络如EfficientNet、EfficientNetV2、MobileNetV2REF_Ref24808\r\h[31]等网络有着很强的适应性与应用价值。图1.8CABlock结构CA注意力模块通过在两个方向上的位置信息精确编码来生成联合注意力,具体分为Coordinate信息嵌入和CoordinateAttention生成两个步骤。在Coordinate信息嵌入部分,通过全局平均池化分别从水平坐标和垂直坐标两个方向进行通道注意力编码,使用尺寸(H,1)与(1,W)的池化核分别进行池化运算。得到一对方向感知的特征图,聚合了沿水平以及垂直方向的空间特征,有助于网络更加准确地定位感兴趣的目标。通过信息嵌入的变换后,使用Concat操作叠加两个方向上的空间特征,1x1卷积运算过后进行批归一化与非线性映射处理。接着将特征图按照原来的高度和宽度进行1x1卷积运算恢复通道数,经过Sigmoid激活函数后分别得到特征图在高度和宽度上的注意力权重。最后将得到的两组注意力权重在原始特征图上进行乘法加权计算,得到在宽度和高度方向上带有注意力权重的特征图。1.1.5时空特征流(Spatial-TemporalStream)模块在行人重识别问题中由于图像底库信息量庞大,不同相机视图之间的外观模糊导致基于视觉特征提取的方法存在性能瓶颈。为了解决这一问题,本文引入ST-ReID(Spatial-TemporalPersonRe-identification,ST-ReID)REF_Ref24886\r\h[32]时空约束方法,通过建立数据底库图像之间的时空约束,消除大量无关图像的检索,辅助视觉特征流提高重识别的精度与效率。不同于基于视频行人重识别中关注时间和空间不变的视觉特征处理,本文采用的时空流并不关注于图像的视觉特征表示,而是利用行人跨不同相机之间的时空约束。例如一个在时刻被Camera1捕获的人,具有很低的概率在时刻被距离Camera1较远的Camera2捕获(较小)。图1.9DukeMTMC-reID摄像机位置时空流信息的构建首先需要估计数据集时空直方图(图1.10),然后使用ParzenWindowMethod对直方图进行平滑处理(图1.11),最后得到行人时空相似性分数。图1.10多机位时空频率直方图(平滑前)图1.11多机位时空频率直方图(平滑后)对于数据集中任意两张图片,可以建立式(1.2)概率直方图描述,其中表示直方图某一时间区域,表示相机,表示时间,y=1代表图像对i和j是同一行人,y=0表示不同行人,表示直方图第时间区域中有多少个图像对的时间差在这一范围内。(1.2)式1.2中时间图像对i和j的时间关系满足,即图像时间差位于直方图第时间区域中。通过以上数学模型可以得到图1.10多机位时空频率直方图,最后在频率直方图的基础上引入Parzenwindow概率密度估计方法对直方图进行平滑(式1.3)。是高斯核,属于归一化因子。(1.3)1.1.6联合度量(JointMetric)模块联合量度模块将视觉特征流与时空流数据进行联合计算,通过拉普拉斯平滑(Laplacesmoothing)方法处理行人移动的突然概率事件,采取逻辑平滑(LogisticFunction)函数分别精修处理视觉特征与时空相似度两个数值最后相乘。联合量度模块的设计在传统行人识别与跨摄像机多目标追踪之间架起桥梁。视觉特征流中采取余弦相似度的概念来评价两个图片的向量表达相似程度。而对于两个向量,可以知道两者之间的夹角越小,我们认为两个向量越相似。式1.4利用余弦相似度得到两个图像视觉特征流的相似性分数,分别代表行人的视觉特征向量。(1.4)传统经验如果认为视觉特征流与时空流互不相关,互为独立事件,得到的概率表达式可以理解为直接相乘如式1.5。(1.5)然而这种描述在视觉特征方面并不严谨,利用视觉相似得分作为概率进行计算并不合理,即:;其次在时空特征上,由于行人行走轨迹和速度的不确定性,直接使用时空相似度分数作为时空概率函数,在保持精度的同时会导致低召回率。图1.12拉普拉斯平滑应用价值举例由图1.12可以得到由于概率为零导致的整体(晴朗,风力弱,湿度低)情况下运动概率为零,而概率为零情况在联合量度设计中应该避免。加入拉普拉斯平滑后,能够调整罕见事件的概率值,将概率值收缩到(式1.6),避免上述频率为0的问题。因此在行人重识别任务中,Laplacesmoothing方法能够优化模型对于行人移动突然性、随意性的概率描述,兼顾了精度与召回率。(1.6)经过拉普拉斯平滑后,引入逻辑平滑LogisticFunction方法对视觉特征流与时空流概率评分进行微调,同时将时空流概率转换为二元分类概率。对于式1.7,是平滑因子,是收缩因子,且两者都是常数变量。(1.7)最后基于上述Laplacesmoothing与Logisticfunction转换,得到最终概率见式1.8。(1.8)1.2损失函数设计1.2.1IDLoss与LabelSmooth将行人重识别以图像分类的角度来看,每一个行人编号ID都代表着不同的类别,例如Market1501数据集就有751类。模型测试阶段,我们移除最后的全连接层,将最后池化层过后的矩阵作为特征输出,给定具有标签的图像,则被识别为的预测概率经过softmax函数,表示为。身份损失(IdentityLoss)由交叉熵计算:(4.1)普通的交叉熵(式4.2)对于正样本而言,输出概率越大损失越大,对于负样本而言,输出概率越小则损失越小。但在ReID实际应用过程中还是存在许多的负样本,类别越多负样本的数量越大,为了做好负样本的合理建模而不是直接忽略,可以在交叉熵中引入LabelSmooth(式4.3)来计算负样本的概率,而不是单纯二分。通过标签平滑的方式可以防止部分行人图片量太少导致的训练集过拟合,提高模型的泛化能力。(4.2)(4.3)1.2.2TripletLoss三元组损失TripletLoss最初是在FaceNet的论文中提出,能够较好地学习到人脸的embedding,相似的图像在嵌入空间里是相近的,可以根据距离来判断是否是同一张人脸。TripletLoss的训练目标就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论