深度学习:智能网络目标识别技术 课件 ch06 可解释性目标_第1页
深度学习:智能网络目标识别技术 课件 ch06 可解释性目标_第2页
深度学习:智能网络目标识别技术 课件 ch06 可解释性目标_第3页
深度学习:智能网络目标识别技术 课件 ch06 可解释性目标_第4页
深度学习:智能网络目标识别技术 课件 ch06 可解释性目标_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章深度学习:智能网络目标识别技术可解释性目标识别方法01可解释性方法综述模型的可解释性是指模型能够解释其预测结果和决策过程的能力。在深度学习中,模型的可解释性通常指的是模型能够以一种人类可理解的方式,解释其为何做出特定的预测或决策。在数据分析和模型预测过程中,可能会存在数据偏差或模型偏差,这些偏差可能会导致模型的预测结果不准确或不可靠。可解释性分析有助于发现模型可能存在的错误或者偏差,进而为模型的优化提供指导意见,也为评估模型的性能和质量提供更多的依据。探索模型的可解释性能够让用户更放心地使用模型,提高模型在实际应用中的可靠性。当前主流的可解释性方法包括决策级可解释性方法和特征级可解释性方法两大类。决策级可解释性方法关注于模型的最终预测结果,试图解释模型为何做出特定的决策,它们通常不依赖于特定的模型,而是通过分析模型的输入和输出之间的关系来提供决策的解释;特征级可解释性方法深入到模型内部,探究哪些输入特征在模型的决策过程中起到了关键作用,其不仅可以提高深度模型的可信度,还有利于从性能比肩人类的深度神经网络中发现模型性能提升的原因,为开发更高效的深度模型提供依据。主流的可解释性方法可以进一步分为以下几种类型。这三种方法各有侧重点,但共同目标是提高深度模型的可解释性。局部解释方法侧重于特定样本点的解释,特征重要性分析侧重于识别关键特征,而可视化解释方法则侧重于提供直观的决策过程展示。通过这些方法,可以更好地理解和信任深度模型,从而更有效地应用这些模型解决实际问题。需要注意的是,可解释性是一个相对的概念,不同的方法提供不同程度的解释性。同时,可解释性方法的选择也需要根据具体的应用场景和模型特点进行权衡。因此,未来的研究应该继续关注如何提高深度模型的可解释性和鲁棒性,以推动深度模型在实际应用中性能的进一步提升。局部解释方法特征重要性分析可视化解释方法02基于误差分数机制的可解释性目标识别方法误差分数机制本节提出的基于误差分数机制的可解释性目标识别方法不仅仅考虑真实类别的置信分数,还考虑模型错误的分类及预测框的位置,从而使得解释包含的信息更加全面综合。与CAM、Grad-CAM方法不同的是,该方法没有采用基于梯度反传的方法对特征图进行可视化,而是直接将模型推理噪声图像产生的预测结果与推理不带噪声图像产生的预测结果进行比较。这样做不需要额外的梯度反传计算开销,可以快速、实时地对任意图像块进行排序。某一图像块加上噪声之后的预测结果与原预测结果差异越大,则该图像块在模型推理过程中贡献了的信息和依据越丰富,因此重要性越高;而那些即使加上噪声也基本不会改变原预测结果的图像块,重要性较低。误差分数计算的伪代码如下。误差分数机制首先采用误差分数来衡量噪声图像预测结果与原预测结果的差异性:式中,Errorcls为类别误差分数;Errorloc为位置误差分数;Errorconf为置信分数误差分数;α、β、γ分别为三种误差分数的权重系数。对于噪声图像的预测结果中的每一个预测框,将其与无噪声图像的预测结果,即原预测结果中的每一个预测框的类别进行比较,如果原预测结果的预测框中没有该类别,说明出现了错误的类别预测,对应的Errorcls增加1。根据噪声图像的预测结果中类别预测正确的预测框boxnoise与原预测结果中对应类别的预测框计算IoU,取与其重合度最高且IoU值最大的同类别预测框boxorigin进行匹配,IoU值越大,说明位置误差分数越小,由于IoU值一定在[0,1]区间内,因此Errorloc可表示为误差分数机制式中,B表示该噪声图像所有预测框的集合。置信分数误差分数可表示为式中,boxnoise表示噪声图像的预测结果中类别正确的预测框;score表示该预测框的置信分数。可解释性方法实验结果使用二值化过的FasterR-CNN作为神经网络模型,并从VOC数据集中抽取若干张包含不同类别物体的图像,将每张图像分为4×4=16个区域。分别对每区域加入方差为1的高斯噪声,可得到16张带噪声的图像块。采用上述算法,可以算出16个Error值,依据这16个Error值对16张图像块进行排序,结果如图6-1所示。可解释性方法实验结果图6-1中,绿色的框表示没有噪声的原始图像经过模型推理后得到的预测结果;不同图像块上的红色阿拉伯数字表示图像块的重要性排序(1表示最重要的图像块,16表示最不重要的图像块)。该图像的原预测结果为“羊”,其重要区域(如1~4)集中在羊的皮毛、臀部,不重要区域(如10~16)几乎都在背景上面。这些结果均与人的直观感觉类似,说明该可解释性方法具有一定程度的可解释性,能够用一种清晰、直观的排序方式展示模型推理过程中数据层面上的决策依据。模型性能极限研究对于从未涉猎神经网络的人来说,要让他们对模型产生信服,从而将模型投入应用,重点需要解决两个问题:①模型主要关注了数据的哪些特征作为决策依据;②当数据受到什么程度的干扰时,模型会失效。解决第一个问题是为了在决策依据层面使用户对模型产生信任;解决第二个问题是为了探究模型的鲁棒性和性能极限,让用户对模型的抗干扰能力有大致了解。对于第一个问题,基于误差分数机制的可解释性目标识别方法基本已经解决。对于第二个问题,我们在此基础上进一步思考:如果图像块不是被分成若干具有一定高层语义信息、尺寸较大的区域(如4×4),而是被分成大量没有明确语义信息、尺寸很小的区域(如20×20)来加噪声,会产生怎样的效果?如果每次加噪声并不是只加一块区域,而是随机挑选许多块区域加噪声,并重复进行多次实验,是否就可以从统计学的角度对模型的抗干扰性能极限进行定量的分析?基于以上想法,将每张图像均匀分为10×10=100个小区域,定义每张图像加入噪声的比例为模型性能极限研究式中,m为该图像分割的总块数,(本实验中m=100);m′为该图像中加入噪声的区域数,每一区域加入的噪声均是方差为1的高斯噪声。当pnoise=0%时,整张图像没有噪声;当pnoise=100%时,整张图像被噪声占满。图6-3所示为pnoise为0%、20%、40%、60%、80%、100%时对应的图像。模型性能极限研究为了方便实验,先对单个物体类别进行实验,考察模型预测的mAP随pnoise变化的情况。按照预想情况,pnoise越大,模型的mAP应该越低,并且在理想情况下,由于模型有一定的抗干扰能力,因此模型的mAP不会随着pnoise的增大而线性下降,而应该呈现最开始比较平稳、基本不下降,当pnoise超过某个阈值之后,mAP急剧下降的情况。将VOC2012数据集中所有包含狗、车、人三类物体的图像抽取出来进行上述实验,经过一轮测试后画出模型的mAP随pnoise变化的曲线,如图6-4所示。针对VOC2012数据集中包含狗、人两类物体的图像进行上述实验后,画出模型的mAP随pnoise变化的曲线,如图6-5所示。模型性能极限研究模型性能极限研究(1)模型具有一定的抗干扰能力。(2)对于不同的类别,模型的抗干扰能力是不同的。(3)预测精度高的类别,抗干扰能力不一定强。03基于因果约束的可解释性目标识别方法基于因果推断的特征重加权算法因果推断是用于解释分析的强大建模工具,可以帮助恢复数据中的因果关联,用于指导深度学习,实现可解释的稳定预测。因果推断指的是描绘因变量和果变量之间的关系和评估其因果效应,其根本问题是因果效应估计,关键挑战是消除实验组和对照组之间混淆变量分布不同引起的混淆偏差,进而辨识因果关系。因果关系是一种客观存在的事物之间的联系,人们根据其理解和解释事物运行的内在规律。一般而言,因果关系可以用函数因果模型(FCM)进行数学描述,构建一个线性非高斯无环因果模型(LiNGAM):基于因果推断的特征重加权算法式中,β1和β2为线性系数;X1、X2为原因;Y为结果;e为非高斯分布的方差非0的噪声量。在封闭系统中,当满足E(e|X1,X2)=0时,可认为因果关系成立。E(e|X1,X2)表示在给定X1

、X2的情况下,噪声量e的期望。作为一个多输入模型,深度模型属于多变量耦合系统,从众多耦合参数中找出存在的因果关系可以提高模型的性能。如图6-9所示,图6-9(a)所示的系统因果关系不明确,通过切断X1→Y的路径,构建唯一确定的因果路径X1→X2→Y[见图6-9(b)],有助于模型的性能提高。基于因果推断的特征重加权算法深度神经网络特征间存在复杂的依赖关系,单纯地消除线性相关性并不足以消除无关特征与标签之间的虚假关联,所以一个直接的想法就是通过核方法将原始特征映射到高维空间,在此空间中消除新特征间的线性相关性,从而保证原始特征严格独立。具体来说,可以使用随机傅里叶特征进行高效的核映射近似,并动态维护全局特征以消除虚假关联。本节介绍一种基于因果推断的特征重加权算法,以去除决策变量和混淆变量之间的相关性,从而保证原始特征严格独立。基于因果推断的特征重加权算法具体而言,采用全局平衡方法提取因果特征。给定任意的干预,对训练样本进行加权,从而消除各类特征之间的统计关联性,断开背景与因果特征之间的关联,最终找到更加具有因果关系的特征,实现更加稳定的预测,优化公式如下。式中,Wi为样本xi的权重;β为因果贡献;n为样本数量;γi为标签;约束条件用于正则化,防止过拟合,并确保模型的稳定性。该函数类似于加权的逻辑回归损失函数,目的是最小化加权的对数损失。基于因果推断的特征重加权算法由于各类特征之间的相关性通常是非常复杂的非线性相关性,基于因果推断的特征重加权算法的核心思想是:该网络将所有的特征映射到随机傅里叶特征空间中,即特征从低维空间映射到高维空间,通过在高维空间中消除特征之间的线性相关性来去掉原始特征空间中特征之间的线性和非线性相关性,保证特征的严格独立。基于因果推断的特征重加权算法式中,x为输入的特征向量;ω为从标准正态分布N(0,1)中采样的随机向量;φ为从均匀分布Uniform(0,2π)中采样的相位。上式用于独立性检测的随机傅里叶特征。本算法中网络与样本权重更新公式如下。式中,f(t+1)为t+1轮的特征函数;g(t+1)为t+1轮的预测函数;w(t+1)为t+1轮的样本权重;

为t+1轮的偏互协方差矩阵。基于因果推断的特征重加权算法基于因果推断的特征重加权算法基于因果推断的特征重加权算法的具体使用流程如下。12首先通过特征提取器提取输入图像的图像特征,然后通过随机傅里叶特征提取器得到随机傅里叶特征。利用损失函数计算网络的分类损失。3使用随机傅里叶特征对原始特征进行独立性检测,将随机傅里叶特征间的相关性作为损失训练一组样本权重。基于因果推断的特征重加权算法基于因果推断的特征重加权算法的具体使用流程如下。4使用学习到的样本权重对预测损失进行重加权,并将其作为整个模型最终的训练损失。5使用加权后计算得到的训练损失进行梯度反传,更新特征提取器与分类器的参数。实验结果01定量实验与分析(1)样本集构建为了充分验证本节提出的方法在面对不同分布场景时的鲁棒性和泛化性,构建非独立同分布训练集与测试集。其中,训练集由7类无干扰的仿真目标构成,背景简单且与真实场景存在差异;测试集分为两个,测试集一由被云雾干扰的仿真目标构成,与训练集无交集且背景复杂度高,测试集二由实采的目标构成,背景为实采复杂背景数据。实验结果01定量实验与分析(2)对比算法模型及训练方法首先,以基线模型(ResNet-18)为对比算法在上述训练集上进行训练;随后,在基线模型的基础上,采用随机傅里叶特征和动态维护全局特征的方法学习样本权重,消除虚假关联,提出基于因果约束的可解释性车辆智能识别模型(StableNet),并在训练集上进行训练,选取二者在训练中表现最好的模型进行测试对比,以验证StableNet的有效性。模型训练与测试的方法与参数如下。实验结果01定量实验与分析(2)对比算法模型及训练方法①采用随机梯度下降法作为优化算法。具体实现时,为加快收敛速度,采取动量机制以指数型衰减的方式累积梯度移动平均值,动量值设置为0.9。为了在一定程度上减少模型出现过拟合问题,引入L2正则化机制,设置权重衰减系数为0.0001。②对网络进行初始化,有助于加速网络收敛。本实验的主干特征提取网络采用ImageNet预训练模型进行初始化,其余模块的卷积层和全连接层采用均值为0、标准差为0.01的高斯分布进行初始化,批归一化层的统计均值和统计方差初始值分别设置为常数0和常数1,权重和偏置分别采用常数1和0进行初始化。实验结果01定量实验与分析(2)对比算法模型及训练方法③使用学习率衰减方法能够加快网络收敛速度并且保证网络接近最优解。具体实现时,本实验设定初始学习率为0.02,训练30个迭代周期后,学习率衰减0.1,网络总训练时长为90个迭代周期。④训练过程中,将带有目标框标注的车辆数据输入网络,每次迭代输入的图像数量为16,在两张英伟达TitanRTX显卡上进行并行训练。实验结果01定量实验与分析(3)测试方案将基线模型(ResNet-18)与StableNet在训练集上进行训练,自动选取ResNet-18和StableNet中的最优模型进行后续测试。实验中,将选取的最优模型分别在测试集一和测试集二上进行测试。将ResNet-18和StableNet在上述两个测试集上分别进行测试,用识别准确率作为性能指标(设样本库中目标图像为N个,算法正确识别出N1个目标,则识别准确率Acc=N1/N),验证StableNet在非独立同分布数据场景下的有效性。实验结果01定量实验与分析(4)测试结果①仿真数据集测试结果。使用无遮挡仿真数据集训练的最优模型在有遮挡的仿真数据集(红外测试数据集)上进行测试,结果如表6-1所示,StableNet

的识别准确率比ResNet-18的识别准确率高12.4%,说明本节提出的方法对有分布偏移的数据集上的识别性能的提升显著。实验结果01定量实验与分析(4)测试结果②实际数据集测试结果。使用无遮挡仿真数据集训练的最优模型在实采数据集上进行测试,结果如表6-2所示,本节提出的方法显著提高了实采数据集上的识别精度,StableNet的识别准确率比ResNet-18的识别准确率高13.5%,且StableNet可以有效减少严重错误。实验结果02定性试验与分析深度模型试图利用所有可观测到的特征与标签的相关性进行学习和预测,而在训练数据中与标签相关的特征并不一定是其对应类别的因果特征。因果约束智能识别的基本思路是提取不同类别的因果特征,去除无关特征与虚假关联,并仅基于因果特征(与标签存在因果关联的特征)做出预测。如图6-11~图6-13所示,当训练数据的环境较为复杂且与样本标签存在强关联关系时,ResNet等传统卷积网络无法将因果特征与环境特征区分开来,所以其需利用所有特征进行预测,而样本特征重加权算法则可将因果特征与环境特征区分开来,并仅关注因果特征而忽略环境特征,从而无论环境(域)如何变化,均能做出稳定的预测。实验结果02定性试验与分析在图6-12、图6-13中,使用平滑梯度生成特征显著性映射以可视化特征关注效果,颜色越红代表对预测结果的影响越大,可以明显看到样本特征重加权算法与传统深度模型相比更关注于物体本身而非无关的环境,也就是更关注于因果特征,这种特征可以有效地帮助算法提高目标的识别准确率,从而在不同的未知环境中做出稳定的预测。实验结果02定性试验与分析04基于语义分析的细粒度可解释性目标识别方法语义特征分析算法01语义特征激活图的可视化分析语义特征激活图是一种可视化工具,用于展示深度神经网络中与特定语义概念相关的激活模式。语义特征激活图突出显示了深度神经网络在识别过程中关注的区域,这些区域通常与目标对象的语义组成部分高度相关。例如,在人脸识别任务中,语义特征激活图可能会强调眼睛、鼻子、嘴巴等面部特征区域,这些区域对人脸识别至关重要。通过可视化深度模型特征图来获取语义特征激活图,再对获取的语义特征进行定量分析,以归纳出语义特征激活图的性质。考虑到可解释性方法依赖于被解释模型本身的性能,选取在互联网的4亿视觉—语言对的数据集上经过自监督预训练的跨模态CLIP模型的ResNet-50版本作为可行性验证实验的被解释模型。我们选取了数张样例输入作为研究对象,通过逐层、逐通道可视化深度模型特征图来寻找是否存在局部语义特征激活图。语义特征分析算法01语义特征激活图的可视化分析具体来说,给定输入图像

,被解释的深度模型

,被解释的深度模型的第k层特征图

。其中,c0为输入图像的通道数;ck、mk、nk分别为被解释的深度模型第k层特征图的通道数、高度、宽度;h与w分别为输入图像的高度与宽度;yl为分类概率向量y中最大的类别概率。则AI(I)第i个通道的特征图

得到的显著图

为语义特征分析算法01语义特征激活图的可视化分析式中,Up(⋅)为双线性上采样插值;s(⋅)为Min-Max归一化函数;[⋅⋅]表示两个函数复合构成的组合函数。可以发现,在深度模型的深隐藏层的特征图中容易出现具备明显的局部语义特征的激活图,如图6-15所示。其中,图6-15(a-1)~图6-15(c-1)、图6-15(a-2)~图6-15(c-2)可视化了利用CLIP模型预测“鸟”图像时产生的语义特征激活图。而图6-15(d-1)~图6-15(f-1)、图6-15(d-2)~图6-15(f-2)则利用高斯模糊的方法突出显示了语义特征激活图所定位的重要特征。图6-15说明CLIP模型在对“鸟”图像或“狗”图像的建模过程中能够对鸟头、鸟身、树枝、狗头、狗鼻子、狗舌头等语义组块进行细粒度的局部建模,这与Zeiler和Fergus在2013年所提出的CNN内部自底向上构建出特征的结论一致,印证了局部语义特征激活图的存在。语义特征分析算法02语义特征激活图的性质分析我们考虑反向梯度值与前向激活值两个统计量,对语义特征激活图的性质进行分析,以确认这类富有语义特征的激活图相比于其他特征图是否具有明显的区分性,对特定激活图的反向梯度值与前向激活值进行统计的方法如下:语义特征分析算法02语义特征激活图的性质分析式中,为深度神经网络第l个类的置信度yl对模型第k层第i个激活图的反向梯度值,反映了各通道相对于指定类别的重要性权重;Sk,i为深度神经网络第k层第i个激活图的前向激活值,反映了Sk,i对于当前样本各通道的重要性权重。我们基于CLIP模型统计了从“狗”图像的分类预测结果向目标层反向传播时各通道接收到的梯度值及“狗”图像前向传播到目标层时各通道的激活值,图6-16中第1901、1943通道分别对应图6-15(a-2)、图6-15(c-2)。我们发现语义特征激活图的前向激活值与反向梯度值具有“双高”的特点,即特定通道的前向激活值与反向梯度值同时具备较大的正值。这意味着语义特征激活图不论是对于特定类别的预测,还是对于当前样本的特征编码,都起着主导性的作用。而这种双显著性也保证了语义特征激活图与其他通道激活图的区分性,因此利用主成分分析(PCA)、奇异值分解(SVD)等重要性分析算法能够实现对这些语义特征的提取。语义特征分析算法03基于奇异值分解的语义特征提取算法深度神经网络能够提取输入图像中的不同特征,并逐渐整合这些特征构建复杂的语义概念。因此通过识别模型决策所依赖的显著特征,可以对模型的推理过程做出更加细粒度的解释。我们利用奇异值分解和反向梯度信息从深度神经网络的中间激活图中得到具有类别区分能力的正交特征图(OrthogonalFeatureMap,OFM),再通过将这些正交特征图扩展到原图像大小,可以获得局部显著图(LocalSaliencyMap),从而揭示深度神经网络做出决策所依赖的显著特征。语义特征分析算法03基于奇异值分解的语义特征提取算法语义特征提取算法有效性分析01正交特征图的正交性与显著性分析将Vk中与前p个特征值对应的奇异向量记为

,并将由按降序排列的前p个奇异值构成的对角矩阵表示为式中,是酉矩阵;

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论