深度学习:智能网络目标识别技术 课件 第5-7章 知识内嵌智能目标-深度模型压缩技术_第1页
深度学习:智能网络目标识别技术 课件 第5-7章 知识内嵌智能目标-深度模型压缩技术_第2页
深度学习:智能网络目标识别技术 课件 第5-7章 知识内嵌智能目标-深度模型压缩技术_第3页
深度学习:智能网络目标识别技术 课件 第5-7章 知识内嵌智能目标-深度模型压缩技术_第4页
深度学习:智能网络目标识别技术 课件 第5-7章 知识内嵌智能目标-深度模型压缩技术_第5页
已阅读5页,还剩135页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章深度学习:智能网络目标识别技术知识内嵌智能目标识别方法01深度模型中的知识内嵌方法概述欧几里得基于五大公理系统撰写了《几何原本》,使得后续科学史上的很多重大发现都从公理系统出发,通过第一性原理,用思维和逻辑推导出结果,构建学科知识体系。基于公理系统的研究方法,具有很强的通用性,使得很多靠工程实践才能验证的事情,只需通过数学推导就能完成,极大推动了工程学的发展。还有另外一类方法,基于大量观测数据,发现数据间的数学规律,即依靠归纳总结出规律,进而形成知识。随着传感器技术的发展,观测数据越来越多,但是很难找出一个有物理意义的通用结构,这就推动了深度学习技术的发展。这种技术本质上是统计学意义上的表达方式,其并不来源于人们对实体机理的了解,而是来源于观测数据的强记忆。公理系统模型有“放之四海皆准”的泛化(预测)能力,而“数据驱动”模型的归纳总结能力强,将二者结合起来,“数据驱动+知识内嵌”模型的强记忆和泛化能力会更强。知识嵌入深度学习建立知识和数据之间的桥梁,从而构建具有物理常识的机器学习模型,实现有理智的人工智能系统,推动技术革命。现知识内嵌深度模型的方法大致可以分为四种:领域知识驱动的网络结构设计、物理学模型驱动的网络结构设计、先验知识约束的机器学习方法,以及目前最流行的多模态机器学习方法。领域知识驱动的网络结构设计始终贯穿整个深度学习领域,如基于生物感知的局部特征进行CNN网络结构设计,大语言模型基座网络Transformer受到了人类注意力系统的启发。物理学模型驱动的网络结构设计方面,如最新深度学习Mamba模型,其根据动力学方程构建新的模型,在诸多领域取得了很好的应用效果。先验知识约束的机器学习方法是机器学习领域的重要发展方向,如基于专家知识引导的学习过程,通过引入相关先验知识可以更好地训练深度模型。多模态机器学习方法是当前的主流方法,也是本章的重点。随着深度学习技术的快速发展,计算机能够更好地理解和利用视觉和语义知识,其中对比语言-图像预训练(ContrastiveLanguage-ImagePre-training,CLIP)模型打破了语言与视觉的界限,实现了语义知识内嵌深度模型。通过一种多模态(图像、文本)对比训练神经网络,实现多模态之间的语义对齐,通过寻求不同模态信息之间的对应关系,并利用不同模态信息之间的相关性和互补性,以另一种跨媒体新兴形式打破人工智能发展的瓶颈,从而实现基于语义空间进行视觉感知建模。早期,多模态机器学习的典型思路是在获得单一模态的特征后,将多种不同模态的特征映射到跨模态共享的特征空间中。这一过程需要将多模态特征的学习融入统一的学习框架中,并在模型优化过程中挖掘跨模态数据间的内在关联。例如,图像与自然语言之间的跨模态表达通常将图像特征和语言特征映射到同一特征空间,并使用特定的损失函数约束图像和语言在这个特征空间的相似性

。语义知识内嵌CLIP模型提供了图像的语义描述,通过对比学习嵌入语义信息于图像编码器,可增强CLIP模型的语义感知能力。早期的CLIP模型对文本分支采用固定文本模板形成语义提示(如aphotoofdog),完成语义知识嵌入;在此基础上,上下文优化(ContextOptimization,CoOp)模型首次将CLIP模型中的语义提示设计为可学习模式,利用CoOp方法,提升图像与文本的匹配能力;为了更好地对图像语义信息进行有效嵌入,Zhou等人改进了CoOp模型,提出了条件上下文优化(ConditionalContextOptimization,CoCoOp)模型,通过设计输入图像动态可调整的语义提示学习范式,将图像特征输出经过映射变换形成的输入条件令牌(Token)补入固定文本模板中,实现知识内嵌。Yao等人提出了知识驱动的上下文优化(Knowledge-guidedContextOptimization,KgCoOp)模型,在CoOp模型和CLIP模型基础上,发现了下游新类的性能丢失与可学习文本嵌入和固定文本模板嵌入距离相关,设计了类似于知识蒸馏的提示学习框架,有效融合了图像通用知识和特定语义知识,减少了CLIP下游任务迁移时的一般知识遗忘问题。视觉知识内嵌通过将文本语义信息或本身视觉信息嵌入深度模型中,形成视觉知识内嵌模型。Gao等人提出了CLIP-Adapter模型,通过在图像和语义特征后加入额外的瓶颈层(BottleneckLayer)学习新特征,并利用残差连接融合原始特征与新特征。在此基础上,Zhang等人提出了Tip-Adapter模型,通过创建Query-Key缓存模型直接获得适应器参数,使得模型无须重新学习适应器参数,在无须随机梯度下降训练的模式下,其性能逼近CLIP-Adapter模型。同样利用适应器的思想,Chen等人在空间和通道上将文本与视觉Transformer模型进行交互,实现了有效的视觉信息嵌入,提升模型的小样本识别能力。在图像输入端也可嵌入知识,例如,Bahng等人在图像输入端加入视觉提示,形成新的视觉输入,通过随机梯度下降法学习提示。可采用三种方式构建提示:固定块提示、随机块提示、填充。同样利用此思想,Oh等人提出了BlackVIP模型,解决黑盒下的提示学习问题,实现视觉知识嵌入。不同于上述的图像特征输出端和图像输入端的视觉知识嵌入,LoRA和VPT通过在模型内部加入视觉提示信息,实现了多个下游任务的识别性能提升。跨模态知识相互内嵌多模态信息内部蕴含丰富的语义信息,将多模态特征嵌入不同模态知识,可实现跨模态知识相互内嵌。例如,Khattak等人设计了耦合函数,显性连接文本与图像提示,丰富上下文学习,实现多模态提示对齐CLIP表征。Li等人提出了GraphAdapter,显性建模对偶模态结构知识,实现文本与视觉子图知识的相互嵌入。适配器式高效迁移学习(ETL)在低数据状态下的CLIP模型调整中表现出了优异性能,可以在仅引入少量额外参数的条件下实现模型性能的提升。然而,大多数适配器风格的作品都面临两个限制:①仅使用单一模态对特定任务的知识进行建模;②忽视下游任务中类间关系的利用,从而导致获得次优解。GraphAdapter通过用对偶知识图显式地建模了对偶模态结构知识(文本和视觉模态中不同语义/类的相关性)。02引入介尺度注意力的知识内嵌视觉模型多模态CLIP算法CLIP模型采用经典的双塔结构,图像域和语义域有对应的图像编码器(ImageEncoder)和语义(文本)编码器(TextEncoder)。其中,语义编码器采用了经典的Transformer结构,而图像编码器具有两种选择:第一种是改进后的ResNet,用基于注意力的池化层替代ResNet的全局池化层,此处的注意力机制同样是与Transformer类似的多头注意力机制;第二种是采用ViT结构作为图像编码器。本节采用ftext(⋅)表示语义编码器,fimg(⋅)表示图像编码器,Ximg表示图像,Xtext表示与该图像对应的语义,那么有多模态CLIP算法再通过线性映射层Wimg和Wtext分别将图像特征fimg和语义特征ftext都映射到相同的嵌入特征维度De,则有为了保证特征数值尺度的一致性,再对维度为De的图像特征和语义特征进行L2标准化,则有多模态CLIP算法训练过程如图5-1所示,对图像特征和语义特征进行矩阵相乘,形成打分矩阵,主对角线上的元素都是配对的正样本对打分,而矩阵的其他元素则是由同个块内的图像和不配对的语义组成的负样本。这种策略可以形成N2−N个负样本,整个过程可以用下式描述:多模态CLIP算法CLIP模型推理过程如图5-2所示,给定一张测试图像,首先,使该张图像通过图像编码器得到图像特征;然后,利用语义编码器提取文本向量(假如有K类,形成K个文本向量);最后,对图像特征与K个文本向量求内积,计算出相似度并选择K个文本向量中匹配度最高的向量对应类别作为输入图像的预测类别。值得注意的是,最早的CLIP模型采用了固定文本向量模板作为输入,如aphotoofa[CLS],其中aphotoof为词向量输入,CLS为类别词。实际上,文本向量构成了提示词(Prompt),对多模态CLIP模型的识别性能具有很大影响。知识内嵌模型01视觉-提示微调方法智能目标识别任务通常先使用大量数据对主干网络进行预训练,再针对特定任务对大型基础模型进行参数微调。例如,大型ViT模型使用全量微调的方式对数量庞大的参数进行调整,需要大量的训练时间和计算开销。视觉-提示微调方法为高效调整大型ViT模型参数提供了一种有效方案。视觉-提示微调方法在下游任务训练过程中,向ViT模型中增加少量可学习参数,训练的同时保持预训练阶段主干网络参数不变,仅训练新增参数与最终的分类器,从而得到与全量微调相当,甚至更好的性能,并极大地提高了计算效率,降低了参数存储的空间成本。ViT模型如图5-3所示,对于一个N层ViT模型,首先将一张输入图像分成m个固定大小的块其中h、w分别是图像块的高和宽。每一小块图像将被嵌入具有位置编码的d维空间中:知识内嵌模型01视觉-提示微调方法我们来表示经过嵌入的图像集,并将其作为第i+1层Transformer(Li+1)的输入。再加上一个额外的可学习分类标记([CLS]),整个ViT模型就可表达为式中,xi∈Rd表示嵌入Li+1层输入空间的分类标记;[⋅,⋅]表示序列在长度维度上的连接,因此每个层(Li)都由多头注意力机制、前馈神经网络、层归一化和残差连接组成。Head函数作为分类器,用于将最后一层的分类标记xN映射为预测分类的概率分布Y。知识内嵌模型01视觉-提示微调方法知识内嵌模型01视觉-提示微调方法知识内嵌模型01视觉-提示微调方法Shallow-promptedViT模型的提示词仅被插入Transformer编码器第一层,将这些提示词记为P,其数学表示为式中,Zi代表模型第i层的特征;P和Head函数是可训练的。Deep-promptedViT模型则为每一层均设置额外的可学习提示词Pi

,其数学表达式为知识内嵌模型02引入介尺度注意力的知识嵌入方法介尺度注意力通过在不同尺度上捕捉输入数据的特征,使模型能够同时关注局部细节和全局结构,该特点使引入介尺度注意力的知识嵌入方法可有效解决小样本不平衡类别的学习问题。具体训练过程(见图5-5)分为两个阶段:A)利用来自大规模数据集的注释对模型进行重训练;B)对复杂数据集进行重采样,使得各个类别的图像数据量是均衡的。知识内嵌模型02引入介尺度注意力的知识嵌入方法在A阶段,通过对比学习在特定复杂数据集上对模型主干网络进行重训练,使模型能够充分利用训练数据,并在新的领域中更新视觉-语言表示。为了进一步促进小样本或者难识别类的小样本学习,在B阶段,我们冻结了模型主干网络,并使用一个基于语义注意力机制的视觉提示对均衡采样的训练样本进行微调。视觉提示通过残差结构动态结合固定的A阶段特征和微调的B阶段特征,并优化小样本或者难识别类小样本的视觉表示。与直接微调整个模型主干网络相比,语义注意力机制减少了参数训练量,从而防止了小样本场景设置下的潜在过拟合风险。A阶段与CLIP模型的学习过程类似,是基于对比学习的视觉-语言双塔架构模型,对图像域和语义域分别采用了图像编码器和语义编码器,提取出图像特征与语义特征。再分别通过变换矩阵将图像特征与语义特征投影到相同维度的嵌入空间中,并进行归一化处理。在预训练过程中,CLIP模型利用图像语义进行对比学习,总体训练目标是从语义检索图像的损失函数与从图像检索语义的损失函数两个方向,将匹配视觉-语言的相似度最大化,将不匹配的视觉-语言相似度最小化。知识内嵌模型02引入介尺度注意力的知识嵌入方法CLIP模型通过大规模的视觉-语言配对数据进行训练,实现了强大的多模态表示,并自然地具有零样本类识别能力。为目标数据集中的候选类创建一列语义描述,以执行零样本类预测。如果将标准化测试图像特征表示为v,将所有标准化语义特征表示为τ表示温度超参数,那么可以计算测试图像的类别概率如下:式中,pi表示类的概率;K表示候选类的总数。最后,选择概率最高的语义标签作为预测结果。知识内嵌模型02引入介尺度注意力的知识嵌入方法阶段中,由于小样本类别缺乏训练数据,直接对整个主干网络进行训练容易导致过拟合,引起整体性能下降。B阶段仅在图像特征处理过程中添加一个额外的语义注意力机的视觉提示,对不常见的视觉-语义表征性能进行微调。如图5-5(b)所示,语义特征将与A阶段的训练结果保持一致,图像特征得到优化。假设原始图像特征为f,语义注意力机制的权重矩阵和偏置将分别表示为W和b,将细化后的图像特征f∗表示为仿真实验01引入介尺度注意力的知识嵌入方法与ResNet-50的分类性能对比对于车辆数据集上的分类任务,分别设置了4种算法。第一种是将以ResNet-50为图像编码器的CLIP模型作为基础,添加逻辑回归为视觉提示的知识嵌入深度学习算法;第二种与第三种均为在ImageNet数据集上进行预训练的ResNet-50模型,在再次对车辆数据集进行训练的过程中,分别设置了50步与100步的训练步数,学习率为0.001,权值衰减分别为0.001、0.005;第四种方法为直接使用车辆数据集对ResNet-50模型进行训练。四组实验中对车辆数据集进行训练集与测试集划分的比例均为3:1。知识嵌入深度学习算法与ResNet-50在车辆数据集分类任务中的性能表现如表5-1所示,实验结果表明,知识嵌入深度学习算法在车辆数据集上的分类任务中达到了最好性能。仿真实验01引入介尺度注意力的知识嵌入方法与ResNet-50的分类性能对比仿真实验02不同知识嵌入效果测试性能对比仿真实验03基于知识内嵌的目标检测性能对比03属性增强知识内嵌视觉模型视觉属性词表的引入视觉属性词表的质量很大程度上会影响图像识别的准确率。为了保证所学习到的属性准确、高效,我们引入了在大规模数据集上预训练完成的离散变分自编码器(discreteVariationalAutoEncoder,dVAE),并将其作为视觉属性词表。离散变分自编码器在文献中提出,其作用为对当前的输入图像进行结构重组,然后重新构建该图像。离散变分自编码器由一个编码器和一个解码器构成。其中,编码器用于分割图像,并将每一个图像块编码为离散的视觉词(VisualTokens);解码器则能够基于视觉词重构图像。相比于直接在像素层面研究图像,离散变分自编码器能够将图像分割成网格状的图像块,再进一步离散为视觉词。其意义在于,显著减少了后续图像编码器(如ViT)中用于编码上下文语义的参数量。离散变分自编码器重构图像的示意图如图5-8所示。视觉属性词表的引入视觉属性词表的引入根据文献可知,离散变分自编码器在COCO数据集上完成预训练,可学习到丰富的视觉属性和语义。本节中,我们不调整和改变离散变分自编码器参数,而是采用提示学习的思路将其引入,得到图像的视觉属性。在离散变分自编码器中,编码器和解码器的结构类似,都采用了卷积结构的ResNet,且使用了瓶颈式的残差块。编码器和解码器主要使用3×3卷积,当残差块的输入和输出间特征图数量变化时,使用1×1卷积。离散变分编码器输出的特征维度为32×32×8192,张量中的数值则是视觉词的类别分布对数值。例如,一张分辨率为256像素×256像素的图像被分割为32像素×32像素的网格状图像块,进一步编码为离散的视觉词。根据文献给定的先验知识可知,离散变分自编码器所包含的视觉词的词汇量是固定值,为8192。在本节中,我们提取离散变分编码器最后一个卷积层的权重并将其保存,作为后续使用的视觉属性词表。专家知识提示工程本节收集了若干条以自然语言形式描述的专家知识。简单地,我们以5类小规模车辆数据为例,专家知识涵盖了五类车辆的外观、用途及行驶环境等特征。针对每类车辆的每张图像,可将描述该类别的专家知识整理为一个英文句子,五类车辆分别整理为五个不同的英文句子,即描述专家知识的句子和车辆类别能够一一对应。假设,每一个描述专家知识的句子长度固定为N(不足则用空白补齐),可使用的CLIP模型中的文本编码分词器(Tokenizer)提取N个单词向量的维度为d1,则分词后的5个描述专家知识的句子可表示为专家知识提示工程如图5-9所示,CoOp模型将提示向量设置为可学习的向量,通过输入的图像数据集来训练提示向量。在对语义编码器进行推理时,将提示向量与类名称拼接到一起并输入到语义编码器中提取其语义特征,通过与图像特征进行类别最大化对齐来完成训练,学习有效的提示向量和编码器参数。基于交叉注意力机制的视觉属性词表对齐本节我们将介绍基于交叉注意力机制的视觉属性词表对齐,把提示词与视觉属性词表进行有效融合,形成专家知识,将其有效嵌入图像信息中。提示词的文本向量和视觉属性词表的维度并不相同,无法直接对齐进行嵌入。为了解决此问题,考虑在视觉属性词表上设计交叉注意力机制,从而将提示词的文本向量与视觉属性词表进行有效融合,这样不仅能有效嵌入视觉属性词表信息和专家知识,还能获得与视觉属性词表一致的嵌入信息。实际上,交叉注意力机制的核心思路源于Transformer,旨在将两个不同维度的向量通过交叉注意力机制进行对齐和整合。具体来说,交叉注意力机制包含三个参数:K(键)、V(值)和Q(查询)。使用视觉属性词表初始化键和值,用专家知识提示词文本向量初始化查询。仿真实验本实验选择了一个主流的视觉神经网络结构ViT和ACKEVM进行对比。同时为排除ACKEVM引入额外参数导致的影响,还增加了一组与该方法构建视觉属性词表时所利用的BEIT模型的对比实验。对比实验冻结了各个模型的主干网络参数,仅在下游数据集上进行分类层的学习。微调类方法性能对比实验结果如表5-3所示。01微调类方法性能对比实验仿真实验相较于预训练-微调方法,对比学习类方法在推理过程中首先获取图像编码器和语义编码器输出的结果,然后计算二者之间的相似度,以此为依据进行目标识别。本实验以CLIP模型为基线模型将对比学习类的各类方法进行了对比。其中,CLIP模型采用零样本推理,CoOp模型则采用一种基于提示学习的CLIP微调方法。对比学习类方法性能对比实验结果如表5-4所示。02对比学习类方法性能对比实验05总结本章介绍了知识内嵌模型的相关内容,重点分析了CLIP模型知识内嵌方法。在此基础上,介绍了视觉-提示微调方法,为高效微调大型ViT模型参数提供了一种有效方案,并提出一种引入介尺度注意力的知识嵌入方法,可有效提升识别任务性能。除此之外,还介绍了种属性增强知识内嵌视觉模型方法,通过引入视觉属性词表、专家知识提示工程及交叉注意力机制的视觉属性词表对齐,使得视觉模型可以更好地利用专家知识来指导和优化识别任务。感谢观看深度学习:智能网络目标识别技术第6章深度学习:智能网络目标识别技术可解释性目标识别方法01可解释性方法综述模型的可解释性是指模型能够解释其预测结果和决策过程的能力。在深度学习中,模型的可解释性通常指的是模型能够以一种人类可理解的方式,解释其为何做出特定的预测或决策。在数据分析和模型预测过程中,可能会存在数据偏差或模型偏差,这些偏差可能会导致模型的预测结果不准确或不可靠。可解释性分析有助于发现模型可能存在的错误或者偏差,进而为模型的优化提供指导意见,也为评估模型的性能和质量提供更多的依据。探索模型的可解释性能够让用户更放心地使用模型,提高模型在实际应用中的可靠性。当前主流的可解释性方法包括决策级可解释性方法和特征级可解释性方法两大类。决策级可解释性方法关注于模型的最终预测结果,试图解释模型为何做出特定的决策,它们通常不依赖于特定的模型,而是通过分析模型的输入和输出之间的关系来提供决策的解释;特征级可解释性方法深入到模型内部,探究哪些输入特征在模型的决策过程中起到了关键作用,其不仅可以提高深度模型的可信度,还有利于从性能比肩人类的深度神经网络中发现模型性能提升的原因,为开发更高效的深度模型提供依据。主流的可解释性方法可以进一步分为以下几种类型。这三种方法各有侧重点,但共同目标是提高深度模型的可解释性。局部解释方法侧重于特定样本点的解释,特征重要性分析侧重于识别关键特征,而可视化解释方法则侧重于提供直观的决策过程展示。通过这些方法,可以更好地理解和信任深度模型,从而更有效地应用这些模型解决实际问题。需要注意的是,可解释性是一个相对的概念,不同的方法提供不同程度的解释性。同时,可解释性方法的选择也需要根据具体的应用场景和模型特点进行权衡。因此,未来的研究应该继续关注如何提高深度模型的可解释性和鲁棒性,以推动深度模型在实际应用中性能的进一步提升。局部解释方法特征重要性分析可视化解释方法02基于误差分数机制的可解释性目标识别方法误差分数机制本节提出的基于误差分数机制的可解释性目标识别方法不仅仅考虑真实类别的置信分数,还考虑模型错误的分类及预测框的位置,从而使得解释包含的信息更加全面综合。与CAM、Grad-CAM方法不同的是,该方法没有采用基于梯度反传的方法对特征图进行可视化,而是直接将模型推理噪声图像产生的预测结果与推理不带噪声图像产生的预测结果进行比较。这样做不需要额外的梯度反传计算开销,可以快速、实时地对任意图像块进行排序。某一图像块加上噪声之后的预测结果与原预测结果差异越大,则该图像块在模型推理过程中贡献了的信息和依据越丰富,因此重要性越高;而那些即使加上噪声也基本不会改变原预测结果的图像块,重要性较低。误差分数计算的伪代码如下。误差分数机制首先采用误差分数来衡量噪声图像预测结果与原预测结果的差异性:式中,Errorcls为类别误差分数;Errorloc为位置误差分数;Errorconf为置信分数误差分数;α、β、γ分别为三种误差分数的权重系数。对于噪声图像的预测结果中的每一个预测框,将其与无噪声图像的预测结果,即原预测结果中的每一个预测框的类别进行比较,如果原预测结果的预测框中没有该类别,说明出现了错误的类别预测,对应的Errorcls增加1。根据噪声图像的预测结果中类别预测正确的预测框boxnoise与原预测结果中对应类别的预测框计算IoU,取与其重合度最高且IoU值最大的同类别预测框boxorigin进行匹配,IoU值越大,说明位置误差分数越小,由于IoU值一定在[0,1]区间内,因此Errorloc可表示为误差分数机制式中,B表示该噪声图像所有预测框的集合。置信分数误差分数可表示为式中,boxnoise表示噪声图像的预测结果中类别正确的预测框;score表示该预测框的置信分数。可解释性方法实验结果使用二值化过的FasterR-CNN作为神经网络模型,并从VOC数据集中抽取若干张包含不同类别物体的图像,将每张图像分为4×4=16个区域。分别对每区域加入方差为1的高斯噪声,可得到16张带噪声的图像块。采用上述算法,可以算出16个Error值,依据这16个Error值对16张图像块进行排序,结果如图6-1所示。可解释性方法实验结果图6-1中,绿色的框表示没有噪声的原始图像经过模型推理后得到的预测结果;不同图像块上的红色阿拉伯数字表示图像块的重要性排序(1表示最重要的图像块,16表示最不重要的图像块)。该图像的原预测结果为“羊”,其重要区域(如1~4)集中在羊的皮毛、臀部,不重要区域(如10~16)几乎都在背景上面。这些结果均与人的直观感觉类似,说明该可解释性方法具有一定程度的可解释性,能够用一种清晰、直观的排序方式展示模型推理过程中数据层面上的决策依据。模型性能极限研究对于从未涉猎神经网络的人来说,要让他们对模型产生信服,从而将模型投入应用,重点需要解决两个问题:①模型主要关注了数据的哪些特征作为决策依据;②当数据受到什么程度的干扰时,模型会失效。解决第一个问题是为了在决策依据层面使用户对模型产生信任;解决第二个问题是为了探究模型的鲁棒性和性能极限,让用户对模型的抗干扰能力有大致了解。对于第一个问题,基于误差分数机制的可解释性目标识别方法基本已经解决。对于第二个问题,我们在此基础上进一步思考:如果图像块不是被分成若干具有一定高层语义信息、尺寸较大的区域(如4×4),而是被分成大量没有明确语义信息、尺寸很小的区域(如20×20)来加噪声,会产生怎样的效果?如果每次加噪声并不是只加一块区域,而是随机挑选许多块区域加噪声,并重复进行多次实验,是否就可以从统计学的角度对模型的抗干扰性能极限进行定量的分析?基于以上想法,将每张图像均匀分为10×10=100个小区域,定义每张图像加入噪声的比例为模型性能极限研究式中,m为该图像分割的总块数,(本实验中m=100);m′为该图像中加入噪声的区域数,每一区域加入的噪声均是方差为1的高斯噪声。当pnoise=0%时,整张图像没有噪声;当pnoise=100%时,整张图像被噪声占满。图6-3所示为pnoise为0%、20%、40%、60%、80%、100%时对应的图像。模型性能极限研究为了方便实验,先对单个物体类别进行实验,考察模型预测的mAP随pnoise变化的情况。按照预想情况,pnoise越大,模型的mAP应该越低,并且在理想情况下,由于模型有一定的抗干扰能力,因此模型的mAP不会随着pnoise的增大而线性下降,而应该呈现最开始比较平稳、基本不下降,当pnoise超过某个阈值之后,mAP急剧下降的情况。将VOC2012数据集中所有包含狗、车、人三类物体的图像抽取出来进行上述实验,经过一轮测试后画出模型的mAP随pnoise变化的曲线,如图6-4所示。针对VOC2012数据集中包含狗、人两类物体的图像进行上述实验后,画出模型的mAP随pnoise变化的曲线,如图6-5所示。模型性能极限研究模型性能极限研究(1)模型具有一定的抗干扰能力。(2)对于不同的类别,模型的抗干扰能力是不同的。(3)预测精度高的类别,抗干扰能力不一定强。03基于因果约束的可解释性目标识别方法基于因果推断的特征重加权算法因果推断是用于解释分析的强大建模工具,可以帮助恢复数据中的因果关联,用于指导深度学习,实现可解释的稳定预测。因果推断指的是描绘因变量和果变量之间的关系和评估其因果效应,其根本问题是因果效应估计,关键挑战是消除实验组和对照组之间混淆变量分布不同引起的混淆偏差,进而辨识因果关系。因果关系是一种客观存在的事物之间的联系,人们根据其理解和解释事物运行的内在规律。一般而言,因果关系可以用函数因果模型(FCM)进行数学描述,构建一个线性非高斯无环因果模型(LiNGAM):基于因果推断的特征重加权算法式中,β1和β2为线性系数;X1、X2为原因;Y为结果;e为非高斯分布的方差非0的噪声量。在封闭系统中,当满足E(e|X1,X2)=0时,可认为因果关系成立。E(e|X1,X2)表示在给定X1

、X2的情况下,噪声量e的期望。作为一个多输入模型,深度模型属于多变量耦合系统,从众多耦合参数中找出存在的因果关系可以提高模型的性能。如图6-9所示,图6-9(a)所示的系统因果关系不明确,通过切断X1→Y的路径,构建唯一确定的因果路径X1→X2→Y[见图6-9(b)],有助于模型的性能提高。基于因果推断的特征重加权算法深度神经网络特征间存在复杂的依赖关系,单纯地消除线性相关性并不足以消除无关特征与标签之间的虚假关联,所以一个直接的想法就是通过核方法将原始特征映射到高维空间,在此空间中消除新特征间的线性相关性,从而保证原始特征严格独立。具体来说,可以使用随机傅里叶特征进行高效的核映射近似,并动态维护全局特征以消除虚假关联。本节介绍一种基于因果推断的特征重加权算法,以去除决策变量和混淆变量之间的相关性,从而保证原始特征严格独立。基于因果推断的特征重加权算法具体而言,采用全局平衡方法提取因果特征。给定任意的干预,对训练样本进行加权,从而消除各类特征之间的统计关联性,断开背景与因果特征之间的关联,最终找到更加具有因果关系的特征,实现更加稳定的预测,优化公式如下。式中,Wi为样本xi的权重;β为因果贡献;n为样本数量;γi为标签;约束条件用于正则化,防止过拟合,并确保模型的稳定性。该函数类似于加权的逻辑回归损失函数,目的是最小化加权的对数损失。基于因果推断的特征重加权算法由于各类特征之间的相关性通常是非常复杂的非线性相关性,基于因果推断的特征重加权算法的核心思想是:该网络将所有的特征映射到随机傅里叶特征空间中,即特征从低维空间映射到高维空间,通过在高维空间中消除特征之间的线性相关性来去掉原始特征空间中特征之间的线性和非线性相关性,保证特征的严格独立。基于因果推断的特征重加权算法式中,x为输入的特征向量;ω为从标准正态分布N(0,1)中采样的随机向量;φ为从均匀分布Uniform(0,2π)中采样的相位。上式用于独立性检测的随机傅里叶特征。本算法中网络与样本权重更新公式如下。式中,f(t+1)为t+1轮的特征函数;g(t+1)为t+1轮的预测函数;w(t+1)为t+1轮的样本权重;

为t+1轮的偏互协方差矩阵。基于因果推断的特征重加权算法基于因果推断的特征重加权算法基于因果推断的特征重加权算法的具体使用流程如下。12首先通过特征提取器提取输入图像的图像特征,然后通过随机傅里叶特征提取器得到随机傅里叶特征。利用损失函数计算网络的分类损失。3使用随机傅里叶特征对原始特征进行独立性检测,将随机傅里叶特征间的相关性作为损失训练一组样本权重。基于因果推断的特征重加权算法基于因果推断的特征重加权算法的具体使用流程如下。4使用学习到的样本权重对预测损失进行重加权,并将其作为整个模型最终的训练损失。5使用加权后计算得到的训练损失进行梯度反传,更新特征提取器与分类器的参数。实验结果01定量实验与分析(1)样本集构建为了充分验证本节提出的方法在面对不同分布场景时的鲁棒性和泛化性,构建非独立同分布训练集与测试集。其中,训练集由7类无干扰的仿真目标构成,背景简单且与真实场景存在差异;测试集分为两个,测试集一由被云雾干扰的仿真目标构成,与训练集无交集且背景复杂度高,测试集二由实采的目标构成,背景为实采复杂背景数据。实验结果01定量实验与分析(2)对比算法模型及训练方法首先,以基线模型(ResNet-18)为对比算法在上述训练集上进行训练;随后,在基线模型的基础上,采用随机傅里叶特征和动态维护全局特征的方法学习样本权重,消除虚假关联,提出基于因果约束的可解释性车辆智能识别模型(StableNet),并在训练集上进行训练,选取二者在训练中表现最好的模型进行测试对比,以验证StableNet的有效性。模型训练与测试的方法与参数如下。实验结果01定量实验与分析(2)对比算法模型及训练方法①采用随机梯度下降法作为优化算法。具体实现时,为加快收敛速度,采取动量机制以指数型衰减的方式累积梯度移动平均值,动量值设置为0.9。为了在一定程度上减少模型出现过拟合问题,引入L2正则化机制,设置权重衰减系数为0.0001。②对网络进行初始化,有助于加速网络收敛。本实验的主干特征提取网络采用ImageNet预训练模型进行初始化,其余模块的卷积层和全连接层采用均值为0、标准差为0.01的高斯分布进行初始化,批归一化层的统计均值和统计方差初始值分别设置为常数0和常数1,权重和偏置分别采用常数1和0进行初始化。实验结果01定量实验与分析(2)对比算法模型及训练方法③使用学习率衰减方法能够加快网络收敛速度并且保证网络接近最优解。具体实现时,本实验设定初始学习率为0.02,训练30个迭代周期后,学习率衰减0.1,网络总训练时长为90个迭代周期。④训练过程中,将带有目标框标注的车辆数据输入网络,每次迭代输入的图像数量为16,在两张英伟达TitanRTX显卡上进行并行训练。实验结果01定量实验与分析(3)测试方案将基线模型(ResNet-18)与StableNet在训练集上进行训练,自动选取ResNet-18和StableNet中的最优模型进行后续测试。实验中,将选取的最优模型分别在测试集一和测试集二上进行测试。将ResNet-18和StableNet在上述两个测试集上分别进行测试,用识别准确率作为性能指标(设样本库中目标图像为N个,算法正确识别出N1个目标,则识别准确率Acc=N1/N),验证StableNet在非独立同分布数据场景下的有效性。实验结果01定量实验与分析(4)测试结果①仿真数据集测试结果。使用无遮挡仿真数据集训练的最优模型在有遮挡的仿真数据集(红外测试数据集)上进行测试,结果如表6-1所示,StableNet

的识别准确率比ResNet-18的识别准确率高12.4%,说明本节提出的方法对有分布偏移的数据集上的识别性能的提升显著。实验结果01定量实验与分析(4)测试结果②实际数据集测试结果。使用无遮挡仿真数据集训练的最优模型在实采数据集上进行测试,结果如表6-2所示,本节提出的方法显著提高了实采数据集上的识别精度,StableNet的识别准确率比ResNet-18的识别准确率高13.5%,且StableNet可以有效减少严重错误。实验结果02定性试验与分析深度模型试图利用所有可观测到的特征与标签的相关性进行学习和预测,而在训练数据中与标签相关的特征并不一定是其对应类别的因果特征。因果约束智能识别的基本思路是提取不同类别的因果特征,去除无关特征与虚假关联,并仅基于因果特征(与标签存在因果关联的特征)做出预测。如图6-11~图6-13所示,当训练数据的环境较为复杂且与样本标签存在强关联关系时,ResNet等传统卷积网络无法将因果特征与环境特征区分开来,所以其需利用所有特征进行预测,而样本特征重加权算法则可将因果特征与环境特征区分开来,并仅关注因果特征而忽略环境特征,从而无论环境(域)如何变化,均能做出稳定的预测。实验结果02定性试验与分析在图6-12、图6-13中,使用平滑梯度生成特征显著性映射以可视化特征关注效果,颜色越红代表对预测结果的影响越大,可以明显看到样本特征重加权算法与传统深度模型相比更关注于物体本身而非无关的环境,也就是更关注于因果特征,这种特征可以有效地帮助算法提高目标的识别准确率,从而在不同的未知环境中做出稳定的预测。实验结果02定性试验与分析04基于语义分析的细粒度可解释性目标识别方法语义特征分析算法01语义特征激活图的可视化分析语义特征激活图是一种可视化工具,用于展示深度神经网络中与特定语义概念相关的激活模式。语义特征激活图突出显示了深度神经网络在识别过程中关注的区域,这些区域通常与目标对象的语义组成部分高度相关。例如,在人脸识别任务中,语义特征激活图可能会强调眼睛、鼻子、嘴巴等面部特征区域,这些区域对人脸识别至关重要。通过可视化深度模型特征图来获取语义特征激活图,再对获取的语义特征进行定量分析,以归纳出语义特征激活图的性质。考虑到可解释性方法依赖于被解释模型本身的性能,选取在互联网的4亿视觉—语言对的数据集上经过自监督预训练的跨模态CLIP模型的ResNet-50版本作为可行性验证实验的被解释模型。我们选取了数张样例输入作为研究对象,通过逐层、逐通道可视化深度模型特征图来寻找是否存在局部语义特征激活图。语义特征分析算法01语义特征激活图的可视化分析具体来说,给定输入图像

,被解释的深度模型

,被解释的深度模型的第k层特征图

。其中,c0为输入图像的通道数;ck、mk、nk分别为被解释的深度模型第k层特征图的通道数、高度、宽度;h与w分别为输入图像的高度与宽度;yl为分类概率向量y中最大的类别概率。则AI(I)第i个通道的特征图

得到的显著图

为语义特征分析算法01语义特征激活图的可视化分析式中,Up(⋅)为双线性上采样插值;s(⋅)为Min-Max归一化函数;[⋅⋅]表示两个函数复合构成的组合函数。可以发现,在深度模型的深隐藏层的特征图中容易出现具备明显的局部语义特征的激活图,如图6-15所示。其中,图6-15(a-1)~图6-15(c-1)、图6-15(a-2)~图6-15(c-2)可视化了利用CLIP模型预测“鸟”图像时产生的语义特征激活图。而图6-15(d-1)~图6-15(f-1)、图6-15(d-2)~图6-15(f-2)则利用高斯模糊的方法突出显示了语义特征激活图所定位的重要特征。图6-15说明CLIP模型在对“鸟”图像或“狗”图像的建模过程中能够对鸟头、鸟身、树枝、狗头、狗鼻子、狗舌头等语义组块进行细粒度的局部建模,这与Zeiler和Fergus在2013年所提出的CNN内部自底向上构建出特征的结论一致,印证了局部语义特征激活图的存在。语义特征分析算法02语义特征激活图的性质分析我们考虑反向梯度值与前向激活值两个统计量,对语义特征激活图的性质进行分析,以确认这类富有语义特征的激活图相比于其他特征图是否具有明显的区分性,对特定激活图的反向梯度值与前向激活值进行统计的方法如下:语义特征分析算法02语义特征激活图的性质分析式中,为深度神经网络第l个类的置信度yl对模型第k层第i个激活图的反向梯度值,反映了各通道相对于指定类别的重要性权重;Sk,i为深度神经网络第k层第i个激活图的前向激活值,反映了Sk,i对于当前样本各通道的重要性权重。我们基于CLIP模型统计了从“狗”图像的分类预测结果向目标层反向传播时各通道接收到的梯度值及“狗”图像前向传播到目标层时各通道的激活值,图6-16中第1901、1943通道分别对应图6-15(a-2)、图6-15(c-2)。我们发现语义特征激活图的前向激活值与反向梯度值具有“双高”的特点,即特定通道的前向激活值与反向梯度值同时具备较大的正值。这意味着语义特征激活图不论是对于特定类别的预测,还是对于当前样本的特征编码,都起着主导性的作用。而这种双显著性也保证了语义特征激活图与其他通道激活图的区分性,因此利用主成分分析(PCA)、奇异值分解(SVD)等重要性分析算法能够实现对这些语义特征的提取。语义特征分析算法03基于奇异值分解的语义特征提取算法深度神经网络能够提取输入图像中的不同特征,并逐渐整合这些特征构建复杂的语义概念。因此通过识别模型决策所依赖的显著特征,可以对模型的推理过程做出更加细粒度的解释。我们利用奇异值分解和反向梯度信息从深度神经网络的中间激活图中得到具有类别区分能力的正交特征图(OrthogonalFeatureMap,OFM),再通过将这些正交特征图扩展到原图像大小,可以获得局部显著图(LocalSaliencyMap),从而揭示深度神经网络做出决策所依赖的显著特征。语义特征分析算法03基于奇异值分解的语义特征提取算法语义特征提取算法有效性分析01正交特征图的正交性与显著性分析将Vk中与前p个特征值对应的奇异向量记为

,并将由按降序排列的前p个奇异值构成的对角矩阵表示为式中,是酉矩阵;是对角矩阵。

是对角矩阵,即Fk中任意两个不同列向量的点乘结果为0因此Fk中的列向量两两正交,由此可见显著特征能够去除类区分激活图Sk中的冗余信息。语义特征提取算法通过保留奇异向量重构特征图,能够有效去除冗余信息,增强正交特征图对局部语义的识别能力。语义特征提取算法有效性分析02局部显著图可视化分析为了更直观地展示由正交特征图所生成的局部显著图的特征级可解释性,在ResNet-50、ResNet-101、ResNet-50×4和ResNet-50×16等不同版本的CLIP模型上对不同的样本输入进行了可视化分析。首先,利用局部显著图对原图进行掩码得到遮挡图。图6-19所示为不同版本的CLIP模型对猫、鹦鹉、医疗救援船3个样例进行推理的过程与前3个奇异值对应的正交特征图的可视化结果。实验结果显示,借助语义特征提取算法,我们能够对深度模型前向推理过程中构建的语义概念进行解析与提取,如猫耳、翅膀、标识等。为了进一步对正交特征图的显著性进行定量分析,我们画出了猫、鹦鹉、医疗救援船3个样例的正交特征图的累计方差贡献率曲线,如图6-20所示。语义特征提取算法有效性分析02局部显著图可视化分析式中,σi表示将所有OFMs对应的奇异值按照逆自然序(从大到小)进行排列后的第i顺位的奇异值,ci表示第i顺位的累计方差贡献率。图6-20表明,前几个奇异值对应的正交特征图可以捕获原始激活图中的大部分方差信息,这表明使用正交特征图可以极大地减少显著图中的噪声,并突出模型决策所依赖的主要特征。因此,语义特征分析算法能够从深度神经网络前向传播的激活图中提取具有语义信息的显著特征,实现特征级别的解释。语义特征提取算法有效性分析02局部显著图可视化分析05总结本章首先介绍了基于误差分数机制的可解释性方法,通过将图像均匀分块并对每一块加以噪声,来直观展示图像的哪部分对噪声干扰最为敏感、对模型预测结果影响最大;然后介绍了基于因果约束的可解释目标识别方法,结合特征重加权技术解决样本数据分布不一致带来的估计偏差问题;最后介绍了基于语义分析的细粒度可解释性目标识别方法,通过结合语义信息来提高细粒度目标识别性能并增强了模型的可解释性。感谢观看深度学习:智能网络目标识别技术第7章深度学习:智能网络目标识别技术深度模型压缩技术01深度模型压缩技术概述模型稀疏化模型剪枝作为模型稀疏化的主要手段之一,通过对已完成训练的深度模型移除冗余、信息量少的权重,来减少深度模型的参数,进而加速模型的计算和压缩模型的存储空间。不仅如此,通过剪枝网络,还能防止模型过拟合。根据是否一次性删除整个节点或滤波,模型剪枝工作可细分成非结构化剪枝和结构化剪枝。非结构化剪枝考虑每个滤波的每个元素,删除滤波中元素为0的参数,而结构化剪枝直接考虑删除整个滤波(或通道)、分支(Branch)、模块(Block)等。在早期研究中,模型剪枝更侧重于非结构化剪枝。20世纪末,LeCun等人提出了最优化脑损失(OptimalBrainDamage),大大稀疏化多层网络的系数,同时保证模型预测精度依然处于零损失或最小量损失状态。实际上,这种学习方式模仿了哺乳动物的生物学习过程,通过寻找具有最小激活值的突触连接来在突触剪枝(SynapticPruning)过程中大大减少连接个数。模型的可解释性是指模型能够解释其预测结果和决策过程的能力。在深度学习中,模型的可解释性通常指的是模型能够以一种人类可理解的方式,解释其为何做出特定的预测或决策。在数据分析和模型预测过程中,可能会存在数据偏差或模型偏差,这些偏差可能会导致模型的预测结果不准确或不可靠。可解释性分析有助于发现模型可能存在的错误或者偏差,进而为模型的优化提供指导意见,也为评估模型的性能和质量提供更多的依据。探索模型的可解释性能够让用户更放心地使用模型,提高模型在实际应用中的可靠性。当前主流的可解释性方法包括决策级可解释性方法和特征级可解释性方法两大类。决策级可解释性方法关注于模型的最终预测结果,试图解释模型为何做出特定的决策,它们通常不依赖于特定的模型,而是通过分析模型的输入和输出之间的关系来提供决策的解释;特征级可解释性方法深入到模型内部,探究哪些输入特征在模型的决策过程中起到了关键作用,其不仅可以提高深度模型的可信度,还有利于从性能比肩人类的深度神经网络中发现模型性能提升的原因,为开发更高效的深度模型提供依据。模型稀疏化利用相似的思想,Hassibi和Stork提出了OptimalBrainSurgeon剪枝策略,通过二阶的偏导信息(Hessian矩阵)确定不重要的权重,从而删除不显著权重。此外,通过研究层内节点之间的冗余性,构建权重的显著性矩阵,并进行显著性矩阵排序,删除不显著冗余的节点,这种剪枝策略不依赖于训练数据,因此剪枝过程较为快速。Han等人提出了一种基于低值连接的剪枝策略(Low-WeightConnectionPruning),该剪枝策略包括三个阶段,即训练连接、删除连接、训练权重。基于低值连接的剪枝策略的三个阶段及剪枝结果如图7-1所示。第一阶段通过正常训练学习重要的连接;第二阶段通过计算权重矩阵的范数,删除节点权重的范数值小于指定阈值的连接,将原始的密集网络(DenseNetwork)变成稀疏网络;第三阶段通过重新训练稀疏网络,恢复网络的识别精度。以上剪枝方法通常引入非结构化的稀疏连接,在计算过程中,会引起不规则的内存获取,从而影响网络的计算效率。模型稀疏化模型稀疏化结构化剪枝的深度神经网络的压缩方法陆续被提出,它们具备友好适配现有深度学习框架的能力,可以高效推理剪枝后的模型。这些方法的核心思想是依靠滤波显著性准则(鉴定最不重要的滤波的准则),直接删除显著性滤波,加速深度神经网络的计算。2016年,Lebedev等人提出在传统深度模型的损失函数中加入结构化的稀疏项,利用随机梯度下降法学习结构化稀疏的模型参数,并将小于给定阈值的滤波赋值为0,从而在测试阶段直接删除值为0的整个卷积滤波。Wen等人通过将深度神经网络的通道、滤波形状、网络层数的正则化限制加入损失函数中,利用结构化稀疏学习的方式,学习结构化的卷积滤波。Zhou等人将结构化稀疏的限制加入目标函数,并利用前后向分割(Forward-BackwardSplitting)算法解决结构化稀疏限制的优化问题,在训练过程中直接决定网络节点的个数与冗余的节点。模型稀疏化另外,近年来,通过直接测量滤波的范数值来判断滤波的显著性的方法也相继被提出,如图所示,其先直接删除给定当前层最小L1范数的滤波,即移除相应的特征图,然后下一层滤波的通道数也相应减少,最后通过重训练的方式,提高剪枝后模型的识别精度。由于大量的ReLU非线性激活函数存在于主流的深度神经网络中,使得输出特征图高度稀疏化,Hu等人利用此特点,计算每个滤波所对应输出特征图的非零比例,并将其作为判断滤波重要与否的标准。NVIDIA公司的Molchanov等人提出了一种基于全局搜索显著性滤波的策略,对需要删除的滤波用0值代替,并对目标函数进行泰勒展开(TaylorExpansion),判断使目标函数变换最小的滤波为显著性滤波。通过卷积计算方式,可以建立当前层的滤波与下一层的卷积滤波的输入通道之间一一对应的关系,利用此特点,Luo等人用探索下一层卷积滤波的输入通道重要性代替直接考虑当前层滤波,并建立一个有效的通道选择优化函数,从而删除冗余的通道及相应的当前层的滤波。模型稀疏化此外,滤波的几何中值、特征图的平均秩也相继被提出,并作为判断滤波重要性的标准。以上基于结构化剪枝的深度神经网络的压缩方法删除了卷积层的整个滤波,没有引入其他额外的数据类型存储,从而在直接压缩模型的同时加速整个模型的计算。模型稀疏化除直接将滤波判断函数用于结构化剪枝外,利用掩码判断滤波冗余的方法也相继被提出。例如,Huang和Wang提出对每个滤波加入尺度因子(ScalingFactor),并使用L1范数控制其稀疏性,经过训练选择出紧致化结构。Lin等人提出全局动态剪枝方法,利用二值掩码来确定显著性滤波,并借助贪心算法交替更新网络权重和二值掩码训练策略,学习模型参数与二值掩码,实现模型的滤波剪枝。Gao等人引入离散通道控制门,并借助直通估计(Straight-ThroughEstimator,STE)避开控制门限制中的非光滑非凸优化问题。此外,也有相关研究(如文献)在批量正则化项中稀疏化尺度参数,达到稀疏化特征图和滤波的效果。模型稀疏化模型量化模型量化的核心思想是利用较少比特(bit)代替原始32bit浮点型的参数[也可记为全精度权重(Full-PrecisionWeight)],从而减少参数存储空间,并利用低比特特定计算提高运行速度。Gong等人及Wu等人利用向量量化的技术,在参数空间内对深度神经网络中的权重进行量化。近年来,利用低比特的量化被提出用于加速与压缩深度神经网络。Gupta等人将全精度浮点型参数量化到以16bit固定长度表示,并在训练过程中使用随机约束(StochasticRounding)技术,缩减深度神经网络存储空间和浮点计算次数。使用动态固定点(DynamicFixedPoint)量化,可在量化AlexNet时实现几乎无损压缩。例如,Ma等人将权重和激活值分别量化到8bit和10bit,且没有利用微调权重。随后Gysel等人利用微调,将权重和激活值全部量化到8bit。模型量化为了更大程度地缩减存储空间和浮点计算次数,对网络参数进行二值表示的相关方法已被大量提出。其主要思想是在模型训练过程中直接学习二值权重或激活值。BinaryConnect直接量化权重为-1或1,只需要进行加和减计算,减少了卷积计算,但因激活值为全精度浮点型参数,无法大幅度加速网络计算。为此,Courbariaux等人通过同时量化权重和激活值为-1和1,提出了二值神经网络(BinaryNeuralNetwork,BNN),将原始的卷积计算变成Bitcount和XNOR,大幅度加速和压缩深度神经网络。但其在压缩和加速深度神经网络(如AlexNet)时,分类精度大大降低。为了减少精度的丢失,Rastegari等人分别提出了BWN和XNOR-Net,引入了尺度因子,用于缩小量化误差,并保留第一层和最后一层的权重和输入为32bit的浮点型参数。模型量化同时,改变卷积和正则化的顺序,即先执行正则化,再执行卷积,减少了激活值的动态幅度范围。伴随着这些改变,BWN和XNOR-Net分别获得了0.8%和11%的分类误差提升。XNOR-Net二值量化框架如图7-3所示。在文献、文献中,通过增加激活值的比特数(大于1bit),并探索不同的低比特权重与激活值的组合量化全精度权重和激活值,提高量化后的网络在ImageNet数据集上的分类效果。但是在训练这些量化网络时,会出现梯度不匹配问题。Cai等人通过分析权重和激活值的分布情况,设计了一种新的半波高斯量化器(Half-WaveGaussianQuantizer)及其反向传播过程中不同的梯度近似,提出了HWGQ-Net,有效地解决了训练过程中的梯度不匹配问题。模型量化另外,Lin等人考虑到二值化数据信息表达能力很弱的缺点,提出了ABC-Net,通过将多个二值化权重与激活值进行线性加权求和的方式来近似全精度权重与激活值,以一定的时间和空间为代价换取网络精度。Liu等人提出了Bireal-Net,通过在二值网络中引入捷径结构来嵌入全精度实数值信息,推导了不可微符号函数关于激活值导数的近似逼近,提出了一种与权重幅度值相关的感知梯度来对权重进行更新,并使用clip函数代替ReLU函数对实值CNN模型进行预训练。Liu等人还在MobileNet-V1原始网络的基础上加入捷径层进行改造,并通过实验发现激活值的偏移与缩放对二值网络的性能具有明显影响,提出了React-Net,在网络结构中加入可学习的参数变量,让网络自动学习每一层激活值对应的最佳偏移值与缩放值,进一步提高了网络精度。模型量化模型量化由于权重近似分布于均值为0的高斯分布,即W~N(0,σ2),进一步考虑将0作为量化后的值,可能会减少量化误差。基于此思想,三元权重网络(]TernaryWeightNets,TWN)将全精度权重网络量化到三元网络,即-w、0和w,其中w为通过统计估计得到的量化的值。通过改变对称的w,训练的三元量化(TrainedTernaryQuantization,TTQ)引入了不同的量化因子(-w1、0和w1),且通过训练得到该因子,在量化AlexNet时,分类误差只增加了0.6%。低秩分解低秩分解的核心思想是利用矩阵或张量分解技术分解深度模型中的原始卷积核,减少存储开销并提高小卷积计算的速度。卷积计算是整个CNN中计算复杂度最高的计算操作,通过分解4D卷积核张量,可以有效地减少模型内部的冗余性。此外,对于2D的全连接层矩阵参数,同样可以利用低秩分解技术进行处理。由于卷积层与全连接层的分解方式不同,因此我们分别从卷积层和全连接层两个不同角度分析低秩分解技术在深度神经网络中的应用。2013年,Denil等人利用低秩分解技术从理论上分析了深度神经网络存在大量的冗余信息,开创了基于低秩分解的深度模型压缩与加速的新思路。图7-4所示为低秩分解后的卷积计算。Jaderberg等人利用张量的低秩分解技术,将原始的网络参数分解成两个小的卷积核。利用相同的策略,Denton等人先寻找对卷积层参数的低秩近似,然后通过微调的方式恢复模型的识别精度。此外,Lebedev等人利用经典的CP分解,将原始的张量参数分解成三个秩为1的小矩阵。相似地,Kim等人利用Tucker分解,将原始张量分解成三个小张量的乘积。Tai等人提出了新的低秩分解张量算法,同时提出引入批量正则化,重新训练有低秩限制的CNN。低秩分解Ioannou等人利用卷积核低秩表示代替分解预训练的卷积核参数,并设计了一种有效的权重初始化方法,重新训练计算有效的CNN。同样地,Wen等人不采用直接分解预训练的模型参数,而是从训练的角度探讨如何更有效地聚集更多参数于低秩空间中,提出了新的引力正则化项(ForceRegularization),迫使更多的卷积核分布于更低秩的空间中。以上低秩分解卷积核的方法虽然减少了卷积核的冗余性,即考虑了CNN内部结构的冗余性,但全盘接受了视觉输入的全部,极大地影响了模型的加速比。为此,Lin等人提出了ESPACE卷积计算加速框架,考虑了视觉输入的冗余性,即从输入计算空间和通道冗余性两方面移除低判别和低显著性信息。低秩分解对于全连接层特定的2D矩阵形式来说,虽然可以将2D矩阵计算转变为1×1的卷积计算,从而利用上述低秩分解技术进行应用,但特定的全连接层也存在相关低秩分解方法。Denil等人利用低秩分解方法减少了深度神经网络中的动态参数个数。Lin等人分析了直接对层内参数低秩分解压缩无法获得高精度分类效果这一缺点,考虑层间的各种非线性关系,提出用层间参数的联合优化代替单层优化,构建全局误差最小化的优化方案。知识蒸馏知识蒸馏的基本思想是通过软Softmax变换学习教师输出的类别分布,并将大型教师模型(TeacherModel)的知识迁移至较小的学生模型(StudentModel)。图7-5所示为简单的知识蒸馏的流程。2006年,Buciluǎ等人首先提出利用知识迁移来压缩模型。他们通过集成强分类器标注的伪数据(PseudoData)训练一个压缩模型,并重现了原大型网络的输出结果,然而他们的工作仅限于浅层网络。Ba等人提出可以将具有一定深度和宽度的网络压缩为浅层模型,该压缩模型模仿了复杂模型所能实现的功能。知识蒸馏Tung等人利用网络中间层每个样本之间的相似度信息进行知识迁移。Kim等人提出在教师网络的最后一层特征中提取便于学生网络理解的转移因子,将知识传递给学生网络。对于学生网络与教师网络中间层特征不一致的情况,Heo等人提出使用1×1卷积进行维度对齐,并构建教师网络激活边界作为中间层知识迁移至学生网络中。不仅如此,特征图的Jacobian梯度信息也可以作为中间层知识表示。近年出现了一些利用输出层特征进行对比学习或基于自监督的知识蒸馏方法,用于挖掘学生网络与教师网络之间不同样本的关系,从而迁移教师网络的关系知识至学生网络中。神经网络架构搜索01搜索空间链式结构是最为常见的神经网络架构,即神经网络架构中的每一层只与其后一层和前一层相连,前一层的输出为当前层的输入,后一层的输入为当前层的输出。由于神经网络的架构表现为一种链条状,因此这种搜索空间被称为链式搜索空间,典型的链式搜索空间如图7-6所示。(1)链式搜索空间神经网络架构搜索01搜索空间基于Cell的搜索空间受到传统手工设计网络中模块堆叠的启发,Cell是最小的神经网络搜索单元。与搜索整个神经网络不同,搜索基于Cell的搜索空间时仅搜索Cell结构,然后最终的神经网络由搜索出来的Cell结构堆叠而来。一个Cell是由M个节点组成的全连通的有向无环图(DirectedAcyclicGraph,DAG)。每个节点将前面的节点作为输入,并通过求和操作生成输出。每个节点表示为一个特定的张量(如在CNN中它表示为一张特征图)。处于两个节点间的有向边表示一个操作,该操作从搜索空间中采样得来。基于Cell的搜索空间的一个经典样例是DARTS中所使用的,如图7-7所示。(2)基于Cell的搜索空间神经网络架构搜索02搜索策略(1)贝叶斯优化研究人员常常会用贝叶斯优化来解决超参数优化的问题。针对高维度和低维度问题,均需对贝叶斯优化算法进行一定调整:针对低维度问题,需要结合高斯过程(GaussianProcess)和核技巧(KernelTrick)来处理;针对高维度问题,需要结合树模型或者随机森林来处理。贝叶斯优化的优点是搜索效率高,原因在于其不需要重复测试网络结果,节省了大量网络评估的时间。通常,贝叶斯优化的过程为:①假设一个先验概率分布模型(最常用的是高斯过程模型);②基于采样函数平衡探索与开发的过程;③不断添加样本点进行模型的优化;④使得优化后的先验概率分布模型不断逼近真实的概率分布。神经网络架构搜索02搜索策略(2)强化学习采用强化学习进行神经网络架构搜索时,生成神经网络架构的过程即为强化学习中代理(Agent)选择行动(Action)的过程,其中神经网络架构搜索算法中的搜索空间即为强化学习中的动作空间。对得到的神经网络进行训练,得到在验证集上的精度,并将该精度作为代理的回(Reward)。然后将回报反馈给代理,进行下一步更好的动作选择。基于强化学习的搜索算法的不同之处在于策略表示和优化算法。2017年,Zoph等人提出基于强化学习的搜索算法,其搜索得到的神经网络与人工设计的最佳神经网络具有相近的性能。其控制器采用循环神经网络,从搜索空间中采样操作,把采样得到的操作组成网络,对得到的网络进行训练并得到在验证集上的精度。随后,使用强化学习的方法优化循环神经网络的参数。在训练控制器时,为了加速控制器的学习过程,可采用分布式训练和异步参数更新的方式。之后,大量基于强化学习的算法被提出,如NASNet、权重共享的ENAS方法及EfficientNet等,它们分别从搜索空间、搜索效率、模型大小维度等方面进一步拓展研究。神经网络架构搜索02搜索策略(3)进化算法进化算法的基本流程框架:先随机生成一个种群,然后不断循环三步:选择、交叉和变异,当满足条件时,完成搜索,退出循环。近年,一种新颖的进化算法EDA(EstimationDistributionofAlgorithm)被提出,其是一种基于概率模的进化算法,基本思路与传统遗传算法相似,主要的区别在于该算法去掉了交叉、变异的环节,通过学习一个概率模型,依概率采样下一代的种群。神经网络架构搜索02搜索策略(4)可微分搜索算法前面提到的各种搜索策略的本质都是在离散搜索空间中进行搜索,下面将介绍一种在连续搜索空间中进行搜索的算法——可微分搜索算法。当搜索空间连续时,即可对目标函数进行求导,因此神经网络架构可通过一种基于梯度的方法高效地学习得出。2019年,DARTS中首次提出了可微分的搜索算法。DARTS本质上是将搜索空间连续化,从而可以用学习的方法学习出最优神经网络架构。它给每个操作设置一个结构参数,结构参数值越大表明该操作效果越好,最终的搜索结果选择每个位置结构参数值最大的操作。DARTS中最关键的是将候选操作使用Softmax函数进行混合,这样就实现了搜索空间的连续化,此时目标函数可微分。因此,最优神经网络架构可通过基于梯度的优化方法进行优化得到。另外,文献中提出了另一种基于梯度的方法。其做法是:先将神经网络架构编码,并将其嵌入一个连续的高维空间,这样该高维空间中的每一个点表示一个神经网络架构;然后,定义一个准确率的预测函数,将高维空间中被编码的神经网络架构作为预测函数的输入。以预测值和真实值为目标函数进行基于梯度的优化,找到更优神经网络架构的编码。优化完成后,将这个编码映射回神经网络架构。可微分搜索算法的优点是搜索效率高,但是搜索出来的神经网络架构的性能一般不如强化学习和进化算法。紧致化结构设计网络结构紧致化是指通过设计小型的、较为浅层的网络结构来代替庞大、复杂、深入的网络结构,从而使网络更加轻量和高效。紧致化结构设计通常需考虑模块和整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论