深度学习:智能网络目标识别技术 课件 ch05 知识内嵌智能目标_第1页
深度学习:智能网络目标识别技术 课件 ch05 知识内嵌智能目标_第2页
深度学习:智能网络目标识别技术 课件 ch05 知识内嵌智能目标_第3页
深度学习:智能网络目标识别技术 课件 ch05 知识内嵌智能目标_第4页
深度学习:智能网络目标识别技术 课件 ch05 知识内嵌智能目标_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第5章深度学习:智能网络目标识别技术知识内嵌智能目标识别方法01深度模型中的知识内嵌方法概述欧几里得基于五大公理系统撰写了《几何原本》,使得后续科学史上的很多重大发现都从公理系统出发,通过第一性原理,用思维和逻辑推导出结果,构建学科知识体系。基于公理系统的研究方法,具有很强的通用性,使得很多靠工程实践才能验证的事情,只需通过数学推导就能完成,极大推动了工程学的发展。还有另外一类方法,基于大量观测数据,发现数据间的数学规律,即依靠归纳总结出规律,进而形成知识。随着传感器技术的发展,观测数据越来越多,但是很难找出一个有物理意义的通用结构,这就推动了深度学习技术的发展。这种技术本质上是统计学意义上的表达方式,其并不来源于人们对实体机理的了解,而是来源于观测数据的强记忆。公理系统模型有“放之四海皆准”的泛化(预测)能力,而“数据驱动”模型的归纳总结能力强,将二者结合起来,“数据驱动+知识内嵌”模型的强记忆和泛化能力会更强。知识嵌入深度学习建立知识和数据之间的桥梁,从而构建具有物理常识的机器学习模型,实现有理智的人工智能系统,推动技术革命。现知识内嵌深度模型的方法大致可以分为四种:领域知识驱动的网络结构设计、物理学模型驱动的网络结构设计、先验知识约束的机器学习方法,以及目前最流行的多模态机器学习方法。领域知识驱动的网络结构设计始终贯穿整个深度学习领域,如基于生物感知的局部特征进行CNN网络结构设计,大语言模型基座网络Transformer受到了人类注意力系统的启发。物理学模型驱动的网络结构设计方面,如最新深度学习Mamba模型,其根据动力学方程构建新的模型,在诸多领域取得了很好的应用效果。先验知识约束的机器学习方法是机器学习领域的重要发展方向,如基于专家知识引导的学习过程,通过引入相关先验知识可以更好地训练深度模型。多模态机器学习方法是当前的主流方法,也是本章的重点。随着深度学习技术的快速发展,计算机能够更好地理解和利用视觉和语义知识,其中对比语言-图像预训练(ContrastiveLanguage-ImagePre-training,CLIP)模型打破了语言与视觉的界限,实现了语义知识内嵌深度模型。通过一种多模态(图像、文本)对比训练神经网络,实现多模态之间的语义对齐,通过寻求不同模态信息之间的对应关系,并利用不同模态信息之间的相关性和互补性,以另一种跨媒体新兴形式打破人工智能发展的瓶颈,从而实现基于语义空间进行视觉感知建模。早期,多模态机器学习的典型思路是在获得单一模态的特征后,将多种不同模态的特征映射到跨模态共享的特征空间中。这一过程需要将多模态特征的学习融入统一的学习框架中,并在模型优化过程中挖掘跨模态数据间的内在关联。例如,图像与自然语言之间的跨模态表达通常将图像特征和语言特征映射到同一特征空间,并使用特定的损失函数约束图像和语言在这个特征空间的相似性

。语义知识内嵌CLIP模型提供了图像的语义描述,通过对比学习嵌入语义信息于图像编码器,可增强CLIP模型的语义感知能力。早期的CLIP模型对文本分支采用固定文本模板形成语义提示(如aphotoofdog),完成语义知识嵌入;在此基础上,上下文优化(ContextOptimization,CoOp)模型首次将CLIP模型中的语义提示设计为可学习模式,利用CoOp方法,提升图像与文本的匹配能力;为了更好地对图像语义信息进行有效嵌入,Zhou等人改进了CoOp模型,提出了条件上下文优化(ConditionalContextOptimization,CoCoOp)模型,通过设计输入图像动态可调整的语义提示学习范式,将图像特征输出经过映射变换形成的输入条件令牌(Token)补入固定文本模板中,实现知识内嵌。Yao等人提出了知识驱动的上下文优化(Knowledge-guidedContextOptimization,KgCoOp)模型,在CoOp模型和CLIP模型基础上,发现了下游新类的性能丢失与可学习文本嵌入和固定文本模板嵌入距离相关,设计了类似于知识蒸馏的提示学习框架,有效融合了图像通用知识和特定语义知识,减少了CLIP下游任务迁移时的一般知识遗忘问题。视觉知识内嵌通过将文本语义信息或本身视觉信息嵌入深度模型中,形成视觉知识内嵌模型。Gao等人提出了CLIP-Adapter模型,通过在图像和语义特征后加入额外的瓶颈层(BottleneckLayer)学习新特征,并利用残差连接融合原始特征与新特征。在此基础上,Zhang等人提出了Tip-Adapter模型,通过创建Query-Key缓存模型直接获得适应器参数,使得模型无须重新学习适应器参数,在无须随机梯度下降训练的模式下,其性能逼近CLIP-Adapter模型。同样利用适应器的思想,Chen等人在空间和通道上将文本与视觉Transformer模型进行交互,实现了有效的视觉信息嵌入,提升模型的小样本识别能力。在图像输入端也可嵌入知识,例如,Bahng等人在图像输入端加入视觉提示,形成新的视觉输入,通过随机梯度下降法学习提示。可采用三种方式构建提示:固定块提示、随机块提示、填充。同样利用此思想,Oh等人提出了BlackVIP模型,解决黑盒下的提示学习问题,实现视觉知识嵌入。不同于上述的图像特征输出端和图像输入端的视觉知识嵌入,LoRA和VPT通过在模型内部加入视觉提示信息,实现了多个下游任务的识别性能提升。跨模态知识相互内嵌多模态信息内部蕴含丰富的语义信息,将多模态特征嵌入不同模态知识,可实现跨模态知识相互内嵌。例如,Khattak等人设计了耦合函数,显性连接文本与图像提示,丰富上下文学习,实现多模态提示对齐CLIP表征。Li等人提出了GraphAdapter,显性建模对偶模态结构知识,实现文本与视觉子图知识的相互嵌入。适配器式高效迁移学习(ETL)在低数据状态下的CLIP模型调整中表现出了优异性能,可以在仅引入少量额外参数的条件下实现模型性能的提升。然而,大多数适配器风格的作品都面临两个限制:①仅使用单一模态对特定任务的知识进行建模;②忽视下游任务中类间关系的利用,从而导致获得次优解。GraphAdapter通过用对偶知识图显式地建模了对偶模态结构知识(文本和视觉模态中不同语义/类的相关性)。02引入介尺度注意力的知识内嵌视觉模型多模态CLIP算法CLIP模型采用经典的双塔结构,图像域和语义域有对应的图像编码器(ImageEncoder)和语义(文本)编码器(TextEncoder)。其中,语义编码器采用了经典的Transformer结构,而图像编码器具有两种选择:第一种是改进后的ResNet,用基于注意力的池化层替代ResNet的全局池化层,此处的注意力机制同样是与Transformer类似的多头注意力机制;第二种是采用ViT结构作为图像编码器。本节采用ftext(⋅)表示语义编码器,fimg(⋅)表示图像编码器,Ximg表示图像,Xtext表示与该图像对应的语义,那么有多模态CLIP算法再通过线性映射层Wimg和Wtext分别将图像特征fimg和语义特征ftext都映射到相同的嵌入特征维度De,则有为了保证特征数值尺度的一致性,再对维度为De的图像特征和语义特征进行L2标准化,则有多模态CLIP算法训练过程如图5-1所示,对图像特征和语义特征进行矩阵相乘,形成打分矩阵,主对角线上的元素都是配对的正样本对打分,而矩阵的其他元素则是由同个块内的图像和不配对的语义组成的负样本。这种策略可以形成N2−N个负样本,整个过程可以用下式描述:多模态CLIP算法CLIP模型推理过程如图5-2所示,给定一张测试图像,首先,使该张图像通过图像编码器得到图像特征;然后,利用语义编码器提取文本向量(假如有K类,形成K个文本向量);最后,对图像特征与K个文本向量求内积,计算出相似度并选择K个文本向量中匹配度最高的向量对应类别作为输入图像的预测类别。值得注意的是,最早的CLIP模型采用了固定文本向量模板作为输入,如aphotoofa[CLS],其中aphotoof为词向量输入,CLS为类别词。实际上,文本向量构成了提示词(Prompt),对多模态CLIP模型的识别性能具有很大影响。知识内嵌模型01视觉-提示微调方法智能目标识别任务通常先使用大量数据对主干网络进行预训练,再针对特定任务对大型基础模型进行参数微调。例如,大型ViT模型使用全量微调的方式对数量庞大的参数进行调整,需要大量的训练时间和计算开销。视觉-提示微调方法为高效调整大型ViT模型参数提供了一种有效方案。视觉-提示微调方法在下游任务训练过程中,向ViT模型中增加少量可学习参数,训练的同时保持预训练阶段主干网络参数不变,仅训练新增参数与最终的分类器,从而得到与全量微调相当,甚至更好的性能,并极大地提高了计算效率,降低了参数存储的空间成本。ViT模型如图5-3所示,对于一个N层ViT模型,首先将一张输入图像分成m个固定大小的块其中h、w分别是图像块的高和宽。每一小块图像将被嵌入具有位置编码的d维空间中:知识内嵌模型01视觉-提示微调方法我们来表示经过嵌入的图像集,并将其作为第i+1层Transformer(Li+1)的输入。再加上一个额外的可学习分类标记([CLS]),整个ViT模型就可表达为式中,xi∈Rd表示嵌入Li+1层输入空间的分类标记;[⋅,⋅]表示序列在长度维度上的连接,因此每个层(Li)都由多头注意力机制、前馈神经网络、层归一化和残差连接组成。Head函数作为分类器,用于将最后一层的分类标记xN映射为预测分类的概率分布Y。知识内嵌模型01视觉-提示微调方法知识内嵌模型01视觉-提示微调方法知识内嵌模型01视觉-提示微调方法Shallow-promptedViT模型的提示词仅被插入Transformer编码器第一层,将这些提示词记为P,其数学表示为式中,Zi代表模型第i层的特征;P和Head函数是可训练的。Deep-promptedViT模型则为每一层均设置额外的可学习提示词Pi

,其数学表达式为知识内嵌模型02引入介尺度注意力的知识嵌入方法介尺度注意力通过在不同尺度上捕捉输入数据的特征,使模型能够同时关注局部细节和全局结构,该特点使引入介尺度注意力的知识嵌入方法可有效解决小样本不平衡类别的学习问题。具体训练过程(见图5-5)分为两个阶段:A)利用来自大规模数据集的注释对模型进行重训练;B)对复杂数据集进行重采样,使得各个类别的图像数据量是均衡的。知识内嵌模型02引入介尺度注意力的知识嵌入方法在A阶段,通过对比学习在特定复杂数据集上对模型主干网络进行重训练,使模型能够充分利用训练数据,并在新的领域中更新视觉-语言表示。为了进一步促进小样本或者难识别类的小样本学习,在B阶段,我们冻结了模型主干网络,并使用一个基于语义注意力机制的视觉提示对均衡采样的训练样本进行微调。视觉提示通过残差结构动态结合固定的A阶段特征和微调的B阶段特征,并优化小样本或者难识别类小样本的视觉表示。与直接微调整个模型主干网络相比,语义注意力机制减少了参数训练量,从而防止了小样本场景设置下的潜在过拟合风险。A阶段与CLIP模型的学习过程类似,是基于对比学习的视觉-语言双塔架构模型,对图像域和语义域分别采用了图像编码器和语义编码器,提取出图像特征与语义特征。再分别通过变换矩阵将图像特征与语义特征投影到相同维度的嵌入空间中,并进行归一化处理。在预训练过程中,CLIP模型利用图像语义进行对比学习,总体训练目标是从语义检索图像的损失函数与从图像检索语义的损失函数两个方向,将匹配视觉-语言的相似度最大化,将不匹配的视觉-语言相似度最小化。知识内嵌模型02引入介尺度注意力的知识嵌入方法CLIP模型通过大规模的视觉-语言配对数据进行训练,实现了强大的多模态表示,并自然地具有零样本类识别能力。为目标数据集中的候选类创建一列语义描述,以执行零样本类预测。如果将标准化测试图像特征表示为v,将所有标准化语义特征表示为τ表示温度超参数,那么可以计算测试图像的类别概率如下:式中,pi表示类的概率;K表示候选类的总数。最后,选择概率最高的语义标签作为预测结果。知识内嵌模型02引入介尺度注意力的知识嵌入方法阶段中,由于小样本类别缺乏训练数据,直接对整个主干网络进行训练容易导致过拟合,引起整体性能下降。B阶段仅在图像特征处理过程中添加一个额外的语义注意力机的视觉提示,对不常见的视觉-语义表征性能进行微调。如图5-5(b)所示,语义特征将与A阶段的训练结果保持一致,图像特征得到优化。假设原始图像特征为f,语义注意力机制的权重矩阵和偏置将分别表示为W和b,将细化后的图像特征f∗表示为仿真实验01引入介尺度注意力的知识嵌入方法与ResNet-50的分类性能对比对于车辆数据集上的分类任务,分别设置了4种算法。第一种是将以ResNet-50为图像编码器的CLIP模型作为基础,添加逻辑回归为视觉提示的知识嵌入深度学习算法;第二种与第三种均为在ImageNet数据集上进行预训练的ResNet-50模型,在再次对车辆数据集进行训练的过程中,分别设置了50步与100步的训练步数,学习率为0.001,权值衰减分别为0.001、0.005;第四种方法为直接使用车辆数据集对ResNet-50模型进行训练。四组实验中对车辆数据集进行训练集与测试集划分的比例均为3:1。知识嵌入深度学习算法与ResNet-50在车辆数据集分类任务中的性能表现如表5-1所示,实验结果表明,知识嵌入深度学习算法在车辆数据集上的分类任务中达到了最好性能。仿真实验01引入介尺度注意力的知识嵌入方法与ResNet-50的分类性能对比仿真实验02不同知识嵌入效果测试性能对比仿真实验03基于知识内嵌的目标检测性能对比03属性增强知识内嵌视觉模型视觉属性词表的引入视觉属性词表的质量很大程度上会影响图像识别的准确率。为了保证所学习到的属性准确、高效,我们引入了在大规模数据集上预训练完成的离散变分自编码器(discreteVariationalAutoEncoder,dVAE),并将其作为视觉属性词表。离散变分自编码器在文献中提出,其作用为对当前的输入图像进行结构重组,然后重新构建该图像。离散变分自编码器由一个编码器和一个解码器构成。其中,编码器用于分割图像,并将每一个图像块编码为离散的视觉词(VisualTokens);解码器则能够基于视觉词重构图像。相比于直接在像素层面研究图像,离散变分自编码器能够将图像分割成网格状的图像块,再进一步离散为视觉词。其意义在于,显著减少了后续图像编码器(如ViT)中用于编码上下文语义的参数量。离散变分自编码器重构图像的示意图如图5-8所示。视觉属性词表的引入视觉属性词表的引入根据文献可知,离散变分自编码器在COCO数据集上完成预训练,可学习到丰富的视觉属性和语义。本节中,我们不调整和改变离散变分自编码器参数,而是采用提示学习的思路将其引入,得到图像的视觉属性。在离散变分自编码器中,编码器和解码器的结构类似,都采用了卷积结构的ResNet,且使用了瓶颈式的残差块。编码器和解码器主要使用3×3卷积,当残差块的输入和输出间特征图数量变化时,使用1×1卷积。离散变分编码器输出的特征维度为32×32×8192,张量中的数值则是视觉词的类别分布对数值。例如,一张分辨率为256像素×256像素的图像被分割为32像素×32像素的网格状图像块,进一步编码为离散的视觉词。根据文献给定的先验知识可知,离散变分自编码器所包含的视觉词的词汇量是固定值,为8192。在本节中,我们提取离散变分编码器最后一个卷积层的权重并将其保存,作为后续使用的视觉属性词表。专家知识提示工程本节收集了若干条以自然语言形式描述的专家知识。简单地,我们以5类小规模车辆数据为例,专家知识涵盖了五类车辆的外观、用途及行驶环境等特征。针对每类车辆的每张图像,可将描述该类别的专家知识整理为一个英文句子,五类车辆分别整理为五个不同的英文句子,即描述专家知识的句子和车辆类别能够一一对应。假设,每一个描述专家知识的句子长度固定为N(不足则用空白补齐),可使用的CLIP模型中的文本编码分词器(Tokenizer)提取N个单词向量的维度为d1,则分词后的5个描述专家知识的句子可表示为专家知识提示工程如图5-9所示,CoOp模型将提示向量设置为可学习的向量,通过输入的图像数据集来训练提示向量。在对语义编码器进行推理时,将提示向量与类名称拼接到一起并输入到语义编码器中提取其语义特征,通过与图像特征进行类别最大化对齐来完成训练,学习有效的提示向量和编码器参数。基于交叉注意力机制的视觉属性词表对齐本节我们将介绍基于交叉注意力机制的视觉属性词表对齐,把提示词与视觉属性词表进行有效融合,形成专家知识,将其有效嵌入图像信息中。提示词的文本向量和视觉属性词表的维度并不相同,无法直接对齐进行嵌入。为了解决此问题,考虑在视

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论