版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、零样本学习综述近年来,海量数据资源的不断涌现和机器计算能力的不断提高,给正在兴起的机器学习技 术带来了巨大的发展机遇与挑战。随着大量研究成果已投入实际应用,机器学习技术催生 出人脸识别、智慧医疗、智慧交通等多个前沿的商业化应用。机器学习旨在通过计算机来 模拟或者实现人类的学习行为,让计算机具备能够从海量数据中获取新的知识的能力并不 断地改善自身的性能。这也使得传统的基于监督的机器学习算法在某些识别(人脸识别、 物体识别)和分类等方面的性能已接近甚至超过人类。然而拥有如此高超的性能所需要付出的代价是大量的人工标记数据本文主要综述了零样本学习的理论体系和应用体系。组织结构如下:第 1章论述零样本理
2、 论体系中的相关基础概念。第 2章列举经典的零样本学习模型。第 3章构建零样本学习的 应用体系。第4章讨论零样本学习应用中的挑战,并对研究方向进行了展望。1零样本相关基础理论研究背景在日常生活中,人类能够相对容易的根据已经获取的知识对新出现的对象进行识别而这种根据以往获取的信息对新出现的事物进行推理识别的能力,在2009年被Palatucci正式提出,并取名为零样本学习( Zero-shot Learning , ZSL)定义将上述的推理过程抽象为通过已知信息加上辅助信息进而推断出新出现对象的类别。 因此,推理过程中已知的信息(猫、斑马、金毛)为训练集,辅助信息(猫的外形、黑色 的条纹、金毛的
3、颜色)为训练集与测试集相关联的语义信息由于零样本学习依赖的已知知识仍是一种带标签的数据,我们可以得知零样本学习是一种 特殊的监督学习技术。对比传统的监督学习,其定义为关键问题由定义可知,零样本学习是一种特殊的监督学习。其存在的问题除了传统的监督学 习中固有的过拟合问题外领域偏移问题(Domain Shift )同一事物在不同领域的视觉效果相差太大。2015年,Fu等人目前学者们提出的解决办法主要有三种:第一种是在训练过程中加入不可见类数据当然,上述的解决方案都是建立在可见类与不可见类的数据分布在样本级别上是一致的。 而枢纽点问题(Hubness)某个点成为大多数点的最邻近点。2014年,Din
4、u等人目前学者们提出的解决办法主要有两种:第一种是使用岭回归模型,建立从低维向高维映 射,在计算机视觉中则为建立从语义到视觉的映射,这种方法也称为反向映射此外,非主流方法有广义零样本学习(Generalized Zero-Shot Learning,GZSL )训练集类别与测试集类别互斥。本章第二节已经对广义零样本学习的定义进行描述 以及同零样本和传统监督学习进行比较。零样本学习的前提条件是测试集与训练集没有交 集,即可见类等于训练集,不可见类等于测试集。这意味着测试阶段,如果样本来自训练 集,则无法预测。这在实际生活中是不现实的。因此, 2019年,Wang等人目前学者们提出的解决方法主要有
5、两种,第一种是先通过分类器,将测试集中可见类与不 可见类数据进行划分。如果是可见类数据,则直接使用分类器进行分类;如果是不可见类 数据,则利用辅助信息进行预测语义间隔(Semantic Gap)语义空间与视觉空间流行构成不同,相互映射有间隔。零样本学习预测不可见类数 据一般的解决方案是构建图像与语义之间的关系。2017年,Li等人目前学者们提出的主要解决方案是将从图像空间提取的视觉特征与语义空间提取的语义信 息映射到公共空间中,并将两者进行对齐常用数据集目前,零样本学习在不同的领域得到了广泛应用。本节根据应用的不同类型,文本、 图像、视频,分别介绍其在零样本学习中常用的数据集。文本常用数据集.
6、LASER ( Language-Agnostic Sentence Representations )语言数据集。LASERJ28种不同字符系统的90多种语言。在零样本学习任务中 主要用于开发该数据库中未包含的小语种。2.WordNet英文词语数据集。 WordNet包括超过15万个词,20万个语义关系。语义关系指的是名词、 动词、形容词和副词之间的语义关系。零样本学习主要使用的是 WordNet的名词部分。3.ConceptNet常识数据集。ConceptNet主要由三元组构成,包括超过2100万个关系描述、800万个节点以及21个关系。止匕外,其要素有概念、词、短语、断言、关系,边等图像
7、常用数据集.AWA (Animal with Attribute )动物图像。AWM 30475张动物图片构成,其中有 50个动物类别,每个类别至少 有92个示例,85个属性。止匕外,AWA还提供7种不同的特征。由于 AWA有版权保护, 所以扩展数据集AWA电运而生。AWA包括37322张图片,与AWA同样拥有50个动物类别 和85个属性。一般将40类作为训练数据的类别,10类作为测试数据的类别。.CUB (Caltech-UCSD-Birds-200-2011 )鸟类细粒度图像。CUBft 11788张鸟类图片构成,其中有 200类鸟类类别,312个 属性。一般将150类作为训练数据的类别,
8、50类作为测试数据的类别。.aPY (aPascal-aYahoo )混合类别图像。aPY由15339张图片构成,其中有32个类别,64个属性。并且明 确规定20个类共12695张照片作为训练数据的类别,12个类共2644张照片作为测试数据的类别4.SUN (SUN Attribute Dataset )场景细粒度图像。SUN由14340张场景图片构成,其中包括 717个场景类别,每个 类别20张示例,102个属性。一般将645类作为训练数据的类别,72类作为测试数据的 类别。5.ImageNet混合类别图像。ImageNet由超过1500万张高分辨率图片构成,其中有 22000个类 别,属于
9、大数据容量数据集。因此,一般使用其子数据集ILSVRC IVSVRC由100万张图片构成,其中有1000个类别,每个类别1000张示例。一般将800类作为训练数据的类别, 200类作为测试数据的类别。1.4.3视频常用数据集1.UCF101主要应用于人类行为识别。UCF101由13320视频片段和101个注释类组成,总时长为 27个小时。在 THUMOS-20142.ActivityNet主要用于人类行为识别。ActivityNet 由27801个视频片段剪辑组成,拥有 203个活动类 (含注释),总时长为 849个小时,其主要优势是拥有更细粒度的人类行为。.CCV (Columbia Con
10、sumer Video )主要用于社会活动分类。CCV由9317个视频片段组成,拥有 20个活动类(含注释),归属于事件、场景、对象三大类。.USAA (Unstructured Social Activity Attribute)主要用于社会活动分类。USAA对CCV(Columbia Consumer Video )中8个语义类各选取100个视频进行属性标注。一共有69个属性,归属于动作、对象、场景、声音、相机移动五大类。2经典模型本章通过介绍零样本学习在 3个发展阶段的经典模型,为第 3章应用体系的构建提 供理论体系的支撑。这 3个发展阶段分别是,第一,基于属性的零样本学习;第二,基于
11、嵌入的零样本学习;第三,基于生成模型的零样本学习。基于属性的零样本学习2013年Lampert等人提出基于属性的零样本学习方法I.Direct Attribute Prediction(DAP)DAP型DAP型在挑选样本方面,与 AWAS据集根据抽象名称指定动物和属性不同,其更细致的 考虑了示例图像,根据图像来指定动物与属性,并使得示例图像中动物出现在最突出的位 置。在数据集配置方面将优化后的数据集类别分为50%H1练集和50%M试集。最终实验取得了多类别65.9%的准确率。通过利用属性,DAP真型成功的将没有数据的类别进行预测,并且具有较高的精度。但是 DAP有三个明显的缺点。其一,对于新加
12、入的可见类数据,属性分类器需要重新训练,无 法对分类器进行优化和改善。其二,对于除了属性外的其他辅助信息(如网络结构的数据 集Wordnet),难以使用。其三,由于使用了属性作为中间层,对于预测属性,模型能够 做到最优。但对于预测类别,却不一定是最好的。与DA唯型一同出现的还有IAP与DAP模型一样,IAP模型也成功的预测出没有数据的类别,并且比DAP模型更加的灵活,简单。当有新类别需要进行训练时,IAP模型的训练时间成本较小。但是 IAP模型在实验中的效果并没有DA暇型的好。在基于属性的零样本学习中,除了经典的DA可口 IAP模型,基于嵌入的零样本学习随着机器学习的不断发展,计算机视觉逐渐成
13、为研究者们的关注热点。只有属性的零样本 学习,远不能满足对图像处理的需求,而且基于属性的零样本学习也存在着许多问题。因 此,零样本学习提出基于嵌入的零样本学习,将语义信息与图像信息紧密结合起来。主要 的方法有语义信息嵌入图像空间、图像信息嵌入语义空间、语义信息与图像信息嵌入公共 空间等。在图像信息嵌入到语义空间经常使用的训练函数有单线性函数、双线性函数、非线性函数 等,损失函数有排序损失,平方损失等。.Embarrassingly Simple Zero-Shot Learning(ESZSL)ESZSL模型ESZSL模型在挑选样本方面,直接选择原始的AWA aPY、SUNK据集进行训练以及测
14、试。最终实验在AW徽据集上获得多类别 49.3%的准确率,比DA唯型多7.8个百分点;在 SU据集上则获得多类别 65.75%的准确率,比DA唯型多13个百分点;而在aPY数据 集由于准确度太低,不具备参考价值。正因为ESZSL模型的简单,使得在处理大规模数据上的表现不佳,并且每新来一个不可见 类,就需要为其训练一个映射。而.Deep Visual Semantic Embedding(De ViSE)DeViSE模型DeViSE模型由于使用了 skim-gram模型,其在语义上具有很强的泛化效果。这也使得它即 使预测出来的标签错误了,结果也是非常接近正确值。但是,其图像分类器所采用的神经 网
15、络并非最佳,可以将其换为目前最好的图像分类器,例如在WACV 2021会议上由DEViSE模型在挑选数据集方面,选择使用ImageNet的子集ILSVRC在数据集配置方面,将数据集分为50%勺训练集以及50%勺测试集。但最终实验由于分类器还不够成熟,没有 取得很好的精确度。.Attribute Label Embedding(ALE)ALE模型ALE模型在挑选样本方面,选择 AWAU及CUB两个动物数据集。在数据集配置方面,将 AW徽据集分为40个训练类和10个测试类,将CUB&为150个训练类和50个测试类。最 终实验在这两个数据集上能够取得多类别49.7%口 20.1%的精确度。ALE模型
16、的缺点也是显而易见的。其一,标签所用属性描述是人为定义的,如果两个标签 之间共享的属性基本一致,则会导致它们在属性空间中难以区分。其二,从图像中提取的 不同特征可能对于同个属性。.Structured Joint Embedding(SJE)SJE模型SJE模型在挑选样本方面,选择 AWA CUBl及斯坦福大学推出的狗集三个动物数 据集。在数据集配置方面,将AW徽据集分为40个训练类和10个测试类,将CU盼为150个训练类和50个测试类。最终实验在 AW徽据集中最高可获得 66.7%的准确率;能在 CU吸据集中最高获得50.1%的准确率。由于SJE模型计算每一类语义空间与特征空间之间的兼容函数
17、,使得SJE模型能够进行细粒度识别。但也正因为如此,其必须在所有兼容函数计算完成后才能进行,这使得它的效 率较为低下。.Latent Embeddings(LatEm)LatEm模型LatEm模型在挑选样本方面,选择 AWA CUB以及斯坦福大学推出的狗集三个动物数据集。 最终实验在AW徽据集中最高可获得 71.9%的准确率;能在CU吸据集中最高获得45.5% 的准确率。由于LatEm模型考虑了图像的重要信息,使得它在细粒度分类上表现出来的效果在当下依 然能够达到不错的效果。当然,在语义一致性以及空间对齐方面的问题也使得这个模型有 些瑕疵。.Semantic Similarity Embedd
18、ing(SSE)SSE模型SSE模型在挑选样本方面,选择 AWA CUB aPY SUN四个数据集。在数据集配置上AWA攵据集按50班训练集,50附测试集划分,CU吸据集分为150个训练类和50个测试类, aPY数据集与AWAf同,SUNK据集中10类作为测试集。最终实验在四个数据集上分别最 高可获得 76.33%、40.3%、46.23%、82.5%准确率。SSE模型能够应用于大规模数据集,7.Joint Latent Similarity Embedding(JLSE)JLSE模型JLSE模型在挑选样本方面,选择 AWA CUB aPY SUN四个数据集。在数据集配置上与 SSE模型相同。
19、最终实验在四个数据集上分别最高可获得80.46%、42.11%、50.35%、83.83%准确率。8.Cross Modal Transfer(CMT)CM哪型CMT真型在挑选样本方面,选择 CIFAR10数据集。最终实验在不可见类分类上最高可获得 30%勺准确率。9.Deep Embedding Model(DEM)DE咖型DEMgl型在挑选样本方面,选择 AWA CU评口 ImageNet子集ILSVRC三个数据集。在数据集 配置上AWA CU吸据集采用SJE模型配置,ImageNet子集采用360个类作为测试类。最 终实验在三个数据集上分别最高可获得 88.1%、59.0%、60.7%准
20、确率。DEM真型除了有减缓枢纽点问题的优点外,还能够适用于多个模态,并且提供端到端的优 化,能够带来更好的嵌入空间。但是,模型也只是停留在理论层面的优势,在实践过程中, 对零样本学习的效果不佳。以上的模型都是基于嵌入的模型,它们之间的比较如表2所示。2.3基于生成模型的零样本学习近年来,生成模型这一发现,引爆了计算机视觉许多领域,众多具有高实用价值的应用脱颖而出。现阶段生成模型有生成对抗网络( Generative Adversarial Network,GAN )、自 动编码器(AutoEncoder,AE )、生成流(FLOW。而在零样本学习领域,将语义信息嵌入 到图像空间经常使用生成模型
21、。在获取已知类视觉信息与语义信息的前提下,通过已知类 与不可知类语义的连贯性,生成不可见类的样本,使得零样本学习变为传统的监督学习, 将生成模型运用到极致。1.Semantic AutoEncoder(SAE)零样本学习与 AE的结合。SAE模型 正是因为如此,SAE模型不仅模型简单,效果好,还能够运用于广义零样本学习,更能够 解决领域漂移问题。但是 SAE模型所使用的语义信息与图像信息的嵌入函数过于简单且固 定,无法生成高质量图片,不能十分精确的预测不可见类样本。SAE模型在挑选样本方面,选择 AWA CUB aPY SU明口 ImageNet子集ILSVRC四个数据集。 在数据集配置上采用
22、章节 1第4小节的一般配置。最终实验在五个数据集上分别最高可获 得 84.7%、61.4%、55.4%、91.5%、46.1%准确率。2.f-x generative adversarial network(f- xGAN)零样本学习与生成对抗网络(GAN的结合。f-xGAN模型在CVPR 2018会议上提出,指的 是 f-GAN、f-WGAN f-CLSWGANI型f-xGAN模型没有训练语义与图像之间的嵌入关系,而是通过生成特征,将图像分类转化为 图像特征分类来进行零样本学习。生成特征方法的好处在于生成特征数量无限,计算量小, 训练时间少,效果好,还能够运用于广泛零样本学习。但由于f-xG
23、AN模型使用的是生成对抗网络,生成数据的概率分布可能并不在给定数据上,会导致出现模型奔溃。f-xGAN模型在挑选样本方面,选择 AWA CUB SUN FLO(Oxford Flowers) 四个数据集。在数据集配置上采用章节1第4小节的一般配置。最终实验在四个数据集上分别最高可获得 69.9%、61.5%、62.1%、71.2%准确率。3.Invertible Zero-shot Flow(IZF)零样本学习与流模型(FLOW的结合。IZF模型IZF模型通过双向映射,充分的利用已知类信息,不仅解决了生成对抗网络在零样本下学 习应用中出现的模式奔溃问题,还解决了自动编码器在零样本学习中无法生成
24、高质量图片 问题。IZF模型更是通过扩大已知类与不可知类的分布,解决了零样本学习固有的领域漂 移问题。但是IZF模型与传统的流模型 NICEIZF模型在挑选样本方面,选择 AWA1 AWA2 CUB aPY SUNE个数据集。在数据集配置 上采用章节1第4小节的一般配置。最终实验在五个数据集上分别最高可获得80.5%、77.5%、68.0%、60.5%、57%t确率。综上所述,在预测不可见类数据标签方面,基于属性的零样本学习多采用两阶段式, 嵌入零样本学习多采用转移到能够比较的空间方式,生成模型零样本学习多采用生成不可 见类样本方式。在数据集方面,小数据使用AWA CUB aPY SUN如需进
25、行细粒度识别,则使用CUB SUN数据集。大数据集使用ImageNet。并且搭配常用的配置进行训练与测试。 在评估指标方面,采用划分传统零样本学习以及广义零样本学习的配置,以可见类、不可 见类每类准确率为指标,是一个零样本学习模型最佳的评估方案。在实现效果方面,上述 模型中在广义零样本配置下,不可见类每类准确率在AWA CUB aPY SUNK据集中最高的分别是IZF、IZF、DEM IZF模型。可见类准确率则是 DAP IZF、SAE IZF模型。在局 限性方面,基于属性的模型取决于分类器的准确率,基于嵌入的模型取决于提供的语义信 息质量,基于生成模型的模型取决于生成图片的智力。零样本学习经
26、典模型发展如图17所示。零样本学习模型比较如表 3所示。3三维应用体系本节主要介绍零样本学习在三个维度的应用。第一维是词。使用零样本学习技术对词作处理,并应用于多个领域;第二维是图片。在第一维应用中产生的文本信息可以作为语义信息,嵌入到视觉空间中,推进零样本学习在图片处理过程的应用。第三维是视频。视频中的每一帧可作为图片。将视频切分为图片,运用第二维的方法,使零样本学习在视 频方面的应用更进一步。3.1 一维一一词.对话系统对话是由多个词组成。在对话系统中,涉及的技术有语音识别( ASR、口语理解(SLU)、 对话管理(DM、自然语言生成(NLG、文本生成语音(TTS)。按照流水线结构组成对
27、话系统如图18所示。而零样本学习对对话系统的应用的贡献也是十分巨大的。例如.机器翻译语言是词的多种形式。在机器翻译中,FaceBook开发了一款包含90多种语言和28种不同字母表编写的工具包一一LASER该模型的原理是将所有语言使用多层BiLstm进行训练。LASE所有语言嵌入与传统单语言嵌入的区别如图19所示。在介名H文本中,LASER!先通过英语这一语种的数据进行训练,然后应用于中文、俄文、越南语等语言上,最终都取得 了很好的结果。这个模型的成功说明对于一些没有样本甚至早已不可考究的生僻语种(如 斯瓦西里语),可以通过已知语种的信息对生僻语种进行推理翻译,进而实现零样本学习 的应用价值。.
28、文本分类文本是由多个、多种词组成的。在文本分类中,3.2二维图像.图像检索在图像检索方面,涉及的技术有基于文本的图像检索技术以及基于图像内容的图像检索技 术。.目标识别在目标识别方面,.语义分割/图像分割在语义分割方面,在图像分割方面,在2021年的CVP心议上,Ye等人提出零样本图像分割的解决方 案一一基于背景感知的检测-分割算法,并且文献定义了零样本下图像分割的标准,为数 据样本难以获取的两个代表性领域一一医疗以及工业后续的发展提供可行性方案。.3-维视频.人体行为识别人体行为识别领域,由于收集和标注视频中行为是十分困难且费力的工作,零样本学习通 过文本的描述等信息可实现无样本识别大受欢迎
29、.超分辨率超分辨率领域,零样本学习概念的引入,使得这个领域有了突破性的进展。超分辨率技术 如图20所示。与传统的超分辨率技术一一提供高分辨率以及其对应的低分辨率样本进行 训练不同,零样本超分辨率技术只需要提供低分辨率样本,然后通过退化(生成)模型得 到更低分辨率的样本后进行训练即可。零样本超分辨率技术目前应用于多个领域,如在公 共安全领域对摄像头抓拍到的视频进行超分辨率,以便公共安全部门进行识别;在医疗领 域对医生远程会诊的视频进行超分辨率,恢复重要的局部细节4挑战与未来方向作为新兴的研究领域,零样本学习已经具备了较为完整的理论体系和实际应用。根据嵌入 方式的不同,其算法主要分为三大类,包括语
30、义空间到视觉空间嵌入、视觉空间到语义空间嵌入和语义空间/视觉空间到第三公共空间嵌入。语义空间、视觉空间以及第三方空间, 在机器学习领域也称为模态。由于受到模态内部的数据噪声、跨模态间数据的异构性以及 跨模态导致的信息丢失等影响,使得零学习领域的性能仍具有较大的提升空间。目前,零 样本学习领域中面临的主要挑战如下:.由于零样本学习需要进行跨模态间的数据分析,因此,如何有效化解第一章第三节所提 到的语义间隔,将不同模态信息对齐并映射到相同的特征空间成为首要解决的问题。为此, 研究人员分别提出了三种嵌入方案进行解决:语义到视觉的嵌入方法将可见类和不可见类 的语义特征嵌入到同一个视觉空间进行对比;视觉到语义的嵌入方法将可见类和不可见类 的视觉特征嵌入到同一个语义空间进行对比;语义特征/视觉特征到第三方公共空间嵌入将语义特征和视觉特征同时嵌入到同一个第三空间进行比对。这些方法很好的解决了多模 态数据在比对时信息不对称的问题,然而,这些方法仅简单地对跨模态数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 佛山市南海区孝德湖公园景观设计
- 2022年安平志臻小升初内部模拟考试试题及答案
- 2024年中医执业医师考试西医生物医学常识试题及答案
- 2022年哈尔滨冰城骨干考试在职备考专属试题及答案
- 高一岩石试验往年真题改编试题及答案2020更新
- 2023河南工勤职业道德考试稳过攻略配套题库及标准解析答案
- 2022黑职院单招面试高分答题模板 附考题及参考答案
- 2024建筑电工学必考100题含超详细答案看完直接过
- 2022年全年新三板考试各批次试题及答案
- 2026年广东深圳市龙岗区南湾学校等校中考复习阶段模拟测试(4月)道德与法治试题(含解析)
- 食品安全卫生管理条例
- 孕期产检的课件
- 2024年浙江省杭州市辅警协警笔试笔试测试卷(含答案)
- 光储充车棚技术方案设计方案
- 恶性肿瘤伤口护理
- DB32/T 3564-2019节段预制拼装混凝土桥梁设计与施工规范
- 2025年春江苏开放大学维修电工实训第3次形考作业答案
- 检验科住院标本接收流程
- 三废管理培训课件
- 低压带电工作的安全
- 外科学专业课 腹部损伤学习课件
评论
0/150
提交评论