分类问题中的零样本学习_第1页
分类问题中的零样本学习_第2页
分类问题中的零样本学习_第3页
分类问题中的零样本学习_第4页
分类问题中的零样本学习_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

题目:分类问题中的零样本学习摘要近几年深度学习研究取得了巨大的突破,深度学习模型能够通过对训练数据的学习很好的解决复杂问题,然而训练深度学习模型需要依靠海量的数据,为了获取带标注的数据就需要人工对数据进行标注,这会耗费大量的人力成本。因此,为了缓解标注数据带来的成本问题,Palatucci等于2009年提出了零样本学习(Zero-shotlearning)。零样本学习是迁移学习的一种特殊场景,在零样本学习过程中,训练类集和测试类集之间没有交集,需要通过训练类与测试类之间的知识迁移来完成学习,使在训练类上训练得到的模型能够成功识别测试类。零样本学习可以对难以标注的样例进行识别,更重要的是,零样本学习的思路一定程度上符合人类对新事物的认知过程,可以帮我们进一步理解自身的认知过程。本文首先概括了零样本学习的定义和发展,介绍了4种零样本学习模型,并对各模型在分类问题中的表现进行了测试,结尾结合各模型的表现,提出零样本学习在未来可能的发展方向。关键词:零样本学习零样本图像分类特征提取跨模态映射语义自编码条件生成对抗网络 AbstractInrecentyears,deeplearningresearchhasmadegreatbreakthroughs,deeplearningmodelcansolvecomplexproblemsbylearningtrainingdata,buttrainingdeeplearningmodelneedstorelyonalargeamountofdata,inordertoobtainlabeleddataneedtomanuallylabelthedata,whichwillcostalotofmanpower.Therefore,tomitigatethecostoflabelingdata,PalatucciisequivalenttoZSL(Zero-shotlearning)in2009.Zero-shotlearningisaspecialscenarioofmigrationlearning,intheprocessofZSL,thereisnointersectionbetweenthetrainingclasssetandthetestclassset,whichneedstobecompletedthroughtheknowledgemigrationbetweenthetrainingclassandthetestclass,sothatthemodeltrainedinthetrainingclasscansuccessfullyidentifythetestclass.ZSLcanidentifysamplesthataredifficulttolabel,andmoreimportantly,theideaofZSLisinlinewiththecognitiveprocessofnewthingsinhumanbeingstosomeextent,whichcanhelpustofurtherunderstandourowncognitiveprocess.ThispaperfirstsummarizesthedefinitionanddevelopmentofZSL,introducesfourkindsofZSLmodels,andteststheperformanceofeachmodelintheclassificationproblem,andendswiththeperformanceofeachmodel,andputsforwardthepossiblefuturedevelopmentdirectionofZero-shot-learning. 青岛大学本科生毕业论文(设计)目录目录 错误!未定义书签。第一章绪论 41.1 研究背景及意义 41.2 发展及现状 51.3 课题研究方法和目标 6第二章体系梳理 7第三章模型介绍 9第四章实验及分析 14第五章总结及展望 16谢辞 17参考文献 18

绪论研究背景及意义零样本学习(zero-shotlearning,简称ZSL),也称零样本分类(zero-shotclassification,简称ZSC),是利用可见类别数据和先验知识等辅助信息对某种模型进行训练,使其具有对未见类别的识别分类能力,在零样本学习中,训练数据集合和测试数据集合是不相交的。在传统分类问题中,用来训练分类模型的数据集类别是有限的,而分类模型的现实应用环境是复杂的,在使用分类模型进行预测时,经常会遇到训练集中没有出现过的类别,例如我们的训练数据所含的类别只有人、鸟、汽车,经过训练,模型已经能够很好的识别这些类别,但是出现一个新的类别——狗,此时模型会将狗的图片错误分类到三种训练数据中已存在的类别,不能识别这个新的类别。为了解决因训练样本不足导致的模型缺陷,最直接的解决方法是增加样本,让模型学习更多类别,但搜集和标记数据的成本较高,因此我们需要一种技术解决对未见类的对象的分类问题。零样本学习能够在只提供类的属性描述不提供类的训练数据的情况下解决对数据的分类问题。训练得到的模型对于训练集中没有出现过的类别,能自动创造出相应的映射:X→Y,从而根据先验知识实现对未见类别的识别。从数学角度来讲,我们可以设可见类为S={Xs,Ys,c(Ys)},其中Xs是样本原数据(此处为图像),Ys是该样本所属的类别,c(Ys)是这个类别表现出的特征属性。不可见的图像集合为U={Yu,c(Yu)},只有一个样本的类别名和该类别的属性描述。我们要解决的问题是找到Fzsl:X→Yu,实现对未见X的预测。本文将介绍不同的Fzsl的原理,对不同方法进行对比分析。零样本学习使得计算机具有知识迁移的能力,让分类模型充分将先验知识推广到新类别,对于需要区分的类非常多并且训练数据不能完全覆盖所有类的情况非常有用,适合存在海量类别现实场景。在传统分类任务中,训练和测试的类别是相同的,而现实世界中已经标注的数据只占少数,且有诸多场景如疾病图像数据难以大量获取,传统方法中为了识别新类别样本需要在训练集中加入这种类别的训练数据并重新训练模型,这会导致模型成本升高,零样本学习提供了一个针对未见样本分类问题的低成本解决方案。传统的分类模型需要大量标注数据,几乎不可能覆盖现代社会的海量类别,标注成本极大的限制了相关技术的发展,这迫使我们寻找一种对标注样本需求较低的模型,因此,零样本学习必然是分类问题发展的重要方向之一。零样本分类属于迁移学习领域。迁移学习可以将源域和源任务知识迁移到目标域中用于帮助目标任务进行学习。迁移学习中的源域和目标域对应了零样本学习的可见类和目标类。因此零样本学习可以看作一种特殊的迁移学习。发展及现状零样本学习是目标分类研究的重要分支,由传统的目标分类发展到单样本学习(只有少量样本或单个样本)的目标分类,再到提出零样本分类。对于要识别的一个类,传统方法需要大量带标注数据,单样本方法每一类只需要少量或者一条数据,而零样本学习可以在没有该类别训练数据的情况下对该类进行识别。传统方法和单样本方法的测试样本类别一定属于训练类别集合,零样本学习的测试类别不一定属于训练类别集合。零样本分类在现阶段实现了视觉和语义的映射,从视觉和语义特征的拘束演变来看,零样本学习可分为两个阶段:第一阶段使用“简单视觉特征→属性→机器学习”的模式,第二阶段的思路是“深度特征→属性/词向量→机器学习”的分析模式。这两个阶段总计经历了大约十年的时间,本文主要分析零样本学习发展过程中的代表性方法。第一阶段:人类能够描述未知事物的特征和推测未知事物的属性,零样本学习受到人类认知学习过程的启发,建立可见类别的视觉特征和类别描述之间的映射关系,使用可见类和先验知识将认知能力从可见类扩展到未见类,从而实现对未见类的描述和预测,后Palatucci、Farhadi等人将图像识别任务变成了对图像属性的描述任务。属性(attribute)是一种先验知识,可以对某一类样本进行语义特征描述。属性具有几个重要特点:a.体现一个类别的广泛特性,对样本有判别性;b.有一定意义(如颜色、条纹);c.可以从样本中学习到。属性特征可以是人为预设的也可以是通过学习自动获取的。属性作为对样本进行语义特征描述的主要方式,为后续实现视觉和语义的映射提供了基础。第二阶段:深度学习的卷积神经网络(convolutionalneuralnetwork,CNN)和word2vector词向量模型提供了特征提取和语义特征的新方法。CNN改进了视觉特征的提取过程,使模型可以自动学习样本的特征,在后续研究中,我们可以直接使用经过预先训练的CNN模型对目标进行视觉特征提取。在语义特征描述方面,无监督的语义特征学习变得更受欢迎,因为有监督的属性学习需要对训练数据进行标注,标记过程成本高,对结果影响大,并且在不同的数据集合之间没有很好的迁移性,使得跨越数据集的分析几乎不可能实现。无监督的语义提取技术变得非常重要且热门,尤其是Mikolov提出的Word2Vector,可以通过无监督学习从文本中提取语义特征,这类方法可以从大量文本中自动的生成表达语义的特征向量。第三阶段:2018年以来,图卷积神经网络(graphconvolutionnetwork,GCN)在零样本学习上取得了不错的成果,GCN使用图结构进行节点间的知识传播,将节点的知识信息通过GCN连接利用起来,实验上取得了很好的成果,是零样本学习发展的重要方向。深度学习技术的进步,使零样本学习模型的提取视觉特征和语义特征的能力获得了极大提高。目前应用最广泛的零样本学习方法仍是传统机器学习方法,但随着图卷积神经网络等新技术的出现,基于深度学习的零样本学习模型在实验中的表现越来越好。课题研究方法和目标本课题的主要目标是研究零样本学习在图像分类问题中的应用,本文将梳理分析零样本学习的不同技术体系,并选择其中一些具有代表性的模型进行试验,分析总结结果后分析各模型的表现情况及形成的原因,对零样本学习的未来发展趋势进行推理和展望。

体系梳理上一章中我们主要以时间为线索,分出了零样本学习技术的三个发展阶段,并且按时间顺序对每个阶段的核心思想进行了简要的总结。本章将梳理零样本学习技术的不同技术体系,由于现在的零样本学习模型都需要先验知识(语义特征)才能进行对未见类的推广,因此本章从先验知识获取和分类方法两个方面对零样本学习进行技术体系的划分和总结。零样本学习的语义信息现阶段的零样本学习技术都需要借助先验知识构建语义空间,才能建立视觉特征到语义特征的映射关系。这里的先验知识主要可以分为两大类,可以是人为提前设定好的,也可以是机器自动学习的,本节从这两大类对不同的语义信息获取方式对不同技术路线进行介绍。人工设定的辅助信息此类辅助信息是人根据在某领域已掌握的知识进行定义的,人工设置其每一个特征维度,手动定义辅助信息的方法也根据是否基于属性定义进行区分,属性是指对物体某种特征的抽象化描述,例如“体型、色彩”,人工设定时根据我们已经掌握的知识进行对物体属性的描述,可以用二值属性1和0表示属性的有无,也可以用连续的属性表示属性存在的可能性大小。非属性的定义则是根据物体所属的类别搜索相关的文本描述,再从文本描述中用NLP方法提取关键词作为语义辅助信息。人工方法可以充分利用人类在各个方面已有的认知来设计辅助信息,得到的特征向量对人来说是可理解可解释的,在没有走出人工定义的覆盖范围时表现非常好,在定义范围覆盖不足时效果变差,例如:定义了动物的特征,用来对植物进行分类时效果会很差。而扩展模型需要增加标注和重新训练,需要很高的人工成本。机器自动学习的语义信息这种方法是基于学习而非基于人工预设的,使用经过训练的机器学习模型,为每个类别学习一个特征向量作为该类别的语义特征,其工作方式和卷积神经网络(CNN)的特征提取方式一致,得到的辅助信息就是卷积神经网络对物体特征的抽象,和卷积神经网络一样,这些特征往往是不可解释的,不符合人的自然描述方法,但此其提取特征对物体进行抽象的过程更加自然,得到的语义信息具有高度概括性,机器可以自动学习,大大节省人工成本,但是特征的解释性很低,无法结合人类已有的知识,实际表现上不及人工标注,但是特征提取自动化高效化是技术发展的大方向。零样本学习的分类方法直接属性预测该方法的思路是训练一个基于属性特征的分类器,根据特征提取的结果 判断样本所属的类别。代表性方法是2013年Lampert等人提出的DAP(directattributeprediction)模型。DAP通过学习构建视觉特征与属性特征之间关系的模型,并通过这个模型提取测试样本的属性特征,再根据先验知识对属性特征进行分类,得到最终判断结果。该模型的可解释性强,但对于属性标注的依赖性很大,人工标注属性的质量直接影响模型效果,而且属性之间存在相关性,也会直接影响模型效果。基于嵌入模型嵌入模型是近年新研究的主要方向,其核心思想是将视觉特征和属性标签嵌入到同一个空间中,根据向量化特征间的距离得出相似程度。基于语义空间嵌入的方法将提取的视觉特征和类别的属性标签一起嵌入到语义空间中。随着深度学习不断发展并被更多的应用到零样本学习中,一些零样本学习进行语义空间嵌入的过程是使用神经网络实现的。比如Frome等人在DeViSE模型中使用卷积神经网络提取视觉特征,使用词向量特征作为输入使用合页损失函数构建了一个深度神经网络。最终形成一个基于深度学习技术的零样本学习模型。基于生成样本为了解决零样本学习中数据不足或者不均衡的问题,使用生成模型产生更多样本可以有效的解决这些问题。样本生成技术的核心思想是使用类别语义信息作为指导信息,控制生成模型进行虚拟样本的生成,将生成的视觉数据作为训练样本对分类器进行训练,将零样本学习问题转化到控制数据生成的问题。同样由于深度学习的流行,尤其是对抗生成网络(generativeadversarialnetwork,GAN)的产生,2018年起,出现了许多使用生成对抗网络生成未见类的视觉样本的零样本学习方法。基于知识图谱引入最新的图卷积神经网络(GraphConvolutionalNetwork,GCN)方法,模型分为两个独立的部分,首先用CNN提取图像特征向量,然后用GCN部分将训练样本的每个类别作为一个节点,输入GCN网络,通过图神经网络知识的传递,为每个节点输出一组权重向量。训练时,图中可见类节点有CNN提取图像特征向量作为监督对GCN进行训练;而测试时,Graph中的未见类节点输出对应的权重向量,根据与CNN模型提取的特征向量的距离,得到分类的结果。

模型介绍直接预测直接属性预测DAP这一方法先提取特征,再将特征数据从特征空间映射到中间层的属性层,属性层的标签是通过收集来的每一类特征的总结,是预先设定的,比如是否有斑纹,毛发长度等等,通过数据预测属性,再根据属性判断所属的类标签,实现对于未知类别的预测,这一方法原理简单实现方便,在实践中应用广泛。设(x1,l1),...,(xn,ln)为训练样本x和相应类别标签l的成对数据,数量为n,总共有k个类别,用Y={y1,...,yk}表示,算法的目的是学习一个分类器f:X->Z,其中Z={z1,...,zL},为类别标签。Y为训练集中所包括的类别,Z为测试集中所包括的类别,两者没有交集。

为了实现上述功能,就需要建立Y于Z之间的联系,因为训练时,并没有任何关于Z的信息。DAP模型建立一个人工定义的属性层A,这里要注意的是该属性层应该较好地表现样本的类别信息,而且定义起来不能太过繁杂,否则定义属性成本会超过搜集数据重新训练的成本。定义具有高归纳性的属性。通过这个属性层,将原本基于图片低维特征的分类器,转变为基于高维语义特征(属性层)的分类器,使得训练出来的分类器,分类能力更广,有突破类别边界的能力。可以用概率图模型的知识进行建模。首先,每一个训练类别y都可以表示为长度为m的属性向量ay=(a1,…,am),且该属性向量为二值属性。之后,可以通过监督学习,得到image-attribute层的概率表示,p(a|x),它是样本x对于所有am的后验概率的乘积。在测试时,每一个类别z可以用一个属性向量az表示。利用贝叶斯公式即可得到概率公式p(z|x)。由于类别Z是未知的,所以可以假设它的先验概率相同,即每个p(z)的值是相同的,因此可以去除掉公式中的p(z)。对于先验概率p(a),可以使用训练时学习到的属性层值得平均值表示,最终由X->Z的推测,可以使用MAPprediction:可以理解为一个三层模型:第一层是原始输入层,例如一张电子图片(可以用像素的方式进行描述);第二层是p维特征空间,每一维代表一个特征(例如是否有尾巴、是否有毛等等);第三层是输出层,输出模型对输出样本的类别判断。在第一层和第二层中间,训练p个分类器,用于对一张图片判断是否符合p维特征空间各个维度所对应的特征;在第二层和第三层间,有一个语料知识库,用于保存p维特征空间和输出y的对应关系,这个语料知识库是事先人为设定的嵌入模型词向量(word2vec)是指将自然语言文本中的字词转为计算机容易处理的数字向量,而且这个从文本到空间坐标系的映射过程中,意思相似的字词在向量空间中的位置也相近。现在我们将表示类别的词编码为词向量,那我们就可以根据不同词向量之间的距离确认对向量进行划分,从而判断一个向量属于哪一类。将标签编码为词向量,基于训练数据和词向量训练学习器。测试时输入测试数据,输出为预测的词向量,计算预测结果与未知类别词向量的距离,数据距离最近的类别就是模型的预测。本质上是对基础特征再次抽象化,抽象出的特征叫做语义特征,语义特征所在的空间叫做语义空间。语义自编码器SAESAE类似于自编码器的思想,将视觉特征空间映射到语义特征空间之后还可以还原到视觉特征空间。推导出可以通过求解Sylvester方程来求得映射矩阵W,根据测试集图片的视觉特征向量预测每一张测试集图片所对应的语义特征向量,最后和实际的特征向量求距离。即将视觉特征空间映射到了语义特征空间。普通的自编码器模型即X经过两次映射W和W∗后输出X本身,即通过一次映射W编码,第二次映射W∗解码。SAE的自编码模型中间只有一个隐藏层,且输入层的维度大于中间隐藏层的维度。设输入层到中间隐藏层的映射为W,隐藏层到输出向量的映射为W*,W和W*是对称的,也就是说W*和W互为转置。由于我们希望输入和输出尽可能相似,所以可设目标函数为:过去使用的自编码器是非监督学习的,但在这里的模型中,我们希望隐藏层能够具有语义的含义,能表示样本属性。所以加入约束WX=S,其中S是X对应的事先定义好的语义向量,换句话说,每个样本x都可以表示为一个向量s,这个s是事先定义好的。当加入这样一个约束之后,就可以使得原本非监督学习的自编码器变为监督学习的自编码器,使得自编码器的中间层表示在合理的空间内。此时目标函数可以表示为:目标函数最优化求解后可以表示为:避免约束太强,可以将原式写成:这样同时将约束写入了目标函数中,也不需要拉格朗日法进行求解了,只需要简单的步骤就可以进行求解。我们注意到上式是个标准二次型(standardquadraticformulation)的形式,利用矩阵迹的运算进行改写(Tr(X)=Tr(X转置),Tr(W转置乘S)=Tr(S转置W))直接求导,让导等于0,可得:有了求映射矩阵W的方法,即可以将样本映射到对应的属性空间中,即可预测测试样本的类别。利用一些先验知识得到每种类别的属性向量表示,通过上文的方法,利用训练集训练出映射矩阵W,这样就可以对测试集中的样本进行类别的预测。在此工作中,需要检验两个方面,一个是中间层的准确度,第二是输出层的准确度。只需要利用映射矩阵W得到测试样本的中间层表示和输出表示,与groundtruth进行比较,就可以了。如果我们抛开自编码器的结构,将问题考虑为普通的学习映射矩阵的问题,即:输入为X,属性层为S,希望学习一个映射W,使得S=WX。一般的想法就是构建如下目标函数,并且加入L2-norm作为约束。生成样本特征特征生成模型f-CLSWGAN 生成对抗网络由两部分组成,分别是生成器和判别器,这两部分以互相对抗的方式进行训练,使生成的样本越来越接近判别器的控制生成器会在旧样本的基础上产生带噪声的新样本,并试图让判别器无法识别虚假图像,判别器负责判断输入是真实的原样本还是生成的虚假样本。两个网络对抗训练会让生成的图像更加真实。条件生成对抗网络还能加入控制条件指导生成过程,使生成的样本更接近我们想要的目标类别。使用生成对抗网络处理零样本学习任务的大致路线是:先确定未知类的语义,用来描述目标类(也就是训练数据中没有出现的类)的特征。再创造一个判别器,对生成的样本特征进行分类。这样以来我们通过生成新样本简洁的解决了零样本学习的核心问题。此方法的重点在于怎样使一个模型经过训练后可以准确的生成目标类别特征。f-CLSWGAN是一种改进的生成网络,这个模型的输入依然是语义特征,但是它不是直接输出目标图像而是生成图像的特征。f-CLSWGAN模型首先要添加条件变量到两个互相对抗的网络,使普通的生成GAN变成条件生成对抗网络,然后改变条件生成网络的输出,输出未见类的特征而不是直接生成图像,并且使用WGAN模型让训练过程更加稳定,让生成的特征更具多样性,再向分类器中输入生成的图像特征,得到一个分类结果,这就是一个完整的f-CLAWGAN模型。f-CLAWGAN的大致结构如图z是原图中加入的噪声,c(y)为语义特征描述,x是可见类的特征,x为生成的未知类的特征,y为样本x对应的类别标签,P(y|x;θ)是根据y标签判断x的概率大小,LWGAN和LCLS分别为生成对抗网络与分类器的损失函数。与其他零样本学习方法相比较,本方法使用了全新的思路,不是学习图像特征到语义描述的映射关系,而是根据语义描述生成的图像特征。使用这个方法,可以将零样本学习的任务转移到如何根据语义描述更好的生成图像视觉特征。知识图谱零样本学习中的GCN此模型同时利用隐式的知识表示(词向量)和显式的关系(知识图谱)来学习unseenclass的分类器。知识图谱的节点用类别的语义向量表示,边是节点之间的关系,利用GCN在不同类别之间迁移信息。输入是类别的集合和他们对应的语义特征向量,输出是每个输入类别的视觉分类器。我们希望GCN预测的分类器是在预训练的固定的卷积特征上的logistic回归模型。如果视觉特征向量的维度是D,对类别i的每个分类器Wi也是一个D为的向量,因此GCN每个节点的输出也是D维的,而不是C维的。在零示例的设定下,我们假设一共n个类别的前m个类别的有足够的视觉样例来估算他们的权重向量。对于剩下的n-m个类别,通过给定的特征向量作为输入来预测他们对应的权重向量。神经网络的参数通过m个训练对进行学习,然而通常m是很小的,因此我们希望使用视觉世界的显式结构或者类别间的关系来约束这个问题,我们使用知识图谱来表示这种关系。知识图谱中的每一个节点表示一个语义类别,因为我们有n个类别,所以图中有n个节点,如果节点之间有联系那么他们之间就有一条边。图的结构表示为nxn的邻接矩阵,将图中所有的有向边改为无向边,最后得到的邻接矩阵为一个对称矩阵。通过GCN学出每一类(category)的分类器参数向量,在pretrainedCNNfeatures上进行二分类的预测。GCN中每个node代表一个类别,node对应的特征向量为一个二分类分类器的参数向量,相当于逻辑回归,基于预训练CNN模型提取特征判断输入图片是否属于该类。训练GCN时,输入的node特征是每个类的语义嵌入向量,即使某些类没有训练样本,也能得到对应的语义嵌入向量。之后经过6层GCNlayer的学习,将语义嵌入向量转换为分类器,与有ground-truth的某些类的分类器计算损失,经过反传不断优化后,学出没有训练样本的类对应的分类器,从而进行零样本识别。

实验及分析数据集三个零样本学习常用的数据集AWA,CUB,SUNAWA数据集包含50种不同动物共37322幅图像,每个类别有85个不同的属性,并且给出了每个图像的特征表示。由于版权问题,已经无法获得AWA数据集的原始图像数据,我们在实验中使用的是对AWA数据集提取出的特征。CUB数据集提供了200种鸟类图像,每个类别包括312个不同属性,共11788张图片。SUN数据集包含了不同的场景,共717个场景,每个类别包含102个属性,共14340张图片。三个数据集划分情况如下数据集类别总数可见类未见类AWA504010CUB20015050SUN71764572我没有使用数据集中提供的特征,CNN可以自适应的提取图像特征,并且近年来CNN的发展迅速,应用广泛,无论效率还是可靠性都非常好。因此。本文使用谷歌的开源CNN模型进行特征提取工作。不同模型的实验结果及分析DAP模型DAP使用一个三层模型,第一层和第二层之间用若干分类器完成图像到属性的映射,第二层和第三层之间是提前设置的辅助信息,可以完成属性到类别的映射。该模型是运行最快的模型,并且在相对较短的时间内实现了较好的效果,但再继续重复训练准确率提升不明显。数据集AWACUBSUN准确率36.4%23.3%16.8%总体上来看,DAP模型实现简单,效率高,但是分类效果较差。SAE模型SAE模型取得了最好的效果,而且时间成本相对更低。SAE从语义向量重建视觉特征,有效的避免了邻域偏移问题数据集AWACUBSUN准确率73.7%50.4%43.8%f-CLSWGAN模型实验中使用数据集中自带的语义属性。参数配置和原作者相同,训练结果并不十分出色。虽然理论上对抗生成模型可以解决样本不均衡带来的枢纽点问题,但是该方法消耗资源较多,训练成本较高,因此在本次实验中表现比SAE模型差。数据集AWACUBSUN准确率48.2%37.3%40.8%

总结及展望技术难题零样本学习是一个仍在快速发展的技术,从实验结果来看,目前的各种模型准确率依然较低,而且还有一些典型问题:邻域偏移问题,当我们基于图像的视觉特征构建一个类别的语义向量时,不同类别中的同一个属性在视觉表现上差距可能会很大,例如不同动物的尾巴在属性划分上都是有无尾巴,但视觉上的差异可能会非常大。上文的SAE模型通过语义特征到原样本的映射可以缓解邻域偏移问题。枢纽点问题,在样本分布不均衡的情况下,提取特征得到的高维空间中,占比大的类别会形成枢纽点,枢纽点会成为许多点的“邻居”,严重影响模型从语义空间到最终分类的映射效果,要解决枢纽点问题,第一种方案是改变语义空间到类型结果的映射方式,第二种方案是使用生成模型生成新的样本均衡各类别样本数量。经过十多年的发展,零样本学习技术仍面临许多问题,基于属性的方法性能好,但属性的获取难度较高,自适应的词向量比较容易获得,但性能不如基于属性的方法。目前还没有一个完美的零样本学习方案,但随着各种新技术的兴起,相信零样本学习还会有更多结合新技术的方案。未来展望零样本学习是对人类认识新事物过程的模仿,目前相关技术发展取得了一定成果,但目前ZSL处理的问题和现实问题仍有较大差异,现有技术的局限性十分明显,未来突破的方向主要有以下几点对异构样本进行分类,即样本中的数据的特征空间可能是不同的,目前的方法处理的是同数据类型的可见类和未见类,而有些情况下这样的数据是不容易大量获取的,我们得到的可见类和未见类可能是不同类型的数据,例如学习图像,实现对视频的分类。此外,ZSL技术还可以和其他学习模型结合从而将零样本技术应用到少样本、单样本学习等其他领域。还可以在图像之外的数据上取得更广泛的应用,例如对社交网络上的用户进行归类。深度学习和大数据让人工智能技术达到了前所未有的高度,但机器目前还没有获得人类一样的认知扩展能力,而零样本学习正在朝这个方向探索并且取得了阶段性成果,零样本学习技术有广阔的应用场景和巨大的发展潜力,本文对分类问题中的零样本学习技术进行了梳理和总结,对一些典型方法进行了实验,期待这个领域能有更多突破。

谢辞时间像奔跑的火车,我在青大校园的这段旅途终于也要看到尽头,一路走来,我经历过顽劣、迷茫、痛苦,也经历过感动、激情、和奋斗,这四年的经历比我过去的任何经历都更加复杂和精彩,在这里的生活并非一帆风顺,多少事让我颇感遗憾,但正是这遗憾和满足交织的生活,在告别时让我如此不舍。在此,我想感谢我论文的指导教师郭莉老师,感谢老师对我的包容和指导,老师的耐心和关照让我走出了焦虑,能成为老师的学生真的很幸运,再次感谢郭莉老师。我以后会继续向老师学习,努力勤奋地向自己的目标前进。还要感谢给我指导的同学和知乎、CSDN博客、博客园的网友,你们帮我解决了很多学习阶段的困难,祝各位学业顺利,事业有成。最后,向我青大的朋友们道个别,我的老师、我的同学、我的舍友,有你们相伴的日子是如此快乐,问谁千里伴君行,晓山眉祥翠,秋水镜般明。无论走多远,我们的友谊长存!2020届的我们或许要面对许多困难,祝我们在不平凡的时间成为不平凡的人。

参考文献[1]LampertCH,NickischH,HarmelingS.Learningtodetectunseenobjectclassesbybetween-classattributetransfer[C]//2009IEEEConferenceonComputerVisionandPatternRecognition.IEEE,2009.[2]YongqinX,LampertCH,BerntS,etal.Ze

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论