【跨模态商品图像检索国内外研究现状的文献综述5700字】

上传人：E*** IP属地：湖北上传时间：2026-06-02 格式：DOC 页数：8 大小：55.96KB 积分：10.8 举报 版权申诉

已阅读5页，还剩3页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

跨模态商品图像检索国内外研究现状的文献综述在跨模态检索领域，通过对国内外研究方法的文献调研和文献梳理，研究者主要通过四大类方法对跨模态检索进行研究，这四类方法分别是：基于子空间学习的方法[31]、基于哈希变换的方法[32]、基于深度学习的方法[33]和基于主题模型的方法[34]。基于子空间学习的跨模态检索方法[31]是一种基于映射学习思想的的跨模态检索模型，按照学习过程中有无使用监督策略，可以将该方法分为无监督的方法和有监督的方法。基于子空间学习的跨模态检索的原理是：首先，通过学习合理的映射矩阵，把异构的不同模态数据信息映射到一个公共的子空间中；然后，选取合理的相似性度量方式对不同模态信息在公共子空间中的投影进行相似性度量，最终实现跨模态检索。基于子空间学习的跨模检索方法主要是通过学习映射矩阵，使得不同模态的数据在公共子空间中类内的相关性尽可能地大，类间地相关性尽可能地小。Xu[35]等提出了一种以公共空间映射学习为基础的图像检索方式，该方式以细粒度草图作为基础，完成文本信息和图像信息两者之间的匹配。刘芸[36]出提出了一种对潜在子空间进行正交约束学习的跨模态检索方式，学习过程中选择应用谱回归的方法。该方法首先要完成损失函数的建立，并通过对损失函数的优化求解，完成对映射矩阵的学习，之后在公共子空间内映射不同模态的数据，最终针对公共子空间内部的模态投影进行检索匹配。该方法构建的目标函数选择使用21范数作为惩罚项，惩罚项在目标函数中起到了特征选择的作用。该方法构建的目标函数能够在公共子空间内映射模态数据信息，而且经过投影之后的信息仍然具有模态内的相似关系。Liang[37]提出了一种无监督的子空间学习方法，该方法不通过标签信息对学习过程进行监督，而且该方法提出了一种被叫做群组对应的新概念，假定每对异质数据分别来源于语义相同的群组。通过对潜在的相同子空间进行查找，就会很自然的将模态数据划分成不同的潜在组，为了保证该算法的有效性和收敛性，采用交替优化的方式对目标函数进行优化。有监督的子空间学习方法就是利用不同模态数据对应的共同的主题或者语义信息，对跨模态检索的训练过程进行监督，是学习到的映射矩阵更加科学合理。邵杰[38]能提出了一种基于典型相关性分析（CanonicalCorrelationAnalysis，CCA）的跨模态检索方法，该方法在标签信息的监督下通过语义一致性学习文本以及图像两者之间的关联性，同时经过扩展把两种模态的CCA变为三种。刘亚楠[39]利用语义信息实现了低维的多模态特征融合，该方法通过标注信息的监督对语义信息进行降维处理，然后使用低维特征进行学习训练，最终实现语义信息检索。Kan等[40]提出了一种基于判别分析的跨模态检索方法，该方法利用线性变换联合学习多模态数据的映射空间，并通过广义Rayleigh商使特征的投影在公共空间中的类间距离尽可能的最大，类内距离尽可能的减小。该方法中多重线性变换借助于广义特征值分解予以实现。Wang等[41]针对特征选择和距离度量问题，设计出一种新的耦合线性回归框架，此框架主要通过对两个投影矩阵进行学习，在公共特征空间内部映射多模态数据，进而完成跨模态信息检索。在进行学习时，分别把21范数施加到投影矩阵上，将其作为构成目标函数的惩罚项，从而在公共特征空间得到特征的相关性和差异性。并选取矩阵的迹当成低秩约束，并将其施加到投影数据上，通过这种方式将模态数据之间的联系进一步提高。对于跨模态数据而言不同模态数据的底层特征之间的结构差异性较大，通常情况下语义相同时不同模态数据的底层特征之间的联系较小，不同的模态之间的高层语义具有更高的关联性，所以Gong等[42]在进行跨模态检索时，除了利用数据中的两个模态以外，选择把高层语义特征作为第3个模态，通过映射学习，尽可能的保证三个模态中两两之间具有更强的关联性。通过实验说明，通过高层语义有助于将检索的精度进一步增加。借助于标签信息就能够学习不同模态数据之间的关联性，Ranjan等[43]引入了多标签典型相关分析（Multi-labelCanonicalCorrelationAnalysis，ml-CCA）的方法，该方法主要应用于对公共子空间的学习，同时通过多标签注释的形式对高层语义信息进行利用。ml-CCA是基于CCA原理的一种扩展方法。该方法不会对不同模式之间的显式配对产生依赖性，主要是借助于多标签信息完成不同模态数据之间相应关系的创建。Zhuang等[44]在有监督系数编码中引入耦合字典的学习，并把该方法应用于跨模态检索。此种方式通过映射描述，把多模态转变为约束字典的学习问题，除此之外，借助于标签信息，通过混合范数学习模态内相同类别数据之间的相似程度。哈希变换的跨模态检索方法就是，把不同模态的数据特征映射到汉明空间，使得不同模态的数据间的相关性得以保持[32]。该模型的主要目的是在实现跨模态数据相似性度量的同时，尽可能的保持原始数据的结构关系，使数据间的相似性得以最大限度的保持。通过在相同的汉明空间内部投影不同类型的数据，进而以较快的速度完成检索。根据训练过程中有无监督，基于哈希变换的跨模态检索可以分为有监督的哈希方法和无监督的哈希方法。其中无监督哈希算法主要根据数据的相关性进行哈希码的学习，然后对特征哈希码进行距离度量，实现跨模态检索。Kumar等[32]使用了一种基于交叉视图的跨模态哈希模型，传统的谱哈希方法常应用于单模态检索，经过扩展以及设置之后可以将其应用到多模态数据的检索中。对于相似度较高的对象，通过哈希函数进行映射变为视图之间的相似代码，因此就能够进行跨视图的相似性搜索。Zhou等[45]采用了一种潜在语义稀疏哈希(LatentSemanticSparseHash，LSSH)算法来进行跨模态检索，LSSH能够借助于稀疏编码对图像特有的结构进行捕捉。Zhu等[46]提出了一种新的哈希方法，能够进行多媒体搜索的可伸缩索引，也被叫做线性交叉模态哈希。在进行训练的过程中，该方式能够将训练数据的时间复杂程度以及大小两者呈线性关系。其中主要的思路就是划分不同模态的训练数据，将其变成k个聚类，之后再通过不同数据到质心之间的距离对不同的训练数据点进行表示，从而保证不同模态的内部具有相似度。为了保持这种相似程度，在该方式中变换导出的数据，被变为共同的二进制子空间。Wang等[47]设计出深度多模态哈希算法，在此算法中主要借助于正交正则化对更具紧凑性以及精准度的多模态表示进行学习。对于不同模态之间存在的联系，能够借助于该种算法进行捕捉，进而对准确度更高的表示进行学习。而且为了保证学习更具紧凑性，降低编码内部存在的冗余信息，将正则化相项加到了学习加权矩阵上。有监督跨模态哈希方式则主要是借助于监督信息，对跨模态数据之间在语义上存在的联系进行学习。Zhang等[48]提出了一种多模态哈希模型，在哈希学习阶段集成语义标签，该种方法也被叫做语义相关最大化。主要是借助标签向量获取语义相似度矩阵，同时借助于学习获取的哈希码对相似矩阵进行创建。Yu等[49]为了对多模态数据底层的语义数据信息进行获取，设计了判别耦合字典哈希方法，在该方法中不同模态的耦合字典学习都是通过类别信息完成的。所以耦合字典不但能够将不同模态数据之间的关联性以及相似度进行保存，同时还存在具有语义判别性的字典元素。为了能够将跨媒体检索的效率进行提高，该方法通过哈希函数，将从字典空间的数据映射到低维的汉明空间。Jiang等[50]提出了一种基于深度学习的跨模态哈希方法，该方法能够在相同的框架内部同时集成哈希码以及特征学习。该模型属于端到端的学习框架，并且存在深度神经网络，不同的模态都存在相对应的深度神经网络，所以就能够更好的进行特征学习。以深度学习作为基础的跨模态检索是指，针对不同的模态借助于神经网络等深度学习的方式提取其特征，同时以语义信息作为参考再借助于深度学习的方式，对不同模态之间的联系进行创建。通常情况下，该种检索方式存在两个不同的阶段：其一，利用深度学习的方式进行特征提取；其二，借助于深度学习的方式，对数据结构不一致的模态之间的语义相似性进行最大化处理。Yuan等[51]人设计了一种关系生成深度信念网(RelationshipsGenerateDeepBeliefNetworks，RGDBN)模型，利用网络中社交媒体之间的关系来学习社交媒体的潜在特征。在RGDBN模型中，不同模态之间的相关性是由它们潜在特征的交互产生的。该模型能够分析异构和同构数据之间的相关性，这些数据也可以用于跨模态检索。Socher等[52]将依赖树递归神经网络引入到网络模型内，就能够借助于依赖树在向量空间内部嵌入句子，根据句子描绘和相关图像的关系进行跨模态检索。利用神经网络来提取图像特征，而且对图像-句子两者相互联合的表示进行学习。Hua等[53]设计了一种深度卷积体系结构，该结构主要应用于跨模态检索，也叫做以深度卷积体系结构作为基础的跨模态相关学习，在此学习方式中主要有两部分构成，分别是以大边界原理作为基础的跨模态相关学习和视觉特征表示学习。王粒[54]提出的深度跨媒体哈希算法，出于对跨模态数据之间潜在语义关系进行学习的目的，此模型借助于深度哈希网络对统一的哈希编码进行学习，该算法属于深度学习算法的一种，而且是一种有监督的学习。杨展[55]设计了一种多模态学习的方式，主要通过深度波尔兹曼机模型，在此模型中可以借助于深度学习的方式转换文本以及图像的底层特征，将其变为高层特征，使用高层特征对语义信息进行表示，之后再借助于神经网络的各个层级融合不同模态的数据特征。一般情况下，主题模型都属于以概率为基础的模型。在主题模型的应用中，对于异构的多模态数据而言，不用在公共空间中度量映射后的不同模态数据，对于这些数据之间的联系以及相似程度，都可以借助于概率进行判定。LDA[34]模型经过扩展之后，把潜在狄利克雷分布与学习多模态数据的联合分布两者相互结合，通过这种方式就能够对文本和图像信息两者在语义方面存在的联系进行学习。Putthividhy等[56]把主题-回归模型应用到跨模态检索中。此模型将不同模态共同存在的语义信息看作是主题，不同模态数据之间存在联系，主要是由于这些数据之间存在相同的主题，而主题模型的目的就在于对潜藏在不同主题信息以及模态数据之间的关联进行深入挖掘。主题-回归多模态模型主要对一个回归模块以及两组隐藏主题进行学习，而且这两组隐藏主题之间是相互独立的，此模块能够对一般的关联形式进行捕获，同时还能够对不同主题完成线性预测。Jia等[57]通过马尔可夫随机场来学习共同的主题，在文档级别中，此模型对马尔克夫随机场进行了定义，针对于更具灵活性的文档，可以对其相似性进行学习。Zheng等提出了有监督的自回归模型，该模型是神经自回归分布估计模型的扩展，Zheng等[58]基于文档神经自回归分布估计器提出了有监督的扩展模型，该模型同时对标注词、图像视觉词以及类标签信息进行学习，并进行联合表示。Liao等[59]人提出了一种用于分析多模态数据的非参数贝叶斯上游监督(Non-ParametricBayesianUpstreamSupervision，NPBUS)主题模型。NPBUS模型可以学习单个模态主题和其他不同模态数据主题之间的关系，在上游监督的训练下，该模型可以为每个模态数据确定关联的主题，使模型的判别性进一步提高。Wang等[60]提到了一种多模态相互主题强化模型，此模型主要应用于跨媒体检索，该模型通过概率图形模型学习联合性，并借助于不同模型因素之间存在的交互，对其中存在相同的语义主题进行挖掘。跨模态商品图像检索主要是指对于给定的商品图像查询，返回有关该商品图像的文本信息描述，或者针对用户输入的商品的文本描述信息，返回相关的商品图像信息。跨模态商品图像检索能够帮助用户更好的了解该商品的材质、品牌、功能、价格等一系列详细信息，也能让用户根据商品描述信息能够更加直观的了解商品的视觉信息，从而帮助用户更好的实现网上购物。汪达舟[61]提出了一个基于深度学习的跨模态商品图像检索框架。该模型是基于深度残差网络的跨模态商品图像检索模型，该模型首先通过深度学习的方式提取图像和文本的特征，然后对文本特征和图片特征进行张量融合形成多模态特征，最后通过相似性度量实现商品图像的跨模态检索。跨模态商品图像检索不但要解决跨模态图像检索技术中存在的共性问题，还要根据商品图像的特点和电子商务领域的需求进行合理的改进。从这两点出发，可以借鉴通用跨模态图像检索方法，同时结合电子商务图像的特点以及电子商务图像检索的任务来实现跨模态商品图像的检索。基于子空间学习的跨模态检索方法在构建目标函数的时候往往关注具有相同语义的不同模态数据在子空间中的投影距离，使其尽可能地小。但这些方法在数据训练过程中常常忽略了对不同语义不同模态数据的训练，检索效率不高。本文提出了改进子空间学习的跨模态检索方法，该方法首先引入训练不同语义不同模态数据在子空间中投影距离的部分构造新的目标函数，然后按照不同模态数据在公共子空间中的类内距离尽可能地减少，同时类间距离尽可能地增大的原则实现目标函数优化。参考文献ChangX,MaZ,YangY,etal.Bi-levelsemanticrepresentationanalysisformultimediaeventdetection[J].IEEEtransactionsoncybernetics,2017,47(5):1180-1197.ZhuL,HuangZ,LiuX,etal.Discretemultimodalhashingwithcanonicalviewsforrobustmobilelandmarksearch[J].IEEETransactionsonMultimedia,2017,19(9):2066-2079.CaoY,LongM,WangJ,etal.Collectivedeepquantizationforefficientcross-modalretrieval[C]//ProceedingsoftheThirty-FirstAAAIConferenceonArtificialIntelligence.2017:3974-3980.Zhuang,Y.，Wang,Y.，Wu,F.，etal.Supervisedcoupleddictionarylearningwithgroupstructuresformulti-modalretrieval[C].inAAAIConferenceonArtificialIntelligence，Washington，USA，2013:1070-1076．欧卫华，刘彬，周永辉，宣瑞晟.跨模态检索研究综述[J].贵州师范大学学报(自然科学版)，2018，36(2):114-120.方强.基于内容的商品图像检索[D].南京理工大学,2013.ChenC,YangR,WangC.ResearchandRealizationofCommodityImageRetrievalSystemBasedonDeepLearning[C].

ParallelArchitecture,AlgorithmandProgramming.PAAP2017：376-385.高硕.基于内容的图像检索系统研究与实现[D].华北理工大学,2019.陈倩，潘中良.基于内容的服装检索系统中颜色特征提取算法的研究和改进[J].激光杂志2016，37(04):62-68.侯媛媛,何儒汉,刘军平.融合颜色特征和深度特征服装图像检索算法[J].计算机应用与软件,2020,37(10):194-199.黄冬艳,刘骊,付晓东,黄青松.联合分割和特征匹配的服装图像检索[J].计算机辅助设计与图形学学报,2017,29(06):1075-1084.QiW,JingxiangL,KaiX,WenyinLandLiangL.2018.BeautyProductImageRetrievalBasedonMulti-FeatureFusionandFeatureAggregation.InProceedingsofthe26thACMinternationalconferenceonMultimedia(MM'18).AssociationforComputingMachinery,NewYork,NY,USA,2063–2067.K.Suzuki,XinleiWandH.Ikeda,"Anartisticdesignsystemforindustrialproductimageretrieval,"in

IEEEIndustryApplicationsMagazine,vol.8,no.1,pp.29-36,Jan.-Feb.李爽.基于形状的图像匹配及商品检索算法研究[D].大连理工大学,2010.姜海洋.基于形状的商品图像检索[D].大连交通大学,2011.吴倩雯.改进的SURF描述子及其在服饰图片检索中的应用研究[D].电子科技大学,2014.葛俊,于威威.一种基于加权颜色形状特征和LBP服装图像检索方法[J].现代计算机(专业版),2018(19):33-38.Qi,S,Kyaw,Z,Wang,X.

etal.

Largescaleproductsearchwithspatialquantizationanddeepranking.

MultimedToolsAppl

78,

27045–27065(2019).李飒.基于内容的图像检索技术在多类别商品图像

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【跨模态商品图像检索国内外研究现状的文献综述5700字】

文档简介

温馨提示

最新文档

评论

【跨模态商品图像检索国内外研究现状的文献综述5700字】

文档简介

温馨提示

最新文档

评论

相关文档