CN113761261B 图像检索方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-19 格式：DOCX 页数：47 大小：1.18MB 积分：9.6 举报 版权申诉

CN113761261B 图像检索方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）_第2页

CN113761261B 图像检索方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）_第3页

CN113761261B 图像检索方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）_第4页

CN113761261B 图像检索方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩42页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

确定与所述图像特征具有语义相关性的目标语于所述目标语义类别的一个或多个候选聚类簇2通过特征提取模型对带有语义类别标签的图像样本进行特征提取交替执行具有指定轮次数量的分类训练轮次和聚类训练轮次；在所述分类训练轮次中，基于所述样本特征和所述语义类别标签联合训练所述特征提取模型和语义分类模型；根据所述特征提取模型，对待检索的查询图像进行特征提取，得到根据所述语义分类模型和所述聚类模型，对所述图像特征进行分类述目标语义类别的一个或多个候选聚类簇中将所述图像特征与所述目标聚类簇中的候选图像进行特征比对，以获取对图像检索数据库中的候选图像进行分类预测得到的候选语义类别和候选聚类将所述图像特征分别与各个所述候选语义类别和候选聚类簇进行特征所述图像特征具有语义相关性的目标语义类别和目将所述图像特征与各个所述候选语义类别的分类中心向量进行特征将所述图像特征与归属于所述目标语义类别的各个候选聚类簇的聚类中心向量进行将所述图像特征与各个所述候选语义类别的分类中心向量进行特征将所述分类相似度大于预设相似度阈值的一个或者多个候选语义类别作为与所述图将各个所述候选语义类别分别与归属于所述候选语义类别的各个候选聚类簇进行特3将所述图像特征与自身进行特征拼接处理，得到由两个所述图将所述拼接图像特征与各个所述候选拼接向量进行特征比对，以将所述图像特征分别输入联合训练得到的所述语义分类模型和所通过所述语义分类模型预测所述图像特征在多个候选语义类别中根据所述类别分布概率从所述多个候选语义类别中选取与所述图像特征具有语义相关性通过所述聚类模型预测所述图像特征在多个候选聚类簇中的聚类簇分所述聚类簇分布概率从归属于所述目标语义类别的一个或多个候选聚类簇中选取与所述获取用于对待检索的查询图像进行特征提取的特征提取模型以及用于对所述查询图分别根据预设的模型参数对所述特征提取模型、所述语义通过所述语义分类模型对所述样本特征进行分类预测，得到所述图像样本的根据所述语义类别标签和所述语义类别预测结果确定所述语义分类模型的分类预测基于所述样本特征、所述语义类别标签和所述聚类标签联合训练所述特征提取模型、通过所述语义分类模型对所述样本特征进行分类预测，得到所述图像样本的根据所述语义类别标签和所述语义类别预测结果确定所述语义分类模型的分类预测通过所述聚类模型对所述样本特征进行聚类预测，得到所述图像样本的聚类预测结根据所述聚类标签和所述聚类预测结果确定所述聚类模型的聚类根据所述分类预测误差和所述聚类预测误差更新所述特征提取模型、4获取在当前聚类轮次中对具有相同语义类别标签的图像样本进行聚类处理得到的一从所述聚类模型中获取前一聚类轮次中作为聚类目标的聚类标签序列；根据所述聚类中心向量与所述聚类标签序列中的各个聚类标签根据所述向量序列更新所述聚类模型中的聚类标签序列。与所述目标聚类簇中的候选图像进行特征比对，以确定与所述查询图像相匹配的目标图获取对所述目标聚类簇中的各个候选图像进行特征提取得到的所述候选图像的候选将所述图像特征与所述候选特征向量进行特征比对，得到所述根据所述特征相似度从所述目标聚类簇中选取与所述查询图像相获取与所述目标语义类别相对应的相似度阈值；其中，不同的目标从所述目标聚类簇中选取特征相似度大于所述相似度阈值的候选图像作为与所述查特征提取模块，被配置为通过特征提取模型对带有语义分类预测模块，被配置为根据所述语义分类模型和所述聚目标聚类簇是从归属于所述目标语义类别的一个或多个候选聚类簇中特征比对模块，被配置为将所述图像特征与所述目标聚类权利要求1至11中任意一项所述的图像检5其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至11中任意一项行时实现如权利要求1至12中任意一项所述的图67选语义类别作为与所述图像特征具有语义相关性的目标语义类别。所述候选语义类别分别与归属于所述候选语义类别的各个候选聚类簇进行特征拼接处理，得到由所述候选语义类别的分类中心向量和所述候选聚类簇的聚类中心向量组成的候选述目标语义类别的一个或多个候选聚类簇中选取与所述图像特征具有语义相关性的目标对待检索的查询图像进行特征提取的特征提取模型以及用于对所述查询图像进行分类预8聚类预测结果；根据所述聚类标签和所述聚类预测结果确定所述聚类模型的聚类预测误前聚类轮次中对具有相同语义类别标签的图像样本进行聚类处理得到的一个或多个聚类机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行如以上技术方案中的图[0022]在本申请实施例提供的技术方案中，通过对查询图像进行特征提取得到图像特征，可以基于语义相关性对图像特征进行分类预测得到相应的目标语义类别和目标聚类9[0026]图2示意性地示出了本申请实施例在一应用场景中对图像数据库进行二级聚类的[0027]图3示意性地示出了本申请实施例在一应用场景中基于二级聚类的方法进行图像[0030]图6示意性地示出了本申请一个实施例中对图像处理模型进行模型训练的方法步[0035]图11示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，[0038]附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对[0043]举例而言，用户可以通过终端设备110上安装的图像检索客户端或者搜索引擎上终端设备110播放视频的过程中，可以从当前播放的视频内容或者历史播放记录中提取部[0046]人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控[0048]计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”终端设备110或者服务器130可以作为组成区块链应用服务给业务参与方进行使用。甚至更少。直接进行全局的聚类分桶检索对于具有长尾分布的聚类结果不能进行恰当处的方式在面对长尾类别聚类以及不同分布密度的图像召回等两方面都存在一定[0056]本申请实施例针对全局分桶检索的长尾处理不佳以及不同分布密度难以解决的与聚类桶联合检索使得整体检索时间与原检[0057]图2示意性地示出了本申请实施例在一应用场景中对图像数据库进行二级聚类的[0058]图3示意性地示出了本申请实施例在一应用场景中基于二级聚类的方法进行图像图像样本进行分类处理得到对应于不同语义类别的多个分类中心330，进一步将对应于相[0060]针对待检索的查询图像350，本申请实施例采用与图像样本相同的特征提取方式[0062]图4示意性地示出了本申请一个实施例中的图像检索方法的步骤流程图，该图像[0070]图5示出了本申请一个实施例中使用的特征提取模型的模型结构组成示意图。如层对其输出数据进行池化处理pooling，并进一步通过一个归一化层对经过池化处理后的[0074]在本申请的一个实施例中，每个候选语言类别可以对应候选语义类别和候选聚类簇进行特征比对的方法可以是将图像特征与各个分类中心向量[0075]在本申请的一个实施例中，可以获取候选聚类簇与候选语义类别之间的数量比特征比对的方法可以包括：将图像特征与各个候选语义类别的分类中心向量进行特征比由两个图像特征组成的拼接图像特征；将拼接图像特征与各个候选拼接向量进行特征比[0080]在本申请的一个实施例中，步骤S420中对图像特征进行分类预测的方法可以包选聚类簇中选取与图像特征具有语义相关性的目标[0081]图6示意性地示出了本申请一个实施例中对图像处理模型进行模型训练的方法步对查询图像进行分类预测的语义分类模型和[0084]图7示出了本申请一个实施例中使用的语义分类模型的模型结构组成示意图。如[0085]图8示出了本申请一个实施例中使用的聚类模型的模型结构组成示意图。聚类模型可以使用与图7所示的分类模型相似的模型结构，即包括依次连接的池化层Pool_类模型和聚类模型中的全连接层可以采用具有预设方差和预设均值的符合高斯分布的参[0089]在本申请的一个实施例中，基于带有语义类别标签的图像样本对特征提取模型、标签对比计算模型的分类损失值(classificationloss)。分类损失loss进行梯度后向计值(classificationloss)。总分类损失loss进行梯度后向计算得到全部模型参数的更新标的聚类标签序列；根据聚类中心向量与聚类标签序列中的各个聚类标签的向量相似度，列。[0099]在第一轮模型迭代中第一次进行聚类时，聚类模型中的全连接层Fc_cluster(M*[0100]如果不是第一次聚类，则对Ncluster重排序后复制到Fc_cluster中。此时Fc_cluster记录了上次聚类的中心，新Ncluster每个中心可以根据余弦相似度与Fc_cluster好的embedding干扰因素过大造成embedding需要重新开始长时间学习以达到上一次的收[0104]1)先进行分类学习，完成E轮(如第10轮)分类学习后特征提取模型以及语义分类loss与聚类loss的加权和作为最终的loss，实际上这一轮的重点是通过聚类让embedding交替训练的目的是保护分类的成果，避免由于聚类的波动造成分类以及embedding波动过不同分布特征的语义类别的图像能够实现定制化设全局图像样本的数据量为1亿数据，某个查询图像与1千个语义类别中的5个语义类别的个候选语义类别作为与所述图像特征具有语义相关性的目标语义类别。各个所述候选语义类别分别与归属于所述候选语义类别的各个候选聚类簇进行特征拼接于所述目标语义类别的一个或多个候选聚类簇中选取与所述图像特征具有语义相关性的取用于对待检索的查询图像进行特征提取的特征提取模型以及用于对所述查询图像进行聚类预测结果；根据所述聚类标签和所述聚类预测结果确定所述聚类模型的聚类预测误取在当前聚类轮次中对具有相同语义类别标签的图像样本进行聚类处理得到的一个或多个聚类中心向量；从所述聚类模型中获取前一聚类轮次中作为聚类目标的聚类标签序列；对所述目标聚类簇中的各个候选图像进行特征提取得到的所述候选图像的候选特征向量；[0129]本申请各实施例中提供的图像检索装置的具体细节已经在对应的方法实施例中[0130]图11示意性地示出了用于实现本申请实施例的电子设备该电子设备可以是如图1中所示的终端设备110分1108加载到随机访问存储器1103(RandomAccessMemory，RAM)中的程序而执行各种适的网络执行通信处理。驱动器1110也根据需要连接至输入/输出接口1105。可拆卸介质从其上读出的计算机程序根据需要被安装入存

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113761261B 图像检索方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113761261B 图像检索方法、装置、计算机可读介质及电子设备 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113761261B 图像检索方法、装置、计算机可读介质及电子设备（腾讯科技（深圳）有限公司）