CN115115856B 图像编码器的训练方法、装置、设备及介质(腾讯科技(深圳)有限公司)_第1页
CN115115856B 图像编码器的训练方法、装置、设备及介质(腾讯科技(深圳)有限公司)_第2页
CN115115856B 图像编码器的训练方法、装置、设备及介质(腾讯科技(深圳)有限公司)_第3页
CN115115856B 图像编码器的训练方法、装置、设备及介质(腾讯科技(深圳)有限公司)_第4页
CN115115856B 图像编码器的训练方法、装置、设备及介质(腾讯科技(深圳)有限公司)_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(10)授权公告号CN115115856B(65)同一申请的已公布的文献号(73)专利权人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人杨森项进喜张军韩骁(74)专利代理机构北京三高永信知识产权代理有限责任公司11138专利代理师祝亚男(56)对比文件US2021334994A1,20审查员李宇文本申请公开了一种图像编码器的训练方法、括:获取第一样本组织图像;将第一样本组织图像分别进行数据增强,得到第一图像和第二图像;将第一图像输入第一图像编码器,得到第一特征向量;将第二图像输入第二图像编码器,得到第二特征向量;将不同的第一样本组织图像的多个第一特征向量进行聚类,得到多个第一聚类中心;将多个第一聚类中心中与第二特征向量相似值最大的特征向量,确定为正样本向量;将第一其余特征向量确定为负样本向量;基于第二特征向量、正样本向量和负样本向量,生成第一群系821.一种图像编码器的训练方法,其特征在于,获取第一样本组织图像;将所述第一样本组织图像进行数据增强,得到第一图像;将所述第一图像输入第一图像编码器,得到第一特征向量;将所述第一样本组织图像进行数据增强,得到第二图像;将所述第二图像输入第二图将所述第一特征向量确定为用于对比学习的对比向量,将所述第二特征向量确定为用于对比学习的锚向量;将不同的所述第一样本组织图像的多个第一特征向量进行聚类,得到多个第一聚类中心;将所述多个第一聚类中心中与所述第二特征向量之间的相似值最大的特征向量,确定为所述多个第一特征向量中的正样本向量;将第一其余特征向量确定为所述多个第一特征向量中的负样本向量,所述第一其余特征向量指所述多个第一特征向量中除与所述第二特征向量之间的相似值最大的特征向量之外的特征向量;基于所述第二特征向量和所述多个第一特征向量中的正样本向量,生成第一子函数;基于所述第二特征向量和所述多个第一特征向量中的负样本向量,生成第二子函数;基于所述第一子函数和所述第二子函数,生成第一群组损失函数;基于所述第一群组损失函数,训练所述第一图像编码器和所述第二图像编码器;将所述第二图像编码器确定为最终训练得到的图像编码器。2.根据权利要求1所述的方法,其特征在于,所述将所述第一图像输入第一图像编码器,得到第一特征向量,包括:将所述第一图像输入所述第一图像编码器,得到第一中间特征向量;将所述第一中间特征向量输入第一MLP,得到所述第一特征向量;所述将所述第二图像输入第二图像编码器,得到第二特征向量,包括:将所述第二图像输入所述第二图像编码器,得到第二中间特征向量;将所述第二中间特征向量输入第二MLP,得到所述第二特征向量。3.根据权利要求1所述的方法,其特征在于,所述方法还包将所述第二特征向量确定为用于对比学习的对比向量,将所述第一特征向量确定为用于对比学习的锚向量;将不同的所述第一样本组织图像的多个第二特征向量进行聚类,得到多个第二聚类中心;将所述多个第二聚类中心中与所述第一特征向量之间的相似值最大的特征向量,确定为所述多个第二特征向量中的正样本向量;将第二其余特征向量确定为所述多个第二特征向量中的负样本向量,其中,所述第二其余特征向量指所述多个第二特征向量中除与所述第一特征向量之间的相似值最大的特征向量之外的特征向量;基于所述第一特征向量和所述多个第二特征向量中的正样本向量,生成第三子函数;基于所述第一特征向量和所述多个第二特征向量中的负样本向量,生成第四子函数;基于所述第三子函数和所述第四子函数,生成第二群组损失函数;基于所述第二群组损失函数,训练所述第一图像编码器和所述第二图像编码器;将所述第一图像编码器确定为最终训练得到的图像编码器。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:3获取多张第二样本组织图像,所述第二样本组织图像为对比学习中的负样本;将所述第一样本组织图像进行数据增强,得到第三图像;将所述第三图像输入第三图像编码器,得到第三特征向量,第三图像为对比学习中的正样本;将所述第一图像输入所述第一图像编码器,得到第四特征向量,所述第一图像为对比学习中的锚图像;将所述多张第二样本组织图像输入第三图像编码器,得到所述多张第二样本组织图像的多个特征向量;聚类所述多个特征向量,得到多个聚类中心;基于所述多个聚类中心与所述第三特征向量的相似值,生成多个权重;基于所述第三特征向量和所述第四特征向量,生成用于表征所述锚图像和所述正样本之间误差的第五子函数;基于所述第四特征向量和所述多个特征向量,结合所述多个权重生成用于表征所述锚图像和所述负样本之间误差的第六子函数;基于所述第五子函数和所述第六子函数,生成第一权重损失函数;基于所述第一权重损失函数,训练所述第一图像编码器和所述第三图像编码器;基于所述第一图像编码器,更新所述第三图像编码器;将所述第三图像编码器确定为最终训练得到的图像编码器。5.一种全视野病理切片的搜索方法,其特征在于,所述方法由计算机设备执行,所述计算机设备运行有权利要求1至4任一方法训练得到的图像编码器,所述方法包括:获取全视野病理切片,以及将所述全视野病理切片裁剪为多张组织图像;通过所述图像编码器,生成所述多张组织图像的多个图像特征向量;基于所述多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,所述多个候选图像包与所述多张关键图像一一对应,任意一个所述候选图像包容纳有至少一张候选组织图像;根据所述候选图像包的属性筛选所述多个候选图像包,得到多个目标图像包;将所述多个目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。6.根据权利要求5所述的方法,其特征在于,所述通过对所述多个图像特征向量进行聚将所述多张组织图像的多个图像特征向量进行聚类,得到多个第一类簇;将所述多个第一类簇的多个聚类中心分别确定为所述多张关键图像的多个图像特征7.根据权利要求6所述的方法,其特征在于,所述方法还包括:针对所述多个第一类簇中的目标第一类簇,基于所述目标第一类簇对应的多张组织图像在各自所属的全视野病理切片的位置特征,聚类得到多个第二类簇;所述将所述多个第一类簇的多个聚类中心分别确定为所述多张关键图像的多个图像针对所述多个第一类簇中的目标第一类簇,将所述目标第一类簇包含的多个第二类簇对应的多个聚类中心确定为所述关键图像的图像特征向量;4其中,所述目标第一类簇为所述多个第一类簇中的任意一个。8.根据权利要求5至7任一所述的方法,其特征在于,所述根据所述候选图像包的属性,根据所述候选图像包具有的诊断类别数量,筛选所述多个候选图像包,得到所述多个目标图像包。9.根据权利要求8所述的方法,其特征在于,所述根据所述候选图像包具有的诊断类别针对所述多个候选图像包中的第一候选图像包,基于所述第一候选图像包中的至少一张候选组织图像与所述关键图像的余弦相似度、至少一个诊断类别在所述数据库中的发生概率和所述至少一张候选组织图像的诊断类别,计算所述候选图像包的熵值;其中,所述熵值用于衡量所述第一候选图像包对应的诊断类别的数量,所述第一候选图像包为所述多个候选图像包中的任意一个;筛选所述多个候选图像包,得到熵值低于熵值阈值的所述多个目标图像包。10.根据权利要求5至7任一所述的方法,其特征在于,所述根据所述候选图像包的属根据所述多张候选组织图像与所述关键图像的相似度,筛选所述多个候选图像包,得到所述多个目标图像包。11.根据权利要求10所述的方法,其特征在于,所述根据所述多张候选组织图像与所述针对所述多个候选图像包中的第一候选图像包,将所述第一候选图像包中的至少一个候选组织图像按照与所述关键图像的余弦相似度从大到小的顺序进行排列;获取所述第一候选图像包的前m个候选组织图像;计算所述前m个候选组织图像对应的m个余弦相似度;将所述多个候选图像包的前m个候选组织图像的m个余弦相似度的平均值,确定为第一平均值;将包含的所述至少一个候选组织图像的余弦相似度的平均值大于所述第一平均值的候选图像包,确定为所述目标图像包,得到所述多个目标图像包;其中,所述第一候选图像包为所述多个候选图像包中的任意一个,m为正整数。获取模块,用于获取第一样本组织图像;处理模块,用于将所述第一样本组织图像进行数据增强,得到第一图像;将所述第一图像输入第一图像编码器,得到第一特征向量;所述处理模块,还用于将所述第一样本组织图像进行数据增强,得到第二图像;将所述第二图像输入第二图像编码器,得到第二特征向量;确定模块,用于将所述第一特征向量确定为用于对比学习的对比向量,将所述第二特征向量确定为用于对比学习的锚向量;聚类模块,用于将不同的所述第一样本组织图像的第一特征向量进行聚类,得到多个第一聚类中心;将所述多个第一聚类中心中与所述第二特征向量之间的相似值最大的特征向量,确定为所述多个第一特征向量中的正样本向量;将其余特征向量确定为所述多个第一特征向量中的负样本向量,所述其余特征向量指不同的所述第一样本组织图像的第一特5征向量中除与所述第二特征向量之间的相似值最大的特征向量之外的特征向量;生成模块,用于基于所述第二特征向量和所述多个第一特征向量中的正样本向量,生成第一子函数;基于所述第二特征向量和所述多个第一特征向量中的负样本向量,生成第二子函数;基于所述第一子函数和所述第二子函数,生成第一群组损失函数;训练模块,用于基于所述第一群组损失函数,训练所述第一图像编码器和所述第二图像编码器;将所述第二图像编码器确定为最终训练得到的图像编码器。13.一种全视野病理切片的搜索装置,其特征在于,所述装置运行有权利要求1至4任一方法训练得到的图像编码器,所述装置包括:获取模块,用于获取全视野病理切片,以及将所述全视野病理切片裁剪为多张组织图生成模块,用于通过所述图像编码器,生成所述多张组织图像的多个图像特征向量;聚类模块,用于通过对所述多个图像特征向量进行聚类,从所述多张组织图像中确定出多张关键图像;查询模块,用于基于所述多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,所述多个候选图像包与所述多张关键图像一一对应,任意一个所述候选图像包容纳有至少一张候选组织图像;筛选模块,用于根据所述候选图像包的属性筛选所述多个候选图像包,得到多个目标图像包;确定模块,用于将所述多个目标图像包内的多个目标组织图像所属的全视野病理切14.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至4任一所述的图像编码器的训练方法,或,权利要求5至11任一所述的全视野病理切片的搜索方15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至4任一所述的图像编码器的训练方法,或,权利要求5至11任一所述的全视野病理切片的搜索方法。16.一种计算机程序产品,其特征在于,所述计算机程序产品存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至4任一所述的图像编码器的训练方法,或,权利要求5至11任一所述的全视野病理切片的搜索方法。6图像编码器的训练方法、装置、设备及介质技术领域[0001]本申请涉及人工智能领域,特别涉及一种图像编码器的训练方法、装置、设备及介背景技术[0002]在医疗领域,存在由全视野数字切片(WholeSlideImage,WSI)搜索与其相似的全视野数字切片的场景。每张全视野数字切片(大图)包括数量巨大的组织病理图像(小图)。[0003]在相关技术中,使用大图内最具有表征能力的小图来代表整张大图,之后根据小图的特征向量在数据库中寻找与其最相似的目标小图,将目标小图对应的大图作为最终的搜索结果。上述过程需要使用图像编码器来提取小图的特征向量。相关技术在训练图像编码器时采用对比学习的方式进行训练,对比学习旨在学习锚图像与正样本的共同特征,区分锚图像与负样本之间的不同特征(常简称为拉近锚图像与正样本,拉远锚图像与负样本)。[0004]相关技术在采用对比学习的方式训练图像编码器时,对于图像X,将图像X分别进行两次数据增强得到的图像X1和图像X2作为一对正样本。相关技术对正样本的定义过于宽泛,图像X1与图像X2与锚图像的相似程度可能存在很大区别,采用相关技术训练得到的图像编码器的编码效果将受限于正样本的宽泛假设,如何在对比学习中设置更为准确的正样本假设,成为亟需解决的技术问题。发明内容[0005]本申请提供了一种图像编码器的训练方法、装置、设备及介质,能够提高图像编码器的编码效果。所述技术方案如下:[0006]根据本申请的一个方面,提供了一种图像编码器的训练方法,所述方法包括:[0007]获取第一样本组织图像;[0008]将第一样本组织图像进行数据增强,得到第一图像;将第一图像输入第一图像编[0009]将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编[0010]将第一特征向量确定为用于对比学习的对比向量,将第二特征向量确定为用于对比学习的锚向量;[0011]将不同的第一样本组织图像的多个第一特征向量进行聚类,得到多个第一聚类中心;将多个第一聚类中心中与第二特征向量之间的相似值最大的特征向量,确定为多个第一特征向量中的正样本向量;将第一其余特征向量,确定为多个第一特征向量中的负样本向量,其中,第一其余特征向量指多个第一特征向量中除与第二特征向量之间的相似值最大的特征向量之外的特征向量;[0012]基于第二特征向量和多个第一特征向量中的正样本向量,生成第一子函数;基于7第二特征向量和多个第一特征向量中的负样本向量,生成第二子函数;基于第一子函数和[0013]基于第一群组损失函数,训练第一图像编码器和第二图像编码器;将第二图像编码器确定为最终训练得到的图像编码器。[0014]根据本申请的另一方面,提供了一种图像编码器[0015]获取第一样本组织图像和多张第二样本组织图像,第二样本组织图像为对比学习中的负样本;[0016]将第一样本组织图像进行数据增强,得到第三图像;将第三图像输入第三图像编码器,得到第三特征向量;第三图像为对比学习[0017]将第一样本组织图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第四特征向量;第一图像为对比学习中[0018]将多张第二样本组织图像输入第三图像编码器,得到多张第二样本组织图像的多个特征向量;将多个特征向量进行聚类,得到多个聚类中心;基于多个聚类中心与第三特征[0019]基于第四特征向量和第三特征向量,生成用于表征锚图像和正样本之间误差的第五子函数;基于第四特征向量和多个特征向量,结合多个权重生成用于表征锚图像和负样本之间误差的第六子函数;基于第五子函数和第六子函数,生成第一权重损失函数;[0020]基于第一权重损失函数,训练第三图像编码器和第一图像编码器;基于第一图像[0021]根据本申请的另一方面,提供了一种全视野病理切片的搜索方法,所述方法包括:[0022]获取全视野病理切片,以及将全视野病理切片裁剪为多张组织图像;[0023]通过图像编码器,生成多张组织图像的多个图像特征向量;[0024]通过对多个图像特征向量进行聚类,从多张组织图像中确定出多张关键图像;[0025]基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选组织图像;[0026]根据候选图像包的属性筛选多个候选图像包,得到多个目标图像包;[0027]将多个目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。[0028]根据本申请的另一方面,提供了一种图像编码器的训练装置,所述装置包括:[0030]处理模块,用于将第一样本组织图像进行数据增强,得到第一入第一图像编码器,得到第一特征向量;[0031]处理模块,还用于将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第二特征向量;[0032]确定模块,用于将第一特征向量确定为用于对比学习的对比向量,将第二特征向量确定为用于对比学习的锚向量;[0033]聚类模块,用于将不同的第一样本组织图像的第一特征向量进行聚类,得到多个第一聚类中心;将多个第一聚类中心中与第二特征向量之间的相似值最大的特征向量,确定为多个第一特征向量中的正样本向量;将多个第一聚类中心的其余特征向量,确定为多8个第一特征向量中的负样本向量;[0034]生成模块,用于基于第二特征向量和多个第一特征向量中的正样本向量,生成第一子函数;基于第二特征向量和多个第一特征向量中的负样本向量,生成第二子函数;基于第一子函数和第二子函数,生成第一群组损失函数;[0035]训练模块,用于基于第一群组损失函数,训练第一图像编码器和第二图像编码器;将第二图像编码器确定为最终训练得到的图像编码器。[0036]根据本申请的另一方面,提供了一种图像编码器[0037]获取模块,用于获取第一样本组织图像和多张第二样本组织图像,第二样本组织图像为对比学习中的负样本;[0038]处理模块,用于将第一样本组织图像进行数据增强,得到第三图像;将第三图像输入第三图像编码器,得到第三特征向量;第三图像为对比学习中的正样本;[0039]处理模块,还用于将第一样本组织图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第四特征向量;第一图像为对比学习中的锚图像;[0040]处理模块,还用于将多张第二样本组织图像输入第三图像编码器,得到多张第二样本组织图像的多个特征向量;将多个特征向量进行聚类,得到多个聚类中心;基于多个聚类中心与第三特征向量的相似值,生成多个权重;[0041]生成模块,用于基于第四特征向量和第三特征向量,生成用于表征锚图像和正样本之间误差的第五子函数;基于第四特征向量和多个特征向量,结合多个权重生成用于表征锚图像和负样本之间误差的第六子函数;基于第五子函数和第六子函数,生成第一权重损失函数;[0042]训练模块,用于基于第一权重损失函数,训练第三图像编码器和第一图像编码器;基于第一图像编码器,更新第三图像编码器。[0043]根据本申请的另一方面,提供了一种全视野病理切片的搜索装置,所述装置包括:[0044]获取模块,用于获取全视野病理切片,以及将全视野病理切片裁剪为多张组织图[0045]生成模块,用于通过图像编码器,生成多张组织图像的多[0046]聚类模块,用于通过对多个图像特征向量进行聚类,从多张组织图像中确定出多张关键图像;[0047]查询模块,用于基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选组织图像;[0048]筛选模块,用于根据候选图像包的属性筛选多个候选图像包,得到多个目标图像[0049]确定模块,用于将多个目标图像包内的多个目标组织图像所属的全视野病理切[0050]根据本申请的一个方面,提供了一种计算机设备,计算机设备包括:处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如上的图像编码器[0051]根据本申请的另一方面,提供了一种计算机可读存储介质,存储介质存储有计算9机程序,计算机程序由处理器加载并执行以实现如上的图像编码器的训练方法,或,全视野病理切片的搜索方法。[0052]根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像编码器的训练方法,或,全视野病理切片的搜索方法。[0053]本申请实施例提供的技术方案带来的有益效果至少包括:[0054]通过进一步区分相关技术中认定的正样本,在正样本中进一步区分出正样本的“正的程度”,使得对比学习使用的损失函数(也称为对比学习范式)能更精确地拉近锚图像与正样本,进而能更好地训练图像编码器,训练得到的图像编码器能更好的学习锚图像和正样本之间的共同特征。附图说明[0055]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。[0056]图1是本申请一个实施例提供的对比学习的相关介绍的示意图;[0057]图2是本申请一个实施例提供的计算机系统的示意图;[0058]图3是本申请一个实施例提供的图像编码器的训练架构的示意图;[0059]图4是本申请一个实施例提供的图像编码器的训练方法的流程图;[0060]图5是本申请另一个实施例提供的图像编码器的训练架构的示意图;[0061]图6是本申请另一个实施例提供的图像编码器的训练架构的示意图;[0062]图7是本申请另一个实施例提供的图像编码器的训练方法的流程图;[0063]图8是本申请另一个实施例提供的图像编码器的训练架构的示意图;[0064]图9是本申请另一个实施例提供的图像编码器的训练方法的流程图;[0065]图10是本申请另一个实施例提供的图像编码器的训练架构的示意图;[0066]图11是本申请另一个实施例提供的图像编码器的训练架构的示意图;[0067]图12是本申请另一个实施例提供的图像编码器的训练方法的流程图;[0068]图13是本申请另一个实施例提供的图像编码器的训练架构的示意图;[0069]图14是本申请一个实施例提供的全视野病理切片的搜索方法的流程图;[0070]图15是本申请一个实施例提供的数据库的构建架构的示意图;[0071]图16是本申请一个实施例提供的图像编码器的训练装置的结构框图;[0072]图17是本申请一个实施例提供的图像编码器的训练装置的结构框图;[0073]图18是本申请一个实施例提供的全视野病理切片的搜索装置的结构框图;[0074]图19是本申请一个实施例提供的计算机设备的结构框图。具体实施方式[0075]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。[0077]全视野病理切片(WholeSlideImage,WSI):WSI是利用数字扫描仪对传统病理片进行扫描,采集出高分辨率的图像,再通过计算机将采集到的碎片化图像进行无缝拼接,制作得到的可视化数字图像。WSI可通过使用特定的软件实现任意比例的放大和缩小、任意方向的移动浏览等。通常一张WSI的数据量大小在几百个兆字节(MB)甚至几个吉字节(GB)之间。在本申请中,常将WSI简称为大图。相关技术在处理WSI时聚焦于对WSI内域的选取和分析,在本申请中常将WSI内的局部组织区域称为小图。[0078]对比式学习(也称对比学习):请参考图1,深度学习根据是否进行数据的标记,可以分为监督学习和无监督学习。监督学习需要对海量的数据进行标记,而无监督学习允许自主发现数据中潜在的结构。无监督学习又可进一步划分为生成式学习和对比式学习。生成式学习以自编码器(例如GAN,VAE等等)这类方法为代表,由数据生成者高级语义上与训练数据相近。例如,将训练集中多张马的图像通过生成模型学习马的特[0079]对比式学习着重于学习同类样本之间的共同特征,区分不同类样本之间的不同特圈A为对比学习中的锚图像,圆圈A1为对比学习中的正样本,正方形B为对比学习中的负样本,对比学习目旨在通过训练得到的编码器,拉近圆圈A与圆圈A1的距离,拉远圆圈A与正方形B的距离。也即,训练得到的编码器支持对同类数据进行相似的编码,并使不同类的数据的编码结果尽可能的不同。在本申请中,将介绍通过对比学习训练图像编码器的方法。[0081]图2是根据一示例性实施例示出的计算机系统的示意图。如图2所示,图像编码器的训练设备21用于训练图像编码器,之后图像编码器的训练设备21将图像编码器发送至图像编码器的使用设备22,图像编码器的使用设备22利用图像编码器进行全视野病理切片的[0082]图像编码器的训练阶段,如图2所示,采用对比学习的方式训练图像编码器,锚图像210与正样本之间的距离小于锚图像210与负样本之间的距离,在图2中,正样本包括经过聚类得到的正样本类簇211和正样本类簇212,负样本包括聚类得到的负样本类簇213和负样本类簇214,正样本类簇211的聚类中心与锚图像210之间的距离为L1,正样本类簇212的聚类中心与锚图像210之间的距离为L2,负样本类簇213的聚类中心与锚图像210之间的距离为L3,负样本类簇214的聚类中心与锚图像210之间的距离为L4。[0083]在本申请中,将多个正样本经过聚类之后,得到多个正样本类簇,将与锚图像最相似的类簇的聚类中心与锚图像的距离设置为L2,将多个正样本中的其他正样本与锚图像的距离设置为L1(注:图2示出的L2仅为正样本类簇212的聚类中心与锚图像的距离,正样本类簇212的其他正样本与锚图像的距离为L1),根据重新定义出的多个正样本与锚图像之间的距离,拉近锚图像和多个正样本。相关技术中认为所有的正样本与锚图像之间的距离均相[0084]在本申请中,将多个负样本经过聚类之后,得到多个负样本类簇,基于每个类簇的聚类中心与锚图像之间的相似度赋予每个类簇权重,根据类簇权重拉远锚图像与负样本,11图2示出的距离L3和距离L4即为加权之后的距离,相关技术中认为所有的负样本与锚图像之间的距离均相同。[0085]图像编码器的使用阶段,如图2所示,在本申请中图像编码器的使用阶段为全视野病理切片的搜索过程。[0086]首先,将一张WSI进行裁剪得到多张组织图像(小图);然后,将多张组织图像进行像(小图A),将小图A输入图像编码器,得到小图A的图像特征向量;最后,根据小图A的图像特征向量查询数据库,得到小图A1至小图AN,将小图A1至小图AN对应的WSI作为搜索结果,多张关键图像均作为查询图像从数据库中确定出WSI。[0087]可选的,上述图像编码器的训练设备21和图像编码器的使用设备22可以是具有机器学习能力的计算机设备,比如,该计算机设备可以是终端或服务器。[0088]可选的,上述图像编码器的训练设备21和图像编码器的使用设备22可以是同一个计算机设备,或者,图像编码器的训练设备21和图像编码器的使用设备22也可以是不同的计算机设备。并且,当图像编码器的训练设备21和图像编码器的使用设备22是不同的设备时,图像编码器的训练设备21和图像编码器的使用设备22可以是同一类型的设备,比如图像编码器的训练设备21和图像编码器的使用设备22可以都是服务器;或者,图像编码器的训练设备21和图像编码器的使用设备22也可以是不同类型的设备。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提全服务、CDN(ContentDeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。[0089]在下文中将按照以下顺序进行详细介绍。[0090]图像编码器的训练阶段——1;[0091]-拉近锚图像与正样本的相关内容——1-1;[0092]-第一群组损失函数的相关内容——1-1-1;[0093]-第二群组损失函数的相关内容——1-1-2;[0094]-拉远锚图像与负样本的相关内容——1-2;[0095]-第一权重损失函数的相关内容——1-2-1;[0096]-第二权重损失函数的相关内容——1-2-2;[0097]-完整的损失函数的相关内容——1-3;[0098]图像编码器的使用阶段(全视野病理切片的搜索过程)——2;[0099]第一群组损失函数的相关内容——1-1-1:[0100]图3示出了一个示例性实施例提供的图像编码器的训练框架,以该框架应用于图1所示的图像编码器的训练设备21进行举例说明。[0101]图3示出了:第一样本组织图像301通过数据增强得到第一图像302,第一图像302通过第一图像编码器304得到第一特征向量306,在同时输入多张第一样本组织图像301的情况下,多个第一特征向量将被区分出多个第一特征向量中的正样本向量307和多个第一特征向量中的负样本向量308;第一样本组织图像301通过数据增强得到第二图像303,第二图像303通过第二图像编码器305得到第二特征向量309;基于多个第一特征向量中的正样本向量307和第二特征向量309,生成第一子函数310;基于多个第一特征向量中的负样本向量308和第二特征向量309,生成第二子函数311;基于第一子函数310和第二子函数311,构建得到第一群组损失函数312;[0102]其中,第一群组损失函数312用于拉近锚图像与正样本之间的距离。[0103]图4示出了一个示例性实施例提供的图像编码器的训练方法的流程图,以该方法应用于图3所示的图像编码器的训练框架进行举例说明,该方法包括:[0104]步骤401,获取第一样本组织图像;[0105]第一样本组织图像,在本申请中指用于训练图像编码器的图像,即WSI内的局部区域图像(小图)。[0106]结合参考图5,图像X即为第一样本组织图像。[0107]步骤402,将第一样本组织图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第一特征向量;[0108]数据增强也叫数据扩增,旨在不实质性的增加数据的情况下,让有限的数据产生更多的数据。在一个实施例中,数据增强的方法包括以下中的至少一种:[0113]·采用随机或人为定义的方式指定平移范围和平移步长,沿水平或竖直方向进行[0114]·尺度变换:对图像按照指定的尺度因子,进行取思想,利用指定的尺度因子对图像滤波构造尺度空间,改变图像内容的大小或模糊程度;[0115]·对比度变换:在图像的HSV颜色空间,改变饱和度S和V亮度分量,保持色调变,对每个像素的S和V分量进行指数运算(指数因子在0.25到4之间),增加光照变化;[0116]·噪声扰动:对图像的每个像素RGB进行随机扰动,常用的噪声模式是椒盐噪声和高斯噪声;[0119]在本实施例中,将第一样本组织图像进行数据增强,得到第一图像,通过第一图像编码器对第一图像进行特征提取,得到第一特征向量。[0120]在一个实施例中,将第一图像输入第一图像编码器,得到第一中间特征向量;将第一中间特征向量输入第一MLP,得到第一特征向量。其中,第一MLP起到过渡作用,用于提高第一图像的表达能力。[0121]结合参考图5,图像X进行数据增强得到图像X,然后应用编码器h将图像X,转换至高级语义空间Ra,即得到第一中间特征向量h。,将第一中间特征向量h。输入第一MLP,得到第一特征向量8p1。[0122]步骤403,将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第第二图像的表达能力。高级语义空间Rd,即得到第二中间特征向量h₆,将第二中间特征向量h输入第二MLP,得到本向量。一聚类中心;[0131]结合参考图5,其示出了不同的第一样本组织图像的第一特征向量的多个第一聚[0132]步骤406,将多个第一聚类中心中与第二特征向量之间的相似值最大的特征向量,[0133]在一个实施例中,将S个第一聚类中心中与第二特征向量距离最近的第一聚类中[0135]在一个实施例中,将S个第一聚类中心中除S;+之外的特征向量作为负样本向[0142]其中,第二特征向量82作为对比学习中的锚向量,S⁹一作量样本三元组训练图像编码器,在下述将介绍同时通过两个特征向量样本三元组(锚向量[0154]图6示出了:第一样本组织图像301通过数据增强得到第一图像302,第一图像302通过第一图像编码器304得到第一特征向量306,在同时输入多张第一样本组织图像301的情况下,多个第一特征向量将被区分出多个第一特征向量中的正样本向量307和多个第一特征向量中的负样本向量308;第一样本组织图像301通过数据增强得到第二图像303,第二图像303通过第二图像编码器305得到第二特征向量309;基于多个第一特征向量中的正样本向量307和第二特征向量309,生成第一子函数310;基于多个第一特征向量中的负样本向量308和第二特征向量309,生成第二子函数311;基于第一子函数310和第二子函数311,构第二特征向量中的负样本向量314;基于多个第二特征向量中的正样本向量313和第一特征向量306,生成第三子函数315;基于多个第二特征向量中的负样本向量314和第一特征向量306,生成第四子函数316;基于第三子函数315和第四子函数316,构建得到第二群组损失函提供了步骤412至步骤419,以图7所示的方法应用于图6所示的图像编码器的训练框架进行本向量。二聚类中心;组织图像为同一训练批次的样本组织图像。[0162]结合参考图5,其示出了不同的第一样本组织图像的第二特征向量的多个第二聚[0164]在一个实施例中,将S个第二聚类中心中与第一特征向量距离最近的第二聚类中[0166]在一个实施例中,将S个第二聚类中心中除十之外的特征向量作为负样本向[0169]在一个实施例中,第三子函数表示为[0171]在一个实施例中,第四子函数表示为表示更新前的第三图像编码器的参数,0表示第一图像编码器和第二图像编码器共享的参且构建得到的完整的群组损失函数相比于第一群组损失函数或第二群组损失函数将更加量807;第一样本组织图像802通过数据增强,得到第三图像803,第三图像803通过第三图像编码器805,生成第三特征向量808;第一样本组织图像802通过数据增强,得到第一图像804,第一图像804通过第一图像编码器806,生成第四特征向量809;基于第三特征向量808和第四特征向量809,生成第五子函数810;基于多个特征向量807和第四特征向量809,生成第六子函数811;基于第五子函数810和第六子函数811,生成第一权重损失函数812。[0191]其中,第一权重损失函数812用于拉远锚图像和负样本的距离。[0192]图9示出了一个示例性实施例提供的图像编码器的训练方法的流程图,以该方法应用于图8所示的图像编码器的训练框架进行举例说明,该方法包括:[0193]步骤901,获取第一样本组织图像和多张第二样本组织图像,第二样本组织图像为对比学习中的负样本;[0194]第一样本组织图像,在本申请中指用于训练图像编码器的图像;第二样本组织图像,在本申请中指用于训练图像编码器的图像。其中,第一样本组织图像与第二样本组织图像是不同的小图,即,第一样本组织图像与第二样本组织图像不是经过小图X的数据增强得到的小图X1和小图X2,而是分别为小图X和小图Y。[0195]在本实施例中,将第二样本组织图像作为对比学习中的负样本,对比学习旨在拉近锚图像与正样本之间的距离,拉远锚图像与负样本之间的距离。[0196]结合参考图10,图像X即为第一样本组织图像,负样本的子容器即容纳有多张第二样本组织图像的多个特征向量的容器。[0197]步骤902,将第一样本组织图像进行数据增强,得到第三图像;将第三图像输入第三图像编码器,得到第三特征向量;第三图像为对比学习中的正样本;[0198]在本实施例中,将第一样本组织图像进行数据增强,得到第三图像,将第三图像作为对比学习中的正样本。[0199]结合参考图10,图像X进行数据增强得到图像X,然后应用编码器f将图像X转换至高级语义空间Ra,即得到第三特征向量f。[0200]步骤903,将第一样本组织图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第四特征向量;第一图像为对比学习中的锚图像;[0201]在本实施例中,将第一样本组织图像进行数据增强,得到第一图像,将第一图像作为对比学习中的锚图像。[0202]在一个实施例中,将第一图像输入第一图像编码器,得到第一中间特征向量;将第一中间特征向量输入第三MLP(MultilayerPerceptron,多层感知机),得到第四特征向量。[0203]结合参考图10,图像X进行数据增强得到图像X。,然后应用编码器h将图像X,转换至高级语义空间Ra,即得到第一中间特征向量h。,将第一中间特征向量h输入第三MLP,得到第四特征向量8p₂°[0204]步骤904,将多张第二样本组织图像输入第三图像编码器,得到多张第二样本组织图像的多个特征向量;将多个特征向量进行聚类,得到多个聚类中心;基于多个聚类中心与第三特征向量的相似值,生成多个权重;[0205]在本实施例中,第二样本组织图像为对比学习中的负样本,将多张第二样本组织[0206]结合参考图10,负样本的子容器内存放有多张第二样本组织图像的多个特征向征向量,赋予越小的权值w,针对与f越不相似的聚类中心所属类别对应的多个特征向量,赋予越大的权值w。中心c₂所属类别包括特征向量4、特征向量5和特征向量6;聚类中心c₃所属类别包括特征向[0213]在另一个实施例中,在第一样本组织图像属于第n训练批次的第一样本组织图像[0215]结合参考图10,根据第n-1训练批次的第j个聚类中心c,,更新得到第n训练批次的∈[0,1];Bj代表第n训练批次的多张第一样本组织图像(多张图像X)的多个第三特征向量(多个f)内属于第j类的特征集合。f代表属于第j类的第n训练批次的多个第三特征向量(多个f)内的第i个特征向量。1/|B;|(Ces;fk)用于计算属于第j类的第n训练批次的多样本图像(即更新聚类中心),则第三距离与第二距离之间的增幅将小于第二距离与第一距则将适当拉近更新后的负样本图像与图像X的距离,平衡了图像编码器逐渐提升的拉远效征向量f和第四特征向量82构成。[0226]结合参考图10,第六子函数可表示为Zi=1exp(φ(fk)·gp₂·fk/t),其中,φ(f)表示第i个负样本特征向量(即第二样本组织图像的特征向量)的权重,fk表示第i[0231]步骤908,基于第一权重损失函数,训练第一图像编码器和第三图像编码器;[0232]根据第一权重损失函数,训练第一图像编码器和第三图像编码器。[0233]步骤909,基于第一图像编码器,更新第三图像编码器。[0234]基于第一图像编码器,更新第三图像编码器。可选的,根据第一图像编码器的参数,采用加权方式对第三图像编码器的参数进行更新。[0235]示意性,对第三图像编码器的参数进行更新的公式如下:[0237]其中,公式(8)左边的θ′表示更新后的[0238]综上所述,通过为相关技术中认定的负样本赋予权重,在负样本中进一步区分出负样本的“负的程度”,使得对比学习使用的损失函数(也称为对比学习范式)能更精确地拉远锚图像与负样本,减少了潜在的假负样本的影响,进而能更好地训练图像编码器,训练得到的图像编码器能更好的区分锚图像和负样本之间的不同特征。[0239]上述图8和图9示出了通过一个样本三元组训练第三图像编码器,样本三元组包括(锚图像、正样本、负样本)。在另一个实施例中,还可能同时通过多个样本三元组训练第三本、负样本)训练第三图像编码器,锚图像1和锚图像2是通过同一张小图分别进行数据增强得到的图像。需要说明的是,本申请并不限定具体构建样本三元组的个数。[0240]第二权重损失函数的相关内容——1-2-2:[0241]图11示出了一个示例性实施例提供的图像编码器的训练框架,以该框架应用于图1所示的图像编码器的训练设备21进行举例说明。[0242]图11示出了:多张第二样本组织图像801通过第三图像编码器805,生成多个特征向量807;第一样本组织图像802通过数据增强,得到第三图像803,第三图像803通过第三图像编码器805,生成第三特征向量808;第一样本组织图像802通过数据增强,得到第一图像804,第一图像804通过第一图像编码器806,生成第四特征向量809;基于第四特征向量809和第三特征向量808,生成第五子函数810;基于多个特征向量807和第四特征向量809,生成第六子函数811;基于第五子函数810和第六子函数811,生成第一权重损失函数812。[0243]与图8示出的训练框架区别在于,图11还示出了:第一样本组织图像802通过数据增强,得到第二图像813,第二图像813通过第二图像编码器814,得到第五特征向量815;第五特征向量815和第三特征向量808,生成第七子函数816;第五特征向量815和多个特征向量807,生成第八子函数817;第七子函数816和第八子函数817,生成第二权重损失函数818。[0244]其中,第二权重损失函数818用于拉远锚图像与负样本的距离。[0245]基于图9所示的图像编码器的训练方法,图12在图9的方法步骤的基础上,还进一步提供了步骤910至步骤914,以图12所示的方法应用于图11所示的图像编码器的训练框架[0246]步骤910,将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第五特征向量;第二图像为对比学习中的锚图像;[0247]在本实施例中,将第一样本组织图像进行数据增强,得到第二图像,将第二图像作为对比学习中的锚图像。[0249]结合参考图10,图像X进行数据增强得到图像X。,然后应用编码器h将图像X转换至第五特征向量81°像和负样本之间误差的第八子函数;[0255]结合参考图10,第八子函数可表示为∑'=1exp(φ(fk)·9q₁·fk/t),其中,φ(fk)表示第i个负样本特征向量(即第二样本组织图像的特征向量)的权重,fk表示第i权重损失函数:像编码器的参数进行更新”,即步骤909中的公式(8)的θ表示第一图像编码器和第二图像编码器之间共享的参数,通过第一图像编码器和第二图像编码器之间共享的参数,缓慢更新第三图像编码器。[0266]综上所述,上述方案构建了两个样本三元组(第一图像、第三图像、多个第二样本组织图像)、(第二图像、第三图像、多个第二样本组织图像),其中,第一图像为锚图像1,第二图像为锚图像2,进一步提高了训练得到的图像编码器的编码效果,并且构建得到的完整的权重损失函数相比于第一权重损失函数或第二权重损失函数将更加鲁棒。[0267]完整的损失函数的相关内容——1-3:[0268]由上述图3至图7,可实现通过群组损失函数对第三图像编码器进行训练;由上述图8至图12,可实现通过权重损失函数对第三图像编码器进行训练。[0269]在一个可选的实施例中,可通过群组损失函数和权重损失函数共同对第三图像编码器进行训练,请参考图13,其示出了本申请一个示例性实施例提供的第一图像编码器的训练架构的示意图。[0270]群组损失函数的相关部分:[0271]图像X进行数据增强得到图像X₀,图像X,通过编码器h得到第一中间特征向量h,,第一中间特征向量h,通过第一MLP得到第一特征向量8,1;图像X进行数据增强得到图像X。,图像X。通过编码器h得到第二中间特征向量h,第一中间特征向量h通过第二MLP得到第二特[0272]在同一训练批次中,聚合多张第一样本组织图像的多个第一特征向量8p₁,得到多个第一聚类中心;将多个第一聚类中心中与一张第一样本组织图像的第二特征向量82距离最近的第一聚类中心确定为正样本向量;将多个第一聚类中心的其余特征向量确定为负样本向量;基于正样本向量和第二特征向量g₂构建用于表征正样本向量和锚向量之间误差的子函数;基于负样本向量和第二特征向量8₄₂构建用于表征负样本向量和锚向量之间误差的[0273]在同一训练批次中,聚合多张第一样本组织图像的多个第二特征向量8ą2,得到多个第二聚类中心;将多个第二聚类中心中与一张第一样本组织图像的第一特征向量8p₁距离最近的第二聚类中心确定为正样本向量;将多个第二聚类中心的其余特征向量确定为负样本向量;基于正样本向量和第一特征向量8p1构建用于表征正样本向量和锚向量之间误差的子函数;基于负样本向量和第一特征向量8p₁构建用于表征负样本向量和锚向量之间误差的[0274]基于第一群组损失函数和第二群组损失函数结合得到的群组损失函数,训练第一图像编码器和第二图像编码器。根据第一图像编码器和第二图像编码器,更新第三图像编码器。[0275]权重损失函数的相关部分:[0276]图像X进行数据增强得到图像X,图像X通过编码器f得到第三特征向量f;图像X进行数据增强得到图像Xp,图像X通过编码器h得到第一中间特征向量h₀,第一中间特征向h得到第二中间特征向量h。,第一中间特征向量h通过第四MLP得到第五特征向量8p₁;[0277]多个第二样本组织图像输入编码器f并通过入栈操作放入存储队列,在存储队列中通过K均值聚类将队列中的负样本特征向量聚类成Q个类别,进而构造Q个子队列。基于每个聚类中心与f的相似值,为每个聚类中心赋予权重;[0278]基于Q个聚类中心和第四特征向量8p₂构建用于表征负样本和锚图像的子函数;基于第三特征向量f、和第四特征向量8,2构建用于表征正样本和锚图像的子函数;结合两个子函数形成第一权重损失函数;[0279]基于Q个聚类中心和第五特征向量8p₁构建用于表征负样本和锚图像的子函数;基于第三特征向量f、和第五特征向量8,构建用于表征正样本和锚图像的子函数;结合两个子函数形成第二权重损失函数;[0280]基于第一权重损失函数和第二权重损失函数结合得到的权重损失函数,训练第一图像编码器、第二图像编码器和第三图像编码器,并通过第一图像编码器和第二图像编码器共享的参数,缓慢更新第三图像编码器的参数。[0281]结合权重损失函数与群组损失函数的相关部分:[0282]可以理解的是,基于权重损失函数与基于群组损失函数对图像编码器进行训练,二者均是基于聚类确定出相似值,重新赋予正负样本假设,上述权重损失函数用于修正相关技术中的负样本的正负样本假设,上述群组损失函数用于修正相关技术中的正样本的正负样本假设。[0283]在图13所示的训练架构中,权重损失函数和群组损失函数之间通过超参数结合,表示为:[0285]其中,公式(11)左边的L为最终的损失函数,LweightedNCE为权重损失函数,LGroupNCE为群组损失函数,λ作为一个超参数调节两个损失函数的贡献。[0286]综上所述,通过权重损失函数和群组损失函数共同构建得到最终的损失函数,相比于单个权重损失函数或单个群组损失函数,最终的损失函数将更加鲁棒,最终训练得到的图像编码器将具有更好的编码效果,通过图像编码器特征提取得到的小图的特征能更好的表征小图。[0287]图像编码器的使用阶段——2:[0288]上文已介绍完毕图像编码器的训练阶段,在下文将开始介绍图像编码器的使用阶段,在本申请提供的一个实施例中,图像编码器将用于WSI图像搜索的场景。图14示出了本申请一个示例性实施例提供的全视野病理切片的搜索方法的流程图,以该方法应用于图1所示的图像编码器的使用设备22进行举例说明,此时图像编码器的使用设备22也可称为全视野病理切片的搜索设备。[0289]步骤1401,获取全视野病理切片,以及将全视野病理切片裁剪为多张组织图像;[0290]全视野病理切片(WSI),WSI是利用数字扫描仪对传统病理片进行扫描,采集出高分辨率的图像,在通过计算机将采集到的碎片化图像进行无缝拼接,制作得到的可视化数字图像。在本申请中常将WSI称为大图。[0292]在一个实施例中,在WSI的预处理阶段,通过阈值技术提取WSI内的前景组织区域,然后基于滑动窗口技术将WSI的前景组织区域裁剪成多张组织图像。[0293]步骤1402,通过图像编码器,生成多张组织图像的多个图像特征向量;[0294]在一个实施例中,通过上述图4所示的方法实施例训练得到的第二图像编码器,生成多张组织图像的多个图像特征向量;此时,第二图像编码器是基于第一群组损失函数训[0295]通过上述图7所示的方法实施例训练得到的第一图像编码器(或第二图像编码器),生成多张组织图像的多个图像特征向量;此时,第一图像编码器(或第二图像编码器)是基于第一群组损失函数和第二群组损失函数训练得到的;或,[0296]通过上述图9所示的方法实施例训练得到的第三图像编码器,生成多张组织图像的多个图像特征向量;此时,第三图像编码器是基于第一权重损失函数训练得到的;或,[0297]通过上述图12所示的方法实施例训练得到的第三图像编码器,生成多张组织图像的多个图像特征向量;此时,第三图像编码器是基于第一权重损失函数和第二权重损失函[0298]通过上述图13所示的实施例训练得到的第三图像编码器,生成多张组织图像的多个图像特征向量;此时,第三图像编码器是基于群组损失函数和权重损失函数训练得到的。[0299]步骤1403,通过对多个图像特征向量进行聚类,从多张组织图像中确定出多张关键图像;[0300]在一个实施例中,将多张组织图像的多个图像特征向量进行聚类,得到多个第一类簇;将多个第一类簇的多个聚类中心分别确定为多张关键图像的多个图像特征向量,即从多张组织图像中确定出多张关键图像。[0301]在另一个实施例中,将多张组织图像的多个图像特征向量进行聚类,得到多个第一类簇,之后,将再次聚类。针对多个第一类簇中的目标第一类簇,基于目标第一类簇对应的多张组织图像在各自所属的全视野病理切片的位置特征,聚类得到多个第二类簇;将目标第一类簇包含的多个第二类簇对应的多个聚类中心确定为关键图像的图像特征向量;其中,目标第一类簇为多个第一类簇中的任意一个。[0302]示意性的,聚类采用K-means聚类的方法,第一次聚类时,多个图像特征向量fa₁1将聚类得到K₁个不同的类别,表示为F₁,i=1,2,…,K₁。第二次聚类时,在每个类簇F₁内,以多个聚类中心,将K₁*K₂个聚类中心对应的组织图像作为K₁*K₂张关键图像,并且,K₁*K₂张关键图像作为WSI的全局表征。在一些实施例中,关键图像常称为马赛克图像。[0303]步骤1404,基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选组织图像;[0304]由上述步骤1404可得,WSI={P₁,P₂,…,P.,…,P},其中P和k分别代表第i张关键图像的特征向量和WSI内关键图像的总数,i、k均为正整数。在搜索WSI时,每张关键图像将Bag={B₁,B2,…,B;,…,Bk},其中第i个候选图像包Bi={bi1,bi2,…,bij,…,bit},b和t分别代表第张候选组织图像和B;内候选组织图像的总数,j为正整数。[0305]步骤1405,根据候选图像包的属性筛选多个候选图像包,得到多个目标图像包;[0306]由上述步骤1405可得,共产生了k个候选图像包,为提升WSI的搜索速度和优化最终的搜索结果,还需筛选k个候选图像包。在一个实施例中,根据候选图像包与WSI的相似度和/或候选图像包内具有的诊断类别,筛选k个候选图像包,得到多个目标图像包。具体的筛选步骤将在下文展开详细介绍。[0307]步骤1406,将多个目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。[0308]在筛选出多个目标图像包内之后,将目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。可选的,目标图像包内的多个目标组织图像可能来自同一张全视野病理切片,也可能来自多张不同的全视野病理切片。[0309]综上所述,首先将WSI裁剪得到多张小图,将多张小图通过图像编码器得到多张小图的多个图像特征向量;然后,将多个图像特征向量进行聚类,将聚类中心对应的小图作为像包;最后,将候选图像包内的至少一张小图对应的WSI作为最终的搜索结果;该方法提供了一种以WSI(大图)搜索WSI(大图)的方式,并且,其中提及的聚类步骤和筛选步骤能大大的方式无需训练过程,可实现快速的搜索匹配。[0310]在相关技术中,采用小图表征大图的方式往往采用人工挑选的方式,病理学家根据WSI内每个小图的颜色和纹理特征(比如,来自各种颜色空间的直方图统计信息),挑选出核心小图。然后将这些核心小图的特征积累为WSI的全局表征,接着采用支持向量机(SupportVectorMachine,SVM)将多张WSI的WSI索阶段,一旦确定了待搜索WSI的疾病类型,即可以在具有相同疾病类型的WSI库内进行图[0311]基于图14所示的可选实施例,步骤1405可替换为1405-1。[0312]1405-1,根据候选图像包具有的诊断类别数量,筛选多个候选图像包,得到多个目标图像包。[0313]在一个实施例中,针对多个候选图像包中的第一候选图像包,基于第一候选图像包中的至少一张候选组织图像与关键图像的余弦相似度、至少一个诊断类别在数据库中的发生概率和至少一张候选组织图像的诊断类别,计算候选图像包的熵值,熵值用于衡量第一候选图像包对应的诊断类别的数量,第一候选图像包为多个候选图像包中的任意一个;[0317]其中,Ent;代表第i个候选图像包的熵值,u.代表在第i个候选图像包内具有的诊断[0318]可以理解的是,熵值用于表示第i个候选图像包的不确定度,熵值越大表示第i个候选图像包的不确定性越高,第i个候选图像包内的候选组织图像在诊断类别维度的分布候选图像包内的多张候选组织图像具有相同的诊断结果,则候选图像包的熵值将为0,第1数,用于判断第j个候选组织图像的诊断类别否则输出0;Wy;是第j个候选组织图像的权值,Wy是根据至少一个诊断类别在数据库中的发生概率计算得到的;d;代表在第i个候选包内第j个候选组织图像与第i张关键图像之间i个候选图像包内的第j个候选组织图像。公式(13)的分母代表第i个候选图像包具有的总值阈值的候选图像包,多个候选图像包即可筛选出多个目标图像包,表示为选组织图像与关键图像相似度较高的候选图像包,进一步减少了以WSI搜WSI过程中处理的[0332]需要说明的是,上述1405-1和1405-2可以单独执行筛选多个候选图像包的步骤,也可以联合执行筛选多个候选图像包的步骤,此时,既可以先执行1405-1再执行1405-2,也可以先执行1405-2再执行1405-1,本申请对此不作限制。[0333]基于图14所示的方法实施例中,步骤1404中涉及通过数据库查询候选图像包,接下来将介绍数据库的构建过程。请参考图15,其示出本申请一个示例性实施例提供的数据库的构建框架的示意图。预处理阶段,通过阈值技术提取WSI内的前景组织区域,然后基于滑动窗口技术将WSI的前景组织区域裁剪成多张组织图像。[0336]然后,将多张组织图像1502输入图像编码器1503,对多张组织图像1502进行特征提取,得到多张组织图像的多个图像特征向量1505;[0337]最后,基于多张组织图像的多个图像特征向量1505,进行多张组织图像1502的选择(即进行小图的选择1506)。可选的,进行小图的选择1506包括两重聚类,第一重聚类即为基于特征聚类1506-1,第二重聚类即为基于坐标聚类1506-2。[0338]-在基于特征聚类1506-1中,采用K-means聚类将多张组织图像的多个图像特征向量1505聚类为K₁个类别,对应得到K₁个聚类中心,图15示出了其中一个聚类中心对应的小[0339]-在基于特征聚类1506-2中,针对K₁个类别中的任意一个,采用K-means聚类将该类别中包含的多个特征向量聚类为K₂个类别,对应得到K₂个聚类中心,图15示出了其中一个聚类中心对应的小图;[0340]将经过两重聚类得到的K₁*K₂个聚类中心对应的小图,作为具有表征性的小图1506-3,图15示出了其中一个聚类中心对应的小图;[0341]-将所有具有表征性的小图作为WSI的小图,用于表征WSI,基于此,即构建完成一张WSI的多张小图。[0342]综上所述,数据库的构建和以WSI搜索WSI的过程较为类似,其目的在于确定出用于表征一张WSI的多张小图,以支持在搜索过程中通过匹配小图,实现大图的匹配。[0343]在一个可选的实施例中,上述图像编码器的训练思想还可应用于其他图像的领域。通过样本星域图像(小图),星域图像来自于星空图像(大图),星域图像指示星空图像中的局部区域,比如,星空图像为第一范围的星空的图像,星域图像为第一范围内的子范围的图像。[0344]图像编码器的训练阶段包括:[0345]获取第一样本星域图像;将第一样本星域图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第一特征向量;将第一样本星域图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第二特征向量;将第一特征向量确定为用于对比学习的对比向量,将第二特征向量确定为用于对比学习的锚向量;将不同的第一样本星域图像的多个第一特征向量进行聚类,得到多个第一聚类中心;将多个第一聚类中心中与第二特征向量之间的相似值最大的特征向量,确定为多个第一特征向量中的正样本向量;将第一其余特征向量确定为多个第一特征向量中的负样本向量,其中,第一其余特征向量指多个第一特征向量中除与第二特征向量之间的相似值最大的特征向量之外的特征向量;基于第二特征向量和多个第一特征向量中的正样本向量,生成第一子函数;基于第二特征向量和多个第一特征向量中的负样本向量,生成第二子函数;基于第一子函数和第二子函数,生成第一群组损失函数;基于第一群组损失函数,训练第一图像编码器和第二图像编码器;将第二图像编码器确定为最终训练得到的图像编码器。[0346]同理,星域图像的图像编码器还可采用其他与上述样本组织图像的图像编码器类[0347]图像编码器的使用阶段包括:[0348]获取星空图像,以及将星空图像裁剪为多张星域图像;通过图像编码器,生成多张星域图像的多个图像特征向量;通过对多个图像特征向量进行聚类,从多张星域图像中确定出多张关键图像;基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选星域图像;根据候选图像包的属性筛选多个候选图像包,得到多个目标图像包;将多个目标图像包内的多个目标星域图像所属的星空图像,确定为最终的搜索结果。[0349]在另一个可选的实施例中,上述图像编码器的训练思想还可应用于地理图像领域,通过样本地形图像(小图)训练图像编码器,地形图像来自于地貌图像(大图),地形图像指示地貌图像中的局部区域,比如,地貌图像为卫星拍摄到的第二范围的地貌的图像,地形图像为第二范围内的子范围的图像。[0350]图像编码器的训练阶段包括:[0351]获取第一样本地形图像;将第一样本地形图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第一特征向量;将第一样本地形图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第二特征向量;将第一特征向量确定为用于对比学习的对比向量,将第二特征向量确定为用于对比学习的锚向量;将不同的第一样本地形图像的多个第一特征向量进行聚类,得到多个第一聚类中心;将多个第一聚类中心中与第二特征向量之间的相似值最大的特征向量,确定为多个第一特征向量中的正样本向量;将第一其余特征向量确定为多个第一特征向量中的负样本向量,其中,第一其余特征向量指多个第一特征向量中除与第二特征向量之间的相似值最大的特征向量之外的特征向量;基于第二特征向量和多个第一特征向量中的正样本向量,生成第一子函数;基于第二特征向量和多个第一特征向量中的负样本向量,生成第二子函数;基于第一子函数和第二子函数,生成第一群组损失函数;基于第一群组损失函数,训练第一图像编码器和第二图像编码器;将第二图像编码器确定为最终训练得到的图像编码器。[0352]同理,地形图像的图像编码器还可采用其他与上述样本组织图像的图像编码器类[0353]图像编码器的使用阶段包括:[0354]获取地貌图像,以及将地貌图像裁剪为多张地形图像;通过图像编码器,生成多张地形图像的多个图像特征向量;通过对多个图像特征向量进行聚类,从多张地形图像中确定出多张关键图像;基于多张关键图像的图像特征向量,从

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论