CN114283310B 图像识别模型的获取方法、图像识别方法、装置及介质（腾讯科技（深圳）有限公司）

上传人：a*** IP属地：重庆上传时间：2025-09-03 格式：DOCX 页数：57 大小：442.33KB 积分：10.8 举报 版权申诉

CN114283310B 图像识别模型的获取方法、图像识别方法、装置及介质（腾讯科技（深圳）有限公司）_第2页

CN114283310B 图像识别模型的获取方法、图像识别方法、装置及介质（腾讯科技（深圳）有限公司）_第3页

CN114283310B 图像识别模型的获取方法、图像识别方法、装置及介质（腾讯科技（深圳）有限公司）_第4页

CN114283310B 图像识别模型的获取方法、图像识别方法、装置及介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩52页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利地址518057广东省深圳市南山区高新区(72)发明人杨善明苑鹏程顾晓光刘泽宇有限责任公司11138专利代理师张所明GO6V10/774(2022.0图像识别模型的获取方法、图像识别方法、装置及介质得到聚类结果。基于聚类结果训练得到第二模型，第二模型用于识别输入的图像所属的类别。第二模型能够学习到属于相同类别的各个第二获取第一样本图像和第二样本图像，第一样本图像为具有类别标获取第一样本图像和第二样本图像，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像基于第一样本图像训练得到第一模型，通过第一模型提取第二样本图像的特征向量，对特征向量进行聚类，得到聚类结果基于聚类结果训练得到第二模型，第二模型用于识别输入的图像所属的类别21.一种图像识别模型的获取方法，其特征在于，所获取第一样本图像和第二样本图像，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；获取所述第一样本图像和所述第二样本图像中的各个样本图像对应的图像集，任一样本图像对应的图像集包括基于所述任一样本图像获取的全局图像和局部图像；对于任一样本图像，将所述任一样本图像对应的图像集中包括的全局图像输入第四模型，得到第一输出结果，将所述任一样本图像对应的图像集中包括的全局图像和局部图像输入第五模型，得到第二输出结果，所述第一输出结果和所述第二输出结果中的任一输出结果包括每个所输入的图像对应的至少两个子结果，每个所输入的图像对应的子结果指示对应的图像属于一种类别的概率；基于所述第一输出结果中各个全局图像对应的子结果和所述第二输出结果中各个局部图像对应的子结果，确定交叉熵损失；基于所述交叉熵损失更新所述第五模型，得到更新后的第五模型，基于所述更新后的第五模型获取第三模型；基于所述第一样本图像对所述第三模型进行微调，得到第一模型；通过所述第一模型提取所述第二样本图像的特征向量，对所述特征向量进行聚类，得到聚类结果；基于所述聚类结果对所述第三模型进行微调，得到微调后的第三模型，基于所述微调后的第三模型得到第二模型，所述第二模型用于识别输入的图像所属的类别。2.根据权利要求1所述的方法，其特征在于，所述基于所述微调后的第三模型得到第二将所述第二样本图像输入所述第一模型，得到所述第一模型针对所述第二样本图像生成的类别标签，任一第二样本图像对应一个目标子结果，所述目标子结果用于指示所述任一第二样本图像属于所述类别标签对应的类别的概率；基于所述目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列；基于所述各个类别标签对应的类别的样本图像序列训练所述微调后的第三模型，得到所述第二模型。3.根据权利要求2所述的方法，其特征在于，所述基于所述目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列，包括：在所述目标子结果中，筛选出所指示的概率不小于概率阈值的目标子结果；基于筛选出的目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。4.根据权利要求2或3所述的方法，其特征在于，所述基于所述各个类别标签对应的类别的样本图像序列训练所述微调后的第三模型，得到所述第二模型，包括：对于任一类别标签对应的类别，从所述任一类别标签对应的类别的样本图像序列中获取所述任一类别标签对应的类别的至少两个样本图像子集，不同的样本图像子集中包括的第二样本图像的数量不同；对于任一类别标签对应的类别，按照第二样本图像的数量渐变的顺序，依次基于所述3任一类别标签对应的类别的各个样本图像子集训练所述微调后的第三模型，得到所述第二模型。5.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述更新后的第五模型获响应于处理资源满足条件，基于所述更新后的第五模型更新所述第四模型，得到所述第三模型。6.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述更新后的第五模型获响应于处理资源不满足条件，将所述更新后的第五模型作为所述第三模型。获取需要识别的图像，将所述图像分别输入至少两个图像识别模型，得到所述至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，所述任一子结果用于指示所述图像属于所对应的类别的概率，所述任一图像识别模型基于微调后的第三模型得到，所述微调后的第三模型基于聚类结果对第三模型进行微调得到，所述聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，所述初始模型基于第一样本图像对所述第三模型进行微调得到，所述第三模型基于更新后的第五模型获取，所述更新后的第五模型基于交叉熵损失更新第五模型得到，所述交叉熵损失基于第一输出结果中各个全局图像对应的子结果和第二输出结果中各个局部图像对应的子结果确定，所述第一输出结果通过将任一样本图像对应的图像集中包括的全局图像输入第四模型得到，所述第二输出结果通过将所述任一样本图像对应的图像集中包括的全局图像和局部图像输入所述第五模型得到，所述第一输出结果和所述第二输出结果中的任一输出结果包括每个所输入的图像对应的至少两个子结果，每个所输入的图像对应的子结果指示对应的图像属于一种类别的概率，所述任一样本图像对应的图像集基于所述第一样本图像和所述第二样本图像获取，所述任一样本图像对应的图像集包括基于所述任一样本图像获取的全局图像和局部图像，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值；将所指示的概率最大的加权求和值对应的类别识别为所述图像所属的类别。8.根据权利要求7所述的方法，其特征在于，所述对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和之前，所述方法还包括：确定各个图像识别模型的准确度数值，任一图像识别模型的准确度数值用于指示所述任一图像识别模型的识别准确程度；计算所述各个图像识别模型的准确度数值之和；对于任一图像识别模型，计算所述任一图像识别模型的准确度数值与所述各个图像识别模型的准确度数值之和的比值，将所述比值确定为所述任一图像识别模型输出的至少两个子结果的权重。9.根据权利要求7所述的方法，其特征在于，所述得到所述至少两个图像识别模型输出4对于任一图像识别模型输出的至少两个子结果，确定所述至少两个子结果中的各个子结果对应的扩大倍数，对于任一子结果，所述任一子结果所指示的概率越大，所述任一子结果对应的扩大倍数越大；按照所述扩大倍数对所述各个子结果进行更新，得到更新后的子结果；所述对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少对由不同图像识别模型输出且对应同一个类别的更新后的子结果进行加权求和，得到所述至少两个加权求和值。10.一种图像识别模型的获取装置，其特获取模块，用于获取第一样本图像和第二样本图像，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；训练模块，用于获取所述第一样本图像和所述第二样本图像中的各个样本图像对应的图像集，任一样本图像对应的图像集包括基于所述任一样本图像获取的全局图像和局部图像；对于任一样本图像，将所述任一样本图像对应的图像集中包括的全局图像输入第四模型，得到第一输出结果，将所述任一样本图像对应的图像集中包括的全局图像和局部图像输入第五模型，得到第二输出结果，所述第一输出结果和所述第二输出结果中的任一输出结果包括每个所输入的图像对应的至少两个子结果，每个所输入的图像对应的子结果指示对应的图像属于一种类别的概率；基于所述第一输出结果中各个全局图像对应的子结果和所述第二输出结果中各个局部图像对应的子结果，确定交叉熵损失；基于所述交叉熵损失更新所述第五模型，得到更新后的第五模型，基于所述更新后的第五模型获取第三模型；基于所述第一样本图像对所述第三模型进行微调，得到第一模型；聚类模块，用于通过所述第一模型提取所述第二样本图像的特征向量，对所述特征向所述训练模块，还用于基于所述聚类结果对所述第三模型进行微调，得到微调后的第三模型，基于所述微调后的第三模型得到第二模型，所述第二模型用于识别输入的图像所属的类别。11.根据权利要求10所述的装置，其特征在于，所述训练模块，用于将所述第二样本图像输入所述第一模型，得到所述第一模型针对所述第二样本图像生成的类别标签，任一第二样本图像对应一个目标子结果，所述目标子结果用于指示所述任一第二样本图像属于所述类别标签对应的类别的概率；基于所述目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列；基于所述各个类别标签对应的类别的样本图像序列训练所述微调后的第三模型，得到所述第二模型。12.根据权利要求11所述的装置，其特征在于，所述训练模块，用于在所述目标子结果中，筛选出所指示的概率不小于概率阈值的目标子结果；基于筛选出的目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。13.根据权利要求11或12所述的装置，其特征在于，所述训练模块，用于对于任一类别标签对应的类别，从所述任一类别标签对应的类别的样本图像序列中获取所述任一类别标签对应的类别的至少两个样本图像子集，不同的样本图像子集中包括的第二样本图像的数量不同；对于任一类别标签对应的类别，按照第二样本图像的数量渐变的顺序，依次基于所5述任一类别标签对应的类别的各个样本图像子集训练所述微调后的第三模型，得到所述第二模型。14.根据权利要求10-12任一所述的装置，其特征在于，所述训练模块，用于响应于处理资源满足条件，基于所述更新后的第五模型更新所述第四模型，得到所述第三模型。15.根据权利要求10-12任一所述的装置，其特征在于，所述训练模块，用于响应于处理资源不满足条件，将所述更新后的第五模型作为所述第三模型。获取模块，用于获取需要识别的图像，将所述图像分别输入至少两个图像识别模型，得到所述至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，所述任一子结果用于指示所述图像属于所对应的类别的概率，所述任一图像识别模型基于微调后的第三模型得到，所述微调后的第三模型基于聚类结果对第三模型进行微调得到，所述聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，所述初始模型基于第一样本图像对所述第三模型进行微调得到，所述第三模型基于更新后的第五模型获取，所述更新后的第五模型基于交叉熵损失更新第五模型得到，所述交叉熵损失基于第一输出结果中各个全局图像对应的子结果和第二输出结果中各个局部图像对应的子结果确定，所述第一输出结果通过将任一样本图像对应的图像集中包括的全局图像输入第四模型得到，所述第二输出结果通过将所述任一样本图像对应的图像集中包括的全局图像和局部图像输入所述第五模型得到，所述第一输出结果和所述第二输出结果中的任一输出结果包括每个所输入的图像对应的至少两个子结果，每个所输入的图像对应的子结果指示对应的图像属于一种类别的概率，所述任一样本图像对应的图像集基于所述第一样本图像和所述第二样本图像获取，所述任一样本图像对应的图像集包括基于所述任一样本图像获取的全局图像和局部图像，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；加权求和模块，用于对由不同图像识别模型输出且对应同一个类别的子结果进行加权识别模块，用于将所指示的概率最大的加权求和值对应的类别识别为所述图像所属的类别。17.根据权利要求16所述的装置，其特征在于，所述加权求和模块，还用于确定各个图像识别模型的准确度数值，任一图像识别模型的准确度数值用于指示所述任一图像识别模型的识别准确程度；计算所述各个图像识别模型的准确度数值之和；对于任一图像识别模型，计算所述任一图像识别模型的准确度数值与所述各个图像识别模型的准确度数值之和的比值，将所述比值确定为所述任一图像识别模型输出的至少两个子结果的权重。18.根据权利要求16所述的装置，其特征在于，所述装置还包括：更新模块，用于对于任一图像识别模型输出的至少两个子结果，确定所述至少两个子结果中的各个子结果对应的扩大倍数，对于任一子结果，所述任一子结果所指示的概率越大，所述任一子结果对应的扩大倍数越大；按照所述扩大倍数对所述各个子结果进行更新，得到更新后的子结果；所述加权求和模块，用于对由不同图像识别模型输出且对应同一个类别的更新后的子结果进行加权求和，得到所述至少两个加权求和值。619.一种电子设备，其特征在于，所述电子设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以使所述电子设备实现权利要求1-6任一所述的图像识别模型的获取方法或权利要求7-9任一所述的图像识别方20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以使计算机实现权利要求1-6任一所述的图像识别模型的获取方法或权利要求7-9任一所述的图像识别方法。7技术领域[0001]本申请涉及人工智能技术领域，特别涉及一种图像识别模型的获取方法、图像识背景技术[0002]随着人工智能技术的发展，数据集中的样本图像数量也越来越多。在数据集中，相比于具有类别标签的样本图像而言，不具有类别标签的样本图像数量较多。其中，类别标签用于指示样本图像记录的内容所属的类别。如何充分利用不具有类别标签的样本图像来获取图像识别模型，成为亟待解决的问题。发明内容[0003]本申请实施例提供了一种图像识别模型的获取方法、图像识别方法、装置及介质，以充分利用不具有类别标签的样本图像获取图像识别模型，并使得图像识别模型具有较高[0005]获取第一样本图像和第二样本图像，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；[0006]基于所述第一样本图像训练得到第一模型，通过所述第一模型提取所述第二样本图像的特征向量，对所述特征向量进行聚类，得[0007]基于所述聚类结果训练得到第二模型，所述第二模型用于识别输入的图像所属的[0009]获取需要识别的图像，将所述图像分别输入至少两个图像识别模型，得到所述至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，所述任一子结果用于指示所述图像属于所对应的类别的概率，所述任一图像识别模型基于聚类结果训练得到，所述聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，所述初始模型基于第一样本图像训练得到，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；[0010]对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值；[0011]将所指示的概率最大的加权求和值对应的类别识别为所述图像所属的类别。[0013]获取模块，用于获取第一样本图像和第二样本图像，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；[0014]训练模块，用于基于所述第一样本图像训练得到第一模型；[0015]聚类模块，用于通过所述第一模型提取所述第二样本图像的特征向量，对所述特8[0016]所述训练模块，还用于基于所述聚类结果训练得到第二模型，所述第二模型用于识别输入的图像所属的类别。[0017]在示例性实施例中，所述训练模块，用于获取已训练的第三模型，基于所述第一样本图像对所述第三模型进行微调，得到所述第一模型；基于所述聚类结果对所述第三模型进行微调，得到微调后的第三模型，基于所述微调后的第三模型得到所述第二模型。[0018]在示例性实施例中，所述训练模块，用于将所述第二样本图像输入所述第一模型，得到所述第一模型针对所述第二样本图像生成的类别标签，任一第二样本图像对应一个目标子结果，所述目标子结果用于指示所述任一第二样本图像属于所述类别标签对应的类别的概率；基于所述目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列；基于所述各个类别标签对应的类别的样本图像序列训练所述微调后的第三模型，得到所述第二模型。[0019]在示例性实施例中，所述训练模块，用于在所述目标子结果中，筛选出所指示的概率不小于概率阈值的目标子结果；基于筛选出的目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。[0020]在示例性实施例中，所述训练模块，用于对于任一类别标签对应的类别，从所述任一类别标签对应的类别的样本图像序列中获取所述任一类别标签对应的类别的至少两个样本图像子集，不同的样本图像子集中包括的第二样本图像的数量不同；对于任一类别标签对应的类别，按照第二样本图像的数量渐变的顺序，依次基于所述任一类别标签对应的类别的各个样本图像子集训练所述微调后的第三模型，得到所述第二模型。[0021]在示例性实施例中，所述训练模块，用于获取所述第一样本图像和所述第二样本图像中的各个样本图像对应的图像集，任一样本图像对应的图像集包括基于所述任一样本图像获取的全局图像和局部图像；对于任一样本图像，将所述任一样本图像对应的图像集中包括的全局图像输入第四模型，得到第一输出结果，将所述任一样本图像对应的图像集中包括的全局图像和局部图像输入第五模型，得到第二输出结果，确定所述第一输出结果与所述第二输出结果之间的交叉熵损失；基于所述交叉熵损失更新所述第五模型，得到更新后的第五模型，基于所述更新后的第五模型获取所述第三模型。[0022]在示例性实施例中，所述训练模块，用于响应于处理资源满足条件，基于所述更新后的第五模型更新所述第四模型，得到所述第三模型。[0023]在示例性实施例中，所述训练模块，用于响应于处理资源不满足条件，将所述更新后的第五模型作为所述第三模型。[0025]获取模块，用于获取需要识别的图像，将所述图像分别输入至少两个图像识别模型，得到所述至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，所述任一子结果用于指示所述图像属于所对应的类别的概率，所述任一图像识别模型基于聚类结果训练得到，所述聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，所述初始模型基于第一样本图像训练得到，所述第一样本图像为具有类别标签的图像，所述第二样本图像为不具有类别标签的图像；[0026]加权求和模块，用于对由不同图像识别模型输出且对应同一个类别的子结果进行9加权求和，得到至少两个加权求和值；[0027]识别模块，用于将所指示的概率最大的加权求和值对应的类别识别为所述图像所属的类别。[0028]在示例性实施例中，所述加权求和模块，还用于确定各个图像识别模型的准确度数值，任一图像识别模型的准确度数值用于指示所述任一图像识别模型的识别准确程度；计算所述各个图像识别模型的准确度数值之和；对于任一图像识别模型，计算所述任一图像识别模型的准确度数值与所述各个图像识别模型的准确度数值之和的比值，将所述比值确定为所述任一图像识别模型输出的至少两个子结果的权重。[0029]在示例性地实施例中，所述装置还包括：更新模块，用于对于任一图像识别模型输出的至少两个子结果，确定所述至少两个子结果中的各个子结果对应的扩大倍数，对于任一子结果，所述任一子结果所指示的概率越大，所述任一子结果对应的扩大倍数越大；按照所述扩大倍数对所述各个子结果进行更新，得到更新后的子结果；[0030]所述加权求和模块，用于对由不同图像识别模型输出且对应同一个类别的更新后的子结果进行加权求和，得到所述至少两个加权求和值。[0031]一方面，提供了一种电子设备，所述电子设备包括存储器及处理器；所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以使电子设备实现本申请的任一种示例性实施例所提供的图像识别模型的获取方法或者图像识别方法。[0032]一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以使计算机实现本申请的任一种示例性实施例所提供的图像识别模型的获取方法或者图像识别方法。[0033]另一方面，提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品包括：计算机指令，所述计算机指令被计算机执行时，使得所述计算机实现本申请的任一种示例性实施例所提供的图像识别模型的获取方法或者图像识别方法。[0034]本申请实施例所提供的技术方案带来的有益效果至少包括：[0035]本实施例使用具有类别标签的第一样本图像训练得到第一模型，通过第一模型对不具有类别标签的第二样本图像进行特征提取，基于所提取到的特征向量进行聚类，从而得到聚类结果。之后，基于聚类结果训练得到第二模型。因此，不仅充分利用了不具有类别标签的第二样本图像，使得第二模型具备较强的泛化能力，而且该第二模型能够学习到属于相同类别的各个第二样本图像的共有特性，从而使得第二模型具有较强的表征能力，进而提高了第二模型的识别准确率。并且，聚类过程还有利于缩短训练时长，节约训练所需的附图说明[0036]为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。[0037]图1是本申请实施例提供的实施环境的示意图；[0038]图2是本申请实施例提供的图像识别模型的获取方法的流程图；[0039]图3是本申请实施例提供的聚类自监督训练过程的示意图；[0040]图4是本申请实施例提供的自监督训练过程的示意图；[0041]图5是本申请实施例提供的伪标签训练过程的示意图；[0042]图6是本申请实施例提供的图像识别方法的流程图；[0043]图7是本申请实施例提供的模型融合的示意图；[0044]图8是本申请实施例提供的图像识别的流程示意图；[0045]图9是本申请实施例提供的图像识别模型的获取装置的结构示意图；[0046]图10是本申请实施例提供的图像识别装置的结构示意图；[0047]图11是本申请实施例提供的电子设备的结构示意图。具体实施方式[0048]为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。[0049]本申请实施例提供了一种图像识别模型的获取方法和一种图像识别方法，上述方法可应用于如图1所示的实施环境中。图1中，包括至少一个电子设备11和服务器12,电子设备11可与服务器12进行通信连接，以从服务器12上下载需要使用的图像。音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如PC(Personal[0051]服务器12可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。[0052]本领域技术人员应能理解上述电子设备11和服务器12仅为举例，其他现有的或今后可能出现的电子设备或服务器如可适用于本申请，也应包含在本申请保护范围以内，并在此以引用方式包含于此。[0053]基于上述图1所示的实施环境，参见图2,本申请实施例提供了一种图像识别模型的获取方法，该方法可应用于图1所示的电子设备中。如图2所示，该方法包括如下的步骤。[0054]201,获取第一样本图像和第二样本图像，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像。[0055]其中，一个图像的类别标签用于指示该图像所属的类别，图像所属的类别也即是图像记录的内容的类别，类别标签与类别一一对应。示例性地，本实施例从数据集中获取第一样本图像和第二样本图像，本实施例不对数据集加以限定，数据集包括但不限于FGVC(Fine-GrainedVisualCategorization,细粒度的视觉分类)8中的public(公开)数据集对一部分图像生成类别标签，用于作为第一样本图像。另一部分图像则不生成类别标签，用于作为第二样本图像。示例性地，生成类别标签的方式包括：通过人工标注的方式生成类别标签，或者，通过已训练的图像分类模型输出类别标签，本实施例不对类别标签的生成方式加以限定。[0056]在本实施例中，第一样本图像和第二样本图像用于模型训练过程。示例性地，第一11样本图像和第二样本图像的数量均为多个，以便于保证训练得到的模型的准确率。[0057]202,基于第一样本图像训练得到第一模型，通过第一模型提取第二样本图像的特[0058]其中，基于第一样本图像训练得到的第一模型具有特征提取的能力，因而通过第一模型能够提取到第二样本图像的特征向量。之后，对特征向量进行聚类，得到聚类结果。示例性地，聚类方式包括但不限于K-means(K-meansClusteringAlgorithm,K均值聚类算法),本实施例不对聚类方式加以限定。该聚类结果包括至少一个向量组，一个向量组中包括至少一个第二样本图像的特征向量。基于至少一个向量组能够得到至少一个样本图像组，一个样本图像组中包括一个向量组中的各个特征向量对应的第二样本图像。一个样本图像组中包括的各个第二样本图像属于相同的类别。[0059]参见公式(1),公式(1)表示特征提取过程：[0061]在公式(1)中，X表示第二样本图像的集合，由于x∈X,因而公式(1)中的x表示第二样本图像，z表示通过第一模型M(·)提取的第二样本图像的特征向量。[0062]公式(2)表示对特征向量进行聚类的过程：[0064]在公式(2)中，y表示聚类结果。[0065]示例性地，基于第一样本图像训练得到第一模型，包括：获取第一初始模型，基于第一样本图像对第一初始模型进行训练，得到第一模型。在训练过程中，将第一样本图像输入第一初始模型，得到第一初始模型的输出结果，该输出结果基于第一初始模型包括的初始模型参数计算得到。基于输出结果计算损失函数，最小化该损失函数并进行反向梯度传播，从而对第一初始模型包括的初始模型参数进行更新。之后，循环上述将第一样本图像输入第一初始模型的过程和后续的计算过程，直至满足终止条件之后停止训练过程，从而得到第一模型。示例性地，满足终止条件包括：基于输出结果计算出的损失函数小于第一阈值，或者，相邻两次计算出的损失函数之间的差值小于第二阈值。本实施例不对第一阈值和第二阈值加以限定，第一阈值和第二阈值基于经验设置即可。[0066]本实施例不对第一初始模型的种类加以限定，第一初始模型包括但不限于：Resnet(ResidualNetwork,残差网络)模型、ViT(VisionTransformer,视觉转换器)和Swin(ShiftedWindows,移动窗口)-Transformer(转换器)等等。ResnetSwin-Transformerbase、Swin-Transformer[0067]或者，在示例性实施例中，参见图3,基于第一样本图像训练得到第一模型，包括：获取已训练的第三模型，基于第一样本图像对第三模型进行微调(FineTune),得到第一模型。其中，基于第一样本图像对第三模型进行微调得到第一模型的过程，与上文说明中基于第一初始模型训练得到第一模型的过程相同，此处不再进行赘述。需要说明的是，相比于基于第一初始模型训练得到第一模型的过程，基于第一样本图像对第三模型进行微调得到第一模型的过程所需的循环次数较少，不仅节约了处理资源，还缩短了得到第一模型所需的时间，提高了得到第一模型的效率。在本实施例中，已训练的第三模型例如为上述举例中的Resnet模型、ViT和Swin-Transformer,本实施例不对第三模型的种类加以限定。[0068]示例性地，本实施例通过自监督的方式训练得到第三模型。自监督的方式包括但觉表示对比学习的简单框架)、MoCo(momentumcontrastforunsupervisedvisiualrepresentationlearning,基于动量比对的非监督式视觉表征学习)等等。在示例性实施例中，获取已训练的第三模型，包括如下的步骤2021-2023。[0069]2021,获取第一样本图像和第二样本图像中的各个样本图像对应的图像集，任一样本图像对应的图像集包括基于任一样本图像获取的全局图像和局部图像。[0070]其中，将第一样本图像的集合表示为X₁,将第二样本图像的集合表示为X,则第一样本图像和第二样本图像中的任一样本图像x表示为x∈XUX₁示例性地，本实施例在获取第一样本图像和第二样本图像之后，获取各个样本图像对应的图像集，并将样本图像和图像集对应存储。在需要获取已训练的第三模型时，获取存储的样本图像对应的图像集。或者，本实施例在需要获取已训练的第三模型时再获取样本图像对应的图像集。本实施例不对样本图像对应的图像集的获取时机加以限定。[0071]接下来，对基于样本图像获取全局图像和局部图像的方式分别进行说明。[0072]基于样本图像获取全局图像的方式：示例性地，响应于一个样本图像不满足要求，则从该样本图像中截取得到全局图像。或者，响应于一个样本图像满足要求，则不进行截取，而是基于该样本图像直接得到全局图像。其中，需要满足的要求根据经验或者实际需要进行设置，本实施例不对需要满足的要求加以限定。例如，需要满足的要求包括形状和分辨率中的至少一种，形状例如为正方形。以需要满足的要求包括形状为例，响应于该样本图像不为正方形，则从该样本图像中截取得到正方形的全局图像。响应于一个样本图像为正方形，则基于该样本图像直接得到全局图像。[0073]对于一个样本图像而言，基于该样本图像获取的全局图像的数量为至少一个，本实施例不对全局图像的数量加以限定。在需要基于一个样本图像获取两个以上的全局图像的情况下，响应于该样本图像不满足要求，则可在该样本图像中的不同位置进行截取，从而得到两个以上的全局图像。或者，响应于该样本图像满足要求，则采用不同方式对该图像进行处理，从而得到两个以上的全局图像。本实施例不对处理方式加以限定，处理方式例如为[0074]基于样本图像获取局部图像的方式：从样本图像中截取得到局部图像，局部图像的数量为至少一个，且局部图像的分辨率小于全局图像的分辨率。能够理解的是，全局图像记录的内容可能包括局部图像记录的全部内容，也可能包括局部图像记录的全部内容中的一部分，还可能不包括局部图像记录的内容，本实施例对此不加以限定。[0075]2022,参见图4,对于任一样本图像，将任一样本图像对应的图像集中包括的全局图像输入第四模型，得到第一输出结果。将任一样本图像对应的图像集中包括的全局图像和局部图像输入第五模型，得到第二输出结果，确定第一输出结果与第二输出结果之间的交叉熵损失。[0076]示例性地，第四模型和第五模型例如为上述举例中的Resnet模型、ViT和Swin-Transformer,本实施例不对第四模型和第五模型的种类加以限定。在一些实施方式中，第四模型和第五模型的种类相同。例如，第四模型和第五模型均为Resnet101。[0077]在本实施例中，第一输出结果和第二输出结果中的任一输出结果包括所输入的图像对应的子结果，一个图像对应至少两个子结果，一个图像对应的子结果数量与模型所能识别的类别数量相同。一个子结果与一个类别相对应，一个子结果用于指示该图像属于所对应的类别的概率。例如，第四模型能够识别N个类别。则将一个全局图像输入第四模型之后，第四模型输出该全局图像对应的N个子结果，第1个子结果用于指示全局图像属于类别1的概率，第2个子结果用于指示全局图像属于类别2的概率，以此类推，第N个子结果用于指示全局图像属于类别N的概率。其中，N为不小于2的正整数。[0078]示例性地，子结果为置信度数值(logit),置信度数值的取值范围为负无穷至正无穷。或者，子结果为对置信度数值进行归一化得到的概率值，概率值的取值范围为0至1。在一些实施方式中，通过softmax函数对置信度数值进行归一化，本实施例不对归一化的方式加以限定。无论子结果为置信度数值还是概率值，子结果均能指示图像属于所对应的类别[0079]在得到第一输出结果和第二输出结果之后，确定第一输出结果和第二输出结果之间的交叉熵损失。由于本实施例将全局图像输入第四模型，因而第四模型输出的第一输出结果中包括各个全局图像对应的子结果。由于本实施例将局部图像和全局图像均输入第五模型，因而第五模型输出的第二输出结果中既包括各个全局图像对应的子结果，又包括各个局部图像对应的子结果。示例性地，本实施例基于第一输出结果中各个全局图像对应的子结果和第二输出结果中各个局部图像对应的子结果确定交叉熵损失。[0080]需要说明的是，对于一个样本图像而言，该样本图像包括的图像集中包括至少一个全局图像和至少一个局部图像。基于一个全局图像对应的子结果和一个局部图像对应的子结果能够计算出一个交叉熵损失。相应地，在一个样本图像对应的图像集中，响应于全局图像和局部图像中的任一种图像的数量为至少两个，则能够计算得到至少两个交叉熵损[0081]2023,基于交叉熵损失更新第五模型，得到更新后的第五模型，基于更新后的第五模型获取第三模型。[0082]根据2022中的说明可知，交叉熵损失的数量可能是一个，也可能是至少两个。示例性地，基于交叉熵损失更新第五模型，包括：计算各个交叉熵损失之和，最小化交叉熵损失之和并进行梯度下降，从而实现对第五模型的更新，得到更新后的第五模型。示例性地，进行梯度下降的方式包括但不限于SGD(StochasticGradientDescent,随机梯度下降),本实施例不对进行梯度下降的方式加以限定。[0083]其中，交叉熵损失之和表示为如下的公式(3):为第一输出结果中一个全局图像对应的子结果，P₂(x′)为第二输出结果中一个局部图像对应的子结果，H(·,·)为基于一个全局图像对应的子结果和一个局部图像对应的子结果计算出的一个交叉熵损失。[0086]在得到更新后的第五模型之后，本实施例进一步基于更新后的第五模型获取第三模型。在示例性实施例中，基于更新后的第五模型获取第三模型，包括如下的两种方式。[0087]方式一：响应于处理资源满足条件，基于更新后的第五模型更新第四模型，得到第三模型。[0088]其中，由于第四模型的模型参数量大于第五模型的模型参数量，因而使用第四模型所需的处理资源也多于使用第五模型所需的处理资源。因此，本实施例在处理资源满足条件的情况下，也就是处理资源足够多的情况下，再使用第四模型。其中，使用第四模型也即是基于更新后的第五模型更新第四模型，从而得到第三模型。[0089]示例性地，基于更新后的第五模型更新第四模型，得到第三模型，包括：基于更新后的第五模型，按照如下的公式(4)更新第四模型，得到第三模型：[0091]在公式(4)中，1为根据经验设置的超参数，θ为更新后的第五模型中的模型参数，θ1为第四模型中的模型参数，02为第三模型中的模型参数。[0092]方式二：响应于处理资源不满足条件，将更新后的第五模型作为第三模型。[0093]响应于处理资源不满足条件，则说明处理资源不够多，因而不适用于使用第四模[0094]203,基于聚类结果训练得到第二模型，第二模型用于识别输入的图像所属的类[0095]根据202中的说明可知，聚类结果包括至少一个向量组，基于至少一个向量组能够得到至少一个样本图像组，一个样本图像组中包括的各个第二样本图像所记录的内容属于相同的类别。示例性地，基于聚类结果训练得到第二模型，包括：基于聚类结果获得至少一个样本图像组，基于各个样本图像组分别对第二初始模型进行训练，得到第二模型。对第二初始模型进行训练的过程参见202中对第一初始模型进行训练的过程，此处不再进行赘述。通过此种训练方式，能够使得第二模型学习到属于相同类别的各个第二样本图像的共有特性，提高了识别图像所属的类别的准确率。其中，第二初始模型包括但不限于上述举例中的[0096]根据202中的说明可知，在一些实施方式中，通过对第三模型的微调得到第一模三模型进行微调，得到微调后的第三模型，基于微调后的第三模型得到第二模型。其中，获取第三模型的方式参见上文2021-2023中的说明，基于聚类结果对第三模型进行微调的过程，与上文说明中基于第二初始模型训练得到第二模型的过程相同，此处不再进行赘述。[0097]示例性地，基于微调后的第三模型得到第二模型，包括：将微调后的第三模型作为第二模型。或者，参见图3,本实施例使用第一样本图像对微调后的第三模型再次进行微调，得到二次微调后的第三模型。响应于二次微调后的第三模型满足条件，则将该二次微调后的第三模型作为第二模型，需要满足的条件例如为识别准确率满足参考阈值，本实施例不对参考阈值加以限定。或者，响应于二次微调后的第三模型不满足条件，则进行循环，循环过程包括：使用该二次微调后的第三模型对第二样本图像进行特征提取及聚类，得到新的聚类结果，再使用新的聚类结果和第一样本图像对二次微调后的第三模型进行微调，得到三次微调后的第三模型，根据该三次微调后的第三模型是否满足条件来确定是否需要再次进行循环。以此类推，直至得到满足条件的模型后结束循环过程，将该满足条件的模型作为第二模型。或者，本实施例进一步通过伪标签方式对微调后的第三模型进行训练，得到第二模型。在示例性实施例中，基于微调后的第三模型得到第二模型，包括如下的步骤2031-[0098]2031,参见图5,将第二样本图像输入第一模型，得到第一模型针对第二样本图像生成的类别标签。[0099]其中，将第二样本图像输入第一模型之后，第一模型能够输出第二样本图像对应的至少两个子结果。根据2022中的说明可知，一个子结果对应一个类别，一个子结果用于指示第二样本图像属于该子结果对应的类别的概率。本实施例在至少两个子结果中，将所指示的概率最大的子结果作为目标子结果，则一个第二样本图像对应一个目标子结果。相应地，目标子结果对应的类别即为第二样本图像所属的类别，类别标签即为目标子结果对应的类别。能够看出，一个第二样本图像的目标子结果用于指示该第二样本图像属于类别标签对应的类别的概率。[0100]例如，将一个第二样本图像输入第一模型之后，第一模型输出子结果1、子结果2和子结果3。子结果1指示该第二样本图像属于类别1的概率为0.9,子结果2指示该第二样本图像属于类别2的概率为0.5,子结果3指示该第二样本图像属于类别3的概率为0.1。因此，则将子结果1作为该第二样本图像对应的目标子结果，且将目标子结果(子结果1)对应的类别1作为该第二样本图像所属的类别，则第二样本图像的类别标签即为类别1。[0101]2032,基于目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。[0102]一个类别中包括至少一个第二样本图像，一个类别中包括的各个第二样本图像均具有相同的类别标签。由于一个第二样本图像对应一个目标子结果，因而对于一个类别而言，能够基于目标子结果对该类别包括的第二样本图像进行排序，得到该类别对应的样本图像序列。示例性地，在一个类别中，按照目标子结果所指示的概率从大到小的顺序，对该类别包括的第二样本图像进行排序，得到该类别对应的样本图像序列。例如，第二样本图像1、第二样本图像2和第二样本图像3的类别标签均为类别1,且第二样本图像1对应的目标子结果指示的概率为0.8,第二样本图像2对应的目标子结果指示的概率为0.7,第二样本图像3对应的目标子结果指示的概率为0.6,则按照第一样本图像1、第二样本图像2和第二样本图像3的顺序对3个第二样本图像进行排序，得到类别1对应的样本图像序列。能够理解的是，本实施例不对一个样本图像序列中包括的第二样本图像的数量加以限定。[0103]在示例性实施例中，基于目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列，包括：在目标子结果中，筛选出所指示的概率不小于概率阈值的目标子结果。基于筛选出的目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。[0104]其中，响应于一个目标子结果指示的概率小于概率阈值，则说明该目标子结果对应的第二样本图像属于该类别的概率较小。示例性地，本实施例不对概率阈值加以限定，概率阈值例如为0.2。因此，对于该类别来说，该目标子结果对应的第二样本图像属于噪声图像。如果后续使用此种噪声图像对微调后的第三模型进行训练，则可能会影响训练得到的第二模型的识别准确率。因此，本实施例对所指示的概率小于概率阈值的目标子结果进行删除。之后，基于筛选出的目标子结果对第二样本图像进行排序。基于筛选出的目标子结果对样本图像进行排序的方式可参见上文2032中的说明，此处不再进行赘述。另外，本实施例不对概率阈值加以限定。[0105]当然，上述删除所指示的概率小于概率阈值的目标子结果的过程仅为举例，不用于对本实施例造成限定。示例性地，本实施例也可以不删除所指示的概率小于概率阈值的目标子结果。相应地，后续用于对微调后的第三模型进行训练的第二样本图像中也包括噪声图像，微调后的第三模型执行带噪学习过程，从而得到第二模型。[0106]2033,基于各个类别标签对应的类别的样本图像序列训练微调后的第三模型，得到第二模型。[0107]示例性地，基于各个类别对应的样本图像序列训练微调后的第三模型，包括：对于一个类别，将该类别对应的样本图像序列中包括的第二样本图像依次输入微调后的第三模型，从而实现对微调后的第三模型的训练，得[0108]或者，在示例性实施例中，参见图5,对于任一类别标签对应的类别，从任一类别标签对应的类别的样本图像序列中获取任一类别标签对应的类别的至少两个样本图像子集，不同的样本图像子集中包括的第二样本图像的数量不同。对于任一类别标签对应的类别，按照第二样本图像的数量渐变的顺序，依次基于任一类别标签对应的类别的各个样本图像子集训练微调后的第三模型，得到第二模型。[0109]示例性地，响应于一个类别对应的样本图像序列中，各个第二样本图像对应的目标子结果所指示的概率依次减小，则一个样本图像子集中包括样本图像序列中前q个(top-q)第二样本图像，在不同的样本图像子集中，q的取值不同。以一个类别对应4个样本图像子集为例，则4个样本图像子集中q的取值分别为(40,60,80,100),代表4个样本图像子集中分别包括40、60、80和100个第二样本图像。能够理解的是，本实和一个样本图像子集中包括的第二样本图像的数量加以限定。[0110]在一些实施方式中，按照第二样本图像的数量渐变的顺序，依次基于任一类别对应的各个样本图像子集训练微调后的第三模型，得到第二模型，包括：按照所包括的第二样本图像的数量由小到大的顺序，依次通过各个样本图像子集训练微调后的第三模型，得到第二模型。也就是说，在各个样本图像子集中，首先通过包括最少第二样本图像的样本图像子集对微调后的第三模型进行训练，最后通过包括最多第二样本图像的样本图像子集对微调后的第三模型进行训练。以上述举例中的4个样本图像子集为例，则依次通过包括40、60、80和100个第二样本图像的样本图像子集对微调后的第三模型进行训练，从而得到第二模[0111]需要说明的是，在一个类别包括的第二样本图像的数量大于数量阈值的情况下，该一个类别对应至少两个样本图像子集。而在一个类别包括的第二样本图像的数量小于数量阈值的情况下，示例性地，该类别仅包括一个样本图像子集，该样本图像子集中包括该类别中的所有第二样本图像。[0112]综上所述，本实施例使用具有类别标签的第一样本图像训练得到第一模型，通过第一模型对不具有类别标签的第二样本图像进行特征提取，基于所提取到的特征向量进行具有类别标签的第二样本图像，使得第二模型具备较强的泛化能力，而且该第二模型能够学习到属于相同类别的各个第二样本图像的共有特性，从而使得第二模型具有较强的表征能力，进而提高了第二模型的识别准确率。并且，聚类过程还有利于缩短训练时长，节约训练所需的处理资源，提高了训练效率。[0113]本实施例训练得到的第二模型能够用于识别图像所属的类别，因而可用于完成涉及图像识别过程的任务，涉及图像识别过程的任务例如为优质视频的提取、低质视频的过滤等等。另外，本实施例训练得到的第二模型还能够与其他算法相结合，应用于各种算法的底层。例如，将本实施例训练得到的第二模型作为初始模型，使用其他算法对该初始模型进行微调，从而训练得到新的模型。能够看出，本实施例训练得到的第二模型适用于多种场[0114]基于上述图1所示的实施环境，参见图6,本申请实施例提供了还一种图像识别方[0115]601,获取需要识别的图像，将图像分别输入至少两个图像识别模型，得到至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，任一子结果用于指示图像属于所对应的类别的概率。[0116]其中，一个图像识别模型输出该图像对应的至少两个子结果，一个子结果对应一个类别，任一子结果用于指示图像属于所对应的类别的概率。对子结果的说明可参见上文2022,此处不再进行赘述。[0117]需要说明的是，一个图像识别模型基于聚类结果训练得到，聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，初始模型基于第一样本图像训练得到，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像。示例性地，初始模型为上述201-203中的第一模型，图像识别模型为上述201-203中的第二模型。示例性地，本实施例按照上述201-203说明中的方式训练得到至少两个图像识别模型，不同图像识别模型的种类不同。例如，本实施例共训练得到6个图像识别模型，6个图像识别模型的[0118]在示例性实施例中，参见图7,得到至少两个图像识别模型输出的子结果之后，方法还包括：对于任一图像识别模型输出的至少两个子结果，确定至少两个子结果中的各个子结果对应的扩大倍数，对于任一子结果，任一子结果所指示的概率越大，任一子结果对应的扩大倍数越大。按照扩大倍数对至少两个图像识别模型输出的子结果进行更新，得到更新后的子结果。通过对子结果进行更新，能够增大不同的子结果之间的差距，有利于增加后续的识别准确率。[0119]示例性地，对于一个图像识别模型输出的至少两个子结果，按照所指示的概率从大到小的顺序对各个子结果进行排序，选择序列中前参考数量个子结果，确定前参考数量个子结果中各个子结果对应的扩大倍数。示例性地，将参考数量记为K,对于前K个子结果中的第k个子结果(k∈K),该子结果对应的扩大倍数为(K+1-k)。相应地，本实施例按照如下的公式(5)对子结果进行更新，得到更新后的子结果：[0120]logit′i,k=(K+1-k)*[0121]在公式(5)中，logit;,为第i个模型中的第k个子结果，(K+1-k)为第i个模型中的第h个子结果对应的扩大倍数，logit′;,为第i个模型中的第k个更新后的子结果。0.5.其中，第1个子结果对应的扩大倍数为5,则更新后的第1个子结果为5*0.9=4.5.第2个子结果对应的扩大倍数为4,则更新后的第2个子结果为4*0.8=3.2。第3个子结果对应的扩大倍数为3,则更新后的第3个子结果为3*0.7=2.1.第4个子结果对应的扩大倍数为2,则更新后的第4个子结果为2*0.6=1.2。第5个子结果对应的扩大倍数为1,则更新后的第5个子[0123]602,参见图7,对由不同图像识别模型输出且对应同一个类别的子结果进行加权[0132]参见如下的表1,以图像识别模型的数量为6、参考数量为5(也即是选择各个图像图像识别模型1图像识别图像识别图像识别图像识别图像识别类别1类别2类别3类别4类别5[0135]其中，类别1对应的加权求和值按照如下的公式计算。对于其他类别对应的加权求[0136](a₁logit₁,1+a₂logit2,1+a₃logit₃,1+a₄logit4,1+a5logit5[0137]当然，对于601中对子结果进行更新的情况，示例性地，对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，包括：对由不同图像识别模型输出且对应同一个类别的更新后的子结果进行加权求和。即：将上述公式(7)中的logit,k替换为基于公式(6)计算得到的logit′;,k。其中，确定更新后的子结果的权重的方式参见上文说明，此处不再进行赘述。[0138]603,参见图7,将所指示的概率最大的加权求和值对应的类别识别为图像所属的[0139]在得到至少两个加权求和值后，将所指示的概率最大的加权求和值对应的类别识别为图像所述的类别。其中，由于加权求和值是基于对应同一个类别的子结果计算得到的，因而用于计算得到该加权求和值的各个子结果对应的类别即为该加权求和值对应的类别。例如，基于上述表1,响应于类别1、类别2、类别3、类别4和类别5对应概率依次减小，则将类别1作为601中需要识别的图像的类别。[0140]综上所述，本实施例通过不同的图像识别模型分别输出需要识别的图像的子结果。之后，对不同图像识别模型输出且对应同一类别的子结果进行加权求和，基于加权求和值所指示的概率来确定需要识别的图像所属的类别。本实施例相当于对至少两个图像识别模型进行了融合，提高了识别准确率。[0141]参见图8,图8示出了本申请实施例提供的一种示例性的图像识别的流程示意图。其中，本实施例在获取具有类别标签的第一样本图像和不具有类别标签的第二样本图像后，首先通过dino自监督过程(2021-2023)获取第三模型。之后，执行聚类自监督过程(201、202和203)。在聚类自监督过程中，基于第一样本图像对第三模型进行微调得到第一模型，通过第一模型提取第二样本图像的特征向量，对特征向量进行聚类得到聚类结果，基于聚类结果对第三模型进行微调，得到微调后的第三模型。接着，执行伪标签训练过程(2031-2033),其中，通过第一模型生成第二样本图像的类别标签，从而生成各个类别标签对应的类别的样本图像子集，基于样本图像子集对微调后的第三模型进行训练，得到第二模型。在一些实施方式中，通过上述dino自监督过程、聚类自监督过程和伪标签过程训练得到至少两个不同种类的第二模型，再执行模型融合过程(601-603),以便于对图像所属的类别进行[0142]示例性地，本实施例获取识别准确率为55.4%的Vit-small模型，通过dino自监督过程获取第三模型，第三模型的识别准确率为66.3%。之后，通过聚类自监督过程获取微调后的第三模型，该微调后的第三模型的识别准确率为67.8%。接着，通过伪标签过程获取第二模型，该第二模型的识别准确率提高至70.1%。最后，通过模型融合过程，进一步将识别准确率提高2%。[0143]以上对本申请实施例提供的方法实施例进行了说明。本实施例提供的方法实施例训练得到的图像识别模型在FGVC8的public数据集上对图像所属类别的识别准确率排名第二，在private数据集上对图像所属类别的识别准确率排名第三。示例性地，通过top-lerror(错误率)来指示图形识别模型的识别准确率，top-1error越小则识别准确率越高，各个模型的top-lerror排名如下的表2所示：排名(Rank)排名12本实施例2331445566[0146]本申请实施例提供了一种图像识别模型的获取装置，参见图9,该装置包括：[0147]获取模块901,用于获取第一样本图像和第二样本图像，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像；[0148]训练模块902,用于基于第一样本图像训练得到第一模型；[0149]聚类模块903,用于通过第一模型提取第二样本图像的特征向量，对特征向量进行[0150]训练模块902,还用于基于聚类结果训练得到第二模型，第二模型用于识别输入的图像所属的类别。[0151]在示例性实施例中，训练模块902,用于获取已训练的第三模型，基于第一样本图像对第三模型进行微调，得到第一模型；基于聚类结果对第三模型进行微调，得到微调后的第三模型，基于微调后的第三模型得到第二模型。[0152]在示例性实施例中，训练模块902,用于将第二样本图像输入第一模型，得到第一模型针对第二样本图像生成的类别标签，任一第二样本图像对应一个目标子结果，目标子结果用于指示任一第二样本图像属于类别标签对应的类别的概率；基于目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列；基于各个类别标签对应的类别的样本图像序列训练微调后的第三模型，得到第二模型。[0153]在示例性实施例中，训练模块902,用于在目标子结果中，筛选出所指示的概率不小于概率阈值的目标子结果；基于筛选出的目标子结果对具有相同类别标签的第二样本图像进行排序，得到各个类别标签对应的类别的样本图像序列。[0154]在示例性实施例中，训练模块902,用于对于任一类别标签对应的类别，从任一类别标签对应的类别的样本图像序列中获取任一类别标签对应的类别的至少两个样本图像子集，不同的样本图像子集中包括的第二样本图像的数量不同；对于任一类别标签对应的类别，按照第二样本图像的数量渐变的顺序，依次基于任一类别标签对应的类别的各个样本图像子集训练微调后的第三模型，得到第二模型。[0155]在示例性实施例中，训练模块902,用于获取第一样本图像和第二样本图像中的各个样本图像对应的图像集，任一样本图像对应的图像集包括基于任一样本图像获取的全局图像和局部图像；对于任一样本图像，将任一样本图像对应的图像集中包括的全局图像输入第四模型，得到第一输出结果，将任一样本图像对应的图像集中包括的全局图像和局部图像输入第五模型，得到第二输出结果，确定第一输出结果与第二输出结果之间的交叉熵损失；基于交叉熵损失更新第五模型，得到更新后的第五模型，基于更新后的第五模型获取第三模型。[0156]在示例性实施例中，训练模块902,用于响应于处理资源满足条件，基于更新后的第五模型更新第四模型，得到第三模型。[0157]在示例性实施例中，训练模块902,用于响应于处理资源不满足条件，将更新后的第五模型作为第三模型。[0158]综上所述，本实施例使用具有类别标签的第一样本图像训练得到第一模型，通过第一模型对不具有类别标签的第二样本图像进行特征提取，基于所提取到的特征向量进行具有类别标签的第二样本图像，使得第二模型具备较强的泛化能力，而且该第二模型能够学习到属于相同类别的各个第二样本图像的共有特性，从而使得第二模型具有较强的表征能力，进而提高了第二模型的识别准确率。并且，聚类过程还有利于缩短训练时长，节约训练所需的处理资源，提高了训练效率。[0159]本申请实施例还提供了一种图像识别装置，参见图10,所述装置包括：[0160]获取模块1001,用于获取需要识别的图像，将图像分别输入至少两个图像识别模型，得到至少两个图像识别模型输出的子结果，任一图像识别模型输出至少两个子结果，任一子结果对应一个类别，任一子结果用于指示图像属于所对应的类别的概率，任一图像识别模型基于聚类结果训练得到，聚类结果通过对初始模型提取的第二样本图像的特征向量进行聚类得到，初始模型基于第一样本图像训练得到，第一样本图像为具有类别标签的图像，第二样本图像为不具有类别标签的图像；[0161]加权求和模块1002,用于对由不同图像识别模型输出且对应同一个类别的子结果进行加权求和，得到至少两个加权求和值；[0162]识别模块1003,用于将所指示的概率最大的加权求和值对应的类别识别为图像所属的类别。[0163]在示例性实施例中，加权求和模块1002,还用于确定各个图像识别模型的准确度数值，任一图像识别模型的准确度数值用于指示任一图像识别模型的识别准确程度；计算各个图像识别模型的准确度数值之和；对于任一图像识别模型，计算任一图像识别模型的准确度数值与各个图像识别模型的准确度数值之和的比值，将比值确定为任一图像识别模型输出的至少两个子结果的权重。[0164]在示例性地实施例中，装置还包括：更新模块，用于对于任一图像识别模型输出的至少两个子结果，确定至少两个子结果中的各个子结果对应的扩大倍数，对于任一子结果，任一子结果所指示的概率越大，任一子结果对应的扩大倍数越大；按照扩大倍数对各个子[0165]加权求和模块1002,用于对由不同图像识别模型输出且对应同一个类别的更新后的子结果进行加权求和，得到至少两个加权求和值。[0166]综上所述，本实施例通过不同的图像识别模型分别输出需要识别的图像的子结果。之后，对不同图像识别模型输出且对应同一类别的子结果进行加权求和，基于加权求和值所指示的概率来确定需要识别的图像所属的类别。本实施例相当于对至少两个图像识别模型进行了融合，提高了识别准确率。[0167]需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。[0168]参见图11,其示出了本申请实施例提供的一种电子设备1100的结构示意图。该电子设备1100可以是便携式移动电子设备，比如：智能手机、平板电脑、MP3播放器(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1100还可能被称为用户设备、便携式电子设备、膝上型电子设备、台式电子设备等其他名称。[0170]处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(DigitalSignalProcessing,数字信号处理)、FPGA(Field—ProgrammableGateArray,现场可编程门阵列)、PLA(ProgrammableLogicArray,可编程逻辑阵列)所组成的群组中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功处理器),GPU用于负责显示屏1105所需要显示的内容的1101还可以包括AI(ArtificialIntelligence,人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。[0171]存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本申请中方法实施例提供的图像识别模型的获取方法或者图像识别方法。[0172]在一些实施例中，电子设备1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头组件1106、音频电路1107和电源1109所组成的群组中的至少一种。[0173]外围设备接口1103可被用于将I/0(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。[0174]射频电路1104用于接收和发射RF(RadioFrequency,射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它及5G)、无线局域网和/或Wi-Fi(WirelessFidelity,无线保真)频电路1104还可以包括NFC(NearFieldCommunication,近距离无线通信)有关的电路，本申请对此不加以限定。[0175]显示屏1105用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按

人人文库> 全部分类> 行业资料 > 各类标准

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114283310B 图像识别模型的获取方法、图像识别方法、装置及介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN114283310B 图像识别模型的获取方法、图像识别方法、装置及介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档