CN113536876B 一种图像识别方法和相关装置（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-05-16 格式：DOCX 页数：50 大小：1.10MB 积分：10.8 举报 版权申诉

CN113536876B 一种图像识别方法和相关装置（腾讯科技（深圳）有限公司）_第2页

CN113536876B 一种图像识别方法和相关装置（腾讯科技（深圳）有限公司）_第3页

CN113536876B 一种图像识别方法和相关装置（腾讯科技（深圳）有限公司）_第4页

CN113536876B 一种图像识别方法和相关装置（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本申请实施例公开了一种图像识别方法和度学习，利用特征提取模型对目标图像进行N+M2根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图像进层所输出特征图的尺寸小于尺寸阈值，所述N个下采样层中的第i个下采样层和第i+1个下根据所述下采样层分别确定出的特征图，确定不同尺寸的特征图对应的候选检测框，所述候选检测框用于标识所述目标图像中所述待识别对象的区域和非所述待识别对象的对所述目标下采样层的特征图进行基于至少三个分类的分类识别确定用于训练第一初始模型的训练样本，具有所述待识别对所述待识别对象的真实检测框；所述第一初始模型中的初始特征子模型包括顺序连接的N通过所述初始特征子模型的下采样层分别确定针对所述训练样本的特述第一初始模型所采用候选检测框的尺寸包括N+M个，分别对应于所述第一初始模型的下根据所述初始特征子模型的下采样层确定的特征图，确定所述训练样本中根据所述检测框识别结果与所述真实检测框在位置上的重叠程度，对根据重叠程度识别参数，确定所述检测框识别结果中与所述真实检根据所述真实检测框与所述目标检测框的重叠程度，对所述第一初确定第二初始模型，所述第二初始模型中包括初始基准子模3根据所述训练样本对所述第二初始模型进行训练，基于所述初始获取所述初始特征子模型与所述基准特征提取模型的下采样层对所述训练样本分别对候选框移除后的候选检测框进行非极大值抑制操作，得到针对样层所输出的特征图尺寸之比为1/2*1所述提取单元，用于根据包括顺序连接的N个下采样层和M个下采样层样层和第i+1个下采样层为相邻的下采样层，第i个下采样层的初始输出特征与第i+1个下所述确定单元，用于根据所述下采样层分别确定出的特征图，确定不所述确定单元，还用于根据所述候选检测框，确定针对所述目标图像对所述目标下采样层的特征图进行基于至少三个分类的分类识别确定用于训练第一初始模型的训练样本，具有所述待识别对所述待识别对象的真实检测框；所述第一初始模型中的初始特征子模型包括顺序连接的N4通过所述初始特征子模型的下采样层分别确定针对所述训练样本的特述第一初始模型所采用候选检测框的尺寸包括N+M个，分别对应于所述第一初始模型的下根据所述初始特征子模型的下采样层确定的特征图，确定所述训练样本中所述训练单元，用于根据所述检测框识别结果与所述真实检测框在位置上的重叠程根据重叠程度识别参数，确定所述检测框识别结果中与所述真实检根据所述真实检测框与所述目标检测框的重叠程度，对所述第一初所述训练单元，还用于根据所述训练样本对所述第二初始模型进行训所述获取单元，还用于获取所述初始特征子模型与所述基准特征提取所述调整单元，用于根据所获取特征图之间的差异，对所述初始对候选框移除后的候选检测框进行非极大值抑制操作，得到针对样层所输出的特征图尺寸之比为1/2*1所述处理器用于根据所述程序代码中的指令执行权利要求1-7任意一项56[0008]根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图采样层所输出特征图的尺寸小于尺寸阈值；所述N个下采样层中的第i个下采样层和第i+1下采样层和第i+1个下采样层为相邻的下采样层，第i个下采样层的初始输出特征与第i+1个下采样层的初始输出特征融合得到第i个下采样层7的检测需要特征图具有较高的分辨率，而前N层的浅层下采样层获取的特征图可以作为识别小尺寸对象的依据，针对这N个下采样层中的第i个下采样层和第i+1个下采样层的初始采样层输出具有较强语义信息的特征图，保证了基于该特征图对大尺寸对象的检测精度。[0027]图5为本申请实施例提供的一种采用最大输出maxout网络进行多分类识别方法的8[0033]在图像识别领域中，同一深度模型无法兼顾对于图像中不同尺寸对象的识别性能。以尺度不变人脸检测模型(SingleSlotScale-invariantFaceDetector,S3FD)为器学习/深度学习等方向。例如可以涉及计算机视觉(ComputerVision)中的图像处理(ImageProcessing)、图像语义理解(ImageSemanticUnderstanding，ISU)、图像识别[0038]本申请实施例提供的图像识别方法可以应用于具有数据处理能力的图像识别设9[0047]由于在图像识别过程中，对于小尺寸对象的检测需要特下采样层中的第i个下采样层和第i+1个下采样层的初始输出特征进行融合，得到第i个下[0049]上述将两个下采样层进行融合的过程，就是将第i+1个下采样层所能获取目标图阈值保证了这M个下采样层输出具有较强的语义信息的特征图，保证了基于该特征图对大[0051]基于上述N+M个下采样层各自输出的特征图再确定对应的候选检测框，从而确定本申请实施例提供的一种图像识别方法的流程示意图，图3为在人脸识别场景中执行图像[0058]本申请基于人工智能技术中的神经网络模型对目标图像进行针对待识别对象的[0059]前述S3FD模型是采用视觉几何层网络(VisualGeometryNetwork-16,VGG16)作为主干网络，而DSFD模型是采用深度残差网络(Deepresidualnetwork-50,ResNet50)作增强模块在原模型基础上增大了一倍参数量，这就使得S3FD模型和DSFD的检测速度较慢，不适用于直播、视频等实时检测场景。其中，GFLOPs为千兆次浮点运算(GigaFloating样层分别对应的特征图。如图3所示，特征提取模型300包括基础卷积层301和额外卷积层[0062]可以理解的是，对于小尺寸对象的检测需要具有较高分而特征提取模型中包括了N个浅层下采样层的基础卷积层对目标图像进行特征提取获取的采样层的初始输出特征和第i+1个下采样层的初始输出特征进行特征融合，得到融合特征作为第i个下采样层的特征图，即将第i个下采样层输出的特征图与第i+1个下采样层输出第i个下采样层输出的特征图与第i+1个下采样层输出的特征图尺寸一致，便于特征融合，个下采样层输出的特征图相加求和，再利用激活层进行非线性处理，如线性整流函数302以基础卷积层301的第4个下采样层C5的初始输出特征C51作为输入，利用下采样层C52[0073]基于上述特征提取模型输出的N+M个特征图具有不同的尺寸，可以作为后续图像出的特征图尺寸为第i个下采样层输出的特征[0074]在图3所示的场景中，每个下采样层对应的特征图尺寸为上一下采样层对应的特[0075]上述特征提取模型采用轻量级主干网络作为基础卷积层对目标图像进行图像特N+M个不同尺寸特征图对应的候选检测框，该候选检测框用于标识所述目标图像中所述待针对待识别对象的预测位置。即图4所示的利用神经网络模型进行前向计算402的处理过[0080]在实际应用中，预测层以上述特征提取模型的N+M个下采样层对应的特征图作为进行至少三个类别的图像识别，分别得到该候选检测框针对至少三个类别的识别置信度。通过最大值max函数选取至少两个背景类别中的识别置信度最大值作为该候选检测框针对别的识别置信度用于确定目标图像在待识别对象的检第1个下采样层，即k＝1，针对该目标下采样层进行四分类为例对多分类识别过程进行介预测位置以及背景1的识别置信度和的预测位置，从而根据该候选检测框确定目标图像中[0090]基于上述确定的多个候选检测框及其各自针对待识别对象的识别置信度和预测值的候选检测框。然后对候选框移除后的检测框进行非极大值抑制(Non-Maximum可信度候选检测框的识别，也降低了低可信度候选检测框对待识别对象的检测结果的影小尺寸对象的检测需要特征图具有较高的分辨率，而前N层的浅层下采样层获取的特征图可以作为识别小尺寸对象的依据，针对这N个下采样层中的第i个下采样层和第i+1个下采样层的初始输出特征进行融合，基于第i+1个下采样层所能获取目标图像中的强语义信息了这M个下采样层输出具有较强语义信息的特征图，保证了基于该特征图对大尺寸对象的[0101]第一初始模型为预先建立的神经网络模型，第一初始模对象的样本图像和标注有待识别对象在样本图像中的真实[0106]S502：通过所述初始特征子模型的下采样层分别确定针对所述训练样本的特征[0107]以训练样本中的样本图像作为输入，通过初始特征子模型的N+M个下采样层分别用于标识检测框识别结果所标识的待识别对象在样本图像中的预测位置与待识别对象在[0116]其中yi表示第i个待识别对象类别的真实标签，pi表示第根据所述真实检测框与所述目标检测框的重叠程度，对所述第一初始模型进行模型训练。检测模型结合轻量级主干网络(如MobileNetV2)，相较于采用了重量级主干网络(如[0130]若以MobileNetV2作为上述第一初始模型中初始特征子模型，ResNet50作为第二好ResNet50模型，作为老师模型，然后在训练MobileNetV2的过程中，通过最小化MobileNetV2确定的特征图与老师模型所确定的对应特征图之间的差异，提升特征提取模[0132]本申请实施例提供的神经网络模型采用SSD作为单阶段检测网络结合轻量级[0134]参见图7，图7为本申请实施例提供的一种图像识别装置的结构示意图。如图7所[0136]所述提取单元702，用于根据包括顺序连接的N个下采样层和M个下采样层的特征个下采样层中第一个下采样层所输出特征图的尺寸小于尺寸阈值；所述N个下采样层中的第i个下采样层和第i+1个下采样层为相邻的下采样层，第i个下采样层的初始输出特征与第i+1个下采样层的初始输出特征融合得到第i个下采样层的特[0144]通过所述初始特征子模型的下采样层分别确定针对所述训练样本的特征图；其[0153]所述获取单元701，还用于获取所述初始特征子模型与所述基准特征提取模型的小尺寸对象的检测需要特征图具有较高的分辨率，而前N层的浅层下采样层获取的特征图可以作为识别小尺寸对象的依据，针对这N个下采样层中的第i个下采样层和第i+1个下采样层的初始输出特征进行融合，基于第i+1个下采样层所能获取目标图像中的强语义信息了这M个下采样层输出具有较强语义信息的特征图，保证了基于该特征图对大尺寸对象的配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central[0170]根据包括顺序连接的N个下采样层和M个下采样层的特征提取模型对所述目标图采样层所输出特征图的尺寸小于尺寸阈值；所述N个下采样层中的第i个下采样层和第i+1部分。该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital[0176]图9示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图9，该手机包括：射频(RadioFrequency,简称RF)电路1510、存储器1520、PacketRadioService，简称GPRS)、码分多址(CodeDivisionMultipleAccess，简称[0179]存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操[0181]显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(LiquidCrystalDisplay，简称LCD)、有机发光二极管(OrganicLight-EmittingDiode，简称面板1531检测到在其上或附近的触摸操作后，传送给处理器1580以确定触摸事件的类型，随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图9中，触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能，的明暗来调节显示面板1541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板[0185]处理器1580是手机的控制中心，利用各种接口和线路连通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520述调制解调处理器也可以不集成到处理器15[0189]手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供机设备执行上述方面的各种可选实现方式中提供的图间

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113536876B 一种图像识别方法和相关装置（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113536876B 一种图像识别方法和相关装置 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113536876B 一种图像识别方法和相关装置（腾讯科技（深圳）有限公司）