CN114049584B 一种模型训练和场景识别方法、装置、设备及介质（百果园技术(新加坡)有限公司）

上传人：1*** IP属地：山西上传时间：2026-07-03 格式：DOCX 页数：41 大小：1.61MB 积分：10.8 举报 版权申诉

CN114049584B 一种模型训练和场景识别方法、装置、设备及介质（百果园技术(新加坡)有限公司）_第2页

CN114049584B 一种模型训练和场景识别方法、装置、设备及介质（百果园技术(新加坡)有限公司）_第3页

CN114049584B 一种模型训练和场景识别方法、装置、设备及介质（百果园技术(新加坡)有限公司）_第4页

CN114049584B 一种模型训练和场景识别方法、装置、设备及介质（百果园技术(新加坡)有限公司）_第5页

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

DeepHybridModelforSceneRecognition. DeepHybridModelforSceneRecognition. DisambiguationforLarge-ScaleClassificationWithMulti-Re本发明公开了一种模型训练和场景识别方首先通过样本图像的第一场景标签和标准交叉征提取层的参数，然后根据各层级的LCS模块输出的特征图和所述样本图像的第一场景标签逐像素计算得到的损失值，训练各层级的LCS模块2以及与所述核心特征提取层连接的全局信息特征提取层、各层级的LCS模块、全连接决策通过样本图像的第一场景标签和标准交叉熵损失，训练得到所述核心根据所述各层级的LCS模块输出的特征图和所述样本图像的第一场景标签逐像素计算通过所述样本图像的第一场景标签和标准交叉熵损失，训练得到所述根据各层级的LCS模块输出的特征图和所述样本图像的第一场景标签逐像素计算通过通道维度的注意力机制使用激活函数获取每个通道的重要性权根据所述汇总热力图、对象场景关联重要度和对象的面积逐像素计所述核心特征提取层包括第一类分组多感受野残差卷积模块和第二类分组多感受野述分支扩展结构包括卷积层和局部对象关联关系根据所述分支扩展结构的卷积层输出的特征图和所述样本图像的第二场景标签逐像所述第二类分组多感受野残差卷积模块包括第四分组、第五分积旁路结构和残差计算旁路结构；每个分组输出的特征图在通道维度拼接并进行通道混对所述核心特征提取层中不同层级的特征图使用膨胀因子不同的反卷积操作进行上3可变形卷积层获取当前像素位置的卷积核偏移值，卷积核参7.一种基于如权利要求1-6任一项所述的方法训练得到的场景识别模型的场景识别方将所述待识别的图像输入预先训练完成的场景识别模型，基于所若确定出的所述待识别图像对应的场景信息属于违规场景信息9.一种基于权利要求1所述的场景识别模型训练方法的场景识别模型训练装置，其特第一训练单元，用于通过样本图像的第一场景标签和标第二训练单元，用于根据所述各层级的LCS模块输出的特征图和所述样本图像的第一第三训练单元，用于通过所述样本图像的第一场景标签和标准交叉所述第二训练单元，具体用于通过通道维度的注意力机制使用激活识别单元，用于将所述待识别的图像输入预先训练完成的器中存储的计算机程序时实现如权利要求1-6中任一所述模型训练方法的步骤，或实现如4[0002]机器审核技术(简称机审)在大规模短视频/图片审核中的应用越来越广泛，机审现大大提高了图片审核的效率。但是机审倾向于依靠图像视觉上的共性来作出违规判决，[0006]根据所述各层级的LCS模块输出的特征图和所述样本图像的第一场景标签逐像素所述核心特征提取层和所述全局信息特征提[0013]第二训练单元，用于根据所述各层级的LCS模块输出的特征图和所述样本图像的5[0022]根据所述各层级的LCS模块输出的特征图和所述样本图像的第一场景标签逐像素提取层和全局信息特征提取层的参数，然后根据各层级的LCS模块输出的特征图和所述样6[0034]图8为本发明实施例提供的场景识别模型扩展分支网络的结构和第一轮训练原理7[0060]S102：根据所述各层级的LCS模块输出的特征图和所述样本图像的第一场景标签[0065]根据所述分支扩展结构的卷积层输出的特征图和所述样本图像的第二场景标签[0067]如图2所示，本发明实施例提出的多层次细粒度场景识别模型会以同步的方式运8[0071]图3和图4展示了本发明实施例提出的多层次细粒度场景识别模型的整体训练过参数)，给每个池化层后的卷积特征图组接上一个“带注意力机制的局部监督学习模块”优化完成训练。第一轮优化使用了逐像素的二值sigmoid损失直接对关联的卷积层进行优9提取层和全局信息特征提取层的参数，然后根据各层级的LCS模块输出的特征图和所述样[0077]所述核心特征提取层包括第一类分组多感受野残差卷积模块和第二类分组多感1卷积旁路结构和残差计算旁路结构；每个分组输出的特征图在通道维度拼接并进行通道个卷积分支输出的结果会在通道维度拼接并进行通道混洗，最后使用1x1卷积融合以后传到下一个模块。需要说明的是，第二类分组多感受野残差卷积模块为图5中的“GM投影输出的结果会在通道维度拼接并进行通道混洗，最后使用1x1卷积融合以后传到下一个模[0083]对所述核心特征提取层中不同层级的特征图使用膨胀因子不同的反卷积操作进练得到所述核心特征提取层和全局信息特征提[0086]所述根据各层级的LCS模块输出的特征图和所述样本图像的第一场景标签逐像素有监督地引导该模块学习局部对象特征的提取能力。具体而言，先对经注意力增强的特征图组跨通道逐像素求和，得到一张反映不同像素位置激活情况的热力图。然后使用该热力图是在图像级的场景语义标签的基础上，根据场景图像中对象对场景判决的影响程度得到表达式如下：样做主要是为了避免Relu在负值激活时抛弃过多的特征。本发明最终使用三个模块(分支学习能力进行优化，所以扩展分支网络的对应层级会直接接入前面提出的LCS损失进行预象特征和局部对象的全局空间关联实现细粒度复杂场景的识别。在执行卷积操作前需要先通过一个分支去获取当前像素位置的卷积核偏移，该偏移包括X偏移和Y偏移(因为卷积核参数通常只需要关注尺寸维度)，然后卷积核参数的当前位置加1x1卷积操作和平均池化操作(非全局平均池化，不改变尺寸)，这主要是用于平滑输出结[0107]其中Lfocus代表标准focusloss，cn代表图的下采样和非线性变换而导致的全局空间关联信息丢失，提供了高质量的全局信息特征，享局部学习模块等策略减少开销。[0118]模型主体训练阶段的第一轮也可以使用focalloss只针对核心特征提取层进行[0119]全局信息特征提取模块可以单纯使用两层反卷积同时完成尺寸上采样和通道扩[0123]模型主体部分也可以使用基于深度分离卷积的基础模块来降低开销，同时nxn卷的方法训练模型，可以直接将训练完成的场景识别模型保存在进行场景识别的电子设备[0131]在本发明实施例中，将输入到的场景识别模型进行处理的图像作为待识别的图[0135]第二训练单元12，用于根据所述各层级的LCS模块输出的特征图和所述样本图像个通道的重要性权重，根据所述每个通道的重要性权重对每个通道的特征图进行加权求所述场景识别模型确定所述待识别的图像对[0146]确定单元23，用于若确定出的所述待识别图像对应的场景信息属于违规场景信[0151]根据所述各层级的LCS模块输出的特征图和所述样本图像的第一场景标签逐像素[0161]在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介[0163]根据所述各层级的LCS模块输出的特征图和所述样本图像的第一场景标签逐像素理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与场景识别[0167]在上述各实施例的基础上，本发明实施例还提供了一种计算机存储可读存储介理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与场景识别现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定[0172]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114049584B 一种模型训练和场景识别方法、装置、设备及介质（百果园技术(新加坡)有限公司）

文档简介

温馨提示

最新文档

评论

CN114049584B 一种模型训练和场景识别方法、装置、设备及介质 （百果园技术(新加坡)有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN114049584B 一种模型训练和场景识别方法、装置、设备及介质（百果园技术(新加坡)有限公司）