CN113706550B 图像场景识别和模型训练方法、装置和计算机设备（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-18 格式：DOCX 页数：74 大小：3.39MB 积分：9.6 举报 版权申诉

CN113706550B 图像场景识别和模型训练方法、装置和计算机设备（腾讯科技（深圳）有限公司）_第2页

CN113706550B 图像场景识别和模型训练方法、装置和计算机设备（腾讯科技（深圳）有限公司）_第3页

CN113706550B 图像场景识别和模型训练方法、装置和计算机设备（腾讯科技（深圳）有限公司）_第4页

CN113706550B 图像场景识别和模型训练方法、装置和计算机设备（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩69页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

A,2013.10.23A,2016.06.15A,2021.02.09A,2020.11.242基于所述前景区域对应的前景特征进行自注意力权重计算，得到自注意力前景权重，前景权重是将所述前景特征进行池化后进行压缩，并将压缩后的特征进行权重映射得到基于所述背景区域对应的背景特征进行自注意力权重计算，得到自注意力背景权重，背景权重是将所述背景特征进行池化后进行压缩，并将压缩后的特征进行权重映射得到将所述自注意力背景特征和所述自注意力前景特征进所述图像场景识别模型用于提取所述待识别图像中前景区域和背所述前景分支网络用于提取所述前景区域对应的前景特所述背景分支网络用于提取所述背景区域对应的背景特所述图像场景识别模型还用于将所述自注意力背景特征和所述自注意力前景特征进将所述待识别图像输入所述图像特征提取网络中进行特征提取，得到待识别图像特计算所述前景掩膜和所述待识别图像像素值的乘积，得将所述前景掩膜取反，得到背景掩膜，计算所述背景掩膜与所3所述基于所述前景区域对应的前景特征进行自注意力权重计算，得到将所述前景区域输入所述前景特征提取网络中进行特征提取，得到将所述前景特征输入所述前景注意力特征提取网络中进行注意通过所述前景注意力特征提取网络中的均值池化层将所使用所述前景注意力特征提取网络中的非线性压缩层将所述前景池化特征进行非线将所述前景压缩特征通过所述前景注意力特征提取网并基于所述前景注意力特征提取网络中的权重映射层将所述前景激活特征进行权重使用所述自注意力前景权重对所述前景特征中的特征值进行加权，得到加权前景特所述基于所述背景区域对应的背景特征进行自注意力权重计算，得到将所述背景区域输入所述背景特征提取网络中进行特征提取，得到将所述背景特征输入所述背景注意力权重提取网络中进行注意通过所述背景注意力权重提取网络中的均值池化层将所使用所述背景注意力权重提取网络中的非线性压缩层将所述背景池化特征进行非线4将所述背景压缩特征通过所述背景注意力权重提取网并基于所述背景注意力权重提取网络中的权重映射层将所述背景激活特征进行权重使用所述自注意力背景权重对所述背景特征中的特征值进行加权，得到加权背景特9.根据权利要求2所述的方法，其特征在于，所述图像场景识别模型包括融合输出网所述将所述自注意力背景特征和所述自注意力前景特征进行特征融合，得到融合特通过所述融合输出网络中的融合层将所述自注意力背景特征和所述自注意力前景特将所述拼接特征输入到所述融合输出网络中的全连接层进行场获取训练图像和对应的训练场景标签，将所述训练图像输入到初始图像场景识别模所述初始图像场景识别模型提取所述训练图像中的初始前景训练区域和初始背景训所述初始前景分支网络基于所述初始前景训练区域对应的初始前景特征进行自注意所述初始背景分支网络基于所述初始背景训练区域对应的初始背景特征进行自注意所述初始图像场景识别模型将所述初始自注意力背景特征和所述初始自注意力前景计算所述初始图像场景识别结果和所述训练场景标5使用交叉熵损失函数计算所述初始图像场景识别结果与所述训练场景标签之间的误将所述更新图像场景识别模型作为初始场景识别模型，并返回将所述训练过预设损失阈值的初始图像场景识别模型作为训练完成的图像场将所述预训练图像输入到预训练场景识别模型中，所述预训练场景基于所述预训练场景识别结果和所述预训练场景标签计算预前景特征提取模块，用于基于所述前景区域对应的前景特征进行自注意力权重计算，背景特征提取模块，用于基于所述背景区域对应的背景特征进行自注意力权重计算，场景识别模块，用于将所述自注意力背景特征和所述自注意力前景特征进行特征融分支输入模块，用于所述图像场景识别模型用于提取所前景识别模块，用于所述前景分支网络用于提取所述前景区域对应6背景识别模块，用于所述背景分支网络用于提取所述背景区所述分支输入模块还用于将所述待识别图像输入所述图像特征提取网络中进行特征所述前景识别模块还用于将所述前景区域输入所述前景特征提取网络中进行特征提注意力特征提取网络中的均值池化层将所述前景特征进行均值池化，得到前景池化特征；使用所述前景注意力特征提取网络中的非线性压缩层将所述前景池化特征进行非线性压所述背景识别模块还用于将所述背景区域输入所述背景特征提取网络中进行特征提7注意力权重提取网络中的均值池化层将所述背景特征进行均值池化，得到背景池化特征；使用所述背景注意力权重提取网络中的非线性压缩层将所述背景池化特征进行非线性压所述图像识别模块还用于通过所述融合输出网络中的融合层将所述自注意力背景特训练数据获取模块，用于获取训练图像和对应的训模型处理模块，用于所述初始图像场景识别模型提取所述训前景网络处理模块，用于所述初始前景分支网络基于所述初权重是将所述初始前景特征进行池化后进行压缩，并将压缩后的特征进行权重映射得到背景网络处理模块，用于所述初始背景分支网络基于权重是将所述初始背景特征进行池化后进行压缩，并将压缩后的特征进行权重映射得到模型识别模块，用于所述初始图像场景识别模型将所述初始自注迭代模块，用于计算所述初始图像场景识别结果和所述训练场景标签8预训练模块，用于获取预训练图像和预训练场景标签；将所述预训理器执行时实现权利要求1至12中任一项所述的方法行时实现权利要求1至12中任一项所述的方9[0007]基于前景区域对应的前景特征进行自注意力权重计算，[0008]基于背景区域对应的背景特征进行自注意力权重计算，[0018]前景特征提取模块，用于基于前景区域对应的前景特征[0019]背景特征提取模块，用于基于背景区域对应的背景特征[0024]基于前景区域对应的前景特征进行自注意力权重计算，[0025]基于背景区域对应的背景特征进行自注意力权重计算，[0030]基于前景区域对应的前景特征进行自注意力权重计算，[0031]基于背景区域对应的背景特征进行自注意力权重计算，[0035]获取训练图像和对应的训练场景标签，将训练图像输入到初始图像场景识别模[0036]初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背景训练区[0037]初始前景分支网络基于初始前景训练区域对应的初始前景特征进行自注意力权[0038]初始背景分支网络基于初始背景训练区域对应的初始背景特征进行自注意力权[0039]初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行[0049]获取训练图像和对应的训练场景标签，将训练图像输入到初始图像场景识别模[0050]初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背景训练区[0051]初始前景分支网络基于初始前景训练区域对应的初始前景特征进行自注意力权[0052]初始背景分支网络基于初始背景训练区域对应的初始背景特征进行自注意力权[0053]初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行[0056]获取训练图像和对应的训练场景标签，将训练图像输入到初始图像场景识别模[0057]初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背景训练区[0060]初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景特征进行注意力背景特征，然后将初始自注意力背景特征和初始自注意力前景特征进行特征融合，训练得到的图像场景识别模型能够提高对图像场景[0083]计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”识别图像中前景区域和背景区域；服务器104基于前景区域对应的前景特征进行自注意力景所在的部分区域，前景是指画面中位于主体之前以至靠近摄像机镜头的景物或人物,表景特征使用自注意力前景权重进行加权后得[0097]步骤210，将自注意力背景特征和自注意力前景特征进行特征融合，得到融合特[0098]其中，融合特征是指将自注意力背景特征和自注意力前景特征融合后得到的特[0107]具体地，前景分支网络可以通过前景特征提取网络提取前景区域对应的前景特[0110]步骤310，图像场景识别模型将自注意力背景特征和自注意力前景特征进行特征[0112]在上述实施例中，通过训练好的图像场景识别模型对待型通过双分支网络同时对背景区域和前景区域提取到自注意力背景特征和自注意力前景[0116]具体地，图像场景识别模型将待识别图像输入图像特征提取网络中进行特征提线性整流函数)函数作为激活函数。该结构能在一定程度上缓解了模型退化和梯度消失问应的前景特征图，然后将前景特征输入前景注意力权重特征网络中进行注意力权重计算，[0136]步骤702，通过前景注意力特征提取网络中的均值池化层将前景特征进行均值池表征深度学习网络层2048个不同channel(通道)在该前景区域上的激活均值。在一个实施[0139]步骤704，使用前景注意力特征提取网络中的非线性压缩层将前景池化特征进行[0142]步骤706，将前景压缩特征通过前景注意力特征提取网络中的激活函数层进行激数)激活函数进行激活，也可以通过S型激活函数进行激活，还可以通过Tanh(Hyperbolic[0144]步骤708，并基于前景注意力特征提取网络中的权重映射层将前景激活特征进行的2048维度的自注意力前景权重向量，即向量用于表征深度学习网络层2048个不同服务器使用2048维度的自注意力前景权重向量对前景特征中每个channel(通道)进行加前景特征向量。在一个具体的实施例中，前景注意力特征提取网络的网络结构如下表2所[0154]基于背景区域对应的背景特征进行自注意力权重计算，[0159]步骤802，通过背景注意力特征提取网络中的均值池化层将背景特征进行均值池[0160]其中，背景注意力特征提取网络中的均值池化层用于将背景特征进行均值池[0162]步骤804，使用背景注意力特征提取网络中的非线性压缩层将背景池化特征进行[0165]步骤806，将背景压缩特征通过背景注意力特征提取网络中的激活函数层进行激[0168]步骤808，并基于背景注意力特征提取网络中的权重映射层将背景激活特征进行于表征深度学习网络层2048个不同channel(通道)意力背景特征。即服务器使用2048维度的自注意力背景权重向量对背景特征中每个[0175]通过融合输出网络中的融合层将自注意力背景特征和自注意力前景特征进行拼[0187]步骤904，初始图像场景识别模型提取训练图像中的初始前景训练区域和初始背[0190]步骤906，初始前景分支网络基于初始前景训练区域对应的初始前景特征进行自[0193]步骤908，初始背景分支网络基于初始背景训练区域对应的初始背景特征进行自[0196]步骤910，初始图像场景识别模型将初始自注意力背景特征和初始自注意力前景始图像场景识别结果是指初始图像场景识别模型输出的图初始全连接网络的初始参数是通过高斯分布进行返回将训练图像输入到初始图像场景识别模型的步骤迭代执行，直到达到训练完成条件，将达到训练完成条件的图像场景识别模型作为训练完成的图像场使用梯度去更新初始图像场景识别模型中的各个参数，即更新初始背景分支网络的参数、预设损失阈值的初始图像场景识别模型作为训练完成的图像场交叉熵损失函数来训练图像场景识别模型，能够使训练得到的图像场景识别模型性能更图像对应的预测得到的图像场景类别。初始网络参数可以使用ImageNet数据集预训练的ResNet101的参数，新添加的网络比如自注意力特征提取网络和融合输出网络的参数采用方差为0.01，均值为0的高斯分布进行初而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交[0250]场景识别模块1610，用于将自注意力背景特征和自注意力前景特征进行特征融[0253]分支输入模块，用于图像场景识别模型提取待识别图像[0258]在一个实施例中，分支输入模块还用于计算待识别图像特征中特征值对应的均特征通过前景注意力特征提取网络中的最大池化层进行最大池化，得到自注意力前景特特征通过背景注意力特征提取网络中的最大池化层进行最大池化，得到自注意力背景特图像场景识别模型作为训练完成的图像场景练场景识别模型中，预训练场景识别模型通过特征提取网络对预训练图像进行特征提取，[0274]关于图像场景识别装置和图像场景识别模型训练装置的具体限定可以参见上文算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113706550B 图像场景识别和模型训练方法、装置和计算机设备（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113706550B 图像场景识别和模型训练方法、装置和计算机设备 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113706550B 图像场景识别和模型训练方法、装置和计算机设备（腾讯科技（深圳）有限公司）