CN113822134B 一种基于视频的实例跟踪方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-23 格式：DOCX 页数：84 大小：1.99MB 积分：10.8 举报 版权申诉

CN113822134B 一种基于视频的实例跟踪方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第2页

CN113822134B 一种基于视频的实例跟踪方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第3页

CN113822134B 一种基于视频的实例跟踪方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第4页

CN113822134B 一种基于视频的实例跟踪方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）_第5页

已阅读5页，还剩79页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

.2021,1-5.本申请公开了一种采用人工智能技术实现N个包围框感兴趣区域ROI；基于N个实例查询向量以及N个包围框ROI，通过实例分割网络获取N实现了不依赖于非极大抑制等后处理方法的实例检测，进而基于实例标识对实例目标进行跟2基于N个实例查询向量以及所述N个包围框ROI，通过实例分根据所述N个第一检测结果以及M个第二检测结果，确定至少一2.根据权利要求1所述的实例跟踪方法，其特征采用所述N个实例查询向量，对所述N个包围框ROI中的每个包围框RO基于所述N个增强包围框ROI，通过所述实例分割网络所包括的类别判别网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的边框回归网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的嵌入向量网络获取N个3.根据权利要求1所述的实例跟踪方法，其采用所述至少一组包围框动态参数，对所述N个包围框ROI中的每个包围框ROI在特征基于所述N个增强包围框ROI，通过所述实例分割网络所包括的类别判别网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的边框回归网络获取N个3基于所述N个增强包围框ROI，通过所述实例分割网络所包括的嵌入向量网络获取N个所述基于N个实例查询向量以及所述N个包围框ROI，通过实例分割网络获采用所述N个实例查询向量，对所述N个包围框ROI中的每个包围框RO采用所述N个实例查询向量，对所述N个掩码ROI中的每个掩码ROI在基于所述N个增强包围框ROI，通过所述实例分割网络所包括的类别判别网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的边框回归网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的嵌入向量网络获取N个基于所述N个增强掩码ROI，通过所述实例分割网络所包括的掩码生成网络获取N个第基于所述N个实例查询向量，通过全连接层获取至少一组包围框动态参数以及至少一采用所述至少一组包围框动态参数，对所述N个包围框ROI中的每个包围框ROI在特征采用所述至少一组掩码动态参数，对所述N个掩码ROI中的每个掩码ROI在特征维度上基于所述N个增强包围框ROI，通过所述实例分割网络所包括的类别判别网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的边框回归网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的嵌入向量网络获取N个基于所述N个增强掩码ROI，通过所述实例分割网络所包括的掩码生成网络获取N个第47.根据权利要求1所述的实例跟踪方法，其特征以及所述M个第二检测结果，确定每个第一检测结果与每个第二检测结果之间的实例相似根据所述每个第一检测结果所包括的第一实例嵌入向量以及所述每个第二检测结果根据所述每个第一检测结果所包括的第一实例包围框以及所述每个第二检测结果所根据所述每个第一检测结果所包括的第一类别概率值以及所述每个第二检测结果所根据所述每个第一检测结果与所述每个第二检测结果之间的实例嵌定所述每个第一检测结果与所述每个第二检测结果之间的实例若所述K个映射关系存在P个映射关系所对应的实例相似度小于或等于实例相似度阈若所述M个映射关系存在Q个映射关系所对应的实例相似度小于或等于实例相似度阈5待训练实例包围框用于提取一个对应的预测包基于N个待训练实例查询向量以及所述N个预测包围框ROI，通过待训练实例分割网络根据所述N个第一预测结果以及N个第二预测结果，确定至少一个待训练实例包围框用于提取一个对应的预测包述每个待训练实例包围框还用于提取一个对应的预测根据所述N个第一预测结果以及N个第二预测结果，确定至少一个获取模块，用于基于待检测视频中的目标视所述获取模块，还用于根据N个实例包围框，从所述目标特征图中获6确定模块，用于根据所述N个第一检测结果以及M个第二检测结果果以及所述M个第二检测结果，确定每个第一检测结果与每个第二检测结果之间的实例相所述确定模块，还用于根据所述至少一个实例相似度，确定所述目采用所述N个实例查询向量，对所述N个包围框ROI中的每个包围框RO基于所述N个增强包围框ROI，通过所述实例分割网络所包括的类别判别网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的边框回归网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的嵌入向量网络获取N个采用所述至少一组包围框动态参数，对所述N个包围框ROI中的每个包围框ROI在特征基于所述N个增强包围框ROI，通过所述实例分割网络所包括的类别判别网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的边框回归网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的嵌入向量网络获取N个7所述获取模块，具体用于基于N个实例查询向量、所述N个包围框ROI以采用所述N个实例查询向量，对所述N个包围框ROI中的每个包围框RO采用所述N个实例查询向量，对所述N个掩码ROI中的每个掩码ROI在基于所述N个增强包围框ROI，通过所述实例分割网络所包括的类别判别网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的边框回归网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的嵌入向量网络获取N个基于所述N个增强掩码ROI，通过所述实例分割网络所包括的掩码生成网络获取N个第基于所述N个实例查询向量，通过全连接层获取至少一组包围框动态参数以及至少一采用所述至少一组包围框动态参数，对所述N个包围框ROI中的每个包围框ROI在特征采用所述至少一组掩码动态参数，对所述N个掩码ROI中的每个掩码ROI在特征维度上基于所述N个增强包围框ROI，通过所述实例分割网络所包括的类别判别网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的边框回归网络获取N个基于所述N个增强包围框ROI，通过所述实例分割网络所包括的嵌入向量网络获取N个基于所述N个增强掩码ROI，通过所述实例分割网络所包括的掩码生成网络获取N个第根据所述每个第一检测结果所包括的第一实例嵌入向量以及所述每个第二检测结果根据所述每个第一检测结果所包括的第一实例包围框以及所述每个第二检测结果所8根据所述每个第一检测结果所包括的第一类别概率值以及所述每个第二检测结果所根据所述每个第一检测结果与所述每个第二检测结果之间的实例嵌定所述每个第一检测结果与所述每个第二检测结果之间的实例所述处理器用于执行所述存储器中的程序，所述处理器用于根据程所述总线系统用于连接所述存储器以及所述处理器，以使所述存储9[0002]实例分割是图像识别和计算机视觉至关重要的预处理，被广泛应用于各个领[0004]然而，由于先验框在训练过程中遵循着“一对多(即一个真实框对应于多个先验测结果为根据待检测视频中前(T-1)个视频帧获取的，每个第二检测结果对应于一个实例[0020]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0021]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0022]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0025]采用至少一组包围框动态参数，对N个包围框ROI中的每个包围框ROI在特征维度[0026]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0027]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0028]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0034]采用N个实例查询向量，对N个掩码ROI中的每个掩码ROI[0035]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0036]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0037]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0038]基于N个增强掩码ROI，通过实例分割网络所包括的掩码生成网络获取N个第一实[0041]采用至少一组包围框动态参数，对N个包围框ROI中的每个包围框ROI在特征维度[0042]采用至少一组掩码动态参数，对N个掩码ROI中的每个掩码ROI在特征维度上进行[0043]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0044]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0045]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0046]基于N个增强掩码ROI，通过实例分割网络所包括的掩码生成网络获取N个第一实[0053]根据每个第一检测结果所包括的第一实例包围框以及每个第二检测结果所包括[0054]根据每个第一检测结果所包括的第一类别概率值以及每个第二检测结果所包括[0058]若K个映射关系存在P个映射关系所对应的实例相似度小于或等于实例相似度阈[0059]根据(K-P)个映射关系中每个映射关系所对应的第二检测结果，确定目标视频帧[0063]若M个映射关系存在Q个映射关系所对应的实例相似度小于或等于实例相似度阈[0064]根据(M-Q)个映射关系中每个映射关系所对应的第二检测结果，确定目标视频帧[0065]确定模块，还用于将Q个映射关系以及(K-M)个第一检测练实例分割网络获取N个第一预测结果，其中，每个第一预测结果包括第一预测类别概率同实例标识的目标实例提取出来，并采用光学字符识别(OpticalCharacter[0109]基于视频实例跟踪，检测并跟踪出视频中的目标实例(例如，车辆和行人等障碍器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处[0117]计算机视觉技术与机器学习均属于人工智能(ArtificialIntelligence，AI)技[0119]下面将介绍训练过程采用的查询视频实例分割(QueryVideoInstance视频帧和辅助视频帧进行特征提取，再从提取的特征中将感兴趣区域(Regionof由在MS-COCO实例分割数据集上预训练的权重初始化，且使用的数据集为COCO示例分割数SwinTransformer)，例如，SwinTransformerTiny、SwinTransformerSmall、SwinTransformerBas或者SwinTransf[0129]在一个或多个实施例中，实例包围框与实例查询向量之第二检测结果为根据待检测视频中前(T-1)个视频帧获取的，每个第二检测结果对应于一检测结果与第二检测结果可计算两者之间的实例[0137]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0138]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0139]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0140]在一个或多个实施例中，介绍了一种基于实例分割网络实现实例目标跟踪的方输出每个增强包围框ROI对应的第一实例包围框。将N个增强包围框ROI输入至嵌入向量网[0147]采用至少一组包围框动态参数，对N个包围框ROI中的每个包围框ROI在特征维度[0148]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0149]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0150]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0151]在一个或多个实施例中，介绍了一种基于实例分割网络实现实例目标跟踪的方输出每个增强包围框ROI对应的第一实例包围框。将N个增强包围框ROI输入至嵌入向量网ROI进行点乘(即1*1的卷积操作)，再采用动态参数B对动态卷积后的包围框ROI进行点乘[0167]采用N个实例查询向量，对N个掩码ROI中的每个掩码ROI[0168]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0169]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0170]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0171]基于N个增强掩码ROI，通过实例分割网络所包括的掩码生成网络获取N个第一实[0172]在一个或多个实施例中，介绍了一种基于实例分割网络实现实例目标跟踪的方边框回归网络输出每个增强包围框ROI对应的第一实例包围框。将N个增强包围框ROI输入[0178]基于N个实例查询向量，通过全连接层获取至少一组包围框动态参数以及至少一[0179]采用至少一组包围框动态参数，对N个包围框ROI中的每个包围框ROI在特征维度[0180]采用至少一组掩码动态参数，对N个掩码ROI中的每个掩码ROI在特征维度上进行[0181]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0182]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0183]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0184]基于N个增强掩码ROI，通过实例分割网络所包括的掩码生成网络获取N个第一实[0185]在一个或多个实施例中，介绍了一种基于实例分割网络实现实例目标跟踪的方采用实例查询向量生成另一组动态参数，然后采用该组动态参数对掩码ROI在特征维度上边框回归网络输出每个增强包围框ROI对应的第一实例包围框。将N个增强包围框ROI输入[0189]下面将结合图10，介绍动态卷积的过程。下面将以一个包围框ROI以及一个掩码[0197]在一个或多个实施例中，介绍了一种筛选出K个第一检测结果进行实例匹配的方实例相似度进一步提升在线实例连接的效果。由于计算得到的(K*M)个实例相似度表示为介绍如何从N个第一检测结果中筛选出K个第一检测结果所包括的第一类别概率值，按照第一类别概率值从大到小的顺序对N个第一检测结果[0200]其次，本申请实施例中，提供了一种筛选出K个第一检测结果进行实例匹配的方[0202]根据每个第一检测结果所包括的第一实例嵌入向量以及每个第二检测结果所包[0203]根据每个第一检测结果所包括的第一实例包围框以及每个第二检测结果所包括[0204]根据每个第一检测结果所包括的第一类别概率值以及每个第二检测结果所包括绍，下面将以计算一个第一检测结果与一个第二检测结果之间的实例相似度为例进行说[0214]空间相关性即为第一实例包围框与第二实例包围框的交并比(Intersection[0222]若K个映射关系存在P个映射关系所对应的实例相似度小于或等于实例相似度阈[0223]根据(K-P)个映射关系中每个映射关系所对应的第二检测结果，确定目标视频帧于此，可构建K个第一检测结果与M个第二检测结果之间的映射关系，由此得到K个映射关0.90.30.8[0238]若M个映射关系存在Q个映射关系所对应的实例相似度小于或等于实例相似度阈[0239]根据(M-Q)个映射关系中每个映射关系所对应的第二检测结果，确定目标视频帧[0241]将Q个映射关系以及(K-M)个第一检测结果作为第二检测结果，得到(Q+K)个第二于此，可构建K个第一检测结果与M个第二检测结果之间的映射关系，由此得到M个映射关0.70.90.1待训练实例包围框用于提取一个对应的预测包[0254]基于N个待训练实例查询向量以及N个预测包围框ROI，通过待训练实例分割网络量估计权重衰减(Adaptivemomentestimationweightdecay，AdamW)作为优化器在8张练阶段，实例查询向量在进行包围框ROI预测之后，通过逐一计算与真实包围框之间的损N个预测包围框ROI进行动态卷积操作或普通卷积操作，生成增强后的N个预测包围框ROI。的任意一帧。于是可采用上述式1计算第一预测结果与第二预测结果之间的预测实例相似算预测实例跟踪结果所包括的实例标识与真实的标注实例标识待训练实例包围框用于提取一个对应的预测包练实例分割网络获取N个第一预测结果，其中，每个第一预测结果包括第一预测类别概率待训练实例查询向量以及待训练实例分割网络进行包围框ROI以及增强后的N个预测掩码ROI作为待训练实例分割网络的输入，由待训练实例的任意一帧。于是可采用上述式1计算第一预测结果与第二预测结果之间的预测实例相似用骰子(DICE)损失函数和L1损失函数，计算N个预测实例前景掩码与真实的标注实例前景[0280]基于本申请提供的实例跟踪方法，可以准确且快速地对输入视频进行实例检测、实例分割的2019年数据集(YouTube-VIS(2019))以及油管视频实例分割的2021年数据集本方法在速度和精度两个方面均超过了当前最先进的视频实[0289]确定模块220，还用于根据至少一个实例相似度，确定目标视频帧的实例跟踪结[0293]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0294]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0295]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0299]采用至少一组包围框动态参数，对N个包围框ROI中的每个包围框ROI在特征维度[0300]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0301]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0302]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一过实例分割网络获取N个第一检测结果，其中，每个第一检测结果还包括第一实例前景掩[0310]采用N个实例查询向量，对N个掩码ROI中的每个掩码ROI[0311]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0312]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0313]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0314]基于N个增强掩码ROI，通过实例分割网络所包括的掩码生成网络获取N个第一实[0318]采用至少一组包围框动态参数，对N个包围框ROI中的每个包围框ROI在特征维度[0319]采用至少一组掩码动态参数，对N个掩码ROI中的每个掩码ROI在特征维度上进行[0320]基于N个增强包围框ROI，通过实例分割网络所包括的类别判别网络获取N个第一[0321]基于N个增强包围框ROI，通过实例分割网络所包括的边框回归网络获取N个第一[0322]基于N个增强包围框ROI，通过实例分割网络所包括的嵌入向量网络获取N个第一[0323]基于N个增强掩码ROI，通过实例分割网络所包括的掩码生成网络获取N个第一实从N个第一检测结果中筛选出类别概率值最大的前K个第一检测结果，并将K个第一检测结[0331]确定模块220，具体用于根据每个第一检测结果所包括的第一实例嵌入向量以及[0332]根据每个第一检测结果所包括的第一实例包围框以及每个第二检测结果所包括[0333]根据每个第一检测结果所包括的第一类别概率值以及每个第二检测结果所包括[0338]若K个映射关

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113822134B 一种基于视频的实例跟踪方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

CN113822134B 一种基于视频的实例跟踪方法、装置、设备及存储介质 （腾讯科技（深圳）有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113822134B 一种基于视频的实例跟踪方法、装置、设备及存储介质（腾讯科技（深圳）有限公司）