CN113673489B 一种基于级联Transformer的视频群体行为识别方法（之江实验室）

上传人：1*** IP属地：山西上传时间：2026-06-18 格式：DOCX 页数：29 大小：1.14MB 积分：10.2 举报 版权申诉

CN113673489B 一种基于级联Transformer的视频群体行为识别方法（之江实验室）_第2页

CN113673489B 一种基于级联Transformer的视频群体行为识别方法（之江实验室）_第3页

CN113673489B 一种基于级联Transformer的视频群体行为识别方法（之江实验室）_第4页

CN113673489B 一种基于级联Transformer的视频群体行为识别方法（之江实验室）_第5页

已阅读5页，还剩24页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一种基于级联Transformer的视频群体行为其涉及一种基于级联Transformer的视频群体行特征图计算query/key/value，输入群体行为识2步骤一：利用开源打架数据集RWF-2000、网络步骤三：将步骤二预处理后的关键帧图像特征图尺度变换后输入到人体目标检测2.如权利要求1所述的一种基于级联Transformer3.如权利要求1所述的一种基于级联Transforme（2.1）选择3DResNet50深度残差网络为骨干网络，3DRensnet50的Conv2、Conv3、4.如权利要求3所述的一种基于级联Transformer的视频群体3的置信度，目标框回归头由一层前馈神经网络构成并输出目标框在图像上的位置坐标信5.如权利要求4所述的一种基于级联Transforme6.如权利要求4所述的一种基于级联Transformer的（4.1）将步骤三输出的人体目标框按置信度降序排列，选取前k个人体目标框，通过 7.如权利要求6所述的一种基于级联Transform8.如权利要求7所述的一种基于级联Transformer的：前馈神经网络层和dropout层的矩阵进行残差连接，最后再经过一层归一化层得到更新后49.如权利要求1所述的一种基于级联Transformer的视损失由分类头输出的预测值与匹配上的目标框真实值计算得到，所述回归损失由回归头目标框位置预测值与匹配上的目标框真实值计算得到，所述多分类损失Imn_cs由多层感知机层即多分类头的输出预测值与真实标签值计算得到。10.如权利要求1所述的一种基于级联Transformer的视频群体行为识别方法，其特征在于，所述网络模型训练为初始化人体目标检测Transformer，所述人体目标检测Transformer采用DEtectionTransformer即DETR，DETR中使用的是2Dresnet50，通过在5[0001]本发明涉及计算机视觉及深度学习领域，尤其涉及一种基于级联Transformer的[0006]专利CN111178323A公开了首先使用目标检测算法SSD提取视频每帧图像中人体6测Transformer检测人体目标框并提取群体中具有判别性的个体特征，第二级群体行为识别Transformer通过自注意力机制提取单帧空间特征及帧间时序特征，有效融合个体行为[0011]步骤二：输入从步骤一获得的原始视频序列到骨干网络，在骨干网络的卷积层[0018]（2.1）选择3DResNet50深度残差网络为骨干网络，3DRensnet50的Conv2、7图输入到人体目标检测Transformer解码器，经过6层解码器层，人体目标检测Transformer解码器根据图像特征的上下文推理对象之间的关系，并行输出个目标查询向[0021]进一步的，所述人体目标检测Transformer编码器和解码器均采用DEtectioni层第a个头自注意力权重矩：两层前馈神经网络层和dropout层的矩阵进行残差连接，最后再经过一层归一化层得到更i层每个头输出gtor得到新的e，e作为l+18ls类损失lams由分类头输出的预测值与匹配上的目标框真实值计算得到，所述回归损失由回归头目标框位置预测值与匹配上的目标框真实值计算得到，所述多分类损失由多层感知机层即多分类头的输出预测值与真实标签值计算得到。检测Transformer采用DEtectionTransformer即DETR，DETR中使用的是2Dresnet50，通[0038]（2）改进的三维卷积神经网络有效提取时空特征图，结合第一级人体目标检测9征图，结合关键帧图像周围帧特征图计算query/key/value，输入群体行为识别[0049]步骤二和步骤三如图3所示，将原始视频序列经过三维卷积神经网络提取时间和向量经过尺度变换后输入人体目标检测Transformer编码器，通过自注意力机制提取图像[0050]所述人体目标检测Transformer编码器和解码器均采用DEtectionTransformer不进行下采样，仅在空间维度进行下采样，则可获取Conv5层特征图，,位置编码采用二维正弦编码方式。设新特征图矩阵为，像上下文的特征图，其中N表示图像中需要检测的人体目标物数量；在解码阶网络构成并输出目标框在图像上的坐标信息，其中[0058]将步骤三输出的人体目标框按置信度降序排列，选取前k个人体目标框，通过意力权重矩阵和步骤四得到的value矩阵加权求和，求和结果经过dropout层后与原始[0073]其中FFN表示前馈神经网络层。回归损失和多分类损失lre。[0079]根据步骤三构建的分类头输出预测值与匹配上的目标真实值计算二分类损失i[0082]根据步骤三构建的回归头输出目标框位置预测值与匹配上的目标框真实值计算[0086]其中表示第i个目标真实回归框位置，表示与第i个真值匹配上预测回归[0093]使用DETR在COCO上的预训练模型初始化步骤三中的人体目标检测Transformer，骨干网络使用的是3Dresnet50，DETR中使用的是2Dresnet50，通过在时间维度重复2D

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113673489B 一种基于级联Transformer的视频群体行为识别方法（之江实验室）

文档简介

温馨提示

最新文档

评论

CN113673489B 一种基于级联Transformer的视频群体行为识别方法 （之江实验室）

文档简介

温馨提示

最新文档

评论

相关文档

CN113673489B 一种基于级联Transformer的视频群体行为识别方法（之江实验室）