版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ChristophFeichtenhofer等.S页.Cross-AttentionMulti-ScalTransformerforImageClassification..2021,第1-12页.基于双通道交叉注意力机制的打架识别方本发明公开了基于双通道交叉注意力机制Transformer编码器提取图像序列时空编码特明通过双通道Transformer模型与交叉注意力模2步骤三,快慢通道Transformer编码器基于分开时空注意力机制获取得到两路图像序步骤四,通过交叉注意力模块融合所述两路图像2.如权利要求1所述的基于双通道交叉注意力机制的,其中p=1,…,Q表示图像块空间位置索引表示图像帧数索引;通过可学习矩阵将输入线性映射为维向量,表示快通道预处3(2.3)在步骤(2.2)输出嵌入向量及的首位置添加可学习向量,并分别输入快慢通道的Transformer编码器。3.如权利要求2所述的基于双通道交叉注意力机制(3.1)将输入进行层归一化及线性映射后分别计算快慢通道的Query、Key及Value向分别表示第i个基本模块第a个头Query、Key及Value向量,通过层归一化及线性时t表示为当为快通道时t表示为表示注意力头索引,A表示多头注意力模块中多头个数,、及分别表示第i个基本模块第a个头Query、Key及Value向量对应的可44.如权利要求3所述的基于双通道交叉注意力机制的TransD为步骤二输出嵌入向量的维度,在慢通道时在快通道时55.如权利要求3所述的基于双通道交叉注意力机制示矩阵中除外的其他部分,同理由慢通道输出z4)可得到慢通道CLStoken和通过线性映射函数将快通道维度变化为与慢通道维度一致,并与慢通道patchtoken连接形成新的向量,其中为快通量,并经过步骤(3.2)所述方法,获取第个交叉注意力模块编码特征图输出表示为,通过线性映射函数将通道维数还原,并与快通道的patchtoken连接形成输出,并送入下一个多帧率transformer编码器,66.如权利要求3所述的基于双通道交叉注意力机制的Tr多个处理器,用于实现权利要求1-6中任一项所述的基于双通道交叉注意力机制的7[0003]现有基于视频的打架行为识别方法大多由卷积神经网络来实8入快慢通道,在快慢通道采用基于分开时空注意力机制的Transformer编码器提取时空特像进行预处理后分别送入快慢通道的Tran[0012]步骤三,快慢通道Transformer编码器基于分开时空注意力机制获取得到两路图,t>u,,其中p=1,…,Q表示图像块空间位置索引,9通过可学习矩阵将输入线性映射为维向量,表示快通道预处,并分别输入快慢通道的Transformer编码器。及分别表示第i个基本模块第a个头Query、Key及Value向量,通过层归一化及线通道时t表示为当为快通道时t表示为表示注意力头索引,A表示多头注意力模块中多头个数,、及分别表示第i个基本模块第a个头Query、Key及Value向量对应的可[0031]其中SM()表示softmax激活函数,表示每个注意力头输入的维度,D为步骤二输出嵌入向量的维度,在慢通道时在快通道时表示矩阵中除外的其他部分,同理由慢通道输出Z4)可得到[0040]通过线性映射函数将快通道维度变化为与慢通道维度一致,并与慢通道patch,并送入下一个多帧率transformer编码器,[0049]基于双通道交叉注意力机制的Transformer打架识别装置,包括一个或多个处理特征的CLStoken和另一通道的patchtoken交叉融合,快速且有效的融合双通道时空特[0055]图1是本发明的所述的一种基于交叉注意力机制的双流Transformer打架识别方[0056]图2是本发明所述的一种基于交叉注意力机制的双流Transformer打架识别方法[0059]图5是本发明一种基于双通道交叉注意力机制的Transformer打架识别装置的结选CCTV-Fights数据集或标注独立采集获得视频数据得到训练集及测试集;将训练集和测[0062]如图2所示,本发明方法采用个多帧率Transformer编码器,每个多帧率Transformer编码器有快慢两路输入:和,处理低帧率视频数据,和,并分别经过各自通道基于分开时空注意力机制的Transformer编码器获序列帧数为,快通道设置较小的时间步长α,快通道输入图像序列帧数为。本发明实施例设原始视频帧数T=32则快慢通道[0068]将每帧图像分割为相互不重叠的Q块,设每块图像块大小为PXP,则,,其中p=1,…,Q表示图像块空间位置索引,表示慢通道预处理后输出向量维度。同理对快通道输入做相同预 将输入线性映射为维向量,表示快通道预处理后[0071]如图3所示为快慢通道基于分开时空自注意力机制的Transform[0074](3.1)Query、Key及Value向量计算。将步骤(2.3)输出嵌入矩阵和作为输入,设、及分别表示第i个基本模块第a个头Query、为叙述方便,采用共同的符号表示,当为慢通道时t表示为当为快通道时t表示为表示注意力头索引,A表示多头注[0084]其中SM()表示softmax激活函数,表示每个注意力头输入的D为步骤二输出嵌入向量的维度,在慢通道时在快通道时,。表示第l-1个基本模块输出编码特征图,表示为可个通道的CLStoken与另一个通道的patchtoken进行特征融合;然后,在下一个多帧率Transformer编码器中,将融合了另一个通道patchtoken信息的CLStoken与本通道的patchtoken进行特征融合,以获取更加丰富的视频时空表征特征。快慢通道融合原理相中表示矩阵中除外的其他部分,同理由慢通道输出可得[0096]通过线性映射函数将快通道维度变化为与慢通道维度一致,并与慢通道patchtoken连接形成新的向量,其中为。z),取其CLStoken部分表示为,MLP头预测值与图像真实标签值计算二分类[0107]与前述基于双通道交叉注意力机制的Transformer打架识别方法的实施例相对[0109]本发明基于双通道交叉注意力机制的Transformer打架识别装置的实施例可以应[0110]上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的[0113]所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026环保基层人员面试题目及答案
- 2026会计面试题本及参考答案
- CPU芯片乱序执行引擎优化技改项目可行性研究报告
- 2026年高中生物答辩题目及答案
- 2026年机关财务内控风险排查试题
- 2026年农民工工资支付监管题库(附答案)
- 2026年造价工程师真题及答案
- 办公场地托管合同
- 社会托管养老服务合同
- 医美医院托管协议合同书
- 四年级数学等量关系式的练习题
- MOOC 国际商务-暨南大学 中国大学慕课答案
- 2024年职称英语等级考试综合类(A级)试题及答案
- 2023年嘉兴市招聘警务辅助人员考试真题及答案
- 退费账户确认书
- 人教版小学生必背古诗词(129首完整版)
- CCMD3中国精神障碍分类与诊断标准第3版
- 人教版高中化学必修第二册《第一节认识有机化合物》教学设计
- 钢结构工程施工工法
- YS/T 320-2014锌精矿
- LY/T 2842-2017林业常用药剂合理使用准则(一)
评论
0/150
提交评论