CN115223082B 一种基于时空多尺度Transformer的航拍视频分类方法（重庆邮电大学）

上传人：1*** IP属地：山西上传时间：2026-03-25 格式：DOCX 页数：31 大小：836.36KB 积分：9.6 举报 版权申诉

CN115223082B 一种基于时空多尺度Transformer的航拍视频分类方法（重庆邮电大学）_第2页

CN115223082B 一种基于时空多尺度Transformer的航拍视频分类方法（重庆邮电大学）_第3页

CN115223082B 一种基于时空多尺度Transformer的航拍视频分类方法（重庆邮电大学）_第4页

CN115223082B 一种基于时空多尺度Transformer的航拍视频分类方法（重庆邮电大学）_第5页

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ClassificationwithWindowSemant一种基于时空多尺度Transformer的航拍视涉及一种基于时空多尺度Transformer的航拍视特征偏移模块和池化多头自注意力模块的多尺2将预处理后的航拍视频数据输入到训练好的基于多尺度Transformer的航拍视频识别其特征在于，基于多尺度Transformer的航拍视频识别模型包括将2Dtransformer网器位于2Dtransformer网络尾部，所述特征提取模块和所述空洞时间特征提取模块ETM位于2Dtransformer网络中部，且所述空洞时间特征提取模块ETM插入特征提取模块与全连计算空洞时序自注意力的过程包括在CLStoken序列左右拼2.根据权利要求1所述的一种基于时空多尺度Tran3.根据权利要求1所述的一种基于时空多尺度Tra3息序列拼接视频分类特征构成长度为T+1的CLStoken序列，并将CLStoken序列输入至空4.根据权利要求3所述的一种基于时空多尺度TransformS31：将带有分类标记CLStoken的视频帧序列构成输入序列输入至特征偏移模块FSS32：将偏移后的输入序列输入至池化多头自注意力模块PMHA或标准多头自注意力模5.根据权利要求4所述的一种基于时空多尺度Tra一分类标记矩阵cls进行降维操作得到第二分类标记矩阵cls,，设置维度与第二分类标记和第二部分的通道沿着时间维度方向相反进行偏移，将由于偏移导致分类标记CLStoken6.根据权利要求4所述的一种基于时空多尺度Transf列的分类标记CLStoken；再对剥离分类信息后的序列和各个张量QKV进行最大池化操作；维度上得到包含分类标记CLStoken的多尺度时空7.根据权利要求3所述的一种基于时空多尺度TraC=Max(fc(cls'))45[0009]将预处理后的航拍视频数据输入到训练好的基于多尺度Transformer的航拍视频[0010]基于多尺度Transformer的航拍视频识别模型包括将2Dtransformer网络作为主6头自注意力模块PMHA或者标准多头自注意力模块MHA；其中一个特征偏移模块FS位于该层编码块的头部，另一个特征偏移模块FS插入在多层感知器MLP与池化多头自注意力模块PMHA或者与标准多头自注意力模块MHA之间，且池化多头自注意力模块PMHA少于标准多头自注意力模块MHA；所述预编码模块位于2Dtransformer网络头部，所述分类器位于2Dtransformer网络尾部，所述特征提取模块和所述空洞时序自注意力模块位于2DFS模块插入每个编码块中；将原本网络中的部分多头自注意力模块MHA替换为池化多头自重关注高分辨力下图像的低级视觉信息，后期着重关注低分辨率下图像的深层语言信息，入序列。用窗口自注意力既减少了计算复杂度，同时直接避免无关token的注意力分配，提升准确7[0024]图2是本发明实施例提供了的一种基于时空多尺度Transformer的航拍视频分类视频片段以固定频率提取视频帧，生成长度为T的视频帧序列的同时调整视频帧分辨率大Transformer的航拍视频识别模型训练一次所依据的样本视频，样本视频的数量可以为一8[0032]本发明实施例中的航拍视频数据的获取方式不加以限定，自行获取视频的方式[0033]图3为本发明基于时空多尺度Transformer网络结构示意图，基于时空多尺度力模块PMHA或者标准多头自注意力模块池化多头自注意力模块PMHA少于标准多头自注意力模块MHA，也即是池化多头自注意力模视频的特点；所述预编码模块位于2Dtransformer网络头部，所述分类器位于2Dtransformer网络尾部，所述特征提取模块和所述空洞时序自注意力模块位于2D9类信息序列拼接视频分类特征构成长度为T+1的CLStoken序列，并将CLStoken序列输入[0048]步骤S3中，采用多尺度时空特征提取模块对输入的带有分类标记CLStoken的视[0050]S32：将偏移后的输入序列输入至池化多头自注意力模块PMHA或标准多头自注意力模块MHA中，通过计算池化多头自注意力或标准多头自注意力得到不同尺度下的自注意性的输入序列的维度变换关系引入非线性映[0055]然后将通过预编码模块的序列输入至第一个编码块结构，首先提取输入序列中三部分的通道保持不变，通过赋值得到偏移后的分类标记CLStoken所对应的第三分类标个与cls,相同大小的且初始时为全零矩阵的第三分类标记矩阵S，通过对cls,的偏移，将stage拥有不同的分辨率和通道数，在每个stage第一个编码块中使用池化多头自注意力[0062]将偏移后的序列根据编码块先通过LayerNormalization进行归一化，然后根据在编码块的层级判断计算池化多头自注意力PMHA模块或自注意力MHA模块，这里主要说明[0063]对通过偏移模块FS的输出序列进行线性映射得到查询张量Q、[0067]X⃞=cat(p(x;),cls)Q=cat(p(Q'),cls)[0068]K"=cat(p(k"),cls)V"=cat(p(v"),cls)[0076]最后一层编码块的输出为长度为t的CLStoken序列xeRTX768,将序列X输入空可行性，且初始输入的Xj为多尺度时空特征提取模块的输出序列即CLStoken序列xeRTX768。clsieR1x768,将最后一层编码块输出的clsj视频分类特征输入一个全连接层便可得到

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN115223082B 一种基于时空多尺度Transformer的航拍视频分类方法（重庆邮电大学）

文档简介

温馨提示

最新文档

评论

CN115223082B 一种基于时空多尺度Transformer的航拍视频分类方法 （重庆邮电大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN115223082B 一种基于时空多尺度Transformer的航拍视频分类方法（重庆邮电大学）