CN115719510B 基于多模态融合及隐式交互关系学习的群组行为识别方法（哈尔滨工业大学）

上传人：1*** IP属地：山西上传时间：2026-04-02 格式：DOCX 页数：23 大小：514.95KB 积分：9.6 举报 版权申诉

CN115719510B 基于多模态融合及隐式交互关系学习的群组行为识别方法（哈尔滨工业大学）_第2页

CN115719510B 基于多模态融合及隐式交互关系学习的群组行为识别方法（哈尔滨工业大学）_第3页

CN115719510B 基于多模态融合及隐式交互关系学习的群组行为识别方法（哈尔滨工业大学）_第4页

CN115719510B 基于多模态融合及隐式交互关系学习的群组行为识别方法（哈尔滨工业大学）_第5页

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于多模态融合及隐式交互关系学习的群本发明公开一种基于多模态融合及隐式交行为识别领域具有较高的实际应用价值和推广2(1)静态分支主干网络提取人物静态姿态特征：以视频帧中围绕人物的边界框作为姿列帧转换为连续的光流帧，然后通过膨胀的3D卷积网络处理堆叠的帧序列，并加入ROIAlign层将坐标投影到框架的特征图上，进而提取输入帧中每个人物边界框的光流特步骤C、成员交互关系学习：利用步骤B得到的融合2.根据权利要求1所述的基于多模态融合及隐式交互关系学习的群组行为识别方法，3.根据权利要求2所述的基于多模态融合及隐式交互关系学习的群组行为识别方法，3通过解码变换部分将融合的潜在特征重建最初的连接向量，得到计算与之间的损失Ftr来指导网络迭代优化，使得学习到的潜在特征表示最能代表各模态显著信4.根据权利要求3所述的基于多模态融合及隐式交互关系学习的群组行为识别方法，5.根据权利要求1所述的基于多模态融合及隐式交互关系学习的群组行为识别方法，第一阶段、通过查询Q与键值集合K匹配来计算每个人物与其他参与者关联度的的得第二阶段、将查询Q与K点积计算后得到的每个人物与其他参与第三阶段、将第二阶段归一化得到的相似度向量分别与V相乘后得到最后的加权和注6.根据权利要求1所述的基于多模态融合及隐式交互关系学习的群组行为识别方法，为中心的T帧，使用从最终卷积层提取的深层时空特征映射作为描述整个视频剪辑的丰富7.根据权利要求1所述的基于多模态融合及隐式交互关系学习的群组行为识别方法，在识别分类时设置两个分类器分别为生成群体行为类别得分4[0003]SinaMokhtarzadehAzar等人发表的“AMulti_StreamConvolutionalNeural融合预测最终的群体行为。另外“EmpoweringRelationalNetworkbySelf_Attention会导致多种模态特征信息冗余的问题；文献2虽然在成员特征提取阶段通过级联方式将姿结构立方体进行多模态融合从而组合人物动作特征，使得各模态特征得以相互补充学习，[0004]近几年，在成员交互关系推理部分，Wu等人发表的“Learningactorrelationgraphsforgroupactivityrecognition.”，以及Azar等人发表的“Convolutional5[0017](1)将人物级别特征提取模块得到的人物静态姿态特征和动态光流特征通过之间的损失Ftr来指导网络迭代优化，使得学习到的潜在特征表示最能代表各模态显著6[0027]第三阶段、将二阶段归一化得到的相似度向量分别与V相乘后得到最后的加权和注释帧为中心的T帧，使用从最终卷积层提取的深层时空特征映射作为描述整个视频剪辑[0030]在识别分类时设置两个分类器分别为生成群体行为类别得分和个体动作类别得[0032](1)静态分支主干网络提取人物静态姿态特征：以视频帧中围绕人物的边界框作入序列帧转换为连续的光流帧，然后通过膨胀的3D卷积网络处理堆叠的帧序列，并加入ROIAlign层将坐标投影到框架的特征图上，进而提取输入帧中每个人物边界框的光流特识别精度分别提高了4.6％和3.7%;7例对本发明做进一步说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明，强化显著特征，得到融合后既包含光流又含有精细姿态各模态最具代表性的特征信息表8助人物级别特征共同进行群组行为识别。[0052]本实施例设计人物级别特征提取模块，采用双流特征提取的方式丰富个体的特[0056]研究表明，具有足够可用数据进行训练的3DCNN可以构建用于动作识别的强时空ROIAlign层将坐标投影到框架的特征图上，进而提取输入帧中每个人物边界框的光流特[0057]本实施例中使用2D姿态网络和3DCNN主干网络分别对连续视频帧中的人物特征进[0059]现有的大多数融合技术，如级联和TFN，都涉及构造联合多模态表示的确定性操[0061]如图2所示，自适应多模态特征融合模块通过最大化多模态输入之间的相关性来9[0063](1)将人物级别特征提取模块得到的人物静态姿态特征和动态光流特征通过捉可以代表输入数据的最重要的因素；本实施通过解码变换部分F将融合的潜在特征重[0069]F变换中首先输入潜在特征向量经过Linear线性变换将维度增加(encoder)和解码(decode[0076]在成员交互关系学习模块中，将Transformer编码器架构应用于视频中具有挑战[0078]首先第一阶段通过查询Q与键值集合K匹配来计算每个人物与其他参与者关联度[0081]在第二阶段将Q与K点积计算后得到的每个人物与其他参与者关联度的结果做[0082]第三阶段将二阶段Softmax得到的相似度向量分别与V相乘后得到最后的加权和注意力矩阵，该矩阵可以看作经过自注意力机制隐式学习到的组群成员之间的交互关系，更适合于这些特征的细化和聚合。Transformer编码器可以通过si的位置编码隐式的利用人物之间的空间关系，仅依靠自我注意机制缓解了显式建模这一问题。模型使用中心点(xi,yi)表示各个人物特征si的每个边界框bi，并使用与文献Attentionisallyouneed中相同的函数PE(PositionEncoding)对中心题，在不需要任何显式空间和时间建模的前提下，提出了隐式交互关系推理模块，利用Transformer编码器中将单个序列的不同位置关联起来以计算序列表示的自注意力机制，动静态双流人物特征提取时，针对数据集中的人物边界框通过roialign只关注人物特征，类似抠图，全局特征是包含背景信息的整体数据特征)，本实施例采用Kinetics预训练的到一个具有多个神经元和tanh激活函数的完全连接层，该层的输出与

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN115719510B 基于多模态融合及隐式交互关系学习的群组行为识别方法（哈尔滨工业大学）

文档简介

温馨提示

最新文档

评论

CN115719510B 基于多模态融合及隐式交互关系学习的群组行为识别方法 （哈尔滨工业大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN115719510B 基于多模态融合及隐式交互关系学习的群组行为识别方法（哈尔滨工业大学）