CN116109984B 基于峰值区域自适应扩散的视频时空动作检测方法（杭州电子科技大学）

上传人：1*** IP属地：山西上传时间：2026-04-07 格式：DOCX 页数：28 大小：1.36MB 积分：10.2 举报 版权申诉

CN116109984B 基于峰值区域自适应扩散的视频时空动作检测方法（杭州电子科技大学）_第2页

CN116109984B 基于峰值区域自适应扩散的视频时空动作检测方法（杭州电子科技大学）_第3页

CN116109984B 基于峰值区域自适应扩散的视频时空动作检测方法（杭州电子科技大学）_第4页

CN116109984B 基于峰值区域自适应扩散的视频时空动作检测方法（杭州电子科技大学）_第5页

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于峰值区域自适应扩散的视频时空动作本发明公开了基于峰值区域自适应扩散的发明方法不仅能够目标大小自适应调节峰值区还能通过格式塔原则均值扩散模块使用稳定的2(1_2)将视频帧序列划分为T个视频片段单个视(1_3)利用更快的区域卷积神经网络对视频片段的中间帧进行目标检测，获取初始目第i个目标的边界框，分别表示视频片段Vt中间横坐标与纵坐标，分别表示视频片段Vt中间帧第i目标边界框的右下角的横坐个目标边界框的中心位置坐标第i个目标的目标边界框尺寸根据o-(o,-ssww)计算高斯核方斯值获得目标i的高斯热图分布以及其他目标的高斯热图分布，通过获得第t个视频片段第N(2_2)获得峰值区域特征⊙表示对应元素相乘3表示取最大值；然后对相邻帧计算余弦相似度score＝cossim(Ft,N,peak·Ft,N+1,can)，是通过滑动窗口的方式提取区域特征；选择相似度最高的前top_k个且分别表示视频片段Vt的第N+1帧第i个峰值区域的左上角的横坐标与纵坐标，分别表示视频片段Vt的第N+1帧第i目标峰值区域的右下角的横坐标与纵坐标，计算当前帧峰值区域中心位置坐标由此得到当前片段所有帧的峰(2_3)利用真实结果目标边界框中心位置和峰值区域中心位置，计算定位偏移损失其中表示视频片段Vt第n帧第i个目标的真实目标边步骤(5)利用随机梯度下降算法优化由峰值区域挖掘模块、格式塔均值扩散模块和通动作相关联目标在不同时刻的目标边界框和动作类2.如权利要求1所述的基于峰值区域自适应扩散的视频时空动作检测方法，其特征在(3_1)构建由目标跟踪子模块和空间梯度子模块组成格式塔均值扩散模块，目标跟踪子模块使用颜色概率分布对目标定位进行粗粒度判别，空间梯度子模块用于提取纹理特征，以细化目标定位；将原始视频帧序列映射到HSV颜色空间，按照[Hue,Saturation,像素值用其颜色出现的概率对替换以生成颜色概率分布图，获取目标像素的概率mj表示颜色j的像素点数量，获得颜色分布矩阵zeR"";由此得到当前帧纹理矩阵weR"";按照获得的峰值区域元组和峰值区域中心位置坐标4特征矩阵将闭环内的网格进行聚合；对不同闭环内网格分布间的间距通过进行度量，分子表示两个网格间的最小曼哈顿距离，则输出当前时刻所有目标的目标边界框元组0<δ2(3_4)计算模型的距离交并比损失函数预测框与真实目标边界框的交并比为真实目示，表示能够同时包围真实边界框和预测边界框的最小边界框的左上角的坐标，表示能够同时包围真3.如权利要求2所述的基于峰值区域自适应扩散的视频时空动作检测方法，其特征在(4_1)构建由空间最大池化和时序最大池化构成的通道池化模块，基于目标边界框元组对不同时刻下的视频帧特征图使用双线性插值操作编码目标特征并进行通Conv2D3(将拼接特征输入二维卷积层后执行空间全局池化操作，得到目标分类得分p;=GAP(comv2D,(concat(x,⃞)))eR",GAP(·)表示空间维度全局平均池化；5作类别为u的输出概率为Mt为视频片段Vt中的目标数量；计算交叉熵损失函4.如权利要求3所述的基于峰值区域自适应扩散的视频时空动作检测方法，其特征在(5_1)构建由峰值区域挖掘模块、格式塔均值扩散模块和通道池化模块组成的时空动(5_2)对于新的视频通过采样得到视频帧序列和左上角的横坐标与纵坐标，分别表示第t/个视频片段第n/帧第i/目标边界框6[0003]时空动作检测方法主要分为单帧输入(Frame_level)和多帧输入(Tubelet_Tubelet_level时空动作检测主要采用两阶段范式，即对运动轨迹的描述划分为粗粒度阶[0004]上述时空动作检测方法的不足主要表现在两个方面：(1)采用多帧输入方式虽然7[0009]步骤(3)建立格式塔均值扩散模块，输入为原始视频帧序列和峰值区域中心位置[0011]步骤(5)利用随机梯度下降算法优化由峰值区域挖掘模块、格式塔均值扩散模块有与动作相关联目标在不同时刻的目标边界框[0013](1_1)以每秒N帧的采样率对视频采样，5≤N≤10，获得含T′帧的帧序列集合[0014](1_2)将视频帧序列划分为T个视频片段D=(V,IV,eR2⃞",t=1,2,…,T,单[0015](1_3)利用更快的区域卷积神经网络对视频片段的中间帧进行目标检测，获取初始目标边界框元组集合中间帧即的横坐标与纵坐标，分别表示视频片段Vt中间帧第i目标边界框的右下角的横坐标与纵坐标；将视频片段Vt的视频帧输入至二维卷积神经网络，获取视频帧特征第i个目标边界框的中心位置坐标第i个8<1，计算坐标(x,y)下相对于第i个目标的高斯值类似地，获得目标i的高斯热图分布以及其他目标的高斯热图分布，通过[0019](2_2)获得峰值区域特征⊙表示对是通过滑动窗口的方式提取区域特征；选择相似度最高的前top_k个且分别表示视频片段Vt的第N+1帧第i个峰值区域的左上角的横坐标与纵坐标，分别表示视频片段Vt的第N+1帧第i目标峰值区域的右下角的横坐标与纵坐标，以此计算当前帧峰值区域中心位置坐标由此得到当前片段所有帧的峰[0020](2_3)利用真实结果目标边界框中心位置和峰值区域中心位置，计算定位偏移损失其中表示视频片段Vt第n帧第i个目标的真实目标[0022](3_1)构建由目标跟踪子模块和空间梯度子模块组成格式塔均值扩散模块，目标特征，以细化目标定位。将原始视频帧序列映射到HS像素值用其颜色出现的概率对替换以生成颜色概率分布图，获取目标像素的概率9[0024]使用预设的空间梯度算子MeRS获取当前帧纹理矩阵weR"":按预设阈值δ2则输出当前时刻所有目标的目标边界框边界框与真实目标边界框的交并比为真实目标边界框，ww)为目标边界框的左上角坐标，为目标边界框的右下角坐标表示，表示能够同时包围真实边界框和预测边界框的最小边界框的左上角的坐标，表示能够同时包[0028](4_1)构建由空间最大池化和时序最大池化构成的通道池化模块，基于目标边界框元组对不同时刻下的视频帧特征图使用双线性插值操作编码目标特征并进Conv2D3([0029](4_2)对目标上下文特征和视频片段时空特征图沿通道维度进行p;=GAP((comv2D,(concat(x,A))))eR",GAP(·)表示空间维度全局平均池化；于动作类别为u的输出概率为Mt为视频片段Vt中的目标数量；计算交叉熵损[0031](4_4)对交并比度量和动作类别一致的视频片段进行拼接，获[0033](5_1)构建由峰值区域挖掘模块、格式塔均值扩散模块和通道池化模块组成的时U'=i,Ii,eR"⃞",和视频片段及其当前片段动作类别下几个特点：(1)设计的自顶向下高斯核调整算法能根据目标尺寸自适应地改变挖掘目标[0037]本发明具有的峰值区域挖掘模块和格式塔均值扩散模块能很好的保证模型的适[0043](1_1)以每秒N帧的采样率对视频采样，5≤N≤10，获得含T′帧的帧序列集合[0044](1_2)将视频帧序列划分为T个视频片段单[0045](1_3)利用更快的区域卷积神经网络对视频片段的中间帧进行目标检测，获取初始目标边界框元组集合中间帧即的横坐标与纵坐标，分别表示视频片段Vt中间帧第i目标边界框的坐标与纵坐标；将视频片段Vt的视频帧输入至二维卷积神经网络，获取视频帧特征第i个目标边界框的中心位置坐标第i个及其他目标的高斯热图分布，通过获得第t个视频片段[0049](2_2)获得峰值区域特征⊙表示对应元素是通过滑动窗口的方式提取区域特征；选择相似度最高的前top_k个且前帧峰值区域元组分别表示视频片段Vt的第N+1帧第i个峰值区域的左上角的横坐标与纵坐标，分别表示视频片段位置坐标由此得到当前片段所[0050](2_3)利用真实结果目标边界框中心位置和峰值区域中心位置，计算定位偏移损失其中表示视频片段Vt第n帧第i个目标的真实目标[0051]步骤(3)建立格式塔均值扩散模块，输入为原始视频帧序列和峰值区域中心位置[0052](3_1)构建由目标跟踪子模块和空间梯度子模块组成格式塔均值扩散模块，目标特征，以细化目标定位。将原始视频帧序列映射到HS像素值用其颜色出现的概率对替换以生成颜色概率分布图，获取目标像素的概率z"由此[0054]使用预设的空间梯度算子MeRS获取当前帧纹理矩阵按照获得的峰若小于预设阈值δ2则输出当前时刻所有目标的目标边界框元组0<δ2＜1，本实施例δ2=边界框与真实目标边界框的交并比为真实目标边界框，ww)为目标边界框的左上角坐标，为目标标表示，表示能够同时包围真实边界框和预测边界[0058](4_1)构建由空间最大池化和时序最大池化构成的通道池化模块，基于目标边界框元组对不同时刻下的视频帧特征图使用双线性插值操作编码目标特征deRS",并进Conv2D3([0059](4_2)对目标上下文特征和视频片段时空特征图X,eR""沿通道维度进行p;-GAP((com2D,(concat(x,])))eR",GAP(·)表示空间维度全局平均池化；[0060](4_3)利用Softmax函数对目标分类得分p;进行处理，得到视频片段Vt第i个目标属于动作类别为u的输出概率为Mt

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN116109984B 基于峰值区域自适应扩散的视频时空动作检测方法（杭州电子科技大学）

文档简介

温馨提示

最新文档

评论

CN116109984B 基于峰值区域自适应扩散的视频时空动作检测方法 （杭州电子科技大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN116109984B 基于峰值区域自适应扩散的视频时空动作检测方法（杭州电子科技大学）