CN120088442B 基于物理规律和骨骼引导的细粒度人体动作生成方法 (西北工业大学)_第1页
CN120088442B 基于物理规律和骨骼引导的细粒度人体动作生成方法 (西北工业大学)_第2页
CN120088442B 基于物理规律和骨骼引导的细粒度人体动作生成方法 (西北工业大学)_第3页
CN120088442B 基于物理规律和骨骼引导的细粒度人体动作生成方法 (西北工业大学)_第4页
CN120088442B 基于物理规律和骨骼引导的细粒度人体动作生成方法 (西北工业大学)_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

(19)国家知识产权局(12)发明专利(65)同一申请的已公布的文献号(73)专利权人西北工业大学地址710072陕西省西安市碑林区友谊西路127号(72)发明人邵典时铭飞白俊强徐晟达陈浩东黄永乐刘黎可(74)专利代理机构西安匠星互智知识产权代理有限公司61291专利代理师陈星审查员何祥鹏(54)发明名称基于物理规律和骨骼引导的细粒度人体动作生成方法本发明提出一种基于物理规律和骨骼引导的细粒度人体动作生成方法,首先以在线方式获取相关动作视频,并从视频中提取二维姿态,作为人体物理结构的先验信息;并通过上下文学习方法实现2D姿态到3D姿态的转变以增强空间感知,得到数据驱动的三维骨架序列Sa;进一步设计了一个物理模块PhysNet,使用欧拉-拉格朗日公式重估计人体动作,时序双向地计算关节加速度,从而产生物理预测的三维姿态S3;之后,将物理估计的三维姿态s与数据驱动的三维骨架序列Sa相融合,并转化成2D热图格式参与3D-UNets实现视频生成。将本发明在3种细粒度动作数据子集上进行测试,FinePhys远超其他视频生成方法,且大量定性分析进一步证明FinePhys421.一种基于物理规律和骨骼引导的细粒度人体动作生成方法,其特征在于:包括以下步骤2:通过上下文学习对步骤1得到的二维骨架序列S²D进行维度提升,得到数据驱动的三维骨架序列;所述上下文学习过程中的参数为需要训练参数;步骤3:基于物理预测对步骤2得到的数据驱动的三维骨架序列.进行优化,得到物理预测三维骨架序列,具体过程为:步骤3.1:对于数据驱动的三维骨,通过编码器分别获取三维骨架序列S3a中的整体序列、前三帧序列和后三帧序列的时间状态序列,并将整体序列的时间状态序列与前三帧序列的时间状态序列融合,得到前向融合序列qf;将整体序列的时间状态序列与后三帧序列的时间状态序列融合,得到逆向融合序列q!;步骤3.2:基于欧拉-拉格朗日方程,对前向融合序列qF进行前向更新,对逆向融合序列qt进行逆向更新,其中前向融合序列的前三帧只进行前向更新,逆向融合序列的后三帧只进行逆向更新,其余各帧取前向更新结果和逆向更新结果的均值;步骤3.3:数据驱动的三维骨架序列,中的各帧经过步骤3.2更新后,通过姿态解码,得到物理预测三维骨架序列步骤4:将步骤2得到的数据驱动的三维骨架序列与步骤3得到的物理预测三维骨架 进行融合,将融合结果映射投影回二维,并编码及微调为用于指导3D-UNet去噪过程的多尺度二维骨骼热图序列;其中融合过程、映射投影过程以及微调过程的参数为需要训练参数;步骤5:将文本描述cin通过预训练好的大语言模型进行规范化处理,得到文本序列C,再对文本序列C进行文本编码,得到文本编码向量T(c),Te·)为预训练好的文本编码模型;将从所述人类动作视频Vin中抽取的长度为T的采样帧序列进行特征提取,得到特征向量Zo,再对特征向量Zo进行加噪处理,得到加噪后的特征向量Zi,其中i表示加噪步数;将加噪后的特征向量Zi、文本编码向量Te(c)以及加噪步数i共同输入结合了步骤4输出的多尺度二维骨骼热图序列的3D-UNet模型;对3D-UNet模型的输出进行解码得到细粒度人体动作2.根据权利要求1所述一种基于物理规律和骨骼引导的细粒度人体动作生成方法,其所述前向更新过程为:将前向融合序列qF输入前向的物理参数估计器,估计得到前向更新的欧拉-拉格朗日方程参数,包括前向更新的广义逆惯性矩阵、前向更新的广义力以及前向更新的3关节约束C;且引入前向更新的噪声参数矩阵N添加到前向更新的广义逆惯性矩阵中,噪声参数矩阵N[也通过前向的物理参数估计器得到;从而根据前向更新的欧拉-拉格朗日得到前向融合序列的二阶导数qE,继而利用二阶中心差分公式q₁+1=qt·(dt)²+2q₁-q所述逆向更新过程为:将逆向融合序列q输入逆向的物理参数估计器,估计得到逆向更新的欧拉-拉格朗日方程参数,包括逆向更新的广义逆惯性矩阵、逆向更新的广义力以及逆向更新的关节约束C!;引入逆向更新的噪声参数矩阵N{添加到逆向更新的广义逆参数矩阵N也通过逆向的物理参数估计器得到;从而根据逆向更新的欧拉-拉格朗日方得到逆向融合序列的二阶导数q,继而利用二阶中心差分公式3.根据权利要求2所述一种基于物理规律和骨骼引导的细粒度人体动作生成方法,其首先训练步骤2,步骤3.2以及步骤4融合过程中的需要训练参数,训练完成后冻结参数;采用的样本数据为标准人体三维姿态数据集,步骤4融合后得到的三维序列表示为关节三维坐标,S3表示本阶段训练样本数据中的第t帧的第j个人体关节的真实三维坐4标,Lnoise=Z=1INtIy,其中前三帧的Nt采用NE,后三帧的对应NE与N!的均值;数据中的第t帧的第j个人体关节的真实二维坐标;4.根据权利要求1所述一种基于物理规律和骨骼引导的细粒度人体动作生成方法,其步骤2.1:利用骨架数据集以及步骤1得到的二维骨架序列S²D,构建提示词P={P²D,p³D}和查询词Q={S²D,P³D};其中P2D为从所述骨架数据集中随机选择的二5.根据权利要求1所述一种基于物理规律和骨骼引导的细粒度人体动作生成方法,其特征在于:步骤2.2中,维度转变通过时空模块组成的双向Transformer实现,所述双向6.根据权利要求2所述一种基于物理规律和骨骼引导的细粒度人体动作生成方法,其7.根据权利要求1所述一种基于物理规律和骨骼引导的细粒度人体动作生成方法,其多尺度二维骨骼热图序列的LoRA模块,用两个低秩矩阵A和B更新得到下采样和上采样过5程中的权重矩阵W=W₀+ABT,其中W₀为初始权重矩阵;两个低秩矩阵A和B为需要训练参数。8.一种电子设备,包括处理器、存储器,所述存储器用于存储一个或多个程序;其特征在于:当所述一个或多个程序被所述处理器执行时,实现权利要求1~7任一所述方法。9.一种可读存储介质,存储有计算机程序,其特征在于:当计算机程序被处理器执行时,实现权利要求1~7任一所述方法。6技术领域[0001]本发明涉及自然语言处理和计算机视觉技术领域,具体为一种基于物理规律和骨骼引导的细粒度人体动作生成方法。背景技术[0002]在生成模型技术领域,以扩散模型为代表的突破性进展显著推动了人体动作视频生成技术的发展。例如公开号为CN119399332A,提出了一种基于扩散模型和细粒度文本描述的人体动作生成方法,可以生成超出原始数据集范围的零样本人体动作,具有良好的泛化能力。[0003]尽管如此,视频时序建模中涉及的核心要素——包括相机运动轨迹控制、动态背景适配以及人物动作连贯性——仍然构成重要的技术挑战。这一挑战在人体动作生成任务中尤为突出,具体表现为生成视频常出现动作不连贯和视觉失真现象。[0004]从空间维度分析,尽管人体在物理世界中具有严格的解剖学结构约束,但现有模型在处理过程中往往会产生违背人体工学的异常结构特征。这种空间一致性缺失主要源于神经网络对复杂人体拓扑结构的表征能力不足。在时间动态层面,符合运动学原理的肢体轨迹生成仍是亟待解决的难题。最新研究表明,即使是当前最先进的生成模型,也难以在生成过程中有效学习并应用包括牛顿运动定律在内的基本物理规律,这直接导致生成动作在力学合理性方面存在明显缺陷。[0005]上述这些问题导致现有方法在生成具有剧烈人体形变且时序变化显著的细粒度人体动作时面临双重维度挑战:在空间维度需应对剧烈形变下的拓扑结构保持,在时间维度需满足复杂运动轨迹的动力学约束。如在产生“转体180°交换腿跳方法普遍存在生成质量失稳现象,包括严重的时间不一致性、明显的肢体扭曲和人体结构异常,如图1所示,说明现有方法所设计的模型尚未建立有效的物理规律内化机制。发明内容[0006]针对现有技术存在的问题,本发明提出一种基于物理规律和骨骼引导的细粒度人体动作生成方法,简称FinePhys,能够完成剧烈人体形变且时序变化显著的人体动作生成任务,如图1所示,FinePhys在生成物理上可信的细粒度人类动作方面表现出了卓越的性[0007]本发明的技术方案为:[0008]一种基于物理规律和骨骼引导的细粒度人体动作生成方法,包括以下步骤:[0009]步骤1:获取一段对希望输出的细粒度人类动作视频的文本描述cin;根据文本描述cin,获得一段与文本描述相近的人类动作视频vin,从所述人类动作视频vin中抽取得到长度为T的采样帧序列,利用动作检测器对所述采样帧序列进行二维姿势估计产生二维骨架序列S²D;[0010]步骤2:通过上下文学习对步骤1得到的二维骨架序列S²D进行维度提升,得到数据7[0012]步骤3.1:对于数据驱动的三维骨架序列,通过编码器分别获取三维骨架序列中的整体序列、前三帧序列和后三帧序列的时间状态序列,并将整体序列的时间状态序列与前三帧序列的时间状态序列融合,得到前向融合序列qE;将整体序列的时间状态序[0015]将前向融合序列qE输入前向的物理参数估计新的关节约束C;且引入前向更新的噪声参数矩阵N添加到前向更新的广义逆惯性矩阵[0022]将逆向融合序列q输入逆向的物理参数估计器,估计得到逆向更新的欧拉-拉格朗日方程参数,包括逆向更新的广义逆惯性矩阵(ME)⁻¹、逆向更新的广义力以及逆向更新的关节约束C!;引入逆向更新的噪声参数矩阵N添加到逆向更新的广义逆惯性矩阵中,噪声参数矩阵N也通过逆向的物理参数估计器得到;从而根据逆向更新的欧拉-拉格朗日8[0031]步骤5:将文本描述Cin通过预训练好的大语言模型进行规范化处理,得到文本序加噪后的特征向量Zi、文本编码向量T(c)以及加噪步数共同输入结合了步骤4输出的多参数;采用的样本数据为标准人体三维姿态数据集,步骤4融合后得到的三维序列表示为坐标,Lnoise=Zt=1INtly,其中前三帧的Nt采用,后三帧的Nt采用N,其余帧的采的样本数据为细粒度人体动作视频,设步骤4微调后得到的多尺度二维骨骼热图序列为P(S³D),则训练所采用的损失函数为:[0039]最后对步骤5中的需要训练参数进行训练,采用的样本数据为细粒度人体动作视9[0043]步骤2.1:利用骨架数据集以及步骤1得到的二维骨架序列S²D,构建提示词P={P²D,P³D}和查询词Q={S²D,P³D};其中P2D为从所述骨架数据集中随机选择的二维骨架序列,P³D为所述骨架数据集中与P2D对应的三维骨架序列;P3D为平均三维骨架序列,通过计算从所述骨架数据集中所选取的大量三维骨架序列的平均值得到;[0045]进一步的,步骤2.2中,维度转变通过时空模块组成的双向Tr双向Transformer中的参数为需要训练参数。[0046]进一步的,步骤3.2中,前向的物理参数估计器以及逆向的物理参数估计器分别都是通过四个多层感知器组成,其中广义力和关节约束为向量,各自分别通过一个多层感知器得到;广义逆惯性矩阵通过两步得到,第一步为通过第三个多层感知器得到上三角矩阵,然后对上三角矩阵进行对称操作,得到一个对称矩阵,第二步为对所述对称矩阵添加噪声参数矩阵得到广义逆惯性矩阵;噪声参数矩阵通过两步得到,第一步是通过第四个多层感知器得到方差为1的高斯噪声向量,第二步是根据设定的维度将高斯噪声向量叠加,并在每个高斯噪声向量中添加随机噪声,得到噪声参数矩阵。[0047]进一步的,步骤5中,在3D-UNet模型的下采样和上采样过程中,均通过结合了步骤4得到的多尺度二维骨骼热图序列的LoRA模块,用两个低秩矩阵A和B更新得到下采样和上采样过程中的权重矩阵W=W₀+ABT,其中W₀为初始权重矩阵;两个低秩矩阵A和B为需要训练参数。[0048]此外,本发明还提出一种电子设备及可读存储介质:[0050]当所述一个或多个程序被所述处理器执行时,实现上述方法。[0051]一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现上述方法。[0052]有益效果:[0053]本发明提出的FinePhys方法架构首先以在线方式获取相关动作视频,并从视频中提取二维姿态,作为人体物理结构的先验信息;并通过上下文学习方法实现2D姿态到3D姿态的转变以增强空间感知,得到数据驱动的三维骨架序列;进一步设计了一个物理模块PhysNet,使用欧拉-拉格朗日公式重估计人体动作,时序双向地计算关节加速度,从而产生物理预测的三维姿态;之后,将物理估计的三维姿态与数据驱动的三维骨架序列相融合,并转化成2D热图格式参与3D-UNets实现视频生成。将本发明在3种细粒度动作数据子集上进行测试,FinePhys远超其他视频生成方法,且大量定性分析进一步证明FinePhys能够生成更自然且合理的细粒度人体动作。[0054]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。附图说明[0055]本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得[0057]图2:本发明提出的FinePhys架构示意图。[0058]图3:本发明提出的PhysNet模块示意图。具体实施方式[0059]下面详细描述本发明的实施例,所述实施例是示例性的,旨在用于不能理解为对本发明的限制。[0060]为了应对更具挑战性的任务:生成具有剧烈人体形变且时序变化显著的细粒度人类动作,本实施例提出一种基于物理规律和骨骼引导的细粒度人体动作生成方法,简称FinePhys,用于细粒度的人体动作生成,能够完成剧烈人体形变且时序变化显著的人体动作生成任务。[0061]如图2所示,FinePhys作为一个物理感知框架,根据输入的文本描述以在线方式获取相关动作视频,并从视频中提取二维姿态,作为人体物理结构的先验信息;然后使用上下文学习模块将2D姿态转换为3D姿态以增强空间感知,得到数据驱动的三维骨架序列S3a。由于这种数据驱动的3D姿态序列往往会忽略运动的物理定律,为了结合运动的物理定律,FinePhys中引入了PhysNet模块,采用刚体动力学的欧拉-拉格朗日方程来编码牛顿力学,通过考虑前向和逆向的二阶时间变化(即加速度)来重新估计每个人体关节的三维位置,从而产生物理预测的三维姿态!。随后将,融合,投影回2D空间,编码成多尺度热[0062]在FinePhys的整个感知框架中,本实施例采用了观察偏差(通过数据),归纳偏差(通过网络),学习偏差(通过损失)三种策略,将物理规律连贯地融入学习过程,具体而言:[0063]1、对于观察偏差,FinePhys将姿态作为编码生物物理布局的附加模态,并将来自现有数据集的平均三维姿态作为伪三维参考,通过上下文学习实现2D-to-3D提升。[0064]2、对于归纳偏差,通过完全可微分的神经网络模块PhysNet实例化拉格朗日刚体动力学,将更强的归纳偏差编码到FinePhys中,输出欧拉-拉格朗日方程中的参数。[0067]本实施例中,提出了基于物理规律和骨骼引导的细粒度人体动作生成方法,具体包括以下步骤:[0068]步骤1:获取一段对希望输出的细粒度人类动作视频的文本描述Cin;[0069]根据文本描述cin,获得一段与文本描述相近的人类动作视频vin,例如通过在线搜索方式获得;[0070]从所述人类动作视频Vin中抽取得到长度为T的采样帧序列,作为人体物理结构的先验信息;[0071]利用动作检测器对所述采样帧序列进行二维姿势估计产生二维骨架序列示:提示词P={P²D,P³D},其中P²D为从所述骨架序列作为伪三维先验P³D∈RT×J×3,本实施例中计算了Human3.6M骨架数据集中的全**过使用完备的欧拉-拉格朗日方程双向计算二阶时差变化(即加速度)来重新估计三维运动对步骤2得到的数据驱动的三维骨架序列,进行优化,得到物理预测三维骨架序列中的整体序列、前三帧序列和后三帧序列的时间状态序列,并序列与前三帧序列的时间状态序列融合,得到前向融合序列q{;将整体序列的时间状态序列与后三帧序列的时间状态序列融合,得到逆向融合序列qL;所有后续计算都是双向进行[0082]步骤3.2:基于欧拉-拉格朗日方程,对前向融合序列qE进行前向更新,对逆向融合[0084]将前向融合序列q[输入前向的物理参数估计器,估计得到前向更新的欧拉-拉格向更新的噪声参数矩阵N[添加到前向更新的广义逆惯性矩阵中,噪声参数矩阵N[也通过[0086]得到前向融合序列的二阶导数qF,继而利用二阶中心差分[0091]将逆向融合序列qL输入逆向的物理参数估计器,估计得到逆向更新的欧拉-拉格朗日方程参数,包括逆向更新的广义逆惯性矩阵(ME)⁻¹、逆向更新的广义力以及逆向更新的关节约束C!;逆向更新过程中也引入噪声参数矩阵N添加到逆向更新的广义逆惯性矩[0100]本步骤中,的融合过程可以通过多种本领域技术人员所公知的方式实骨骼序列,并进一步通过微调后得到用于指导3D-UNet去噪过程的多尺度二维骨骼热图序[0101]步骤5:将文本描述Cin通过预训练好的大语言模型进行规范化处理,得到文本序列C,本实施例中预训练好的大语言模型采用ChatGPT-4,再对文本序列C进行文本编码,得取的长度为T的采样帧序列进行特征提取,得到特征向量Zo,再对特征向量Zo进行加噪处Te(c)以及加噪步数洪同输入3D-UNet模人体关节三维坐标,表示本阶段训练样本数据中的第t帧的第j个人体关节的真实三维00练样本数据中的第t帧的第j个人体关节的真实二维坐标。[0114]本实施例中,提出了一种基于物理规律和骨骼引导的细粒度人体动作生成系统,[0115]所述动作检测器的输入为一段长度为T的采样帧序列;所述采样帧序列从人类动作视频vin中抽取得到,所述人类动作视频vin为与[0116]所述动作检测器对所述采样帧序列进行二维姿势估计产生二维骨架序列[0117]所述上下文学习模块的输询词Q={S²D,P³D},以及提示词P={P²D,P³D};其中p2D为从现有公知的骨架数据集中P³D为通过计算从所述骨架数据集中所选取的大量三维骨架序列的平均值而得到的平均[0118]所述上下文学习模块通过时空模块组成的双向Transformer构成,所述双向[0119]基于查询词Q={S²D,P³D}以及提示列qF;将整体序列的时间状态序列与后三帧序列的时间状态序列融合,得到逆向融合序列知器分别得到广义力向量和关节约束向量,另一个多层感知器得到方差为1的高斯噪声向[0125]前向更新模块利用前向物理参数估计器得到的用于前向更新的广义逆惯性矩阵(ME)⁻¹、广义力向量以及关节约束向量C,通过前向更新的欧拉-拉格朗日方程:[0127]得到前向融合序列的二阶导数qF,继而利用二阶中心差分公式[0131]逆向更新模块利用逆向物理参数估计器得到的用于逆向更新的广义逆惯性矩阵(?)⁻¹、广义力向量j以及关节约束向量C!,通过逆向更新的欧拉-拉格朗日方程:[0133]得到逆向融合序列的二阶导[0136]qt-1[0138]所述解码模块对更新后的各帧进行姿态解码,最终得到物理预测三维骨架序列步通过微调后得到用于指导3D-UNet去噪过程的多尺度二维骨骼热图序列,其中的微调参4实现;所述视频特征提取及加噪模块对从人类动作视频vin中抽取的长度为T的采样帧序[0145]所述3D-UNet包括下采样模块和上采样模块,下采样模块和上采样模块中均嵌入A和B更新得到下采样和上采样过程中的权重矩阵W=Wo+ABT,其中W₀为初始权重矩人体关节三维坐标,表示本阶段训练样本数据中的第t帧的第j个人体关节的真实三维尺度二维骨骼热图序列为P(S³D),则训练所采用的损失函数为:练样本数据中的第t帧的第j个人体关节的真实二维坐标。[0154]最后对视频生成模块中的需要训练参数进行训练,采用的样本数据为提[0158]实验验证过程从FineGym中提取了三个细粒度人体动作子集——FX-JUMP、FXTURN和FX-SALTO,并在其中进行评估。这些子集包括由专业体操运动员执行的具有挑战性的体操动作。[0159]评估指标分为自动指标和用户研究:[0160]自动指标:使用PickScore来测量视频帧与文本提示词之间的对齐度

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论