CN119444943A 基于细粒度语义描述的手势动作视频生成方法和装置（浙江大学）

上传人：1*** IP属地：山西上传时间：2026-04-22 格式：DOCX 页数：28 大小：1.32MB 积分：10.2 举报 版权申诉

CN119444943A 基于细粒度语义描述的手势动作视频生成方法和装置（浙江大学）_第2页

CN119444943A 基于细粒度语义描述的手势动作视频生成方法和装置（浙江大学）_第3页

CN119444943A 基于细粒度语义描述的手势动作视频生成方法和装置（浙江大学）_第4页

CN119444943A 基于细粒度语义描述的手势动作视频生成方法和装置（浙江大学）_第5页

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于细粒度语义描述的手势动作视频生成本发明公开了一种基于细粒度语义描述的于描述视频帧中手势动作的细粒度语义描述文和降噪生成模块中的去噪噪声之差构建损失函模型基于输入的随机向量和描述手势动作的细基于细粒度语义描述文本生成高质量含有手势2对原始视频进行预处理和数据增强后，构建由视频帧和用于描述基于视频编码模块中的加入噪声和降噪生成模块中的去噪噪利用视频生成模型基于输入的随机向量和描述手势动作的细粒度语义描述文本进行对原始视频进行清洗和切分，得到视频片段，此时每个视频片段对应针对单动作描述文本，将对应的视频片段拆解为视频帧，并针对复合动作描述文本，将复合动作描述文本按照动作顺序进所述视频编码模块包括CausalVAE编码器、加噪过程、以及VIT模型，视频帧判断经过CausalVAE编码器编码得到视觉块，视觉块再经过加噪过程进行多时间步加噪得到加噪的所述文本编码模块采用mT5翻译大模型中的作，输入潜在向量在Transformer编码器中基于文本向量的上下文引导经过多时间步进行向量再经过线性解码和形状调整操作得到最终3行密集神经渲染表示方式进行渲染得到表示面部和上半身语义信息的CCBR图像和表示眼在渲染时通过改变相机位置和相机视角来进行增强渲染，得到数据增强的视频帧图样本数据构建单元，其用于对原始视频进行预处理和数据增强后，构建由视于描述视频帧中手势动作的细粒度语义描述文训练单元，其用于基于视频编码模块中的加入噪声和降视频生成单元，其用于利用视频生成模型基于输入的随机向量和描述实现权利要求1_7中任一项所述的基于细粒度语义描4提高模型对驱动信息的理解能力和对视频结构的调法和装置，旨在实现基于细粒度语义描述文本生成高质量含有手势动作的通用数字人视5基于视频编码模块中的加入噪声和降噪生成模块中的去噪噪声之差构建损失函利用视频生成模型基于输入的随机向量和描述手势动作的细粒度语义描述文本[0011]本发明基于细粒度语义描述的手势动作视频生成模块的改进技术构思是一个分帧判断经过CausalVAE编码器编码得到视觉块、视觉块再经过加噪过程进行多时间步加噪码和形状调整操作，输入潜在向量在Transformer编码器中基于文本向量的上下文引导经去噪后的去噪后向量再经过线性解码和形状调整操作得到6和用于描述视频帧中手势动作的细粒度语义描述用于实现上述基于细粒度语义描述的手势动作视[0023]图1是实施例提供的一种基于细粒度语义描述的手势动作视频生成方法的流程7图7是实施例提供的基于细粒度语义描述的手势动作视频生成装置的结构示意将原始视频按照人物的形象和动作特征划分为多段视频片段，每段视频的时长控制在5至89[0035]还对提取的关键点进行密集神经渲染表示方式进行渲染得到表示面部和上半身块再经过加噪过程进行多时间步加噪得到加噪的视觉块，加噪的视觉块再经过VIT模型编结构使得CausalVAE编码器能够有效捕捉和学习数据中的因果关系，增强在手势动作视频本编码模块，具体选择于mT5翻译大模型中的文本编码器部分对文本输入进行加工处理。[0043]实施例中，降噪生成模块采用DiT扩散模型（DiffusionTransformer，基于在向量在Transformer编码器中基于文本向量的上下文引导经过多时间步进行去噪，在每[0044]DiT扩散模型在时序一致性保持方面表现出显著的优势，这主要得益于其架构设对时序信息的理解。这种上下文感知机制使得DiT能够有效捕捉和维持时间序列中的动态使得模型在处理时序数据时具备了更强的关联性。这种交互不仅增强了局部细节的一致性，还确保了全局结构的连贯性，有效防止了时间维度上的跳跃或断裂现象。最后，[0046]实施例中，视频解码模块采用CausalVAE解码器，这样构建的训练框架采用的练中建立自然语言和肢体动作语言之间的联系，并从动作描述中准确还原相应的手势动[0054]上述基于细粒度语义描述的手势动作视频生成方法泛化[0057]如图7所示，实施例还提供了一种基于细粒度语义描述的手势动作视频生成装置模型基于输入的随机向量和描述手势动作的细粒度语义描述文本手势动作视频生成装置与基于细粒度语义描述的手势动作视频生成方法实施例属于同一性存储器中读取对应的计算机程序到内存中然后运行，以实现上述S1_S4所述的基于细粒

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119444943A 基于细粒度语义描述的手势动作视频生成方法和装置（浙江大学）

文档简介

温馨提示

最新文档

评论

CN119444943A 基于细粒度语义描述的手势动作视频生成方法和装置 （浙江大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN119444943A 基于细粒度语义描述的手势动作视频生成方法和装置（浙江大学）