CN119444977A 基于大模型的虚拟形象生成方法、装置、智能体、电子设备及存储介质（北京百度网讯科技有限公司）

上传人：1*** IP属地：山西上传时间：2026-04-22 格式：DOCX 页数：60 大小：1.82MB 积分：10.8 举报 版权申诉

CN119444977A 基于大模型的虚拟形象生成方法、装置、智能体、电子设备及存储介质（北京百度网讯科技有限公司）_第2页

CN119444977A 基于大模型的虚拟形象生成方法、装置、智能体、电子设备及存储介质（北京百度网讯科技有限公司）_第3页

CN119444977A 基于大模型的虚拟形象生成方法、装置、智能体、电子设备及存储介质（北京百度网讯科技有限公司）_第4页

CN119444977A 基于大模型的虚拟形象生成方法、装置、智能体、电子设备及存储介质（北京百度网讯科技有限公司）_第5页

已阅读5页，还剩55页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本公开提供了基于大模型的虚拟形象生成理包括目标对象的目标图像，得到对象描述信模型处理目标图像和表征三维对象的对象形态2利用纹理生成式大模型处理所述目标图像和表征三维对象的对象形态的待处理图像，得到具有目标纹理信息的目标三维对象，所述三维对象是基于所述对象描述信息确定的，其中，所述利用纹理生成式大模型处理所述目标图像和表征基于所述纹理生成网络，根据对象风格特征和所述位置映射图像进行特对所述位置映射图像和所述待处理图像中的形状掩膜图像进行特征其中，所述基于所述初始融合特征和所述对象风格特征进利用所述纹理生成网络的纹理编码器对所述初始融合特征和至少一级所述下采样风利用所述纹理生成网络的纹理解码器对所述第一中间融合特征和至少一级所述上采第一中间融合特征和至少一级所述上采样风格特征执基于注意力机制，利用所述纹理解码器对所述第一中间融合特征6.根据权利要求3的方法，其中，所述纹理生成式大模型还包括第二风格特征提取网3所述多级风格提取层处理所述对象风格特征得到的多其中，所述基于所述初始融合特征和所述对象风格特征进利用所述纹理生成网络的纹理解码器对所述第二中间融合特征和至少一级所述风格基于注意力机制，利用所述纹理解码器对所述第二中间融合特征、所述位置特征提取网络包括级联的多级位置特其中，所述位置特征包括多级，多级所述位置特征是利用所基于所述纹理生成式大模型处理所述目标图像和所述待处理图像的对象基于所述目标纹理图像和所述对象深度图，确定所述目标纹理图对象贴图的第二像素之间的像素映射关系，所述初始对象贴图是基于所述三维对象确定基于所述像素映射关系，根据所述目标纹理图像的目标纹理信基于所述像素映射关系，利用多个所述指定视角下目标纹理图像的基于所述纹理生成式大模型处理所述目标图像、所述待处理图像和所述修改提示词，4对象描述信息获得模块，用于利用大模型处理包括目标对象的目标图第一获得子模块，用于基于所述目标纹理贴图初始融合特征获得单元，用于对所述位置映射图像和所第一中间融合特征获得子单元，用于利用所述纹理生成网及第一目标融合特征获得子单元，用于利用所述纹理生成网络的中间融合特征和至少一级所述上采样风格特征执行特征解码操作，得到所述目标融合特5基于注意力机制，利用所述纹理解码器对所述第一中间融合特征所述多级风格提取层处理所述对象风格特征得到的多第二中间融合特征获得子单元，用于利用所述纹理生成网第二目标融合特征获得子单元，用于利用所述纹理生成网络的基于注意力机制，利用所述纹理解码器对所述第二中间融合特征、其中，所述位置特征包括多级，多级所述位置特征是利用所第二获得子模块，用于基于所述目标纹理图像像素映射关系确定单元，用于基于所述目标纹理更新子单元，用于基于所述像素映射关系，利用多个所述指定6修改提示词确定模块，用于响应于针对展示的所述虚拟驱动模块，用于响应于目标驱动指令，驱动所述虚拟形象执行与所述目所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被使所述计算机执行根据权利要求1至14中7机程序在被处理器执行时实现根据本公开实施例[0010]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特8[0012]图1示意性示出了根据本公开实施例的可以应用基于大模型的虚拟形象生成方法[0013]图2示意性示出了根据本公开实施例的基于大模型的虚拟形象生成方法的流程[0018]图7示意性示出了根据本公开实施例的基于大模型的虚拟形象生成方法的应用场[0021]图10示意性示出了根据本公开实施例的适于实现基于大模型的虚拟形象生成方9标图像之间的匹配程度，进而实现自动化地准确生成与用户的需求相匹配的三维虚拟形[0027]图1示意性示出了根据本公开实施例的可以应用基于大模型的虚拟形象生成方法领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、现本公开实施例提供的基于大模型的虚拟形象生以设置于服务器105中。本公开实施例所提供的基于大模型的虚拟形象生成方法也可以由[0037]图2示意性示出了根据本公开实施例的基于大模型的虚拟形象生成方法的流程足三维对象与对象描述信息表征的对象属性信息相基于用于渲染得到三维对象的二维UV贴图理信息可以与目标对象的纹理信息在空间上具有映射关具有目标纹理信息的三维身体部位模型按照目标图像中的人物的姿态、位置来进行融合，对抗网络）模型、VAE（Variationa目标图像中与目标对象相关的图像风格语义映射至三维空间中与对象元素对应的三维坐在三维空间中的位置，以使生成的目标三维对象能够较为准确地匹配目标对象的纹理信[0069]根据本公开的实施例，形状掩膜图像可以基于与三维对象对应的UV贴图来确表征与该掩膜像素对应的对象像素需要具有目标纹理信息，掩膜像素为0表征与该掩膜像的语义属性进行充分融合。这样可以通过初始融合特征来与对象风格特征进行特征融合，来控制按照目标对象的像素位置与三维对象的对象元素的三维空间位置之间的对应关系，过由下采样层和上采样层处理目标图像得到至少一级下采样风格特征和至少一级上采样[0076]根据本公开的实施例，下采样层或上采样层可以基于卷积神经网络算法构建得标纹理信息与目标对象的纹理信息之间的匹特征和第1级上采样风格特征执行特征解码操作确定的。目标融合特征是基于末尾级的解[0087]如图3所示，纹理生成式大模型300可以包括第一风格特征提取网络310和纹理生或上采样层可以基于卷积神经网络算法构建得到。第1级下采样层3111和第3级上采样层取不同尺度的风格特征。纹理编码器321包括基于注意力网络算法构建的第1编码器层出第2级上采样风格特征。第2级上采样风格特征和基于第1级下采样风格特征确定的特征[0089]基于位置映射图像和形状掩膜图像进行特征融合得到的初始融合特征302和第1第1级第一编码特征。第1级第一编码特征和第2级下采样风格特征输入第2编码器层3212，第2编码器层3212基于注意力网络算法来融合第1级第一编码特征和第2级下采样风格特特征和第3级下采样风格特征输入第3编码器层3213，第3编码器层3213基于注意力网络算法来融合第2级第一编码特征和第3级下采样风格特征，并基于噪声信息来执行第3级特征和第1级上采样风格特征输入第1解码器层3221。第1解码器层3221可以基于注意力机制来度进行特征提取，从而可以使多级位置特征能够基于位置映射图像的位置映射语义属性，在特征解码操作过程中来融合第一中间融合特征、多级上采样风格特征和多级位置特征，采样层4132。下采样层或上采样层可以基于卷积神经网络算法构建得到。第1级下采样层出第2级上采样风格特征。第2级上采样风格特征和基于第1级下采样风格特征确定的特征[0100]如图4所示，基于位置映射图像和形状掩膜图像进行特征融合得到的初始融合特法来融合初始融合特征402和第1级下采样风格特征，并基于噪声信息来执行第1级特征编码器层4212，第2编码器层4212基于注意力网络算法来融合第1级第一编码特征和第2级下级第一编码特征和第3级下采样风格特征输入第3编码器层4213，第3编码器层4213基于注级位置特征输入第2解码器层4222。第2解码器层4222可以基于注意力机制来处理第1级第[0109]如图5所示，纹理生成式大模型500可以包括第二风格特征提取网络510和纹理生模型算法来构建。第二风格特征提取网络510可以包括基于级联网络结构确定的多个风格特征提取层。多个风格特征提取层可以包括第1风格特征提取层511、第2风格特征提取层网络算法构建得到，多个风格特征提取层可以用于提取目标图像不同尺度的风格特征图。风格特征与基于位置映射图像和形状掩膜图像进行特征融合得到的初始融合特征502相加来实现特征融合，得到目标初始风格特征。将目标初始风格特征输入第1风格特征提取层注意力网络算法来处理初始融合特征502和噪声信息，以实现对初始融合特征执行特征编码器层5222通过基于注意力机制融合第1级解码特征和第3级风格特征来执行第2级特征解级风格特征进行特征融合得到目标融合特征503。基于目标融合特征503来进行图像渲染，法，利用第1级解码器层处理第二中间融合特征、至少一级风格特征和和至少一级位置特成网络可以基于扩散模型算法来构建。第二风格特征提取网络610可以包括基于级联网络结构确定的多个风格特征提取层。多个风格特征提取层可以包括第1风格特征提取层611、编码器层6212和第3编码器层6213。纹理解码器622包括基于注意力网络算法构建的第1解置特征提取层634分别基于不同尺度的卷积神经网络算法构建得到。风格特征与基于位置映射图像和形状掩膜图像进行特征融合得到的初始融合特征502相加来实现特征融合，得到目标初始风格特征。将目标初始风格特征输入第1风格特征提取层注意力网络算法来处理初始融合特征602和噪声信息，以实现对初始融合特征执行特征编语义属性融合，从而精确地对三维对象在指定视角下的对象元素进行纹理语义属性更新。因此得到的目标纹理图像可以较为准确地表征在指定视角下三维对象按照目标对象的纹[0132]图7示意性示出了根据本公开实施例的基于大模型的虚拟形象生成方法的应用场[0135]将服装三维对象722和目标图像701输入纹理生成式大模型，得到目标三维对象702。目标三维对象702可以是具有与目标图像701中的服装具有相同或相似纹理信息的纹到与目标图像701中穿着紫色服装的虚拟人物相匹配的三维虚拟形象。该三维虚拟形象可图像，以实现按照修改提示词表征的修改意图来对当前的三维衣服模型的袖子进行加长，要修改的目标三维对象进行融合得到更新的[0146]目标三维对象获得模块820，用于利用纹理生成式大模型处理所述目标图像和表[0154]目标融合特征获得单元，用于基于初始融合特征和对象能的智能体，智能体被配置为执行上述实施例中提供的基于大模型的虚拟形象生成方法。[0189]在示例中，控制模块920在运行过程中将会不断地与存储模块930、运算模块940数据资源，获得与目标图像对应的目标三维对象，并将该目标三维对象传递给输出模块[0193]运算模块940可以被看作是一个预定义的工具库。如前所述的渲染引擎等可以被[0195]根据本公开实施例的AI智能体900可以简单且有效地提升智能化程度，并提升灵[0200]图10示意性示出了根据本公开实施例的适于实现基于大模型的虚拟形象生成方通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信[0203]计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器[0205]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的包部分地在机器上执行且部分地在远程机器上执行或完全在器以及键盘和指向装置（例如，鼠标或者轨迹球用户可以通过该键盘面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：过

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119444977A 基于大模型的虚拟形象生成方法、装置、智能体、电子设备及存储介质（北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

CN119444977A 基于大模型的虚拟形象生成方法、装置、智能体、电子设备及存储介质 （北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN119444977A 基于大模型的虚拟形象生成方法、装置、智能体、电子设备及存储介质（北京百度网讯科技有限公司）