版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利(10)授权公告号CN119399580B(65)同一申请的已公布的文献号(73)专利权人腾讯科技(深圳)有限公司科技中一路腾讯大厦35层US2021241521A1,20(74)专利代理机构华进联合专利商标代理有限公司44224专利代理师张思佳装饰元素替换模型的训练方法和人物装饰元素替换方法本申请涉及一种装饰元素替换模型的训练储介质和计算机程序产品。其中,模型训练方法包括:获取用于实现装饰元素图像替换的预训练模型;基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;使用增量训练样本对预训练模型进行增量训练,以使该预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像;在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的装饰元素替换模获取用于实现装饰元素图像替换的预训练模型获取用于实现装饰元素图像替换的预训练模型S基于在不同角度下针对同一样本人物分别采集的完建增量训练样本使用增量训练样本对预训练模型进行增量训练,以使预训练模型基于第一角度下完整人物头像中人物装饰元素的第二角度下完整人物头像中人物装饰元素的在使用多个增量训练样本对预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力21.一种装饰元素替换模型的训练方法,其特征在于,所述方法包括:获取用于实现装饰元素图像替换的预训练模型;所述预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;所述人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;使用所述增量训练样本对所述预训练模型进行增量训练,以使所述预训练模型基于第一角度下完整人物头像中所述人物装饰元素的第一元素图像,替换第二角度下完整人物头像中所述人物装饰元素的第二元素图像;在使用多个增量训练样本对所述预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;所述装饰元素替换模型用于生成目标人物的目标图像。2.根据权利要求1所述的方法,其特征在于,所述基于在不同角度下针对同一样本人物获取在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对所述样本人物采集的第二完整人物头像;识别所述第一完整人物头像中所述人物装饰元素所处的第一元素区域,得到所述第一角度下用于掩码第一元素区域的第一掩码图;融合所述第一完整人物头像和所述第一掩码图,从所述第一完整人物头像中分离出所述第一元素区域的第一元素图像;构建包含所述第二完整人物头像和所述第一元素图像的增量训练样本。3.根据权利要求2所述的方法,其特征在于,所述融合所述第一完整人物头像和所述第一掩码图,从所述第一完整人物头像中分离出所述第一元素区域的第一元素图像,包括:对所述第一掩码图进行归一化处理,得到第一归一化掩码图;所述第一归一化掩码图中所述第一元素区域的像素值为1、除所述第一元素区域以外其他区域的像素值为0;使用所述第一归一化掩码图对所述第一完整人物头像进行掩码处理,从所述第一完整人物头像中分离出所述第一元素区域的第一元素图像。4.根据权利要求2所述的方法,其特征在于,所述增量训练样本还包括所述第二角度下的局部人物头像;所述预训练模型具体基于所述第一元素图像补全所述局部人物头像;所述方法还包括:识别所述第二完整人物头像中所述人物装饰元素所处的第二元素区域,得到所述第二角度下用于掩码所述第二元素区域的第二掩码图;对所述第二完整人物头像和所述第二掩码图分别进行归一化处理,得到归一化头像和第二归一化掩码图;所述第二归一化掩码图中所述第二元素区域的像素值为0、除所述第二元素区域以外其他区域的像素值为1;使用所述第二归一化掩码图对所述归一化头像进行掩码处理,得到归一化的局部头像对所述局部头像信息进行反归一化处理,得到删除所述第二元素区域的局部人物头3获取多个候选人物图像;对各所述候选人物图像分别进行人物识别,确定各所述候选人物图像各自包含人物的人脸尺寸;针对每一所述候选人物图像,在所述候选人物图像中人物的人脸尺寸满足尺寸条件、且所述人物包含人物装饰元素的情况下,基于所述候选人物图像得到具有人物装饰元素的完整人物头像。6.根据权利要求1至5中任意一项所述的方法,其特征在于,所述预训练模型的训练过针对预训练样本集中的每一完整人物头像,识别所述完整人物头像中的装饰元素区域,得到所述完整人物头像的装饰元素掩码图;对所述完整人物头像中的装饰元素图像进行图像特征提取,得到装饰元素特征;在所述装饰元素掩码图的引导下,对所述完整人物头像进行图像特征提取,得到所述完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征;基于融合所述装饰元素特征和所述非装饰特征得到的人物特征,解码得到所述完整人物头像对应的更新图像;在各所述完整人物头像的损失统计值收敛的情况下,得到用于实现装饰元素图像替换的预训练模型;任一所述完整人物头像对应的模型损失,用于表征所述完整人物头像与所述完整人物头像对应更新图像之间的差异。7.根据权利要求6所述的方法,其特征在于,所述在所述装饰元素掩码图的引导下,对所述完整人物头像进行图像特征提取,得到所述完整人物头像中除所述装饰元素区域以外对所述完整人物头像进行图像编码,得到所述完整人物头像的潜空间完整表示;在所述装饰元素掩码图的引导下,对所述潜空间完整表示进行掩码处理,得到所述完整人物头像中除所述装饰元素区域以外其他区域的潜空间局部表示;基于所述潜空间局部表示进行特征编码和注意力池化处理,得到所述完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征。8.根据权利要求6所述的方法,其特征在于,所述在所述装饰元素掩码图的引导下,对所述完整人物头像进行图像特征提取,得到所述完整人物头像中除所述装饰元素区域以外在所述装饰元素掩码图的引导下,对所述完整人物头像进行掩码处理,得到删除装饰元素区域的局部人物头像;对所述局部人物头像进行图像编码,得到所述局部人物头像的潜空间局部表示;基于所述潜空间局部表示进行特征编码和注意力池化处理,得到所述完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征。9.根据权利要求6所述的方法,其特征在于,所述非装饰特征和所述装饰元素特征均包拼接所述非装饰特征和所述装饰元素特征各自的键特征,得到键融合特征;拼接所述非装饰特征和所述装饰元素特征各自的值特征,得到值融合特征;基于所述非装饰特征中的查询特征、所述键融合特征和所述值融合特征,得到人物特410.一种人物装饰元素替换方法,其特征在于,所述方法包获取目标人物的人物图像、以及包含参考装饰元素的参考图像;识别所述参考图像中的装饰元素区域,得到所述参考装饰元素的参考元素图像;将所述参考元素图像和所述人物图像输入装饰元素替换模型,得到所述目标人物的目标图像;所述目标人物在所述目标图像中具有所述参考装饰元素;所述装饰元素替换模型,基于如权利要求1至9中任意一项所述的方法训练得到。11.一种装饰元素替换模型的训练装置,其特征在于,所述装置包括:预训练模型获取模块,用于获取用于实现装饰元素图像替换的预训练模型;所述预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;所述人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;增量样本构建模块,用于基于在不同角度下针对同一样本人物分别采集的完整人物头增量训练模块,用于使用所述增量训练样本对所述预训练模型进行增量训练,以使所述预训练模型基于第一角度下完整人物头像中所述人物装饰元素的第一元素图像,替换第二角度下完整人物头像中所述人物装饰元素的第二元素图像;装饰元素替换模型确定模块,用于在使用多个增量训练样本对所述预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;所述装饰元素替换模型用于生成目标人物的目标图像。12.一种人物装饰元素替换装置,其特征在于,所述装置包括:图像获取模块,用于获取目标人物的人物图像、以及包含参考装饰元素的参考图像;装饰元素识别模块,用于识别所述参考图像中的装饰元素区域,得到所述参考装饰元素的参考元素图像;装饰元素替换模块,用于将所述参考元素图像和所述人物图像输入装饰元素替换模型,得到所述目标人物的目标图像;所述目标人物在所述目标图像中具有所述参考装饰元素;所述装饰元素替换模型,基于如权利要求1至9中任意一项所述的方法训练得到。13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。5技术领域[0001]本申请涉及人工智能技术领域,特别是涉及一种装饰元素替换模型的训练方法、人物装饰元素替换方法、装置、计算机设备、计算机可读存储介质和计算背景技术[0002]人工智能(ArtificialIntelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。将人工智能技术应用于图像处理领域,通过模型训练可以得到用于实现人物装饰元素替换的装饰元素替换模型。[0003]传统技术中,利用扩散模型的图像处理能力,在文本条件中引入人物装饰元素的文本描述,以实现替换人物装饰元素的目标。采用传统技术,在训练过程中,需要不断调整存在工作效率低的问题。发明内容[0004]基于此,有必要针对上述技术问题,提供一种能够提高工作效率的装饰元素替换模型的训练方法、人物装饰元素替换方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。[0005]第一方面,本申请提供了一种装饰元素替换模型的训练方法。所述方法包括:[0006]获取用于实现装饰元素图像替换的预训练模型;所述预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;所述人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;[0007]基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样[0008]使用所述增量训练样本对所述预训练模型进行增量训练,以使所述预训练模型基于第一角度下完整人物头像中所述人物装饰元素的第一元素图像,替换第二角度下完整人物头像中所述人物装饰元素的第二元素图像;[0009]在使用多个增量训练样本对所述预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;所述装饰元素替换模型用于生成目标人物的目标图像。[0010]第二方面,本申请还提供了一种装饰元素替换模型的训练装置。所述装置包括:[0011]预训练模型获取模块,用于获取用于实现装饰元素图像替换的预训练模型;所述预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;所述人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;[0012]增量样本构建模块,用于基于在不同角度下针对同一样本人物分别采集的完整人6[0013]增量训练模块,用于使用所述增量训练样本对所述预训练模型进行增量训练,以使所述预训练模型基于第一角度下完整人物头像中所述人物装饰元素的第一元素图像,替换第二角度下完整人物头像中所述人物装饰元素的第二元素图像;[0014]装饰元素替换模型确定模块,用于在使用多个增量训练样本对所述预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;所述装饰元素替换模型用于生成目标人物的目标图像。[0016]获取目标人物的人物图像、以及包含参考装饰元素的参考图像;[0017]识别所述参考图像中的装饰元素区域,得到所述参考装饰元素的参考元素图像;[0018]将所述参考元素图像和所述人物图像输入装饰元素替换模型,得到所述目标人物的目标图像;所述目标人物在所述目标图像中具有所述参考装饰元素;所述装饰元素替换模型,基于上述的装饰元素替换模型训练方法训练得到。[0019]第四方面,本申请还提供了一种人物装饰元素替换装置。所述装置包括:[0020]图像获取模块,用于获取目标人物的人物图像、以及包含参考装饰元素的参考图[0021]装饰元素识别模块,用于识别所述参考图像中的装饰元素区域,得到所述参考装饰元素的参考元素图像;[0022]装饰元素替换模块,用于将所述参考元素图像和所述人物图像输入装饰元素替换模型,得到所述目标人物的目标图像;所述目标人物在所述目标图像中具有所述参考装饰元素;所述装饰元素替换模型,基于上述的装饰元素替换模型训练方法训练得到。[0023]第五方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。[0024]第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。[0025]第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。[0026]上述装饰元素替换模型的训练方法、人物装饰元素替换方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,在用于实现装饰元素图像替换的预训练模型的基础上,使用基于在不同角度下针对同一样本人物分别采集的完整人物头像构建的增量训练样本,进行增量训练,以使该预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像,并在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的装饰元素替换模型。上述过程中,一方面,在训练过程中引入人物装饰元素的装饰元素图像,能够解决采用文本描述人物装饰元素所存在的控制能力弱的问题,避免需要反复调整训练样本以实现训练目标,有利于提高工作效率;另一方面,通过两个阶段的训练,能够确保预训练阶段能够学习到人物装饰元素的替换能力,增量训练阶段能够解决角度不一致带来的泛化性问题,从而可以在训练样本数量较多的预训练阶段,降低学习过程的复杂度,并在学习复杂度较高的增量训练阶段,显著降低所需要的训练样本数量,有利于降低训练成本,同样可以提高工作7效率。附图说明[0027]图1为一个实施例中装饰元素替换模型的训练方法和人物装饰元素替换方法的应用环境图;[0028]图2为一个实施例中装饰元素替换模型的训练方法的流程示意图;[0029]图3为一个实施例中预训练模型的模型结构示意图;[0030]图4为一个实施例中人脸图像区域的矩形框坐标示意图;[0031]图5为一个实施例中BiseNet模型的结构示意图;[0032]图6为一个实施例中BLIP模型的结构示意图;[0033]图7为一个实施例中基于BLIP模型获得完整人物头像的文本描述的过程示意图;[0034]图8为一个实施例中在完整人物头像的基础上,获得各种训练数据的过程示意图;[0035]图9为另一个实施例中预训练模型的模型结构示意图;[0036]图10为一个实施例中预训练模型的输入输出示意图;[0037]图11为另一个实施例中预训练模型的输入输出示意图;[0038]图12为一个实施例中的特征融合原理示意图;[0039]图13为另一个实施例中装饰元素替换模型的训练方法的流程示意图;[0040]图14为一个实施例中装饰元素替换方法的流程示意图;[0041]图15为一个实施例中的发型替换效果示意图;[0042]图16为一个实施例中装饰元素替换模型的训练装置的结构框图;[0043]图17为一个实施例中装饰元素替换装置的结构框图;[0044]图18为一个实施例中计算机设备的内部结构图;[0045]图19为另一个实施例中计算机设备的内部结构图。具体实施方式[0046]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。[0047]本申请实施例提供的装饰元素替换模型的训练方法和人物装饰元素替换方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。该通信网络可以是有线网络或无线网络。因此,终端102和服务器104可以通过有线或无线通信方式进行直接或间接的连接。比如,终端102可以通过无线接入点与服务器104间接地连接,或者终端102通过因特网与服务器104直接地连接,本申请在此不做限制。[0048]其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。本申请实施例可应用于装饰元素替换模型训练和人物装饰元素替换场景。终端102上可以安装有人物图像处理相关的客户端,该客户端可以是软件(例如浏览器、视频软件等),也可以是网页、小程序等。服务器104则是与软件或是网页、小程序等相对应的后台服务器,或者是专门用于进行8装饰元素替换模型训练或人物装饰元素替换的服务器,在一些实施例中,装饰元素替换模型的训练或人物装饰元素替换还可以通过同一服务器实现,本申请不做具体限定。进一步地,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者大数据和人工智能平台等基础云计算服务的云服务器。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以单独设置,可以集成在服务器104上,也可以放在云上或其他服务器上。[0049]需要说明的是,本申请实施例中的装饰元素替换模型的训练方法和人物装饰元素替换方法,可以由终端102或服务器104单独执行,也可以由终端102和服务器104共同执行。以服务器104单独执行的情况为例,服务器104在进行装饰元素替换模型的训练的过程中:获取用于实现装饰元素图像替换的预训练模型;基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本;使用增量训练样本对预训练模型进行增量训练,以使该预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像;在使用多个增量训练样本对预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型。其中,预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像;人物装饰元素的图像展示效果,随着人物头像角度的变化而变化;装饰元素替换模型用于生成目标人物的目标图像。[0050]训练得到的模型,可以用于进行人物装饰元素的替换。具体来说,服务器104在进行人物装饰元素替换的过程中:获取目标人物的人物图像、以及包含参考装饰元素的参考图像;识别参考图像中的装饰元素区域,得到参考装饰元素的参考元素图像;将参考元素图像和人物图像输入装饰元素替换模型,得到目标人物的目标图像;该目标人物在目标图像中具有参考装饰元素。其中,目标人物和参考装饰元素各自对应的人物头像角度,可以相同也可以不同。目标图像中的参考装饰元素与目标人物对应相同的人物头像角度。也就是说,在目标人物和参考装饰元素各自对应不同人物头像角度的情况下,由于装饰元素替换模型具备角度补偿能力,能够生成参考装饰元素与目标人物对应相同的人物头像角度的目标图[0051]在一个实施例中,如图2所示,提供了一种装饰元素替换模型的训练方法,该方法可以由计算机设备执行,该计算机设备可以是图1所示的终端或服务器,在本实施例中,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:[0052]步骤S202,获取用于实现装饰元素图像替换的预训练模型。[0053]其中,预训练模型是指通过预训练,具备根据装饰元素图像替换人物装饰元素的能力的机器学习模型。该预训练模型的具体网络结构并不唯一,可以包括CNN(ConvolutionalNeuralNetwork,卷积神经网络)、GAN(GenerativeAdversarialNetwork,生成对抗网络)或SD(StableDiffusion,扩散网络)等中的至少一种。在一个可选的实施例中,预训练模型以StableDiffusion模型为基底模型,可实现文生图功能。如图3所示,服务器可以在以StableDiffusion为基底的目标网络的基础上,构建与目标网络结构相同的参考网络,该参考网络用于对输入的装饰元素图像进行编码,得到装饰元素特征,9而目标网络,则是用于获得完整人物头像中除装饰元素区域以外其他区域的非装饰特征。通过注意力共享,融合装饰元素特征和非装饰特征,实现根据装饰元素图像替换完整人物头像中的人物装饰元素的目的。预训练阶段的训练目标,是使替换人物装饰元素后的模型作为装饰元素特征和非装饰特征的图像信息来源,另一方面作为模型预测结果的对照。在使用包含多个预训练样本的预训练样本集完成预训练的情况下,得到具备根据装饰元素图像替换人物装饰元素的能力的预训练模型。[0054]预训练模型的每一预训练样本,包括具有人物装饰元素的完整人物头像。装饰元素图像,是指该人物装饰元素的图像。人物装饰元素是指用于装饰人物头像的元素。该人物随着人物头像角度的变化而变化。示例性的,在不同角度下针对同一人物进行采集,所得到的各完整人物头像中的发型、帽子、眼镜或耳饰等人物装饰元素的展示效果均有所不同。实际应用中,人物装饰元素在艺术和设计中扮演着重要的角色,通过不同的装饰手段和风格,可以增强人物形象的表现力和视觉冲击力。基于此,人物装饰元素替换的应用场景非常广泛。在角色设计领域,基于人物装饰元素替换功能,用户可以根据自己的需求,更换人物装饰元素,实现个性化的角色定制;在时尚设计领域,设计师可以通过人物装饰元素替换功能,对人物头像进行局部调整,选择合适的人物装饰元素,提高效率;在虚拟现实和增强现实应用中,该人物装饰元素替换功能可以提升用户体验的真实感和沉浸感。[0055]具体地,服务器可以预先使用包含多个预训练样本的预训练样本集,对初始模型进行模型训练,得到用于实现装饰元素图像替换的预训练模型。可以理解,由于预训练样本中的装饰元素图像,是完整人物头像的一部分,二者对应相同的人物头像角度,因此,预训练阶段得到的预训练模型,并不具备角度补偿能力。而实际应用中,作为替换目标的装饰元素图像与作为替换对象的完整人物头像之间,可能存在角度的差别。若直接使用预训练模型进行装饰元素替换,由于角度差异的存在,可能会导致人物装饰元素图像展示效果的失[0056]从完整人物头像中分离装饰元素图像的具体方式并不唯一。可选的,服务器可以先识别出完整人物头像中的人物装饰元素,再通过提取人物装饰元素的边框,基于该边框对完整人物头像进行图像分割,得到装饰元素图像;可选的,服务器也可以使用OpenCV和dlib等工具进行人脸检测和关键点提取,以确定完整人物头像中人物装饰元素的所处唯一,再通过灰度化和阈值化等处理,将任务装束元素从图像中分离出来,得到装饰元素图像;可选的,服务器还可以通过使用人工智能算法进行高精度的图像分割,如语义分割和实例分割,识别出完整人物头像中人物装饰元素,并进一步提取人物装饰元素的装饰元素图[0057]在其中一个实施例中,完整人物头像的获取过程包括:获取多个候选人物图像;对各候选人物图像分别进行人物识别,确定各候选人物图像各自包含人物的人脸尺寸;针对每一候选人物图像,在候选人物图像中人物的人脸尺寸满足尺寸条件、且该人物包含人物装饰元素的情况下,基于候选人物图像得到具有人物装饰元素的完整人物头像。[0058]其中,候选人物图像是指包含人物的图像。该候选人物图像中所包含人物的数量,可以是一个,也可以是多个。人脸尺寸可以通过人脸在整个候选人物图像中的占比表示,也可以通过人脸所在图像区域的像素量表示。可以理解的是,人脸在整个图片(即候选人物图像)中的占比越低,人脸图像区域的像素量越少,人物模糊的可能性越可以是指人脸图像区域的像素量大于或等于像素量阈值,也可以是指人脸在整个图片中的占比大于或等于比例阈值。该像素阈值例如可以是3万或4万等,该比例阈值例如可以是1/16或1/15等。在一个可选的实施例中,为了保证人脸图像的质量,提出仅保留人脸占比在1/16以上的图片,以1024*1024的图片为例,占比1/16的正方形人脸包含256*256个像素点,足够表征人物细节。[0059]具体来说,服务器可以从开源的图像数据集合中,获取多个候选人物图像。然后对各候选人物图像分别进行人物识别,确定各候选人物图像各自包含人物的人脸尺寸。在候选人物图像中人物的人脸尺寸满足尺寸条件、且该人物包含人物装饰元素的情况下,保留该候选人物图像,并基于该候选人物图像得到具有人物装饰元素的完整人物头像。可选的,在保留的候选人物图像为单人图像的情况下,服务器可以将该候选人物图像,确定为具有人物装饰元素的完整人物头像;在保留的候选人物图像为多人图像的情况下,服务器可以从该候选人物图像中,分离出人脸尺寸满足尺寸条件且包含人物装饰元素的单人图像,得到具有人物装饰元素的完整人物头像。[0060]在一个可选的实施例中,服务器可以使用RetinaFace模型(视网膜人脸检测模型),实现人物识别。RetinaFace模型是一种用于人脸检测和人脸对齐的神经网络模型。其原理是基于单阶段(One-Stage)目标检测器,采用多尺度特征融合和多任务学习的方法,以实现在不同尺度和方向上准确地检测人脸并进行对齐。该RetinaFace模型在多尺度、多方向和遮挡情况下具有较好的鲁棒性,适用于实时人脸检测和相关应用。如图4所示,将候选人物图像输入RetinaFace模型,将返回人脸图像区域的矩形框坐标(x,y,w,h)。其中,(x,y)为矩形左上角坐标,w和h分别为矩形的宽和高。经RetinaFace模型处理后,可获取候选人物图像中所包含的人物数量、以及每个人物各自的人脸尺寸。[0061]在一个可选的实施例中,在进行人物识别之前,可以先进行一轮图像筛选,以进一步确保图像质量,提高工作效率。具体来说,服务器可以根据美学质量评分进行图像筛选。美学质量评分是Laion-5B数据集中使用的一种图片质量评估指标,评分范围为[0,10],评分越高,代表图片的质量越好。参考Laion-5B数据集合筛选的标准,可以仅针对评分值大于6.5的候选人物图像进行人物识别。[0062]在一个可选的实施例中,最终确定的完整人物头像的短边像素数量不低于1024,以进一步确保清晰度。[0063]上述实施例中,基于人脸尺寸满足尺寸条件的候选人物图像,得到具有人物装饰元素的完整人物头像,能够确保完整人物头像的图像质量,进而确保训练效果。[0064]步骤S204,基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本。[0065]其中,在不同角度下针对同一样本人物分别采集的完整人物头像,至少包括在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对该样本人物采集的第二完整人物头像。第一角度和第二角度是指不同的人物头像角度,所使用的术语“第一”和“第二”,仅用于将第一个人物头像角度与另一个人物头像角度区和第二角度,可以是指正面角度、四分之三侧面角度、仰视角度、俯视角度或测试角度等中11的任意两个。[0066]在预训练阶段,装饰元素图像中的人物装饰元素,与完整人物头像中的人物,相同的人物头像角度。而增量训练阶段的训练目标,是为了提升模型的角度补偿能力。基于此,服务器可以获取在不同角度下针对同一样本人物分别采集的完整人物头像。这些完整人物头像,具备同一人物装饰元素。其中,同一人物装饰元素,可以是同一发型、同一个帽子、同一副眼镜等。获取针对同一样本任务采集的多个完整人物头像后,服务器可以基于这些多角度的完整人物头像构建增量训练样本。可选的,服务器可以将两个不同角度下针对同一样本人物分别采集的完整人物头像,作为增量训练样本。可选的,在获取到两个以上不同角度下针对同一样本人物分别采集的完整人物头像的情况下,服务器可以两两组合,得到多个增量训练样本;服务器也可以根据图像质量进行进一步的筛选,选择任意两个完整人物头像,构建增量训练样本。其中,根据图像质量进行进一步筛选的具体方式,参见上文中从多个候选人物图像中筛选完整人物头像的方式,在此不作限定。[0067]在一个可选的实施例中,服务器可以基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建包含第一角度下的装饰元素图像、以及第二角度下删除装饰元素区域的局部人物头像的增量训练样本。具体来说,服务器可以获取在第一角度和第二角度下分别采集的完整人物头像,从第一角度下的完整人物头像中分离出装饰元素图像,并对第二角度下采集的完整人物头像中人物装饰元素所处的装饰元素区域进行掩码,得到第二角度下删除装饰元素区域的局部人物头像。从第二角度下的完整人物头像中分离出装饰元素图像的具体方式参见上文,此处不再赘述。[0068]步骤S206,使用增量训练样本对预训练模型进行增量训练,以使预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像。[0069]其中,第一元素图像和第二元素图像,是指同一样本人物所具有的同一人物装饰元素,分别在不同角度下呈现的图像信息。例如,第一元素图像和第二元素图像,可以是指样本人物所具有的人物发型,在不同角度下呈现的发型图像;又如,第一元素图像和第二元素图像,可以是指样本人物所佩戴的帽子,在不同角度下呈现的帽子图像。[0070]如前文所述的,在预训练阶段,是将从完整人物头像中分离出的装饰元素图像,替换该完整人物头像中的人物装饰元素,因此,预训练阶段的训练目标,是使替换人物装饰元素后的模型输出图像,接近完整人物头像。在增量训练阶段,模型结构不变,替换目标为从第一角度下完整人物头像中分离出的装饰元素图像,替换对象为第二角度下采集的完整人物头像,因此,增量训练阶段的训练目标,是使替换人物装饰元素后的模型输出图像,接近第二角度下采集的完整人物头像。也就是说,服务器可以使用增量训练样本对预训练模型进行增量训练,以使预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像。[0071]步骤S208,在使用多个增量训练样本对预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型。[0072]其中,增量训练阶段所需要的训练样本数量,远小于预训练阶段所需要的训练样本数量。[0073]具体来说,服务器使用包含多个增量训练样本的增量训练样本集,对预训练模型进行增量训练,在满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型。该训练结束条件,可以是指验证集的准确率不再提高,也可以是指模型达到了设定的最大迭代次数,还可以是指基于损失函数随迭代次数的变化确定损失函数收敛。[0076]扩散模型是一种通过迭代去噪合成所需数据样本的生成模型。扩散训练包含正向扩散过程和反向去噪过程。在正向扩散过程中,噪声为基于预定义的噪声调度对数据样本进行采样和相加。此过程产生时间步长t的噪声样本Xt。相反,在Eθ取Xt、t和可选的附加条件C(文本、图片或语音等)作为输入,以预测添加的噪声为预测目标。在上述目标函数下,使用不同的训练数据集对模型进行训练。以人物装饰元素为发型的情况为例,在第一阶段(即预训练阶段),使用大量包含发型的完整人物头像作为预训练样本,在Inpainting(图像修复)模式下,根据从完整人物头像中分离的参考发型图像,替换完整人物头像中的发型;第二阶段(即增量训练阶段),使用少量在不同角度下分别针对同一个人、且具备同一发型的完整人物头像,进行增量训练,根据从第一角度下完整人物头像中分离的参考发型图像,替换第二角度下完整人物头像中的发型。采用两阶段进行模型训[0077]进一步的,装饰元素替换模型用于生成目标人物的目标图像。具体来说,部署有装饰元素替换模型的计算机设备可以获取目标人物的人物图像、以及包含参考装饰元素的参考图像;识别参考图像中的装饰元素区域,得到参考装饰元素的参考元素图像;将参考元素图像和人物图像输入装饰元素替换模型,得到目标人物的目标图像。其中,目标人物在目标图像中具有参考装饰元素,且目标图像中参考装饰元素与目标人物对应相同的人物头像角[0078]上述装饰元素替换模型的训练方法,在用于实现装饰元素图像替换的预训练模型的基础上,使用基于在不同角度下针对同一样本人物分别采集的完整人物头像构建的增量训练样本,进行增量训练,以使该预训练模型基于第一角度下完整人物头像中人物装饰元素的第一元素图像,替换第二角度下完整人物头像中人物装饰元素的第二元素图像,并在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的装饰元素替换模型。上述过程中,一方面,在训练过程中引入人物装饰元素的装饰元素图像,能够解决采用文本描述人物装饰元素所存在的控制能力弱的问题,避免需要反复调整训练样本以实现训练目标,有利于提高工作效率;另一方面,通过两个阶段的训练,能够确保预训练阶段能够学习到人物装饰元素的替换能力,增量训练阶段能够解决角度不一致带来的泛化性问题,从而可以在训练样本数量较多的预训练阶段,降低学习过程的复杂度,并在学习复杂度较高的增量训练阶段,显著降低所需要的训练样本数量,有利于降低训练成本,同样可以提高工作效率。[0079]在一个实施例中,基于在不同角度下针对同一样本人物分别采集的完整人物头像,构建增量训练样本,包括:获取在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对该样本人物采集的第二完整人物头像;识别第一完整人物头像中人物装饰元素所处的第一元素区域,得到第一角度下用于掩码第一元素区域的第一掩码图;融合第一完整人物头像和第一掩码图,从第一完整人物头像中分离出第一元素区域的第一元素图像;构建包含第二完整人物头像和第一元素图像的增量训练样本。[0080]其中,第一角度下的第一掩码图,用于掩码第一完整人物头像中人物装饰元素所处的第一元素区域。也即,第一掩码图中,第一元素区域为黑色,对应的像素值为0,除第一元素区域以外其他区域为白色,对应的像素值为255。[0081]具体来说,服务器可以获取在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对该样本人物采集的第二完整人物头像。然后,从第一完整人物头像中分离出作为替换目标的第一元素图像,再进一步结合作为替换对象的第二完整人物头像,构建增量训练阶段的增量训练样本。[0082]在从第一完整人物头像中分离出第一元素图像的过程中,服务器可以基于图像语义分割,或者,通过应用图像编辑软件或自动掩码生成工具,识别第一完整人物头像中人物装饰元素所处的第一元素区域,并生成第一角度下用于掩码第一元素区域的第一掩码图。得到第一掩码图之后,服务器可以融合第一完整人物头像和第一掩码图,从第一完整人物头像中分离出第一元素区域的第一元素图像。[0083]在一个可选的实施例中,服务器可以对第一掩码图进行像素值变换,使第一元素区域的像素值由0变为1,并使除第一元素区域以外其他区域的像素值由255变为0,得到第一掩码变换图。并将第一完整人物头像与第一掩码变换图各自的像素矩阵点乘,使得第一完整人物头像中第一元素区域的像素值保持不变,除第一元素区域以外其他区域的像素值变为0,从而实现第一元素区域的分离,得到第一元素图像。[0084]预训练样本构建过程,与增量训练样本构建过程类似。在一个具体的实施例中,预训练样本构建过程,包括:获取具有人物装饰元素的完整人物头像;识别该完整人物头像中人物装饰元素所处的装饰元素区域,得到完整人物头像的装饰元素掩码图;融合完整人物头像和装饰元素掩码图,得到装饰元素区域中的装饰元素图像;构建包含完整人物头像和装饰元素图像的预训练样本。[0085]上述实施例中,从第一完整人物头像中分离出第一元素区域的第一元素图像,作为增量训练样本的一部分,能够明确装饰元素替换目标,提高训练效果。[0086]在一个具体的实现中,融合第一完整人物头像和第一掩码图,从第一完整人物头像中分离出第一元素区域的第一元素图像,包括:对第一掩码图进行归一化处理,得到第一归一化掩码图;使用第一归一化掩码图对第一完整人物头像进行掩码处理,从第一完整人物头像中分离出第一元素区域的第一元素图像。[0087]具体来说,服务器可以对第一掩码图进行归一化处理,得到第一元素区域的像素值为1、除第一元素区域以外其他区域的像素值为0的第一归一化掩码图。然后,再使用第一归一化掩码图对第一完整人物头像进行掩码处理,从第一完整人物头像中分离出第一元素区域的第一元素图像。[0088]示例性的,定义第一掩码图为M,第一完整人物头像为I₁,则人物装饰元素在第一完整人物头像中所呈现的第一元素图像S₁的确定过程可以表示为:元素区域)的像素值归一化为1,原本未被掩码的其他区域(即除第一元素区域以外其他区域)的像素值归一化为0。归一化之后再和I₁点乘,使得I₁中第一元素区域以外其他区域的像[0095]示例性的,定义第二掩码图为M₂,第二完整人物头像为I₂,则删除第二元素区域的被掩码的黑色区域(即第二元素区域)的像素值归一化为0,原本未被掩码的其他区域(即除[0099]在一个可选的实施例中,服务器练过程中训练样本中的完整人物头像、以及增量训练过程中的第一完整人物头像和第二完整人物头像。BiseNet模型是一种用于图像分割任务的神经网络模型,可实现将图像中的不同物体或区域进行像素级别的划分,其结构图如图5所示。BiseNet模型包含两个分支网络:要配置丰富的通道容量,并且设置滑动距离(Stride)小的浅层结构。也即,细节分支需要通道数大层数少。而对于语义分支,则需要考虑到大感受野和小计算量的要求,具体可以借鉴了轻量型网络如Xception(极深网络)、MobileNet(移动网络)、ShuffleNet(洗牌网络),设计语义分支的结构。与细节分支大通道数浅层的特点相反,语义分支需要小通道数深层的结构。因为细节分支和语义分支关注的特征不同,细节分支提取的是Low-Level细节特征,而语义分支提取的是High-Level语义特征。在此基础上,可以通过双边引导聚合层(bilateralguidedaggregationlayer)来融合来自两个分支的互补信息。[0100]在一个可选的实施例中,装饰元素替换模型的训练样本还包括完整人物头像的文本描述。在该实施例的情形下,装饰元素替换模型的训练方法还包括:针对每一完整人物头像,使用训练好的多模态模型,生成该完整人物头像的文本描述。[0101]其中,完整人物头像,可以包括预训练过程中训练样本中的完整人物头像、以及增量训练过程中的第一完整人物头像和第二完整人物头像。所生成的文本描述,用于在预训练或增量训练过程中,引导模型进行装饰元素图像的替换。该多模态模型在训练过程中的模型损失,包括图像文本对比损失、图像文本匹配损失和语言模型损失。[0102]示例性的,可以使用BLIP(BootstrappingLanguage-ImagePre-trainingforUnifiedVision-LanguageUnderstandingandGeneration,引导语言图像预训练)模型生成完整人物头像的描述信息。如图6所示,BLIP模型包含4部分:ImageEncoder(图像编码器)、TextEncoder(文本编码器)、Image-groundedTextEncoder(基于图像的文本编码器)和Image-groundedTextDecoder(基于图像的文本解码器)。其中,Image-groundedTextEncoder是一个二分类模型,负责判断文本和图片所表达的含义是否一致。在本申请人物头像的文本描述。[0103]在其中一个实施例中,以人物装饰元素为发型的情况为例,对训练样本的构建过程进行介绍。在该实施例的情形下,如图8所示,一方面,服务器可以在完整人物头像I的理和像素点乘运算,进一步得到删除发型区域的局部人物头像D、以及发型图S。另一方面,服务器可以应用BLIP模型,生成完整人物头像I的文本描述。进而,可以得到包含完整人物头像、完整人物头像的文本描述、发型掩码图、发型图、以及删除发型区域的局部人物头像删除发型区域的局部人物头像,可以作为目标网络的输入,发型图可以作为参考网络的输[0104]下面对模型的预训练过程进行介绍。[0105]在一个实施例中,预训练模型的训练过程,包括:针对预训练样本集中的每一完整人物头像,识别该完整人物头像中的装饰元素区域,得到完整人物头像的装饰元素掩码图;对完整人物头像中的装饰元素图像进行图像特征提取,得到装饰元素图像的装饰元素特征;在装饰元素掩码图的引导下,对完整人物头像进行图像特征提取,得到完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征;基于融合装饰元素特征和非装饰特征得到的人物特征,解码得到完整人物头像对应的更新图像;在各完整人物头像的损失统计值收敛的情况下,得到用于实现装饰元素图像替换的预训练模型。[0106]其中,任一完整人物头像对应的模型损失,用于表征该完整人物头像与该完整人物头像对应更新图像之间的差异。也就是说,预训练过程的训练目标,是使替换人物装饰元素后的模型输出图像,接近完整人物头像。[0107]具体来说,服务器可以针对预训练样本集中的每一完整人物头像,基于图像语义分割,或者,通过应用图像编辑软件或自动掩码生成工具,识别该完整人物头像中的装饰元素区域,进而得到完整人物头像的装饰元素掩码图。在得到装饰元素掩码图的情况下,服务器一方面可以基于该装饰元素掩码图,从完整人物头像中分离出装饰元素区域的装饰元素图像,并对该装饰元素图像进行图像特征提取,得到装饰元素特征。另一方面,可以在装饰元素掩码图的引导下,对完整人物头像进行图像特征提取,得到完整人物头像中除所述装饰元素区域以外其他区域的非装饰特征。然后,服务器可以通过融合装饰元素特征和非装饰特征,得到完整的任务特征,并基于该人物特征进行解码,获得完整人物头像对应的更新[0108]对于每一个作为训练样本的完整人物头像而言,其在预训练过程中的模型损失,用于表征该完整人物头像与该完整人物头像对应更新图像之间的差异。在各完整人物头像的损失统计值收敛的情况下,服务器可以得到用于实现装饰元素图像替换的预训练模型。其中,各完整人物头像的损失统计值,可以是各完整人物头像各自模型损失的平均值、加权[0109]在一个可选的实施例中,如图3所示,装饰元素替换模型和预训练模型的网络结构相同,包括目标网络、参考网络和解码器。其中,参考网络用于对装饰元素图像进行图像特征提取,得到装饰元素特征;目标网络用于通过图像特征提取,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。参考网络得到的装饰元素特征,将传递给目标网络,因此,目标网络还用于融合装饰元素特征和非装饰特征,得到完整的人物特征。该人物特征作为解码器的输入,以使解码器对该人物特征进行解码,得到完整人物头像对应的更新图[0110]在一个具体的实现中,如图9所示,预训练模型和装饰元素替换模型以Stable输入图片通道数为3,经过变分自编码器(VariationalAutoencoder,VAEEncoder)编码后通道数为4。为了实现仅改变装饰元素区域,保持完整人物头像中其他部分不变,使用Inpainting模式,额外增加5个通道,分别是1通道的装饰元素掩码图、4通道的删除装饰元素区域后的局部人物头像。其中,装饰元素掩码图表征期望模型保留和改变的部分,其中,黑色部分代表需要改变的部分,白色部分代表需要保留的其他部分。[0111]进一步的,为引入装饰元素特征,新增参考网络编码装饰元素图像。可选的,为减少新引入特征对原始StableDiffusion模型的影响,可以将该参考网络中Reference-Net(参考U型网络)的网络结构和参数均与StableDiffusion中的U-net(U型网络)保持一致。对于扩散模型而言,其在测试阶段的输入为纯噪声,经过T步降噪后生成有意义的图片,其入为接近无噪声数据,该步去噪后的结果为Xo,经过变分自解码器(Variational编码了装饰元素图像,使用编码的特征可以直接还原装饰元素图像。U-net网络主要包含率。[0118]上述实施例中,对完整人物头像进行图像编码,得到完整人物头像的潜空间完整表示,能够确保完整人物头像中的视觉信息被充分挖掘,再进一步掩码得到潜空间局部表示,进而得到非装饰特征,可以确保非装饰特[0119]在一个可选的实施例中,在装饰元素掩码图的引导下,对完整人物头像进行图像特征提取,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征,包括:在装饰元素掩码图的引导下,对完整人物头像进行掩码处理,得到删除装饰元素区域的局部人物头像;对局部人物头像进行图像编码,得到局部人物头像的潜空间局部表示;基于潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。[0120]具体来说,服务器可以先使用装饰元素掩码图,对完整人物头像进行掩码处理,得到删除装饰元素区域的局部人物头像。然后,服务器可以通过对局部人物头像进行图像编码,得到局部人物头像在低维潜在空间的潜空间局部表示。最后,服务器再通过对该潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。示例性的,如图11所示,服务器可以使用装饰元素掩码图对完整人物头像进行掩码处理,得到删除装饰元素区域后的局部人物头像,然后,再将该局部人物头像作为VAEEncoder的输入,得到局部人物头像在低维潜在空间的潜空间局部表示。之后,再由U-Net对该潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征。[0121]上述实施例中,先对完整人物头像进行掩码,得到删除装饰元素区域的局部人物[0122]在一个具体的实现中,非装饰特征和装饰元素特征均包含查询特征、键特征和值特征。在该实施例的情形下,装饰元素替换模型的训练方法还包括:拼接非装饰特征和装饰元素特征各自的键特征,得到键融合特征;拼接非装饰特征和装饰元素特征各自的值特征,得到值融合特征;基于非装饰特征中的查询特征、键融合特征和值融合特征,得到人物特[0123]其中,查询特征(Query,Q)、键特征(Key,K)和值特征(Value,V)在注意力机制中扮演着重要的角色,尤其是在计算机视觉和自然语言处理等领域。这些特征通过对输入进行线性变换生成,并用于计算注意力权重,从而实现特征的融合和信息的传递。查询特征用于与键特征进行相似度计算,以确定哪些部分的特征需要被关注。值特征用于提供实际的特征信息,以便在注意力加权后用于输出特征的生成。在注意力机制中,查询特征和键特征之间的相似度计算通常使用点积或内积来实现,然后通过softmax函数进行归一化,以得到注[0126]Transformer中Attention主要包含Self-Attention(自注意力机制)和Cross-Attention(交叉注意力机制)两种形式。当Q、K和V均为图片特征时,规定为Self-Attention,负责计算图片特征之间的关系;当Q为图片特征,KV为其他条件特征时,规定为Cross-Attention,负责计算图片特征和其他特征之间的关系。经研究表明,Attention参数AdaptationofLargeLanguageModels,大语言模型的低阶适应)为例,仅作用在Cross-FFN)的线性部分,微调参数量远小于U-net的所有参数,但微调效果和微调整个U-net参数[0127]基于此,本申请将Reference-Net的Attention特征传递到U-net,U-net接收该特征后,有利于生成高度还原的装饰元素图像。考虑到Cross-Attention层除图片特征外还涉及文本特征,引入Reference-Net特征一定程度上影响文本特征发挥作用。另外Reference-Net作用是编码装饰元素图像,帮助U-net还原装饰元素图像,只涉及图片特征,因此本实施例提出将Reference-Net编码的Self-Attention特征以向量拼接的方式传递到U-net中的Self-Attention处。其拼接的效果如图12所示。也即,服务器一方面通过拼接非装饰特征和装饰元素特征各自的键特征,得到键融合特征,另一方面通过拼接非装饰特征和装饰元素特征各自的值特征,得到值融合特征。然后,再基于非装饰特征中的查询特征、键融合特征[0128]y=Attention(Qunet,cat(Kunet,Kref拼接Reference-Net的Self-At[0130]上述实施例中,在非装饰特征的基础上,仅拼接装饰元素图像的键特征和值特征,一方面,可以确保装饰元素信息的完整性,另一方面,能够避免信息冗余,有利于提高人物装饰元素的替换效果。[0131]在一个实施例中,如图13所示,提供了一种装饰元素替换模型的训练方法,该方法可以由计算机设备执行,该计算机设备可以是图1所示的终端或服务器,以该计算机设备是[0132]步骤S1301,获取多个候选人物图像;[0133]步骤S1302,对各候选人物图像分别进行人物识别,确定各候选人物图像各自包含人物的人脸尺寸;[0134]步骤S1303,针对每一候选人物图像,在该候选人物图像中人物的人脸尺寸满足尺寸条件、且人物包含人物装饰元素的情况下,基于该候选人物图像得到具有人物装饰元素的完整人物头像,获得包含多个完整人物头像的预训练样本集;[0136]步骤S1304,针对预训练样本集中的每一完整人物头像,识别该完整人物头像中的装饰元素区域,得到完整人物头像的装饰元素掩码图;[0137]步骤S1305,对完整人物头像中的装饰元素图像进行图像特征提取,得到装饰元素特征;[0138]步骤S1306,对完整人物头像进行图像编码,得到完整人物头像的潜空间完整表[0139]步骤S1307,在装饰元素掩码图的引导下,对潜空间完整表示进行掩码处理,得到完整人物头像中除装饰元素区域以外其他区域的潜空间局部表示;[0140]步骤S1308,基于潜空间局部表示进行特征编码和注意力池化处理,得到完整人物头像中除装饰元素区域以外其他区域的非装饰特征;[0141]其中,非装饰特征和装饰元素特征均包含查询特征、键特征和值特征;[0142]步骤S1309,拼接非装饰特征和装饰元素特征各自的键特征,得到键融合特征;[0143]步骤S1310,拼接非装饰特征和装饰元素特征各自的值特征,得到值融合特征;[0144]步骤S1311,基于非装饰特征中的查询特征、键融合特征和值融合特征,得到人物特征;[0145]步骤S1312,基于人物特征解码得到完整人物头像对应的更新图像;[0146]步骤S1313,在各完整人物头像的损失统计值收敛的情况下,得到用于实现装饰元素图像替换的预训练模型;[0147]其中,任一完整人物头像对应的模型损失,用于表征完整人物头像与完整人物头像对应更新图像之间的差异;[0148]步骤S1314,获取在第一角度下针对样本人物采集的第一完整人物头像、以及第二角度下针对样本人物采集的第二完整人物头像;[0149]步骤S1315,识别第一完整人物头像中人物装饰元素所处的第一元素区域,得到第一角度下用于掩码第一元素区域的第一掩码图;[0150]步骤S1316,对第一掩码图进行归一化处理,得到第一归一化掩码图;[0151]其中,第一归一化掩码图中第一元素区域的像素值为1、除第一元素区域以外其他区域的像素值为0;[0152]步骤S1317,使用第一归一化掩码图对第一完整人物头像进行掩码处理,从第一完整人物头像中分离出第一元素区域的第一元素图像;[0153]步骤S1318,识别第二完整人物头像中人物装饰元素所处的第二元素区域,得到第二角度下用于掩码第二元素区域的第二掩码图;[0154]步骤S1319,对第二完整人物头像和第二掩码图分别进行归一化处理,得到归一化头像和第二归一化掩码图;[0155]其中,第二归一化掩码图中第二元素区域的像素值为0、除第二元素区域以外其他区域的像素值为1;[0156]步骤S1320,使用第二归一化掩码图对归一化头像进行掩码处理,得到归一化的局部头像信息;[0157]步骤S1321,对局部头像信息进行反归一化处理,得到删除第二元素区域的局部人物头像;[0158]步骤S1322,构建包含第二完整人物头像、第一元素图像、以及删除第二元素区域的局部人物头像的增量训练样本;[0159]步骤S1323,使用增量训练样本对预训练模型进行增量训练,以使预训练模型基于第一元素图像补全局部人物头像;[0160]步骤S1324,在使用多个增量训练样本对预训练模型进行增量训练、且满足训练结束条件的情况下,得到具备角度补偿能力的装饰元素替换模型;[0161]其中,装饰元素替换模型用于生成目标人物的目标图像。[0162]上述装饰元素替换模型的训练方法,一方面,在训练过程中引入人物装饰元素的装饰元素图像,能够解决采用文本描述人物装饰元素所存在的控制能力弱的问题,避免需要反复调整训练样本以实现训练目标,有利于提高工作效率;另一方面,通过两个阶段的训练,能够确保预训练阶段能够学习到人物装饰元素的替换能力,增量训练阶段能够解决角度不一致带来的泛化性问题,从而可以在训练样本数量较多的预训练阶段,降低学习过程的复杂度,并在学习复杂度较高的增量训练阶段,显著降低所需要的训练样本数量,有利于降低训练成本,同样可以提高工作效率。[0163]在一个实施例中,还提供了一种人物装饰元素替换方法,该方法可以由计算机设备执行,该计算机设备可以是图1所示的终端或服务器,以该计算机设备是终端为例,在本[0164]步骤S1402,获取目标人物的人物图像、以及包含参考装饰元素的参考图像。[0165]其中,目标人物是需要进行装饰元素替换的人物,也即装饰元素替换的替换对象。参考装饰元素是装饰元素替换的替换目标。也即,进行装饰元素替换,是指,将目标人物原本包含的装饰元素,替换为参考装饰元素。参考图像可以仅包含参考装饰元素的参考元素图像,也可以在参考装饰元素的参考元素图像的基础上,还包含其他图像。例如,在人物装饰元素为发型的情况下,参考图像可以是发型图,也可以是具备发型的人物图。[0166]具体来说,用户可以通过终端发起装饰元素替换请求,从而,服务器可以从终端获取目标人物的人物图像、以及包含参考装饰元素的参考图像。进一步的,人物图像和参考图[0167]步骤S1404,识别参考图像中的装饰元素区域,得到参考装饰元素的参考元素图[0168]其中,目标人物在人物图像中具有目标装饰元素。该目标装饰元素与参考图像中所包含的参考装饰元素的元素类型相同。例如,目标装饰元素和参考装饰元素均为发型;又如,目标装饰元素和参考装饰元素均为眼镜。[0169]具体来说,服务器可以识别参考图像中的装饰元素区域,得到参考装饰元素的参考元素图像。示例性的,服务器可以从作为参考的人物图中,识别发型区域,得到参考发型的发型图。[0170]步骤S1406,将参考元素图像和人物图像输入装饰元素替换模型,得到目标人物的[0171]具体来说,服务器将参考元素图像和人物图像作为装饰元素替换模型的输入,可以从模型输出中获得目标人物的目标图像。其中,目标人物在目标图像中具有参考装饰元素,且目标图像中的参考装饰元素与目标人物对应相同的人物头像角度。装饰元素替换模型,基于上述任意一个装饰元素替换模型的训练方法实施例中装饰元素替换模型的训练方法训练得到。[0172]在一个可选的实施例中,装饰元素替换模型包括参考网络和目标网络。服务器具体可以将参考元素图像作为参考网络的输入,将目标人物的人物图像作为目标网络的输入,从而获得目标网络输出的目标图像。可以理解,由于通过增量训练后得到的装饰元素替换模型具备角度补偿能力,在人物图像和参考图像各自的人物头像角度不同的情况下,目标图像中所包含的参考装饰元素的人物头像角度将与人物图像保持一致,实现在角度补偿的基础上进行装饰元素替换。[0173]在一个可选的实施例中,以人物装饰元素为发型的情况为例。如图15所示,在装饰元素替换模型(发型替换模型)以扩散模型为基底的情况下,模型输入可以包括发型输入和非发型输入,其中,发型输入是指参考发型,非发型输入可以包括目标人物的原始发型掩码图、去除发型区域的局部人物图像、以及噪声图,模型输出为原始发型替换为参考发型的目标图像。从图15中不难看出,目标图像与发型输入中各自包含的参考发型对应的人物头像角度不同,在图像展示效果上有所区别。在发型替换过程中对角度进行补偿,能够确保替换后的参考发型与目标人物在人物图像中的人物头像角度保持一致,有利于提升替换效果。[0174]上述人物装饰元素替换方法,应用经过两个阶段训练的装饰元素替换模型,无需再次训练,即可在保证人物其他部分不变的前提下,将目标人物原本包含的原始装饰元素替换为参考装饰元素,实现zero-shot(零样本学习)替换人物装饰元素的目的,有利于提高工作效率。并且,所使用的装饰元素替换模型能够解决角度不一致带来的泛化性问题,有利于提升替换效果。[0175]在其中一个实施例中,本申请还提供了一种应用场景,在该应用场景下应用上述的装饰元素替换模型训练方法和人物装饰元素替换方法。该应用场景例如可以是发型设计场景。在该应用场景下,人物装饰元素可以是发型,服务器在装饰元素替换模型的训练的过程中:获取用于实现发型图像替换的预训练模型;基于在不同角度下针对同人同发型分别采集的完整人物头像,构建增量训练样本;使用增量训练样本对预训练模型进行增量训练,以使该预训练模型基于第一角度下完整人物头像中的第一发型图像,替换第二角度下完整人物头像中的第二发型图像;在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的发型替换模型。其中,预训练模型的每一预训练样本,包括具有发型的完整人物头像;发型的图像展示效果,随着人物头像角度的变化而变化。[0176]训练得到的模型,可以用于进行发型替换。具体来说,服务器可以获取目标人物的人物图像、以及包含参考发型的参考图像;识别参考图像中的发型区域,得到参考发型的发型图像;将发型图像和人物图像输入发型替换模型,得到目标人物的目标图像;该目标人物在目标图像中具有参考发型。[0177]在一个可选的实施例中,本申请在文生图扩散模型的基础上,提出了一种基于两阶段预训练的zero-shot人物发型替换方案。其中,两阶段训练方案,降低了数据收集和训练成本;使用U-net的Inpainting模式,保证仅改变发型,保持其他部分不改变;引入Reference-Net编码发型特征,并在Self-Attention层将发型特征拼接到U-net网络中,实人物其他部分不改变的前提下,实现zero-shot替换发型的目的。[0178]在其中一个实施例中,本申请还提供了一种应用场景,在该应用场景下应用上述的装饰元素替换模型训练方法和人物装饰元素替换方法。该应用场景例如可以是虚拟现实场景。在该应用场景下,人物装饰元素可以是头盔,服务器在装饰元素替换模型的训练的过程中:获取用于实现头盔图像替换的预训练模型;基于在不同角度下针对佩戴同一头盔的样本人物分别采集的完整人物头像,构建增量训练样本;使用增量训练样本对预训练模型进行增量训练,以使该预训练模型基于第一角度下完整人物头像中的第一头盔图像,替换第二角度下完整人物头像中的第二头盔图像;在使用多个增量训练样本完成增量训练的情况下,得到具备角度补偿能力的头盔替换模型。其中,预训练模型的每一预训练样本,包括佩戴有头盔的完整人物头像;头盔的图像展示效果,随着人物头像角度的变化而变化。[0179]训练得到的模型,可以用于进行头盔替换。具体来说,服务器可以获取目标人物的人物图像、以及包含参考头盔的参考图像;识别参考图像中的头盔区域,得到参考头盔的头盔图像;将头盔图像和人物图像输入头盔替换模型,得到目标人物的目标图像;该目标人物在目标图像中佩戴有参考头盔。[0180]应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 63296-3:2025 EN Portable multimedia equipment - Determination of battery duration - Part 3: Wearable powered loudspeaker equipment
- 2025年二级建造师《建筑工程管理与实务》真题试题及参考答案
- 中国桅等灯项目投资可行性研究报告
- 中国塑业项目投资可行性研究报告
- 2025年法律职业资格考试主观题刑法刑事诉讼法案例题及答案
- 中国汽车视角项目投资可行性研究报告
- 冲件压件行业深度研究报告
- 中国中防滑板项目投资可行性研究报告
- 串接式双孔终端用户盒行业深度研究报告
- FM调谐电路行业深度研究报告
- 病理医生进修病理诊断汇报
- 2025年入党积极分子考试题库及答案(全国)
- 单招考试宣传课件
- 2024-2025学年安徽合肥七年级上册数学期中试卷及答案
- 塔罗教学课件
- 产程中产妇的饮食管理
- 2025年陕西邮政校招笔试题及答案
- 三务公开培训
- 2025年衡水驾校考试危运证考试
- 肺动脉高压讲课件
- 麻醉科进修结业汇报大纲
评论
0/150
提交评论