版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利学城学苑大道1068号有限公司44414GO6V10/774(2022.01)GO6V30/26(2022.文本的图像编辑方法和电子设备,所述方法包中间编辑结果,若中间编辑结果不满足用户需获取目标源图像的图像整体特征和图像局部特征,根据所述图像整体特征、所述图像局部特征、所述句子述句子词特征,基于图像编辑模型对所述目标源图像进目标编辑图像;其中,所述图像编辑模型包括:采样编码模块和至少一个级联的生成模块;所述图像编辑模型对所述目程包括:利用所述采样编码模块对所述图像整体特征、特征和所述图像局部特征进行采样编码处理,得到第一输出所述第一编辑图像;响应于用户指令,将所述第一述图像局部特征和所述句子词特征输入所述至少一个级中进行高维视觉特征提取,得到所述目标编辑图像,或者将所述目标源图像、所述图像局部特征和所述句子词特征输入到所联的生成模块中进行高维视觉特征提取,得到所述21.一种基于文本的图像编辑方法,其特征在于,所获取目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征;根据所述图像整体特征、所述图像局部特征、所述句子整体特征和所述句子词特征,基于图像编辑模型对所述目标源图像进行编辑,得到目标编辑图像;其中,所述图像编辑模型包括:采样编码模块和至少一个级联的生成模块;所述图像编辑模型对所述目标源图像的处理过程包括:利用所述采样编码模块对所述图像整体特征、所述句子整体特征和所述图像局部特征进行采样编码处理,得到第一编辑图像,并输出所述第一编辑图像;响应于用户指令,将所述第一编辑图像、所述图像局部特征和所述句子词特征输入所述至少一个级联的生成模块中进行高维视觉特征提取,得到所述目标编辑图像,或者将所述目标源图像、所述图像局部特征和所述句子词特征输入到所述至少一个级联的生成模块中进行高维视觉特征提取,得到所述目标编辑图像,所述生成模块包括:第一自动解码器、第一自注意力模块、第二上采样模块和第二自动编码器,所述第一自动解码器用于恢复输入信息的高维视觉特征,得到第一高维特征图像,所述输入信息为第一编辑图像或者为前一层生成模块的输出信息;所述第一自注意力模块用于对所述第一高维特征图像和所述句子词特征进行融合以所述第二上采样模块用于对所述句子语义信息特征进行特征融合和上采样处理,得到第二上采样结果;所述第二自动编码器用于对所述第二上采样结果进行高维视觉特征提取,得到输出信息,当所述生成模块为所述至少一个级联的生成模块中的最后一级生成模块时,所述输出信息为目标编辑图像。2.根据权利要求1所述的方法,其特征在于,所述第一自注意力模块包括:自注意力层和第一带噪声仿射组合模块,所述自注意力层用于对所述第一高维特征图像和所述句子词特征进行特征融合;所述第一带噪声仿射组合模块用于对所述自注意力层的输出结果与所述第一高维特征图像的拼接结果,以及所述图像局部特征进行特征融合。3.根据权利要求1至2中任一项所述的方法,其特征在于,所述采样编码模块包括:第一上采样模块和第一自动编码器,所述第一上采样模块用于对所述图像整体特征、所述句子整体特征和所述图像局部特征进行上采样处理,得到第一上采样结果;所述第一自动编码器用于根据所述第一上采样结果生成第一编辑图像。4.根据权利要求3所述的方法,其特征在于,所述第一上采样模块包括:多个相同的上采样层、第二带噪声仿射组合模块和第三带噪声仿射组合模块,第一上采样模块的输入是所述句子整体特征、所述图像整体特征和所述图像局部特征,所述多个相同的上采样层中相邻的两个上采样层中,后一上采样层的输入是前一上采样层的输出;所述第二带噪声仿射组合模块位于所述多个相同的上采样层中任意两个上采样层中间,用于对所述任意两个上采样层中前一上采样层输出的结果和所述图像局部特征进行特3征融合;所述第三带噪声仿射组合模块用于对所述多个相同的上采样层中最后一个上采样层的输出结果和所述图像局部特征进行特征融合。5.根据权利要求1至2中任一项所述的方法,其特征在于,所述图像编辑模型还包括:细节修正模型,用于对所述目标编辑图像进行细节修改;所述细节修正模型用于处理所述图像局部特征、所述句子词特征和所述目标编辑图所述细节修正模型包括:第一细节修正模块、第二细节修正模块、融合模块和生成器,其中,所述第一细节修正模块用于对所述图像局部特征、第一随机噪声和所述句子词特征进行细节修改,得到第一细节特征;所述第二细节修正模块用于对所述目标编辑图像对应的图像局部特征、第二随机噪声和所述句子词特征进行细节修改,得到第二细节特征;所述融合模块用于对所述第一细节特征和所述第二细节特征进行特征融合;所述生成器用于根据所述融合模块的输出结果生成所述目标修正图像。6.根据权利要求5所述的方法,其特征在于,所述第一细节修正模块包括第四带噪声仿射组合模块、第五带噪声仿射组合模块、第六带噪声仿射组合模块、第二自注意力模块、第一残差网络和第一线性网络;所述第四带噪声仿射组合模块用于对所述第一随机噪声和所述图像局部特征进行特所述第二自注意力模块用于对所述第一融合特征和所述句子词特征进行特征融合;所述第五带噪声仿射组合模块对所述第二自注意力模块的输出结果与所述第一随机噪声的拼接结果、以及所述图像局部特征进行特征融合;所述第一残差网络用于对所述第五带噪声仿射组合模块的输出结果进行视觉特征提所述第一线性网络用于对所述图像局部特征进行线性变换;所述第六带噪声仿射组合模块用于对所述第一残差网络的输出结果和所述第一线性网络的输出结果进行特征融合。7.根据权利要求5所述的方法,其特征在于,所述第二细节修正模块包括第七带噪声仿射组合模块、第八带噪声仿射组合模块、第九带噪声仿射组合模块、第三自注意力模块、第二残差网络和第二线性网络;所述第七带噪声仿射组合模块用于对所述第二随机噪声和所述目标编辑图像对应的图像局部特征进行特征融合,得到第一融合特征;所述第三自注意力模块用于对所述第一融合特征和所述句子词特征进行特征融合;所述第八带噪声仿射组合模块对所述第三自注意力模块的输出结果与所述第二随机噪声的拼接结果、以及所述目标编辑图像对应的图像局部特征进行特征融合;所述第二残差网络用于对所述第八带噪声仿射组合模块的输出结果进行视觉特征提所述第二线性网络用于对所述目标编辑图像对应的图像局部特征进行线性变换;所述第九带噪声仿射组合模块用于对所述第二残差网络的输出结果和所述第二线性4网络的输出结果进行特征融合。8.根据权利要求5所述的方法,其特征在于,所述细节修正模型的训练方式包括:根据有条件的生成器损失函数、无条件的生成器损失函数和语义对比函数训练所述细节修正模型的生成器;根据有条件的判别器损失函数和无条件的判别器损失函数训练所述细节修正模型的判别器。9.根据权利要求1至2中任一项所述的方法,其特征在于,所述图像编辑模型的训练方法包括:利用预设的损失函数和训练集对初始模型进行训练,得到所述图像编辑模型;其中,所述预设的损失函数包括与N个子网络分别对应的子函数和N-1个自动编解码器的损失函数,所述初始模型包括N个子网络,所述N个子网络为所述采样编码模块和至少一个生成模块分别对应的初始模型;训练过程中,当第i个子网络的输出图像不满足预设条件时,采用第i+1至第N个子网络对应的子函数和第i个至第i+1个自动编解码器的损失函数,对初始模型进行训练,0≤i<N。10.一种电子设备,其特征在于,所述设备包括处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于从所述存储器中调用并运行所述计算机程序,使得所述设备执行权利要求1至9中任一项所述的方法。11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求1至9中任一项所述的方法。5一种基于文本的图像编辑方法和电子设备技术领域[0001]本申请涉及图像处理领域,尤其涉及一种基于文本的图像编辑方法和电子设备。背景技术[0002]众所周知,基于文本的图像编辑是一种根据给定文本编辑源图像的技术,该技术(ManipulatingAttentionGenerativeAdversarialNetwork,ManiGAN)用于根据文本描述内容对待编辑的源图像进行图像编辑。但是,ManiGAN在根据输入文本对源图像进行编辑时,输出的图像编辑结果往往不符合用户要求。[0003]因此,如何使得ManiGAN输出的图像编辑结果符合用户要求是当前急需解决的问发明内容[0004]本申请提出了一种基于文本的图像编辑方法和电子设备,能够解决ManiGAN输出的图像编辑结果不符合用户要求的问题。[0005]第一方面,提供了一种基于文本的图像编辑方法,包括:获取目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征;根据所述图像整体特征、所述图像局部特征、所述句子整体特征和所述句子词特征,基于图像编辑模型对所述目标源图像进行编辑,得到目标编辑图像;其中,所述图像编辑模型包括:采样编码模块和至少一个级联的生成模块;所述图像编辑模型对所述目标源图像的处理过程包括:利用所述采样编码模块对所述图像整体特征、所述句子整体特征和所述图像局部特征进行采样编码处理,得到第一编辑图像,并输出所述第一编辑图像;响应于用户指令,将所述第一编辑图像、所述图像局部特征和所述句子词特征输入所述至少一个级联的生成模块中进行高维视觉特征提取,得到所述目标编辑图像,或者将所述目标源图像、所述图像局部特征和所述句子词特征输入到所述至少一个级联的生成模块中进行高维视觉特征提取,得到所述目标编辑图像。[0006]上述方法可以由电子设备上的芯片执行。相比现有ManiGAN根据文本对待编辑的源图像进行编辑并直接输出可能不符合用户要求的编辑结果,本申请在现有ManiGAN中引入采样编码模块,形成改进的ManiGAN;该采用编码模块会将中间编辑结果(即第一编辑图像)输出,以方便用户判断该中间编辑结果是否符合要求,若符合要求,则将中间编辑结果继续向至少一个级联的生成模块传递;若不符合要求,则不会将该中间结果继续向至少一个级联的生成模块传递,而是用目标源图像代替该中间编辑结果继续向至少一个级联的生成模块传递。由此可见,改进的ManiGAN在根据目标文本对目标源图像编辑时,可以对中间编辑结果进行控制,并及时剔除不符合要求的中间编辑结果,以防止前一级输出不符合要求的结果影响后一级输出结果的准确性,从而为用户编辑出更加符合要求的目标编辑图6[0007]可选地,所述生成模块包括:第一自动解码器、第一自注意力模块、第二上采样模块和第二自动编码器,所述第一自动解码器用于恢复输入信息的高维视觉特征,得到第一高维特征图像,所述输入信息为第一编辑图像或者为前一层生成模块的输出信息;所述第一自注意力模块用于对所述第一高维特征图像和所述句子词特征进行融合以及处理,得到句子语义信息特征;所述第二上采样模块用于对所述句子语义信息特征进行特征融合和上采样处理,得到第二上采样结果;所述第二自动编码器用于对所述第二上采样结果进行高维视觉特征提取,得到输出信息,当所述生成模块为所述至少一个级联的生成模块中的最后一级生成模块时,所述输出信息为目标编辑图像。[0008]可选地,所述第一自注意力模块包括:自注意力层和第一带噪声仿射组合模块,所述自注意力层用于对所述第一高维特征图像和所述句子词特征进行特征融合;所述第一带噪声仿射组合模块用于对所述自注意力层的输出结果与所述第一高维特征图像的拼接结果,以及所述图像局部特征进行特征融合。[0009]在上述第一自注意力模块中引入第一带噪声仿射组合模块,该第一带噪声仿射组合模块通过引入高斯噪声能够增强生成模块编辑图像的可靠性,从而避免了生成模块因图像中存在随机噪声而影响编辑结果可靠性的情况出现。[0010]可选地,所述采样编码模块包括:第一上采样模块和第一自动编码器,所述第一上采样模块用于对所述图像整体特征、所述句子整体特征和所述图像局部特征进行上采样处理,得到第一上采样结果;所述第一自动编码器用于根据所述第一上采样结果生成第一编辑图像。[0011]可选地,所述第一上采样模块包括:多个相同的上采样层、第二带噪声仿射组合模块和第三带噪声仿射组合模块,第一上采样模块的输入是所述句子整体特征、所述图像整体特征和所述图像局部特征,所述多个相同的上采样层中相邻的两个上采样层中,后一上采样层的输入是前一上采样层的输出;所述第二带噪声仿射组合模块位于所述多个相同的上采样层中任意两个上采样层中间,用于对所述任意两个上采样层中前一上采样层输出的结果和所述图像局部特征进行特征融合;所述第三带噪声仿射组合模块用于对所述多个相同的上采样层中最后一个上采样层的输出结果和所述图像局部特征进行特征融合。[0012]在第一上采样模块中引入第二带噪声仿射组合模块和第三带噪声仿射组合模块可以进一步对第一上采样模块中不同上采样层的输出结果进行视觉特征增强。[0013]可选地,所述图像编辑模型还包括:细节修正模型,用于对所述目标编辑图像进行细节修改;所述细节修正模型用于处理所述图像局部特征、所述句子词特征和所述目标编辑图像,得到目标修正图像;所述细节修正模型包括:第一细节修正模块、第二细节修正模块、融合模块和生成器,其中,所述第一细节修正模块用于对所述图像局部特征、第一随机噪声和所述句子词特征进行细节修改,得到第一细节特征;所述第二细节修正模块用于对所述目标编辑图像对应的图像局部特征、第二随机噪声和所述句子词特征进行细节修改,得到第二细节特征;所述融合模块用于对所述第一细节特征和所述第二细节特征进行特征融合;所述生成器用于根据所述融合模块的输出结果生成所述目标修正图像。[0014]在上述图像编辑模型中增加细节修正模型能够对图像编辑模型输出的目标编辑图像进行进一步的细节修改和增强,从而得到高分辨率的目标修正图像。[0015]可选地,所述第一细节修正模块包括第四带噪声仿射组合模块、第五带噪声仿射7所述第四带噪声仿射组合模块用于对所述第一随机噪声和所述图像局部特征进行特征融所述第七带噪声仿射组合模块用于对所述第二随机噪声和所述目标编辑图像对应的图像[0022]在上述图像编辑模型训练的过程中,对N个子网络进行训练是通过自动编解码器误结果向后级子网络传播。后级子网络优先训练能够给前级子网络带来更好的更新梯度,8从而使得前级子网络的收敛效果更好。[0023]第二方面,提供了一种电子设备,包括用于执行第一方面中任一种方法的模块。[0024]第三方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行第一方面中任一项所述的方法。附图说明[0025]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。[0026]图1为本发明实施例中一种基于文本的图像编辑方法流程示意图;[0027]图2为本发明实施例中图像编辑模型的结构示意图;[0028]图3为本发明实施例中细节修正模型的结构示意图;[0029]图4为本发明实施例中图像编辑模型对目标源图像的处理过程示意图;[0030]图5为本发明实施例中一种电子设备的结构示意图。具体实施方式[0031]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置以及方法的详细说明,以免不必要的细节妨碍本申请的描述。[0032]应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描[0033]还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。等仅用于区分描述,而不能理解为指示或暗示相对重要性。[0035]在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。因此,在本说明书“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是形都意味着“包括但不限于”,除非是以其他方式另外特别强调。[0036]基于文本的图像编辑是多媒体领域的研究热点并具有重要的应用价值。ManiGAN用于根据文本描述内容对待编辑的源图像进行图像编辑。但是,现有ManiGAN在根据文本描述内容对源图像进行编辑时无法对图像编辑的中间结果进行处理,往往导致ManiGAN输出的图像编辑结果不符合用户要求。本申请为了解决现有ManiGAN输出的图像编辑结果更加9符合用户要求,在现有ManiGAN的多层级生成对抗网络中引入自动编解码器,该自动编解码器可以将中间编辑结果输出给用户,以方便用户对ManiGAN中间输出的编辑结果进行直接控制,从而得到更加符合用户要求的目标编辑图像。[0037]下面结合附图和具体实施例对本申请做进一步详细说明。[0038]为了解决ManiGAN输出的图像编辑结果不符合用户要求的问题,本申请提出了一[0039]S101,获取目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征。[0040]示例性地,电子设备获取目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征。该目标源图像来自MS-CoCO(即MicrosoftCommonObjectsinContext)数据集和CUB200数据集;上述目标文本是指记录用户编辑目标源图像的文字信息,比如,目标源图像为一只鸟,若用户想要将这只鸟的羽毛染成红色和头部染成黄色,则可将这些编辑需求以文字的形式记录在目标文本中,即该目标文本的具体内容为将这只鸟的羽毛染成红色和头部染成黄色。[0041]上述图像整体特征(即全局图像特征)是指能表示整幅图像的特征,用于描述图像颜色和形状等整体特征,比如,颜色特征、纹理特征和形状特征;上述图像特征)是图像特征的局部表达,它反映了图像上具有的局部特性。[0042]通常情况下,可利用视觉几何组(VisualGeometryGroup,VGG)网络提取上述目标源图像的图像整体特征和图像局部特征;可利用一种特殊的循环神经网络(Recurrent本的句子整体特征和句子词特征。[0043]S102,根据图像整体特征、图像局部特征、句子整体特征和句子词特征,基于图像编辑模型对目标源图像进行编辑,得到目标编辑图像;其中,图像编辑模型包括:采样编码模块和至少一个级联的生成模块;图像编辑模型对目标源图像的处理过程包括:利用采样编码模块对图像整体特征、句子整体特征和图像局部特征进行采样编码处理,得到第一编辑图像,并输出第一编辑图像;响应于用户指令,将第一编辑图像、图像局部特征和句子词特征输入至少一个级联的生成模块中进行高维视觉特征提取,得到目标编辑图像,或者将目标源图像、图像局部特征和句子词特征输入到至少一个级联的生成模块中进行高维视觉特征提取,得到目标编辑图像。[0044]示例性地,如图2所示,目标源图像I是一张尺寸大小为128×128,通道数为3的小鸟图片,在该小鸟图片中,小鸟腹部的羽毛为白色,嘴巴为灰色,头部和颈部的羽毛均为灰白相间色;VGG网络对该128×128的目标源图像I进行特征提取,得到该目标源图像I对应的图像整体特征c₁和图像局部特征M,其中,该图像整体特征c₁是一个128×1的列向量;图像局部特征M的尺寸大小为128×128且通道数为128;又比如,目标文本T的具体内容为将小对该目标文本T进行特征提取,得到目标文本T对应的句子整体特征c和句子词特征M,其中,句子整体特征c₁和句子词特征M,均为128×1的列向量。[0045]如图2所示,图像编辑模型201包括:采样编码模块G₀₀和至少一个级联的生成模块(比如,G₀₁、G₀2),其中,采样编码模块G包括第一上采样模块F₀和第一自动编码器G₀,该第一上采样模块F₀对图像整体特征c₁和句子整体特征c-进行上采样处理,得到第一上采样结果;第一自动编码器G。对该第一上采样结果进行编射组合模块2011a和第三带噪声仿射组合模块2011b,第一上采样模块F₀的输入是句子整体特征c,、图像整体特征c₁和图像局部特征M,多个相同的上采样层中相邻的两个上采样层中,后一上采样层的输入是前一上采样层的输出;第二带噪声仿射组合模块2011a位于多个相同的上采样层中任意两个上采样层中间,用于对任意两个上采样层中前一上采样层输出的结果和图像局部特征M进行特征融合;第三带噪声仿射组合模块2011b用于对多个相同的上采样层中最后一个上采样层的输出结果和图像局部特征M进行特征融合。[0047]上述多个相同的上采样层可以是三个上采样层,也可以是四个上采样层,本申请对此不作任何限定,用户可以根据实际需求设定多个上采样层的具体数量。本申请仅以图2中第一上采样模块F。中包含4个上采样层为例,来说明该4个上采样层结合第二带噪声仿射组合模块2011a对句子整体特征c,、图像整体特征c₁和图像局部特征M进行特征提取以及特征融合的处理过程。[0048]上述第二带噪声仿射组合模块2011a可以位于第一上采样模块F₀中4个上采样层中任意两个上采样层中间,比如,图2中,第一上采样模块F₀的4个上采样层中,前三个上采样层对输入128×1的图像整体特征c₁和128×1的句子整体特征c进行上采样处理,输出尺寸大小为32×32且通道数为64的内部特征(即32×32×64的内部特征);第二带噪声仿射组合模块2011a位于第一上采样模块F₀中第三上采样层和第四上采样层之间;该第二带噪声仿射组合模块2011a根据图像局部特征M对第三上采样层输出的上采样结果(即前三个上采样层输出的32×32×64的内部特征)进行视觉特征增强,得到32×32×64的第一增强上采样结果;该第一增强上采样结果先经过第四上采样层的上采样处理并输出64×64×32的视觉特征,该64×64×32的视觉特征再经过第三带噪声仿射组合模块2011b进行进一步地视觉特征增强并输出增强后的64×64×32的视觉特征;该第三带噪声仿射组合模块2011b根据图像局部特征M对第四上采样层输出的上采样结果(即多个相同的上采样层中最后一个上采样层的输出结果)进行视觉特征增强。[0049]上述第一自动编码器G₀对第三带噪声仿射组合模块2011b输出的增强后的64×64×32的视觉特征进行特征提取和编码处理,并输出尺寸大小为64×64且通道数为3的第一编辑图像l。(即64×64×3的第一编辑图像lo)。用户可以通过直接观察64×64×3的第一编辑图像I₀来判断其是否符合要求;若64×64×3的第一编辑图像I₀符合用户的要求,则将该64×64×3的第一编辑图像Îo输入至少一个级联的生成模块中进行后续处理,如图2中(I)所述;若64×64×3的第一编辑图像I₀不符合用户的要求,则将该64×64×3的第一编辑图像l₀舍弃并用128×128×3的目标源图像I代替第一编辑图像l₀输入至生成模块G₀中进行后续编辑处理,如图2中(Ⅱ)所述,其中,由于采样编码模块G。生成的第一编辑图像I₀被舍11符合用户要求,故将采样编码模块G生成第一编辑图像l₀的步骤跳过,直接将128×128×3的目标源图像I输入至生成模块G₀中进行图像编辑。由此可见,因采样编码模块G。生成第一编辑图像l₀不符合要求而直接用128×128×3的目标源图像I代替第一编辑图像Io输入至生成模块G₀进行图像编辑,从而避免了不符合用户要求的第一编辑图像l。(即错误的第一编辑图像l₀)继续向后传播的情况。[0050]示例性地,若用户判断64×64×3的第一编辑图像I₀符合要求,则该用户会向电子设备发送确认指令,电子设备根据接收到用户发送的确认指令将64×64×3的第一编辑图像Îo输入至少一个级联的生成模块中进行高维视觉特征提取,得到目标编辑图像,如图2中(I)所述;若用户判断64×64×3的第一编辑图像₀不符合要求,则该用户会向电子设备发送拒绝指令,电子设备根据接收到用户发送的拒绝指令将64×64×3的第一编辑图像I₀舍弃并将128×128×3的目标源图像I输入至少一个级联的生成模块(比如,生成模块G₀₁)中进行高维视觉特征提取,得到目标编辑图像,如图2中(Ⅱ)所述。[0051]上述至少一个级联的生成模块可以是1个生成模块,也可以是两个生成模块,本申请对此不作任何限定,用户可以根据实际需求设定生成模块的数量。本申请仅以图2中图像编辑模型包含2个生成模块为例,来说明该两个生成模块配合采样编码模块对中间编辑结果(比如,第一编辑图像)进行进一步地图像编辑以生成目标编辑图像的过程。块2012c、第二上采样模块F₁和第二自动编码器G₁,第一自动解码器E₀用于恢复第一编辑图像Î。(即输入信息)的高维视觉特征,得到第一高维特征图像;第一自注意力模块2012c用于对第一高维特征图像和句子词特征M进行融合以及拼接处理,得到句子语义信息特征;第二上采样模块F₁用于对句子语义信息特征进行特征融合和上采样处理,得到第二上采样结果;第二自动编码器G₁用于对第二上采样结果进行高维视觉特征提取,得到输出信息。[0053]图2中生成模块G₀对第一编辑图像l₀(比如,上述64×64×3的第一编辑图像l₀)的处理过程如下:第一自动解码器E₀对上述64×64×3的第一编辑图像Î。进行高维视觉特征恢复,得到尺寸大小为64×64且通道数为32(即64×64×32)的第一高维特征图像;之后,第一自注意力模块2012c对64×64×32的第一高维特征图像、128×1的句子词特征M和128×128×128的图像局部特征M进行特征融合以及拼接处理,并生成带有细粒度句子语义信息的高维视觉特征(即句子语义信息特征);该句子语义信息特征的尺寸大小为64×64且通道数为32(即64×64×32);再之后,第二上采样模块F₁对64×64×32的句子语义信息特征进行特征融合和上采样处理,生成尺寸大小为128×128且通道数为32(即128×128×32)的视觉特征图像(即第二上采样结果);该第二上采样模块F₁包含两个残差网络和一个上采样层,其中,两个残差网络用于对句子语义信息特征进行融合,该上采样层用于提升图像的空间分辨率;最后,第二自动编码器G₁对第二上采样结果进行高维视觉特征提取和编码处理,生成尺寸大小为128×128且通道数为3(即128×128×3)的第二编辑图像l1。[0054]可选地,第二上采样结果可以先经过带噪声仿射组合模块2012b,该带噪声仿射组合模块2012b将第二上采样结果和128×128×128的图像局部特征M进行融合,并生成尺寸大小为128×128且通道数为32(即128×128×32)的视觉特征图像;之后,第二自动编码器G₁对128×128×32的视觉特征图像进行高维视觉特征提取和编码处理,输出尺寸大小为128×128且通道数为3的第二编辑图像l₁(即128×128×3的第二编辑图像I₁)。[0055]上述第一自注意力模块2012c包括:自注意力层FAtten和第一带噪声仿射组合模块2012a,自注意力层FAtten用于对第一高维特征图像和句子词特征进行特征融合;第一带噪声仿射组合模块2012a用于对自注意力层FAtten的输出结果与第一高维特征图像的拼接结果,以及图像局部特征M进行特征融合。比如,自注意力层FAtten对上述64×64×32的第一高维特征图像和128×1的句子词特征进行特征融合,并将融合结果与第一高维特征图像进行拼接;第一带噪声仿射组合模块2012a对拼接结果以及128×128×128的图像局部特征M进行特征融合。[0056]第二自动编码器G₁输出的128×128×3的第二编辑图像l₁,用户可以通过直接观察该128×128×3的第二编辑图像Î₁来判断其是否符合要求。[0057]示例性地,若用户判断128×128×3的第二编辑图像l₁符合要求,则该用户会向电子设备发送确认指令,电子设备根据接收到用户发送的确认指令将128×128×3的第二编辑图像Î₁输入下一个级联的生成模块中进行高维视觉特征提取,得到目标编辑图像;若用户判断128×128×3的第二编辑图像I₁不符合要求,则该用户会向电子设备发送拒绝指令,电子设备根据接收到用户发送的拒绝指令将生成模块G₀生成128×128×3的第二编辑图像Î₁舍弃(即不考虑生成模块G生成第一编辑图像l₀)并将128×128×3的目标源图像输入下一个级联的生成模块(比如,生成模块G₀2)中进行高维视觉特征提取,得到目标编辑图像,从而避免了不符合用户要求的第二编辑图像l₁(即错误的第二编辑图像l₁)继续向后传播的[0058]示例性地,如图2所示,上述生成模块G₀₁之后的下一个级联的生成模块G₀₂包括:第二自动解码器E₁、第二自注意力模块2013c、第三上采样模块F₂和生成器G₂,第二自动解码器E₁用于恢复第二编辑图像l₁(即前一层生成模块G₀₁的输出信息)的高维视觉特征,得到第二高维特征图像;第二自注意力模块2013c用于对第二高维特征图像和句子词特征M进行融合以及拼接处理,输出第二编辑图像l₁对应的句子语义信息特征;第三上采样模块F₂用于对第二编辑图像Î₁对应的句子语义信息特征进行特征融合和上采样处理,得到第三上采样结果;生成器G₂用于对第三上采样结果进行高维视觉特征提取。[0059]图2中生成模块G₀₂对第二编辑图像I₁(比如,上述128×128×3的第二编辑图像I₁)的处理过程如下:第二自动解码器E对上述128×128×3的第二编辑图像l₁进行高维视觉特征恢复.得到尺寸大小为128×128月通道数为32(即128×128×32)的第二高维特征图像:之后,第二自注意力模块2013c对128×128×32的第二高维特征图像、128×1的句子词特征M和128×128×128的图像局部特征M进行特征融合以及拼接处理,并生成带有细粒度句子语义信息的高维视觉特征(即第二编辑图像Î₁对应的句子语义信息特征);该第二编辑图像Î₁对应的句子语义信息特征的尺寸大小为128×128×且通道数为32(即128×128××32);再之后,第三上采样模块F₂对128×128××32的句子语义信息特征进行特征融合和上采样处理,生成尺寸大小为256×256且通道数为32(即256×256×32)的视觉特征图像(即第三上采样结果);该第三上采样模块F₂包含两个残差网络和一个上采样层,其中,两个残差网络用于对句子语义信息特征进行融合,该上采样层用于提升图像的空间分辨率;最后,生成器G₂对第三上采样结果进行高维视觉特征提取和编码处理,生成尺寸大小为256×256且通道数为3(即256×256×3)的第三编辑图像l。[0060]可选地,256×256×32的第三上采样结果可以先经过带噪声仿射组合模块2013b,该带噪声仿射组合模块2013b将256×256×32的第三上采样结果和128×128×128的图像局部特征M进行融合,并生成尺寸大小为256×256且通道数为32(即256×256×32)的视觉特征图像;之后,生成器G₂对256×256×32的视觉特征图像进行高维视觉特征提取和编码处理,得到尺寸大小为256×256的且通道数为3的第三编辑图像l₂(即256×256×3的第三编辑图像l₂)。[0061]上述第二自注意力模块2013c包括:自注意力层FAtten和带噪声仿射组合模块2012a,自注意力层FAtten用于对第二高维特征图像和句子词特征进行特征融合;带噪声仿射组合模块2012a用于对自注意力层FAtten的输出结果与第二高维特征图像的拼接结果,以及图像局部特征M进行特征融合。比如,自注意力层FAtten对上述128×128×32的第二高维特征图像和128×1的句子词特征进行特征融合,并将融合结果与第二高维特征图像进行拼接;带噪声仿射组合模块2013a对拼接结果以及128×128×128的图像局部特征M进行特征[0062]生成器G₂输出的256×256×3的第三编辑图像I₂,用户可以通过直接观察该256×256×3的第三编辑图像l₂来判断其是否符合要求。若用户判断256×256×3的第三编辑图像l2符合要求,则用户会向电子设备发送确认指令,电子设备根据接收到用户发送的确认指令将256×256×3的第三编辑图像I2输入下一级网络中继续处理或者直接输出给用户(即,由于生成模块G₀₂为两个级联的生成模块中的最后一级生生成器G₂的输出信息为目标编辑图像(即第三编辑图像I2);若用户判断256×256×3的第三编辑图像I₂不符合要求,则该用户会向电子设备发送拒绝指令,电子设备根据接收到用户发送的拒绝指令将256×256×3的第三编辑图像Î2舍弃并重新利用图像编辑模型对128×128×3的目标源图像重复执行前述处理过程。[0063]上述第一带噪声仿射组合模块2012a的核心算法如下:一带噪声仿射组合模块2012a通过引入高斯噪声能够增强采样编码模块以及生成模块编辑该初始模型包括N=3个子网络和两个(N-1=3-1)自动编解码器,这3个子网络分别是采样码器E₀和自动编码器G₁-自动解码器E₁;上述预设的损失函数为3个自网络的损失函数和两样编码模块G)的输出图像不满足预设条件时,采用第2(即i+1=1+1)的子函数(即生成模块G₀对应的损失函数和生成模块G对应的损失函数)和第1个至第2个自动编解码器损失函数(即自动编码器G₀-自动解码器E₀的损失函数和自动编码器G₁-自动LG,i=-EI'~PGia,T)logDi(I')+logDi(I'|T),式中,I′表示目标编辑图像,I′~练编辑图像输入至生成模块G₀₂中;生成模块G₀₂对第二训练编辑图像和训练图像的图像局部特征M进行编辑处理并生成第三训练编辑图像;若用户判断该第三训练编辑图像符合用自动编码器G₁-自动解码器E₁。初始模型时,需要跳过采样编码模块G。处理训练图像的图像整体特征c₁和图像局部特征模块G₀₁对训练图像和训练图像的图像局部特征M进行编辑处理并生成第四训练编辑图像;2),因此,在根据第二预设的损失函数训练初始模型时,也训练了自动编码器G₁-自动解码器E₁。初始模型时,需要跳过采样编码模块G处理训练图像的图像整体特征c₁和图像局部特征损失函数训练初始模型的情况完成;若用户判断该第六训练编辑图像不符合用户要求,则重复上述训练过程。由于生成模块G₀₂没有自动编解码器,因此,在根据第三预设的损失函数训练初始模型时,不需要训练自动编解码器。[0077]由于多层对抗网络(即上述N个子网络)难以训练和收敛的特点,因此,在训练初始模型时借助自动编解码器来随机跳过低层对抗网络(比如,跳过采样编码模块G₀)而优先训练高层网络(比如,生成模块G₀₁,或者,生成模块G₀2),比如,当b=1时,跳过采样编码模块Go,优先训练生成模块G₀₁和生成模块G₀₂;当b=2时,跳过采样编码模块G₀和生成模块G₀1,上述训练方法具有如下优点:a)由于在跳过低层子网络时下一级子网络的输入使用的是原始训练图像而不是低层子网络输出的不符合用户要求的编辑结果(即错误编辑结果),因此,能够避免潜在的低层子网络生成的错误编辑结果向高层子网络传播;b)优先训练高层子网络能够给低层子网络带来更好的更新梯度,从而能够使得低层子网络的收敛效果更好。[0078]示例性地,图像编辑模型还包括:细节修正模型(SymmetricalDetailCorrectionModule,SCDM),用于对目标编辑图像进行细节修改;细节修正模型用于处理图像局部特征、句子词特征和目标编辑图像,得到目标修正图像;细节修正模型包括:第一细节修正模块、第二细节修正模块、融合模块和生成器,其中,第一细节修正模块用于对图像局部特征、第一随机噪声和句子词特征进行细节修改,得到第一细节特征;第二细节修正模块用于对目标编辑图像对应的图像局部特征、第二随机噪声和句子词特征进行细节修改,得到第二细节特征;融合模块用于对第一细节特征和第二细节特征进行特征融合;生成器用于根据融合模块的输出结果生成目标修正图像。[0079]如图2所示,图像编辑模型201还包括细节修正模型2014,该细节修正模型2014根据目标源图像I的图像局部特征M₁和文本描述T的句子词特征M对生成模块G₀2生成的目标编辑图像进行细节修改和校正,得到目标修正图像。该细节修正模型2014包括:第一细节修正模块301、第二细节修正模块302、融合模块Ffuse和生成器G₀s,其中,第一细节修正模块301对图像局部特征M、第一随机噪声noise1和句子词特征M进行细节修改,得到第一细节特征,并将第一细节特征输入到融合模块Ffuse;第二细节修正模块302对目标编辑图像(比如,生成模块G₂输出的第三编辑图像l₂)对应的图像局部特征Mi₂、第二随机噪声noise2和句子词特征M进行细节修改,得到第二细节特征,并将第二细节特征输入到融合模块Ffuse;融合模块Ffuse对第一细节特征和第二细节特征进行特征融合,并将融合结果输入到生成器Gos中;生成器G₀对融合模块Ffuse的输出结果进行编码并生成目标修正图像。[0080]示例性地,如图3所示,第一细节修正模块301包括第四带噪声仿射组合模块3011、第五带噪声仿射组合模块3013、第六带噪声仿射组合模块3015、第二自注意力模块3012、第一残差网络3014和第一线性网络3016;其中,第四带噪声仿射组合模块3011对第一随机噪声noise1和图像局部特征M进行特征融合,得到第一融合特征,并将第一融合特征输入到第二自注意力模块3012;第二自注意力模块3012对第一融合特征和句子词特征M-进行特征融合,并将融合结果与第一随机噪声noisel进行拼接,得到拼接结果;该拼接结果输入到第五带噪声仿射组合模块3013中;第五带噪声仿射组合模块3013对该拼接结果、以及图像局部特征M进行特征融合,并将融合结果输入至第一残差网络3014中;第一残差网络3014对第五带噪声仿射组合模块3013输出的融合结果进行视觉特征提取,并将视觉特征提取结果输入到第六带噪声仿射组合模块3015;第一线性网络3016对图像局部特征M进行线性变换,并将线性变换结果输入第六带噪声仿射组合模块3015;第六带噪声仿射组合模块3015对第一残差网络3014输出的视觉特征提取结果和第一线性网络3016输出的线性变换结果进行特征融合,得到第一细节特征xr。[0081]示例性地,如图3所示,第二细节修正模块302包括第七带噪声仿射组合模块3021、第八带噪声仿射组合模块3023、第九带噪声仿射组合模块3025、第三自注意力模块3022、第二残差网络3024和第二线性网络3026;其中,第七带噪声仿射组合模块3021对第二随机噪声noise2和目标编辑图像对应的图像局部特征(比如,生成模块Go₂输出的第三编辑图像l₂对应的图像局部特征Mi₂)进行特征融合,得到第一融合特征,并将第一融合特征输入至第三自注意力模块3022中;第三自注意力模块3022对第一融合特征和句子词特征M进行特征融合,并将特征融合结果与第二随机噪声noise2进行拼接,最后将拼接结果输入至第八带噪声仿射组合模块3023;第八带噪声仿射组合模块3023对该拼接结果、以及目标编辑图像对应的图像局部特征(比如,生成模块Go₂输出的第三编辑图像l2对应的图像局部特征MI₂)进行特征融合,并将融合结果输入至第二残差网络3024;第二残差网络3024对第八带噪声仿射组合模块的输出的融合结果进行视觉特征提取,并将该视觉特征提取结果输入至第九带噪声仿射组合模块3025中;第二线性网络3026对目标编辑图像对应的图像局部特征(比如,生成模块Go₂输出的第三编辑图像l2对应的图像局部特征Mi₂)进行线性变换,并将线性变换结果输入至第九带噪声仿射组合模块3025中;第九带噪声仿射组合模块3025对第二残差网络3024输出的视觉特征提取结果和第二线性网络3026输出的线性变换结果进行特征融合,得到第二细节特征Xi°上述图像局部特征Mi₂是利用VGG网络对第三编辑图像l2进行特征提取得到的。[0082]上述融合模块Frus对第六带噪声仿射组合模块3015输出的第一细节特征x₁和第九带噪声仿射组合模块3025输出的第二细节特征Xi₂进行特征融合,并将融合结果输入到生成器G₀s中;生成器G对融合模块Ffuse的输出融合结果进行编码并生成目标修正图像I。[0083]可选地,第一细节修正模块301的输入和第二细节修正模块302的输入可以互相交换,即第一细节修正模块301的输入可以是目标编辑图像(比如,生成模块G₀2输出的第三编辑图像l2)对应的图像局部特征Mi₂、第二随机噪声noise2和句子词特征M;第二细节修正模块302的输入可以是图像局部特征M、第一随机噪声noise1和句子词特征M。相应地,第一细节修正模块301的输出为第二细节特征Xi₂,第一细节修正模块301的输出为第一细节特征x1。正图像。像编辑模型中细节修正模型的判别器;1~PGs(I,T)是指目标修正图像1是细节修正模型I是从真实数据中采样获得的;T为随机选择的目标文本,Lconstrast(1,T,T₁)函数,目的是使目标修正图像Î相对于随机选择的目标文本T更接近于训练图像I的描述文[090]Lconstrast(1,T,T₁)=max(Lcorre(像编辑模型中细节修正模块的判别器;1~PGs(1,T)是指目标修正图像1是细节修正模型像的多模态损失函数,用于提升图像编辑结果和目标文本的匹配程度;上述网络对目标修正图像I进行特征提取得到的,图像局部特征M是图像编辑模型中定义的正则化项,用于加强修改效果,Lreg=—IlÎ-I||训练的过程中,随机地使用训练图像I和目标修正图像Î相互替换,以加速细节修正模型的训练过程。[0097]为了便于理解,下面结合图4对本申请提供的基于文本的图像编辑方法的整体流程进行示例性说明。[0098]如图4所示,可配置编辑部分是指用户可以对图像编辑模型中的采样编码模块G₀0生成模块G₀₁和生成模块G₀2输出的中间编辑结果进行控制,并且,通过判断中间编辑结果而选择性地跳过某些模块。将不符合用户要求的中间编辑结果用目标源图像代替,从而实现根据目标文本对目标源图像的编辑过程。下面通过图4中(a)~(h)的子流程图,来说明用户对图像编辑模型中的采样编码模块G₀₀、生成模块G₀₁和生成模块G₀2输出的中间编辑结果进行随机控制的过程。[0099]图4中,(a)完整流程:用户向图像编辑模型中输入目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征,图像编辑模型中的采样编码模块G输出的第一编辑图像符合用户要求;采样编码模块G。将第一编辑图像输入至生成模块G₀₁中,生成模块G₀₁对第一编辑图像进行处理并输出的第二编辑图像也符合用户要求;将第二编辑图像输入至生成模块G₀2;生成模块G₀₂对第二编辑图像进行处理并生成的第三编辑图像也符合用户要求,生成模块G₀2将第三编辑图像(即目标编辑图像)输入至细节修正模型(SCDM)中,该细节修正模型(SCDM)对第三编辑图像进行细节修正并得到目标修正图[0100]图4中,(b)跳过G₀:用户向图像编辑模型中输入目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征,图像编辑模型中的采样编码模块G。输出的第一编辑图像不符合用户要求;该采样编码模块G输出的第一编辑图像舍弃,并用目标源图像代替第一编辑图像输入至生成模块G₀₁中,生成模块G₀₁对目标源图像进行处理并输出的第二编辑图像符合用户要求;将第二编辑图像输入至生成模块G₀₂;生成模块G₀₂对第二编辑图像进行处理并生成的第三编辑图像也符合用户要求,生成模块G₀2将第三编辑图像(即目标编辑图像)输入至细节修正模型(SCDM)中,该细节修正模型(SCDM)对第三编辑图像进行细节修正并得到目标修正图像。[0101]图4中,(c)跳过G。₀和G₀₁:用户向图像编辑模型中输入目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征,图像编辑模型中的采样编码模块G。输出的第一编辑图像不符合用户要求;该采样编码模块Go输出的第一编辑图像舍弃,并用目标源图像代替第一编辑图像输入至生成模块G₀中,生成模块G₀₁对目标源图像进行处理并输出的第二编辑图像也不符合用户要求;该生成模块G₀₁将第二编辑图像舍弃,并用目标源图像代替第二编辑图像输入至生成模块G₀2;生成模块G₀₂对目标源图像进行处理并生成的第三编辑图像符合用户要求,生成模块G₀₂将第三编辑图像(即目标编辑图像)输入至细节修正模型(SCDM)中,该细节修正模型(SCDM)对第三编辑图像进行细节修正并得到目标修正图像。[0102]图4中,(d)仅用SCDM(即跳过像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征,图像编辑模型中的采样编码模块G输出的第一编辑图像不符合用户要求;该采样编码模块G输出的第一编辑图像舍弃,并用目标源图像代替第一编辑图像输入至生成模块G₀₁中,生成模块G₀₁对目标源图像进行处理并输出的第二编辑图像也不符合用户要求;该生成模块G₀₁将第二编辑图像舍弃,并用目标源图像代替第二编辑图像输入至生成模块G₀₂;生成模块G₀₂对目标源图像进行处理并生成的第三编辑图像也不符合用户要求,该生成模块G₀₂将第三编辑图像舍弃,并用目标源图像代替第三编辑图像输入至细节修正模型(SCDM)中,该细节修正模型(SCDM)根据目标源图像的图像局部特征和目标文本的句子词特征对目标源图像进行细节修正并得到目标修正图像。[0103]图4中,(e)跳过SCDM:用户向图像编辑模型中输入目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征,图像编辑模型中的采样编码模块Go输出的第一编辑图像符合用户要求;采样编码模块G。₀将第一编辑图像输入至生成模块G₀₁中,生成模块G₀₁对第一编辑图像进行处理并输出的第二编辑图像也符合用户要求;将第二编辑图像输入至生成模块G₀2;生成模块G₀₂对第二编辑图像进行处理并生成的第三编辑图像也符合用户要求,该第三编辑图像即为目标编辑图像。[0104]图4中,(f)重复G₀₁:用户向图像编辑模型中输入目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征,图像编辑模型中的采样编码模块Go输出的第一编辑图像符合用户要求;采样编码模块G₀₀将第一编辑图像输入至生成模块G₀₁中,生成模块G₀对第一编辑图像进行处理并输出的第二编辑图像不符合用户要求;该生成模块G₀可以反复利用,直到输出符合用户要求的第二编辑图像;比如,生成模块G₀重新根据第一编辑结果进行处理并生成新的第二编辑图像符合要求,并将该新的第二编辑图像输入至生成模块G₀2;生成模块G₀₂对新的第二编辑图像进行处理并生成的第三编辑图像也符合用户要求,生成模块G₀₂将第三编辑图像(即目标编辑图像)输入至细节修正模型(SCDM)中,该细节修正模型(SCDM)对第三编辑图像进行细节修正并得到目标修正图像。[0105]图4中,(g)重复G₀₂:用户向图像编辑模型中输入目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征,图像编辑模型中的采样编码模块G输出的第一编辑图像符合用户要求;采样编码模块G₀将第一编辑图像输入至生成模块G₀₁中,生成模块G₀对第一编辑图像进行处理并输出的第二编辑图像符合用户要求;生成模块G₀₂对第二编辑图像进行处理并生成的第三编辑图像不符合用户要求,该生成模块G₀2可以反复利用,直到输出符合用户要求的第三编辑图像(即目标编辑图像);比如,生成模块G₀₂重新根据第二编辑结果进行处理并生成新的第三编辑图像符合要求,并将该新的第三编辑图像输入至生成模块G₀2;生成模块G₀₂将新的第三编辑图像(即目标编辑图像)输入至细节修正模型(SCDM)中,该细节修正模型(SCDM)对新的第三编辑图像进行细节修正并得到目标修正图像。[0106]图4中,(h)重复SCDM:用户向图像编辑模型中输入目标源图像的图像整体特征和图像局部特征,以及目标文本的句子整体特征和句子词特征,图像编辑模型中的采样编码模块G。o输出的第一编辑图像符合用户要求;采样编码模块G将第一编辑图像输入至生成模块G₀₁中,生成模块G₀对第一编辑图像进行处理并输出的第二编辑图像符合用户要求;生成模块G₀₂对第二编辑图像进行处理并生成的第三编辑图像符合用户要求,生成模块G₀₂将第三编辑图像(即目标编辑图像)输入至细节修正模型(SCDM)中,该细节修正模型(SCDM)对第三编辑图像进行细节修正并得到第四编辑图像不符合用户要求,该细节修正模型(SCDM)可以反复利用,直到输出符合用户要求的第四编辑图像(即目标修正图像);比如,细节修正模型(SCDM)重新根据第三编辑结果进行处理并生成新的第四编辑图像符合要求,该新的第四编辑图像即为目标修正图像。[0107]本申请提出的上述技术方案与现有技术相比存在的有益效果如下:[0108]相比现有ManiGAN根据文本对待编辑的源图像进行编辑并直接输出可能不符合用用编码模块会将中间编辑结果(即第一编辑图像)输出,以方便用户判断该中间编辑结果是否符合要求,若符合要求,则将中间编辑结果继续向至少一个级联的生成模块传递;若不符合要求,则不会将该中间结果继续向至少一个级联的生成模块传递,而是用目标源图像代替该中间编辑结果继续向至少一个级联的生成模块传递。由此可见,改进的ManiGAN在根据目标文本对目标源图像编辑时,可以对中间编辑结果进行控制,并及时剔除不符合要求的中间编辑结果,以防止前一级输出不符合要求的结果影响后一级输出结果的准确性,从而为用户编辑出更加符合要求的目标编辑图像。[0109]在上述第一自注意力模块中引入第一带噪声仿射组合模块,该第一带噪声仿射组合模块通过引入高斯噪声能够增强生成模块编辑图像的可靠性,从而避免了生成模块因图像中存在随机噪声而影响编辑结果可靠性的情况出现。[0110]在第一上采样模块中引入第二带噪声仿射组合模块和第三带噪声仿射组合模块可以进一步对第一上采样模块中不同上采样层的输出结果进行视觉特征增强。[0111]在上述图像编辑模型中增加细节修正模型能够对图像编辑模型输出的目标编辑图像进行进一步的细节修改和增强,从而得到高分辨率的目标修正图像。[0112]在上述第一细节修正模块中增加多个带噪声仿射组合模块,可以增强细节修正模型的可靠性。[0113]在上述第二细节修正模块中增加多个带噪声仿射组合模块,可以增强细节修正模型的可靠性。[0114]上述根据有条件的生成器损失函数、无条件的生成器损失函数和语义对比函数训练所述细节修正模型的生成器,能够使得生成器生成的图像编辑结果(即目标编辑图像)更加符合目标文本描述的内容和用户要求。上述根据有条件的判别器损失函数和无条件的判别器损
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑工程纸质合同范本
- 夫妻合伙分红合同范本
- 房屋模板安装合同范本
- 房屋设计服务合同范本
- 家居装修代理合同范本
- 建筑劳务合同解除协议
- 戏剧服装采购合同范本
- 委托购买物品合同范本
- 工程劳务补充合同范本
- 工程施工合同保密协议
- 2024-2025学年重庆市大足区六年级(上)期末数学试卷
- 2025年高级经济师金融试题及答案
- 苏少版七年级上册2025秋美术期末测试卷(三套含答案)
- 2026年哈尔滨科学技术职业学院单招职业技能测试题库带答案详解
- GB/T 7714-2025信息与文献参考文献著录规则
- 涉融资性贸易案件审判白皮书(2020-2024)-上海二中院
- DB65∕T 8031-2024 高海拔地区民用建筑设计标准
- 2025年人社局工作考试题及答案
- 2026年山东力明科技职业学院单招职业技能考试题库含答案详解
- 2024年暨南大学马克思主义基本原理概论期末考试题带答案
- 2025内蒙古能源集团智慧运维公司社会招聘(105人)笔试参考题库附带答案详解(3卷)
评论
0/150
提交评论