CN118015144B 图像生成方法和图像生成模型的训练方法、装置（北京百度网讯科技有限公司）

上传人：1*** IP属地：山西上传时间：2026-04-07 格式：DOCX 页数：45 大小：2.24MB 积分：9.6 举报 版权申诉

CN118015144B 图像生成方法和图像生成模型的训练方法、装置（北京百度网讯科技有限公司）_第2页

CN118015144B 图像生成方法和图像生成模型的训练方法、装置（北京百度网讯科技有限公司）_第3页

CN118015144B 图像生成方法和图像生成模型的训练方法、装置（北京百度网讯科技有限公司）_第4页

CN118015144B 图像生成方法和图像生成模型的训练方法、装置（北京百度网讯科技有限公司）_第5页

已阅读5页，还剩40页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

图像生成方法和图像生成模型的训练方法、本公开提供了一种图像生成方法和图像生参考图像特征和文本特征分别与当前噪声图像2其中，依据所述文本特征和所述参考图像特征迭代地更新采用交叉注意力机制融合所述参考图像特征与所述当前噪声图像，得到第一子融合特征；采用所述交叉注意力机制融合所述文本特征与所述当前噪声图像，得到第二子融合特征；所述提取参考图像的特征，得到参考图像特征包括：将所述参考图层构成的特征提取网络中，将多个采样层中每个采样层输出的特征作为一个参考图像特将当前噪声图像输入文生图模型中的图像信息创建网络，得到输入将所述特征提取网络中第i个采样层输出的特征和所述文本特征分别与所述第i个图4.根据权利要求3所述的方法，其中，所述将所述特征提采用交叉注意力机制融合所述第i个采样层输出的特征与所述5.根据权利要求3所述的方法，其中，所述将所述第i个采样层输出的特征转换至所述文本特征所在的特征空间，得到转换后特采用交叉注意力机制融合所述拼接特征与所述第i个图像特征，得到第i+1个图像特3所述特征提取网络中采样层的数量与所述图像信息创建网络中网络层i为大于等于1且小于等于N的所有整数中的部分或全部的整数；所述融合特征为所述9.一种图像生成模型的训练方法，其中，采用所述特征提取网络提取参考图像的特征，得到参考图像特征采用所述图像信息创建网络，以随机噪声图像作为噪声图像的初始采用交叉注意力机制融合所述参考图像特征与所述当前噪声图像，得到第一子融合特征；采用所述交叉注意力机制融合所述文本特征与所述当前噪声图像，得到第二子融合特征；采用所述图像解码网络对所述更新后噪声图像进行解码，得到目标图像包括与所述第一目标对象相似的第二目标对象，且所述目标图像与所述样本文本相匹根据所述目标图像和所述第一样本数据中的第一样本图像，对所述4噪声图像更新模块，用于以随机噪声图像作为噪声融合子模块，用于在至少一次更新过程中，将所述参考图像特征和所将所述参考图像输入由多个采样层构成的特征提取网络中，将多特征获得单元，用于将当前噪声图像输入文生图模型中的融合单元，用于将所述特征提取网络中第i个采样层输出的特征和所述文本特征分别第一融合子单元，用于采用交叉注意力机制融合所述第i个采样层输出的特征与所述转换子单元，用于将所述第i个采样层输出的特征转换至所述文本特征所在的特征空所述特征提取网络中采样层的数量与所述图像信息创建网络中网络层i为大于等于1且小于等于N的所有整数中的部分或全部的整数；所述融合特征为所述5文本特征提取模块，用于采用所述文本理解网络提取第一样本数据中样本文本的特噪声图像更新模块，用于采用所述图像信息创建网融合子模块，用于在至少一次更新过程中，将所述参考图像特征和所解码模块，用于采用所述图像解码网络对所述更新后噪声图像进行解码第一训练模块，用于根据所述目标图像和所述第一样本数据所述图像特征提取模块还用于：采用所述特征提取网络第二训练模块，用于根据所述第二样本图像和所述预测图像6所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被使所述计算机执行根据权利要求1~8中任一项所述的方法，或者执行根据权利要求9~10中储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现根据权利要求1~8中任一项所述方法的步骤，或者实现根据权利要求9~10中任一项所述方法的步7习模型在各个领域也都取得了突破性的进展。其中，人工智能生成内容(AIgenerated[0003]本公开旨在提供一种利于提高生成图像的真实性且利于提高用户体验的图像生8指令在被处理器执行时实现本公开提供的图像生成方法或图像生成模型[0011]应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特[0013]图1是根据本公开实施例的图像生成方法和图像生成模型的训练方法、装置的应[0021]图9是用来实施本公开实施例的图像生成方法或图像生成模型的训练方法的电子9[0024]为了解决上述问题，本公开提供了一种图像生成方法和图像生成模型的训练方[0025]图1是根据本公开实施例的图像生成方法和图像生成模型的训练方法、装置的应目标图像103与提示文本101相匹配。具体地，目标图像103中的目标对象可以与参考图像征提取网络提取的特征和提示文本101生成目标图像公开提供的图像生成装置可以设置在电子设备110中。本公开提供的图像生成模型的训练现操作S230的迭代更新过程中，部分的迭代更新过程可以通过操作S231～操作S232来实[0048]其中，稳态扩散(Stab1ediffusion)是一个潜在扩散模型(LatentDiffusion声图像融合，可以使得噪声预测过程可以分别考虑提示文本和参考图像对预测噪声的影[0064]例如，可以在多次迭代中预定迭代次数之后的迭代更新过程中引入参考图像特[0068]以特征提取网络的多个采样层提取的多个参考图像特征逐层地引导噪声预测器进行特征处理为例，设定特征提取网络中多个采样层的数量与像信息创建网络中第i个网络层可以对其中的第(i_1)个网络层输出的特征(即处理当前噪案中，i的取值范围为大于等于1且小于等于N的所有整数。而在无需逐层引导的技术方案[0069]如图3所示，在实施例300中，特征提取网络310可以为包括编码器和解码器的U_Net，该特征提取网络310可以包括四个下采样层(作为编创建网络320对应地可以包括四个下采样层和四个上采样层，图像信息创建网络320中第i指导，从而可以使得生成的目标图像更好地[0076]如图4所示，在特征提取网络410和噪声预测器420为多层结构、且特征提取网络络410中第i个采样层从参考图像401中提取的参考图像特征和从提示文本402中提取的文本特征403输入噪声预测器420中的第i层网络。该噪声预测器420中的第i层网络先采用交特征作为输入噪声预测器中第(i+1)层的当前噪声图像(即第(i+1)个图像特征)。以此类还可以为基于参考图像特征融合得到的第一子融合特征添加权重，且随着迭代次数的增将融合拼接特征和当前噪声图像得到的融合特征作为单次迭代中预[0084]如图5所示，在特征提取网络510和噪声预测器520为多层结构、且特征提取网络络510中第i个采样层从参考图像501中提取的参考图像特征和从提示文本502中提取的文本特征503输入噪声预测器520的第i层网络。该噪声预测器520中的第i层网络先对输入的特征作为输入噪声预测器中第(i+1)层的当前噪声图像(即第(i+1)个图像特征)。以此类考图像特征对噪声预测过程的引导作用逐渐增大，利于提高最终生成的目标图像的满意用于将token序列转换为嵌入向量的嵌入网络以及前述的文本转换器。特征提取网络例如可以为前述的包括编码器和解码器的U_Net。图像生成器可以包括图像信息创建网络和图特征和噪声图像得到的融合特征以及融合参考图像特征和噪声图像得到的融合特征进行实际场景，以期提高生成图像的效果。以下将结合图6对图像生成模型的训练进行详细描[0091]如图6所示，该实施例600的图像生成模型的训练方法包括操作S610～操作S650。其中的图像生成模型包括特征提取网络和文生图模型。特征提取网络可以前述的ResNet、息创建网络和图像解码网络，其中的图像信息创建网络是前述增加了相应网络层的网络，特征，更新当前噪声图像。该两部分操作的实现原理分别与上文描述的操作S231～操作[0101]根据本公开的实施例，第一样本数据例如可以包括从公开数据集中获取的text_阶段为对特征提取网络进行训练的阶段。第二个阶段为固定特征提取网络的网络参数不[0105]在一实施例中，文生图模型例如可以包括稳定扩散模型(Stab1eDiffusion[0106]在一实施例中，图像生成模型中图像信息创建网络的结构例如可以参见图4中的[0112]第一噪声图像更新模块730用于以随机噪声图像作为噪声图像的初始图像，依据[0113]第一融合子模块731用于在至少一次更新过程中，将参考图像特征和文本特征分[0115]根据本公开的实施例，上述第一图像特征提取模块710具体可以用于将参考图像输入文生图模型中的图像信息创建网络，得到输入图像信息创建网络中第i个网络层的特征获得子单元。第一融合子单元用于采用交叉注意力机制融合第i个采样层输出的特征与和融合子单元。转换子单元用于将第i个采样层输出的特征转换至文本特征所在的特征空[0124]第二图像特征提取模块810用于采用特征提取网络提取参考图像的特征，得到参[0125]第二文本特征提取模块820用于采用文本理解网络提取第一样本数据中样本文本[0126]第二噪声图像更新模块830用于采用图像信息创建网络，以随机噪声图像作为噪[0127]在一实施例中，第二噪声图像更新模块830可以包括第二融合子模块和第二更新[0129]第一训练模块850用于根据目标图像和第一样本数据中的第一样本图像，对文生[0133]图9是用来实施本公开实施例的图像生成方法或图像生成模型的训练方法的电子的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执因特网的计算机网络和/或各种电信网络与其他设备交换信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的图像生成方法或图像生成模型的训练方法的一个或多个步件)而被配置为执行图像生成方法或图像生成模型机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器[0138]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网过通信网络进行交互。通过在相应的计算机上运行并且彼此

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN118015144B 图像生成方法和图像生成模型的训练方法、装置（北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

CN118015144B 图像生成方法和图像生成模型的训练方法、装置 （北京百度网讯科技有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN118015144B 图像生成方法和图像生成模型的训练方法、装置（北京百度网讯科技有限公司）