CN119444912A 一种交互便捷的多功能图像生成方法（北京邮电大学）

上传人：1*** IP属地：山西上传时间：2026-04-22 格式：DOCX 页数：50 大小：2.62MB 积分：10.8 举报 版权申诉

CN119444912A 一种交互便捷的多功能图像生成方法（北京邮电大学）_第2页

CN119444912A 一种交互便捷的多功能图像生成方法（北京邮电大学）_第3页

CN119444912A 一种交互便捷的多功能图像生成方法（北京邮电大学）_第4页

CN119444912A 一种交互便捷的多功能图像生成方法（北京邮电大学）_第5页

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

本发明公开了一种交互便捷的多功能图像模型中的交叉注意力图实现局部控制区域的自理后的实体条件图和背景图进行多层次特征融2S4、根据定位后的局部控制区域，对预处理控制特征与生成模型中的全局中间层特征共同引导生成模型对所述噪声图像进行去噪处以文本嵌入特征序列C作为图像生成条件，通过生成模型对初始噪声图像进行全局引;3;其中，Ri表示实体区域蒙版图像；R(xr,yr)表示实体区域蒙版图像Ri中坐标为中的实体定位区域边界框，其中和分别的实体条件图数目有多个时，需要对交叉注意力图确定的实体定位区域边界框B:进行调（1）根据所述实体定位区域边界框B:，分别对相应的实体条件图si和实体轮廓图4;示需要进行局部控制的实体索引；表示实体轮廓图经过定位缩放处理后的实体定位层第i个实体索引对应的交叉注意力图；h,和wi分别为第l层网络层的通过注意力图优化函数计算梯度值，并根据梯度值对所述噪声图像进;通过对噪声图像进行有限次的循环优化更新，基于视觉控制特征，通5;6息等。LayoutGuidanceDiffusion利用用户定义的标记和边界框来引导交叉注意力分数[0005]目前有些发明将ControlNet应用于各个实际领域以进行更精细更灵活的图像生成控制。申请号为CN202311827908.5的专利申请提出了一种图像生成的控制方法及系统，模型的缺乏灵活性、精确性和通用性以及难以满足用户定制等问题。申请号为专利方法可通过输入人体姿态节点从而生成符合某种姿态的人类图像。申请号为专利CN202311183764.4的专利申请提出了一种基于生成式人工智能技术的图像处理方法及装78[0025]以文本嵌入特征序列C作为图像生成条件，通过生成模型对初始噪声图像进行全si的潜变量使用线性函数生成交叉注意力中的查询向量；k"(cz)表示对文本标记特征9[0041]（2）使用由零卷积组成的图像编码器分别对局部实体条件图和二值化背景图网络层中的第l个索引；L表示生成模型的网络层总数；m表示需要进行局部控制的实体总个网络层第i个实体索引对应的交叉注意力图；hy和wi分别为第l层网a表示更新噪声图像zt的学习率；zi表示通过注意力图优化函数更新后的新噪声图像；vtt)表示随去噪时间变化的自适应权重函数；zt表示t时刻的噪声图像；示更新后的生成模型中间层特征；F表示UNet网络层；OS表示基本生成模型中权重；[0058]本发明针对现有的图像生成方法，引入了局部的实体条[0065]图3为本发明实施例提供的单视觉实体局部控制生成模式流程示意图（以草图模[0066]图4为本发明实施例提供的多视觉实体局部控制生成模式流程示意图（以草图模[0067]图5为本发明实施例提供的多实体定位区域高度重叠现象处理前后效果对比示意[0068]图6为本发明实施例提供的为本发明实施例提供的多视觉实体背景混合控制生成[0069]图7为本发明实施例提供的多实体局部控制生成模式应用于多种不同模态的条件[0072]图10为本发明实施例提供的多视觉实体背景混合控制生成模式（以草图模态为[0083]参见图2所示，获取到的用户输入的用于控制生成图像语义的图像控制信息仅包[0086]例如将总去噪时间设置为T=50，在T=50个去噪时间步内对初始噪声图像2r进行[0088]参见图3所示，获取到的用户输入的用于控制生成图像语义的图像控制信息包括[0091]②对实体条件图si提取能包围实体所在区域的最大多边形作为对应实体条件图码特征作为图像生成条件，设定总去噪时间T、前期去噪时间点τ,在预设前期去噪阶段[0096]②通过OTSU算法获取分割注意力分数的阈值；根据阈值对交叉注意力图进行二像中的实体定位区域边界框，其中[0101]②使用由零卷积组成的图像编[0105]参见图4所示，获取到的用户输入的用于控制生成图像语义的图像控制信息包括于描述一只熊和一只鹿在森林里；多张实体条件图包括熊的实体条件图和鹿的实体条件[0108]②对每张实体条件图si提取能包围实体所在区域的最大多边形分别作为对应实码特征作为图像生成条件，设定总去噪时间T、前期去噪时间点τ,在预设前期去噪阶段te(r,c内，通过生成模型对初始噪声图像2r进行逐时间步前期去噪处理，获得噪声图像zr；[0113]②通过OTSU算法获取分割注意力分数的阈值；根据阈值对交叉注意力图进行二像中的实体定位区域边界框，其中件图中实体在生成图像中的定位区域记作目标[0123]②使用由零卷积组成的图像编码器分别对局部实体条件图和二值化背景图[0127]参见图6所示，获取到的用户输入的用于控制生成图像语义的图像控制信息包括文本提示、多张实体条件图和背景图；其中文本提示为“Aswanfloatsontheriver[0130]②对每张实体条件图si提取能包围实体所在区域的最大多边形分别作为对应实码特征作为图像生成条件，设定总去噪时间T、前期去噪时间点τ,在预设前期去噪阶段te(r,c内，通过生成模型对初始噪声图像2r进行逐时间步前期去噪处理，获得噪声图像zr；[0136]②通过OTSU算法获取分割注意力分数的阈值；根据阈值对交叉注意力图进行二像中的实体定位区域边界框，其中[0140]②使用由零卷积组成的图像编码器分别对局部实体条件图和二值化背景图[0143]在图6中，经过上述多视觉实体背景混合控制生成模式最终生成以河为背景的一视觉实体局部控制生成模式和多视觉实体背景混合控制生成模式中，所采用的Transformer的文本编码器为CLIP力中的查询向量；k"(cy)表示对文本标记特征ci使用线性函数并通过转置运算后生成交[0151]其中，Ri表示实体区域蒙版图像；表示实体区域蒙版图像Ri中坐标为制过程初步生成的实体形态与实体条件图中的实体形态差别较大和定位存在一定概率定优化函数进行有限次数的循环迭代以优化噪声图像zt；所述注意力图优化函数由文本标网络层中的第l个索引；L表示生成模型的网络层总数；m表示需要进行局部控制的实体总络层第i个实体索引对应的交叉注意力图；h,和wi分别为第l层网络a表示更新噪声图像zt的学习率，vtt)表示随去噪时间变化的自适应权重函数；zt表示t时刻的噪声图像；表示多模态编码特征；a、b和c均表示控制自适应权重函数(t)走向的超参数；'s表示[0163]图7为本发明实施例提供的多实体局部控制生成模式应用于多种不同模态的实体用于描述在桌子上有一个苹果和香蕉，其中所给定分割图分别对应实体词汇“apple”和[0165]以姿态图作为实体条件图模态，“Awomanandamanarewalkingontheroad.”用于描述一个女人与一个男人在路上走，其中所给定姿态图分别对应实体词汇[0166]以深度图作为实体条件图模态，“Amouseisinthedesertneara[0168]本发明所提出的交互便捷的多功能图像生成方法支持多种不同模态的局部的实局部控制生成模式、多视觉实体局部控制生成模式和多视觉实体背景混合控制生成模式。其控制方式与以往的图像生成方法相比更加丰富，解决了图像生成领域功能单一的问题。[0169]图8为本发明实施例提供的单视觉实体局部控制生成模式多个样例可视化效果示[0182]图9为本发明实施例提供的多视觉实体局部控制生成模式多个样例可视化效果示述猫在厨房柜台上成熟的菠萝旁边打盹，其中所给定草图分别对应实体词汇“cat”和“ieale”“ieale”[0193]“Intheruralfield,amotorcyclespeedspastacowandfollowsa[0195]图10为本发明实施例提供的多视觉实体背景混合控制生成模式多个样例可视化只蝴蝶和一只乌鸦在埃菲尔铁塔前，其中所给定草图分别对应实体词汇“butterfly”和和UniControl；使用文本和实体边界框的GLIGEN和InstanceDiffusion。对比指标包括：表示是否使用数据集中原图实体定位作为输入先验，LoD表示使用与原图实体位置一致的草图信息，BBoxes表示使用与原图实体位置一致的边界框信息。本方法分别使用了与原图实体位置一致的草图信息和由交叉注意力图定位的草图信息进行对比。对比结果如下表1所示：注意力图和自适应控制策略解决了这一问题。iv)本方法在不同设置下获得最高DINO分[0212]对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119444912A 一种交互便捷的多功能图像生成方法（北京邮电大学）

文档简介

温馨提示

最新文档

评论

CN119444912A 一种交互便捷的多功能图像生成方法 （北京邮电大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN119444912A 一种交互便捷的多功能图像生成方法（北京邮电大学）