CN118865388B 基于大模型融合精细化场景图思维链的图像详细描述方法 (杭州电子科技大学)_第1页
CN118865388B 基于大模型融合精细化场景图思维链的图像详细描述方法 (杭州电子科技大学)_第2页
CN118865388B 基于大模型融合精细化场景图思维链的图像详细描述方法 (杭州电子科技大学)_第3页
CN118865388B 基于大模型融合精细化场景图思维链的图像详细描述方法 (杭州电子科技大学)_第4页
CN118865388B 基于大模型融合精细化场景图思维链的图像详细描述方法 (杭州电子科技大学)_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于大模型融合精细化场景图思维链的图本发明涉及基于大模型融合精细化场景图步的简单场景图,获得主体对象的详细描述内富化模块获得与主体对象强关联的非主体对象效地减少了在图像描述任务中详细描述图像内2步骤二:构建以主体对象为焦点的初步场景图,通步骤五:通过对象富化模块获取与主体对象强关联的非步骤六:将步骤五中获得的细化后的精细化场景图和2.根据权利要求1所述的基于大模型融合精细化场景图思维链的图像详细描述方法,3.根据权利要求2所述的基于大模型融合精细化场景图思维链的图像详细描述方法,ltrb4.根据权利要求3所述的基于大模型融合精细化场景图思维链的图像详细描述方法,5.根据权利要求4所述的基于大模型融合精细化场景图思维链的图像详细描述方法,36.根据权利要求5所述的基于大模型融合精细化场景图思维链的图像详细描述方法,针对主体对象opu,设计提示词Pobj用于获得与每一个非主体对象的关系;将I与Pobj联合输入预训练大模型M中,获得简单非主体对象信息描述结果7.根据权利要求6所述的一种基于大模型融合精细化场景图思维链的图像详细描述方法,其特征在于:所述步骤六中获得最终的详细图像描述的方法包括:设计提示词模板4记忆网络(LSTM)中获得对应的文本序列输出。后续的方法在此基础上添加了注意力模块,模拟人类的视觉注意机制,帮助模型在描述图像内容的过程中动态关注图像的不同部分。富化模块获得与主体对象强关联的非主体对象的基本信息,以此获得最终的精细化场景5成图像中的主体对象opub与其对应的边界框Boxi,其中,边界框表示为对象左上角坐标象的详细描述,并提取其中的描述关键词作为对象属性,基于步骤二中获得的主体对象ogb描述及其表示位置信息的边界框Boxi,设计提示词Pdetail针对主体对象都进行详细描6[0022]对步骤二中获得的每一个主体对象将ogb与I与Pd联合输入预训练大模型M[0030]针对主体对象opu,设计提示词Pobj用于获得opuh与每一个非主体对象的关[0039]本发明也能避免在使用传统单步大模型思维链中间生成场景图时产生无用的重7[0041]图1为本发明基于大模型融合精细化场景图思维链的图像详细描述方法的方法流[0045]图5为本发明对比仅使用大模型生成图像描述的对比应用实例,下划线处表示幻[0047]参照图1_图5,基于大模型融合精细化场景图思维链的图像详细描述方法的具体减少幻觉现象的产生,提升描述的正确性。将I与Pone联合输入预训练多模态大模型M(如[0058]所述主体提取模块可以采用如PicoDet_LCNet_x2_5的主体检测模型与图像分类Psub用于生成图像中的主体对象opub与其对应的边界框Boxi,如“Whatarethemain8objectsintheimage.Pleaseonlyprovidemewithadescriptionofthesubject型中出现因为生成序号或生成重复物体导致无限循环生[0060]在进行图像主体提取之前,可采用如DeepCut的前景背景分割模型预先分离出前[0065]所述对象描述模块采用多模态大语言模型结合描述提示位置信息的边界框Boxi,设计提示词Pdetail针对主体对象都进行详细描述,如“Please得的每一个主体对象将ogb与I与Pd联合输入预训练大模型M中,获得其属性信息Aj,[0069]所述背景描述模块采用多模态大语言模型结合描述提示词生成图像整体背景和[0075]针对每一个主体对象oyu,设计提示词Pobj用于获得opuh与每一个非主体对象的关系,如“Pleasedescribetherelationshipbetween<主体对象ojb>and<非主体对象>inoneword.力。为实现强关联对象的选择“Pleaseratetherelationshipbetween<主体对象>and<非主体对象>ona9主体对象与非主体对象的关系强弱程度以1至10分的分数的方式呈现,由高到低排序后选

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论