CN119445124A 基于细粒度视觉-语言模型的遥感语义分割推理加速方法 (河海大学)_第1页
CN119445124A 基于细粒度视觉-语言模型的遥感语义分割推理加速方法 (河海大学)_第2页
CN119445124A 基于细粒度视觉-语言模型的遥感语义分割推理加速方法 (河海大学)_第3页
CN119445124A 基于细粒度视觉-语言模型的遥感语义分割推理加速方法 (河海大学)_第4页
CN119445124A 基于细粒度视觉-语言模型的遥感语义分割推理加速方法 (河海大学)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于细粒度视觉-语言模型的遥感语义分割基于细粒度视觉语言模型的遥感语义分割推理的双塔视觉语言模型;将预训练得到的细粒度视觉语言模型权重迁移到二阶段推理加速框架计算大尺寸遥感图像测试样本中一系列小图像块的图像特征与目标类别文本特征的相似度分数,并设置阈值筛选出存在目标类别的小图像块;将筛选后的图像块输入遥感语义分割模型觉语言模型定位大尺寸遥感图像的稀疏目标区2步骤3,将步骤2中预训练得到的细粒度视觉一语言模型步骤4,将测试样本图像裁切成一系列带有重叠部分的小图像块,依次输入细粒度视步骤6,将步骤5中筛选后的图像块输入遥感语义分割模型模态大语言模型为每个样本图像Xi生成对应的全局图像文本描述利用信息检索与语言生成模型生成对应的全局图像标签⃞,=ftagf,tags,…,tag3,其中1≤n≤100;此筛去置信度得分低于σ的候选框,并应用非极大抑制合2.1构建细粒度对比学习框架。使用一个基于卷积神经网络的图像编码器Eimage对每个对全局图像文本描述和全局图像标签提取全局文本特征和全局标签特32.3使用全局图像级损失和局部区域级损失之和Ltotal=Lglobal+Lregion训练步骤2.1细粒3.2将步骤2预训练的图像编码器Eimage和文本编码器Etext权重迁移至二阶段推理加速4.1给定N(1≤N≤104)个样本的大尺度遥感图像数据集其中Xi表示第i个X⃞"=fpatch,,patchz,…,patchn}:将输入至步骤3视觉一语言模型的图像编码器Eimage得模型的文本编码器Etext提取文本特征t;4将步骤5筛选得到的M个小图像块,输入二阶段的分割推理模型中y"=fmask,,maskz,…,maskn}。最后将M个掩码合并还原成样本图像Xi原始56用多模态大语言模型为每个样本图像Xi生成对应的全局图像文本描述mum:利用信息检此外,利用图文对比预训练模型计算样本图像Xi与对应文本描述ywron的相似度分数,筛[0017]1.2对于区域级图像文本注释,利用高质量目标检测模型为每个样本图像Xi生成{tagf,tag⃞,…,tag}.筛去置信度得分低于σ的候选框,并应用非极大抑制(NMS)合并其中1≤n≤100。使用一个基于transformer的文本编码器Etext中对全局图像文本描述和全局图像标签提取全局文本特征和全局标签特征7[0026]3.2将步骤2预训练的图像编码器Eimage和文本编码器Etext权重迁移至二阶段推理的文本编码器Etext提取文本特征t。得到M(1≤M≤26)个需要分割推理的小图像块,记为的掩码图像,记为y"=fmask,maskz,…,maskw}。最后将M个掩码合并还原成样本图像Xi8[0039]图3是本发明基于细粒度视觉一语言模型的遥感语义分割推理加速方法的二阶段用多模态大语言模型为每个样本图像Xi生成对应的全局图像文本描述yapron,利用信息检索与语言生成模型生成对应的全局图像标签ftagf,tagf,…,tag》,其中1≤n≤100;9[0053]1.2对于区域级图像文本注释,利用高质量目标检测模型为每个样本图像Xi生成ftagf,tag⃞,…,tag}.筛去YM置信度得分剩余的框。利用多模态大语言模型为筛选后的候选目标其中1≤n≤100。使用一个基于transformer的文本编码器Etext中对全局图像文本描述和全局图像标签提取全局文本特征和全局标签特征[0063]3.2将步骤2预训练的图像编码器Eimage和文本编码器Etext权重迁移至二阶段推理X⃞=fpatch,patchz,…,patchr}:将输入至步骤3视觉一语言模型的图像编码器Eimage得到得到M(1≤M≤26)个需要分割推理的小图像块,记为fpatch,,patch,…,patchn}.的掩码图像,记为y"=fmask,maskz,…,maskw}

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论