CN119399024A 图像处理方法及装置（珠海金山办公软件有限公司）

上传人：1*** IP属地：山西上传时间：2026-04-13 格式：DOCX 页数：63 大小：759.08KB 积分：9.6 举报 版权申诉

CN119399024A 图像处理方法及装置（珠海金山办公软件有限公司）_第2页

CN119399024A 图像处理方法及装置（珠海金山办公软件有限公司）_第3页

CN119399024A 图像处理方法及装置（珠海金山办公软件有限公司）_第4页

CN119399024A 图像处理方法及装置（珠海金山办公软件有限公司）_第5页

已阅读5页，还剩58页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目标图像的分辨率与每个所述局部图像块的分2对多个所述局部图像块、所述目标图像以及所述需求表述进行处在所述原始图像的分辨率为所述预设分辨率的情况下，对所述原始图像进行切块处将多个所述局部图像块、所述目标图像以及所述需求表述输入至所述将多个所述局部图像块、所述目标图像以及所述需求表述输入至预训练的大模将多个所述局部图像块、所述目标图像输入至所述预训练的特征将所述文本编码特征、所述目标全局视觉特征以及多个所述目标局所述将多个所述局部图像块、所述目标图像输入至所述预训练的特征提取模针对任一所述局部图像块，将所述局部图像块输入至对应的所述预将所述原始局部视觉特征输入至所述预训练的视觉重采样模型，将所述目标图像输入至所述预训练的视觉编码器，得到所述目标图将所述原始全局视觉特征输入至所述预训练的视觉重采样模型3所述将所述局部图像块输入至对应的所述预训练的视觉融合模型将所述局部图像块输入至对应的所述预训练的视觉编码器，将所述局部图像块输入至对应的所述预训练的视觉旁路模型，得到将所述第一局部视觉特征与所述第二局部视觉特征进行特征融获取样本图像及针对所述样本图像的样本需求表述，并确定将多个所述样本局部图像块、所述样本目标图像以及所述样本需求表述输入至大模确定所述样本答案表述与所述预测答案表述之间的表述损失，并根据所述表述损失，确定所述样本需求表述对应的任务，在所述任务不是目标任务从所述预设数据集中，查找所述样本图像的标注表述，将所述标注表从所述预设数据集中，查找所述样本图像的标注表述，将所述标注表生成所述样本图像的详细描述表述，将所述详细描述表述确定将所述样本图像输入至预训练的全局描述生成模型，得到所述样本4将所述样本图像输入至预训练的区域描述生成模型，得到所述样将所述样本图像输入至预训练的文本检测模型，得到所述样本将所述样本图像中对象区域输入至预训练的对象描述生成模型，得到将所述特定区域与所述区域描述表述输入至预训练的匹配模型，得到根据所述区域匹配分值，对所述特定区域与所述区域描述表将所述文本区域与所述文本输入至预训练的匹配模型，得到所根据所述文本匹配分值，对所述文本区域与所述文本进行过滤，得到将所述对象区域与所述对象描述表述输入至预训练的匹配模型，得到根据所述对象匹配分值，对所述对象区域与所述对象描述表述进行根据所述全局描述表述、所述目标区域描述、所述目标文本以将所述全局描述表述、所述目标区域描述、所述目标文本以及所述局部图像块为所述原始图像中相应的局表述生成模块，用于对多个所述局部图像块、所述目标图像以及567[0020]将多个所述局部图像块、所述目标图像以及所述需求表述输入至预训练的大模[0027]所述将多个所述局部图像块、所述目标图像输入至所述8[0059]所述将多个所述样本局部图像块、所述样本目标图像输9每个所述局部图像块为所述原始图像中相应的述目标图像的分辨率与每个所述局部图像块[0110]将多个所述局部图像块、所述目标图像以及所述需求表述输入至预训练的大模[0130]损失确定模块，用于确定所述样本答案表述与所述预测答案表述之间的表述损[0150]在一个可选的实施方式中，所述视觉融合模型包括视觉编码将所述标注表述确定为所述样本需求表述对应[0165]全局描述表述生成单元，用于将所述样本图像输入至预训练的全局描述生成模[0166]区域描述表述生成单元，用于将所述样本图像输入至预训练的区域描述生成模[0231]如此对于原始图像的分辨率，经过调整，达到了预设分辨率，例如达到了896×[0236]如此对于原始图像的分辨率，经过调整，达到了预设分辨率，例如达到了896×[0244]由此针对任一局部图像块，将局部图像块输入至对应的在其基础之上添加了预训练的视觉旁路模型)和预训练的视觉旁路模型。对于预训练的视对应的第二局部视觉特征；将第一局部视觉特征与第二特征融合指的是第一局部视觉特征与第二局部视觉特征相加)，得到局部图像块对应的原别为第一类别(即笼统的需求表述)的情况下，此时需要让大模型关注图像的整体视觉信[0257]如上述预训练的视觉融合模型包括预训练的视觉编码器和预训练的视觉旁路模该任务为以文本为中心的视觉问答任务任务的情况下，其对应的预设数据集可以是应的预设数据集可以是DocVQA、ChartQA、InfoVQA、DeepForm、KleisterCharity、本图像及其对应的标注表述，可以将样本图像标注的原始简短注释)视作样本需求表述对应的样本答案表述，亦或者可以直接为样本图上述样本图像及样本图像的详细描述表述进行筛选之后，可以用来进行后续的大模型训本图像的分辨率调整为与样本局部图像块一了多个视觉编码器)和视觉旁路模型。对于视觉旁路模型，可以通过LoRA(Low_Rank[0319]与上述方法实施例相对应，本申请实施例还提供了一种图像处理装置，如图7所所述目标图像的分辨率与每个所述局部图像块[0334]将多个所述局部图像块、所述目标图像以及所述需求表述输入至预训练的大模[0354]损失确定模块，用于确定所述样本答案表述与所述预测答案表述之间的表述损[0374]在一个可选的实施方式中，所述视觉融合模型包括视觉编码将所述标注表述确定为所述样本需求表述对应[0389]全局描述表述生成单元，用于将所述样本图像输入至预训练的全局描述生成模[0390]区域描述表述生成单元，用于将所述样本图像输入至预训练的区域描述生成模[0408]获取原始图像以及针对所述原始图像的需求表述；对所述原始图像进行切块处[0409]上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandard[0412]上述的处理器可以是通用处理器，包括中央处理器(CentralProce简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecific

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN119399024A 图像处理方法及装置（珠海金山办公软件有限公司）

文档简介

温馨提示

最新文档

评论

CN119399024A 图像处理方法及装置 （珠海金山办公软件有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN119399024A 图像处理方法及装置（珠海金山办公软件有限公司）