CN114021646B 一种图像描述文本确定方法及其相关设备 (北京有竹居网络技术有限公司)_第1页
CN114021646B 一种图像描述文本确定方法及其相关设备 (北京有竹居网络技术有限公司)_第2页
CN114021646B 一种图像描述文本确定方法及其相关设备 (北京有竹居网络技术有限公司)_第3页
CN114021646B 一种图像描述文本确定方法及其相关设备 (北京有竹居网络技术有限公司)_第4页
CN114021646B 一种图像描述文本确定方法及其相关设备 (北京有竹居网络技术有限公司)_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本申请公开了一种图像描述文本确定方法数据和该待理解图像的参考信息表征数据;然本生成处理,得到该待理解图像的图像描述文2在获取到待理解图像之后,对所述待理解图像进行视觉特征提根据所述视觉特征,分别确定所述待理解图像的视觉信息表对所述视觉信息表征数据和所述参考信息表征数据进行融合处理,得对所述图像信息表征数据进行文本生成处理,得到所述待理解图像的图像描述文本,将所述视觉特征输入预先构建的分类表征模型,得到所述分类表征将所述视觉特征输入预先构建的目标检测表征模型,得到所述目将所述视觉特征输入预先构建的分割表征模型,得到所述分割表征将所述视觉特征输入预先构建的视觉信息表征模型,得到所述视将所述图像信息表征数据输入预先构建的文本生成模型,得到所将所述样本图像输入待训练模型,得到所述待训练模型输出的所述3根据所述样本图像的预测描述文本和所述样本图像的实对所述样本图像的待使用标签进行文本转换处理,得到所述样本图像的实际描述文所述标签信息包括多个参考标签,所述多个参考标签包括图像分类标签对各个所述参考标签分别进行文本转换处理,得到各个所述参考标签所述标签信息包括图像描述文本标签和至少一个参考标签,所述对各个所述参考标签分别进行文本转换处理,得到各个所述参考标签按照所述待使用标签对应的文本转换规则,对所述样本图像的待使用标签进将所述样本图像和所述样本图像的标签类型表征数据输入待训练模4确定单元,用于根据所述视觉特征,分别确定所述待理解图像所述待理解图像的参考信息表征数据,所述参考信息表征数据包括图像分类结果表征数融合单元,用于对所述视觉信息表征数据和所生成单元,用于对所述图像信息表征数据进行文本生成处像目标检测标签和图像分割标签中的部分或者全部,所述图像描述文本标签所属的类型、所述处理器用于根据所述计算机程序执行权利要求1-11中任一项得所述终端设备执行权利要求1-11中任5[0004]为了解决上述技术问题,本申请提供了一种图像描述文本确定方法及其相关设[0011]在一种可能的实施方式中,所述参考信息表征数据包括图像分类结果表征数据、输出的所述待理解图像的图像目标检测结果6[0031]对各个所述参考标签分别进行文本转换处理,得到各个所述参考标签的描述文[0033]对各个所述参考标签分别进行文本转换处理,得到各个所述参考标签的描述文[0034]在一种可能的实施方式中,所述对所述样本图像的待使用标签进行文本转换处7表征层的输出数据;所述参考信息表征层的输入数据包括所述视觉特征提取层的输出数[0047]融合单元,用于对所述视觉信息表征数据和所述参考信息表征数据进行融合处[0051]所述处理器用于根据所述计算机程序执行本申请实施例提供的图像描述文本确8表征数据和该参考信息表征数据进行融合处理,得到该待理解图像的图像信息表征数据;9表征模型输出的该待理解图像的图像分类结以利用现有的或者未来出现的任意一个图像分类模型中除了分类结果输出层(也就是,该表征模型输出的该待理解图像的图像分割结以利用现有的或者未来出现的任意一个图像分割模型中除了分割结果输出层(也就是,该Y12”用于描述大海在图1所示的图像数据中的实际Y34Y12233445Y78899Y12233445X10[0133]基于上述情况2的相关内容可知,当样本图像的标签信息只包括该样本图像的图确定过程的任一实施方式进行实施,只需将上文情况2所示的“样本图像的实际描述文本”图像的实际描述文本,以使该实际描述文本能够以文字描述的方式说明该样本图像的R个确定过程的任一实施方式进行实施,只需将上文情况2所示的“样本图像的实际描述文本”文字描述的方式说明该样本图像的T个参考标签以及图像描述文按照预先设定的文本生成模板从这些标签数据的描述文本以及该图像描述文本标签中提训练模型600具体可以包括:视觉特征提取层601、视觉信息表征层602、参考信息表征层数据;融合层604的输入数据包括参考信息表征层603的输出数据和视觉信息表征层602的表征层602的输入数据包括视觉特征提取层601的[0150]视觉特征提取层601用于针对一个图像数据进行视觉特征提取处理;而且本申请可以包括图像特征提取层(ImageFeatureExtractor)和视觉编码层(Visual[0151]需要说明的是,图像特征提取层用于针对一个图像数据进行图像特征提取处理;征提取模型”的模型结构进行实施。视觉编码层用于针对该视觉编码层的输入数据进行视[0152]视觉信息表征层602用于针对该视觉信息表征层602的输入数据进行视觉信息表[0153]参考信息表征层603用于针对该参考信息表征层603的输入数据进行参考信息表息表征层603的输入数据”)进行图像目标检测结果表征处理;而且本申请实施例不限定该层”针对视觉编码层的输出数据进行图像分割结果表征处理得到的图像分割结果表征数络针对一个图像数据进行图像说明文字提取处理,得到并输出该图像数据的图像描述文用GPT进行实施时,可以先根据样本图像的标签信息,确定该样本图像的标签类型表征数据;再由该GPT以该标签类型表征数据以及该样本图像的图像信息表征数据作为参考条件[0186]融合单元803,用于对所述视觉信息表征数据和所述参考信息表征数据进行融合[0188]在一种可能的实施方式中,所述参考信息表征数据包括图像分类结果表征数据、所述目标检测表征模型输出的所述待理解图像的图像目标检测结果表所述视觉信息表征模型输出的所述待理解图像的视觉信息表征层的输出数据;所述参考信息表征层的输入数据包括所述视觉特征提取层的输出数像的标签类型表征数据是根据所述样本图像的标[0211]基于上述图像描述文本确定装置800的相关内容可知,对于图像描述文本确定装[0215]所述处理器用于根据所述计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论