CN114092707B 一种图像文本视觉问答方法、系统及存储介质（华中师范大学）

上传人：1*** IP属地：山西上传时间：2026-07-04 格式：DOCX 页数：37 大小：1.05MB 积分：10.2 举报 版权申诉

CN114092707B 一种图像文本视觉问答方法、系统及存储介质（华中师范大学）_第2页

CN114092707B 一种图像文本视觉问答方法、系统及存储介质（华中师范大学）_第3页

CN114092707B 一种图像文本视觉问答方法、系统及存储介质（华中师范大学）_第4页

CN114092707B 一种图像文本视觉问答方法、系统及存储介质（华中师范大学）_第5页

已阅读5页，还剩32页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PredictionwithPointer-AuMultimodalTransformersfor质将编码了跨模态和模态内部关系的图像视觉特2将所述图像视觉特征、图像文本特征和所述问题文本特征转化到同一特征对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行将所述编码了跨模态和模态内部关系的图像视觉特征、图像文本所述对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融模内模间信息融合模块首先将多个模态的特征传递到跨模态交互模块中模块基于SDA或SDAG机制学习三个模态之间的跨模态关系并更新三个模态的特征，使得每跨模态交互模块在文本模态与图像模态之间和文本模态与OCR标记模态之间的关系学利用SDAG机制计算物体对象边界框与文字所述将所述编码了跨模态和模态内部关系的图像视觉特征、图像采用多层特征联合预测方法使用答案生成模块对每层模内模间信息融合模块的输出结果生成一个答案预测分数；第t个答案预测分数表示为多层特征联合预测方法计算第i个OCR标记特征被一个分类器转换为关于第i3通过均值池化操作融合图像视觉特征和问题文本特征碍,通过逐元素相乘方法整合象的长度对齐，然后通过Glove词向量将目标问题对象中每一个单词编码转化为一个特征模内模间信息融合模块，用于将所述图像视觉特征、图像文本特所述对所述同一维度的图像视觉特征、图像文本特征和问题文本特征进行融4模内模间信息融合模块首先将多个模态的特征传递到跨模态交互模块中模块基于SDA或SDAG机制学习三个模态之间的跨模态关系并更新三个模态的特征，使得每跨模态交互模块在文本模态与图像模态之间和文本模态与OCR标记模态之间的关系学利用SDAG机制计算物体对象边界框与文字所述答案生成模块，还用于采用多层特征联合预测方法使用答案生成模间信息融合模块的输出结果生成一个答案预测分数；第t个答案预测分数表示为多层特征联合预测方法计算出这些分数的平均值yf，最后取yf中分数最高项对应的候选答案第i个OCR标记特征被一个分类器转换为关于第i通过均值池化操作融合图像视觉特征和问题文本特征碍,通过逐元素相乘方法整合使计算机执行如权利要求1-5中任一项所述的图像所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被理器执行，以使所述至少一个处理器能够执行如权利要求1-5中任一项所述的图像文本视5在自动回答与给定图像内容相关的文本问题，并且需要同时理解视觉图像和自然语言问BERT(BidirectionalEncoderRepresentationfromTransformers)模型处理NLP涉及理解和推理图像中文本的问题。部分研究提出使用文本视觉问答任务来解决这一问本以推断答案。其模型大多通过引入光学字符识别(OpticalCharacterRecognition，OCR)组件，来读取图像中的文本，如LoRRA在图像区域上采用单向注意和以问题为条件的学习特定的图像区域和由输入问题引导的O[0004]针对现有技术的以上缺陷或改进需求，本发明提供一种图像文本视觉问答方法、[0010]将所述图像视觉特征、图像文本特征和所述问题文本特6算机指令用于使计算机执行如上任一项所述的图[0029]本发明的实施例提供的图像文本视觉问答方法，采用图文多模态的特征提取模7以上)模态的跨模态和模内交互模块，其中比例点积注意力方法(scaleddot-product表明本发明提出的方法和模型性能优于现有[0036]图6是本发明一些实施例提供的用来实现本发明的实施例的图像文本视觉问答方[0040]为了解决这种场景下的视觉问答任务，本发明首先使用一个外部的OCR文字识别物体对象与OCR识别文字之空间位置关系引入到跨模态交互过程中，极大地提高了关系学8取：基于FasterR-CNN的图像对象特征提取、基于LSTM网络的问题语义信息提取和基于[0041]在本发明一些实施例中，如图1所示为本发明一些实施例提供的一种图像文本视觉问答方法流程示意图，该方法可以由图像文本视觉问答模型和/或图像文本视觉问答系包括图像文本信息(Textinimages)，图像文本信息一般为文字形式。目标问题对象题对象具有目标答案(Answer)。如，针对目标问题对象(Question)“whandletteroftheplane？(飞机上的号码和字母是多少？)”的目标答案(Answer)为实施例对此并不进行限制。首先使用已有数据集(例如ImageNet数据集和VisualGenome数据集)对FasterR-CNN(FasterRegion-basedConvolutionalNeuralNetworks)对象检测模型进行预训练，然多层次模内模间信息融合模型还提取每个对象区域对应的边界框Bv∈RN×4作为空间信息。9[0052]为了获得图像中文字的特征信息，多层次模内模间信息融合模型使用一个外部信息融合模型使用预训练好的FastText模型提取其包含子单词信息的特征，最终得到300L×4分别表示目标图像对象上的图像文本特征以及每个文充操作将所有问题的长度对齐到M，然后通过Glove词向量将问题中每一个单词编码成300标记)的特征之后，多层次模内模间信息融合模型使用线性转化层将每个模态不同维度的用线性转化层转化到同一特征空间，所述线性转化层用于输入不同编码器提取的特征表[0070]多层次模内模间信息融合模型使用模内模间信息融合模块充分地建模多模态特态交互模块中，跨模态交互模块将基于SDA(或SDAG)机制学习三个模态之间的跨模态关系用于不需要额外信息指导关系学习的情况。在文本模态与图像模态之间和文本模态与OCRSDAG机制将这些空间信息进行拼接，并传递给带有sigmoid激活函数的两层全连接神经网络来学习每个物体对象和OCR标记对像之间的空间相关权重。SDAG机制将空间相关权重矩[0077]其中，qeR"",keR""和veR"⃞"(n,=n,)分在求相关权重矩阵M时会将内积除以维度d的平方根来规范化权重值。非线性函数softmax[0078]本实施例的SDA机制能进行多模态数据的关系建模，它通过语义特征来学习相关改进版SDA机制的结构。SDAG机制在计算相关权重时，加入外部的指导信息来辅助关系学[0085]本发明一些实施例的跨模态交互模块可以将来自其他模态的信息流与原始特征个问题，答案生成模块使用一个从训练数据集中统计出来的答案列表以及当前图片(即目的行向量与L个OCR标记之间的对应关系，通过一个多层感知机网络将第i个OCR标记特征择和yvoca中最大预测分数对应的答案作为问题的预测[0094]多层模内模间信息融合模块中T层堆叠的模内模间信息融合模块对多模态数据执块对每层模内模间信息融合模块的输出结果生成一个答案预测分数。第t个答案预测分数[0096](1)第i个OCR标记特征疫一个分类器转换为关于第i个OCR标记的预测分数[0097](2)通过均值池化操作融合图像视觉特征和问题文本特征通过逐元素相乘[0102]本发明另一实施例还提供一种评估模型，选取了最新的图像文本视觉问答数据[0106]将本发明与最先进的两个基线模型(LoRRA的变体)进行比较，结果表明本发明明[0107]图5是本发明实施例提供的一种图像文本视觉问答系统的结构图，本实施例可适用于利用视觉问答模型处理包括图像文本类型的视觉问答任务的情况，该装置通过软件和/或硬件实现，并具体配置于电子设备中。该电子设备可以是计算机设备或服务器设备[0116]本实施例中的图像文本视觉问答系统可执行本发明任意实施例所提供的图像文机指令用于使计算机执行如上任一实施例所述的图像文本视[0120]图6示出了可以用来实施本发明的实施例的电子设备600的结构框图。电子设备机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理[0125]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN114092707B 一种图像文本视觉问答方法、系统及存储介质（华中师范大学）

文档简介

温馨提示

最新文档

评论

CN114092707B 一种图像文本视觉问答方法、系统及存储介质 （华中师范大学）

文档简介

温馨提示

最新文档

评论

相关文档

CN114092707B 一种图像文本视觉问答方法、系统及存储介质（华中师范大学）