CN113792113B 视觉语言模型获得及任务处理方法、装置、设备及介质（北京京东尚科信息技术有限公司）

上传人：1*** IP属地：山西上传时间：2026-06-19 格式：DOCX 页数：72 大小：4.10MB 积分：9.6 举报 版权申诉

CN113792113B 视觉语言模型获得及任务处理方法、装置、设备及介质（北京京东尚科信息技术有限公司）_第2页

CN113792113B 视觉语言模型获得及任务处理方法、装置、设备及介质（北京京东尚科信息技术有限公司）_第3页

CN113792113B 视觉语言模型获得及任务处理方法、装置、设备及介质（北京京东尚科信息技术有限公司）_第4页

CN113792113B 视觉语言模型获得及任务处理方法、装置、设备及介质（北京京东尚科信息技术有限公司）_第5页

已阅读5页，还剩67页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

US2020034436A1,2020.掩码文本描述输入所述初始视觉语言模型以获通过所述初始视觉语言模型执行多个预训练任现了一定程度上提高训练后的视觉语言模型处2将所述预训练图像和所述掩码文本描述输入所述初始视觉语言模型以获得预测文本基于所述预训练图像、所述文本描述、所述掩码文本描述和所述将所述预训练图像和所述掩码文本描述输入所述初始视觉语言模型以获得预测文本将所述预训练图像输入所述初始目标编码器获得第一目将所述掩码文本描述输入所述初始句子编码器获得第一句将所述第一目标编码器输出与所述第一句子编码器输出通过所述初始跨模态编码器将所述第一目标编码器输出与所述第一句子编码器输出通过所述初始跨模态解码器从所述第一编码器预测文本描述分布中采样获得所述编码器预从所述第一解码器预测文本描述分布中采样获得所述解码器预所述多个预训练任务还包括掩码目标分类任务和图像所述基于所述预训练图像、所述文本描述、所述掩码文本描述和所过所述初始视觉语言模型执行多个预训练任务以训练所述初始视以所述文本描述为标签基于所述第一编码器预测文本描述分布获得第一掩码语言建将所述文本描述输入所述初始句子编码器获得第二句将所述掩码预训练图像输入所述初始目标编码器获得第二目将所述第二目标编码器输出与所述第二句子编码器输出通过所述初始跨模态编码器以所述预训练图像为标签基于所述第一编码器预测目标分布获得第一掩码目标分类根据所述第二句子编码器输出和所述第一目标编码器输出执行所述图像句子匹配任以所述文本描述为标签基于所述第一解码器预测文本描述分布获得第一掩码句子生基于所述编码器预测文本描述、所述解码器预测文本描述和3基于所述第一掩码语言建模损失、所述第一掩码目标分解码器预测文本描述和所述预训练图像通过所述初始句子编码器、所述初始目标编码器、所述初始跨模态编码器和所述初始跨模态解码器获得第二阶段任务将所述编码器预测文本描述输入所述初始句子编码器获得第三句将所述第一目标编码器输出与所述第三句子编码器输出通过所述初始跨模态编码器以所述文本描述为标签基于所述第二编码器预测文本描述分布获得第二掩码语言建将所述第一目标编码器输出与所述第三句子编码器输出通过所述初始跨模态编码器以所述预训练图像为标签基于所述第二编码器预测目标分布获得第二掩码目标分类将所述解码器预测文本描述输入所述初始句子编码器获得第四句将所述第一目标编码器输出与所述第四句子编码器输出通过所述初始跨模态解码器以所述文本描述为标签基于所述第二解码器预测文本描述分布获得第二掩码句子生将所述第二掩码语言建模损失、所述第二掩码目标分类损失和所述第解码器预测文本描述和所述预训练图像通过所述初始句子编码器、所述初始目标编码器、所述初始跨模态编码器和所述初始跨模态解码器获得第二阶段任务将所述编码器预测文本描述输入所述初始句子编码器获得第三句将所述第一目标编码器输出与所述第三句子编码器输出通过所述初始跨模态解码器以所述文本描述为标签基于所述第三解码器预测文本描述分布获得第三掩码句子生将所述解码器预测文本描述输入所述初始句子编码器获得第四句将所述第一目标编码器输出与所述第四句子编码器输出通过所述初始跨模态编码器以所述文本描述为标签基于所述第三编码器预测文本描述分布获得第三掩码语言建将所述第一目标编码器输出与所述第四句子编码器输出通过所述初始跨模态编码器4以所述预训练图像为标签基于所述第三编码器预测目标分布获得第三掩码目标分类将所述第三掩码语言建模损失、所述第三掩码目标分类损失和所述第解码器预测文本描述和所述预训练图像通过所述初始句子编码器、所述初始目标编码器、所述初始跨模态编码器和所述初始跨模态解码器获得第二阶段任务将所述编码器预测文本描述输入所述初始句子编码器获得第三句将所述第一目标编码器输出与所述第三句子编码器输出通过所述初始跨模态解码器以所述文本描述为标签基于所述第三解码器预测文本描述分布获得第三掩码句子生将所述解码器预测文本描述输入所述初始句子编码器获得第四句将所述第一目标编码器输出与所述第四句子编码器输出通过所述初始跨模态编码器以所述文本描述为标签基于所述第三编码器预测文本描述分布获得第三掩码语言建将所述第一目标编码器输出与所述第四句子编码器输出通过所述初始跨模态编码器以所述预训练图像为标签基于所述第三编码器预测目标分布获得第三掩码目标分类所述第二阶段任务损失包括所述第三掩码语言建模损失、所述第三所述基于所述第一掩码语言建模损失、所述第一掩码目标分类损失、配损失、所述第一掩码句子生成损失和所述第二阶段任务损失获得预训练总损失函数包基于所述第一掩码语言建模损失、所述第一掩码目标分将所述任务输入数据经由通过如权利要求1-5任一项所述的方法获得的预训练后的视获得所述预训练后的视觉语言模型输出的任5第一预训练模块，用于将所述预训练图像和所述掩码句子编码模块，用于将所述掩码文本描述输入跨模态编码模块，用于将所述第一目标编码器输出与所述第一句子编跨模态解码模块，用于将所述第一目标编码器输出与所述第一句子编文本描述采样模块，用于从所述第一编码器预测文本描预测文本描述；从所述第一解码器预测文本描述分布中采样获得所述解码器预测文本描预测文本描述通过所述初始视觉语言模型执行多个预训练任务以训练所述初始视觉语言任务处理模块，用于将所述任务输入数据经由通过如权利要求1-5任一项所述的方法行指令被处理器执行时实现如权利要求1-6任一项6务的性能成为发展趋势。相关技术中用掩码(MASK)标记替换某些输入的图像/单词标记作为VL模型输入的训练数据，然后以VL模型可恢复被替换的输入为目标对VL模型进行预训至少在一定程度上克服由于相关技术预训练过程与微调过程的差异导致训练后的VL模型文本描述通过所述初始视觉语言模型执行多个预训练任务以训练所述初始视觉语言模型，7第一目标编码器输出与所述第一句子编码器输出通过所述初始跨模态解码器执行所述掩编码器输出与所述第四句子编码器输出通过所述初始跨模态解码器执行所述掩码句子生8掩码目标分类损失和所述第二掩码句子生成损失相加获得所述第二阶段任一目标编码器输出与所述第四句子编码器输出通过所述初始跨模态编码器执行所述掩码掩码目标分类损失和所述第三掩码句子生成损失相加获得所述第二阶段任一目标编码器输出与所述第四句子编码器输出通过所述初始跨模态编码器执行所述掩码9文本描述和所述预测文本描述通过所述初始视觉语言模型执行多个预训练任务以训练所输出与所述第一句子编码器输出通过所述初始跨模态编码器执行所述掩码语言建模任务，基于所述第一编码器预测文本描述分布获得第一掩码语言建模损失；所述句子编码模块，模块，还用于将所述掩码预训练图像输入所述初始目标编码器获得第二目标编码器输出；所述第一编码器预测目标分布获得第一掩码目标分类损失；图像句子匹配损失计算模块，用于根据所述第二句子编码器输出和所述第一目标编码器输出执行所述图像句子匹配任第一目标编码器输出与所述第三句子编码器输出通过所述初始跨模态编码器执行所述掩用于以所述文本描述为标签基于所述第二编码器预测文本描述分布获得第二掩码语言建用于将所述第一目标编码器输出与所述第四句子编码器输出通过所述初始跨模态解码器二掩码目标分类损失和所述第二掩码句子生成损失相加获得所述第二阶段任第一目标编码器输出与所述第三句子编码器输出通过所述初始跨模态解码器执行所述掩用于以所述文本描述为标签基于所述第三解码器预测文本描述分布获得第三掩码句子生掩码目标分类损失和所述第三掩码句子生成损失相加获得所述第二阶段任第一目标编码器输出与所述第三句子编码器输出通过所述初始跨模态解码器执行所述掩用于以所述文本描述为标签基于所述第三解码器预测文本描述分布获得第三掩码句子生预训练技术，一些相关技术中用掩码(MASK)标记替换某些输入的图像/单词标记作为VL模与微调过程的差异较大。一些相关技术中的VL预训练采用通用的预训练多模态(视觉模态一些相关技术中采用基于单流输入的编码器-解码器结构，对VL理解任务和VL生成任务进每种模态的特性以及每个VL代理任务的固有特性差异，这严重限制了预训练的编码器-解描述和预测文本描述通过初始视觉语言模型执行多个预训练任务以训练初始视觉语言模[0056]本公开还提供了一种双流解耦的编码器-解码器网络设计，由两个编码器处理每[0057]图1示出了可以应用本公开的视觉语言模型获得方法或视觉语言模型获得装置的备102通过网络104将图片和问题传输至服务器106进行处理。服务器106也可通过网络104获得大量训练图像及对应的文本描述，通过训练图像及对应的文本描述训练视觉语言模接关系将自注意力机制和/或互注意力机制作用于整个视觉语言模型。视觉语言模型的具模型以处理图像文本任务。多个预训练任务可包括掩码语言建模(MaskedLanguageModeling，MLM)、掩码目标分类(MaskedObjectClassification，MOC)、图像句子匹配像-句子基准数据集中得到的图像-句子对可将每个输入图像工表示为一组由目标检测器(例如：快速循环卷积神经网络(FasterR-CNN))得到的目标图像区域的特征向量标图像区域的特征向量。对于每一个图像I对应的句子s,我们将其分词后表示为单词标记序列其中NS为输入句子的单词的个数，表示第j个单词的特征向原图像左上角距离等等信息构成的向量)，单词标记序列可包括各个单词1维的位置信息，中还包括两种特殊的标记[CLS]和[SEP]，用于指示输入的单词标记[0078]接收输入图像标记3142的为目标编码器314，通过KI个堆叠的图像变换器模块个特殊的图像标记[IMG](其向量为所有探测区域的平均池化的目标表示)，该标记作为输入的图像标记3142序列的开端。合在一起作为多模态输入:将输入到一组由KE个堆叠变换器模块[0080]还可将输入到一组由堆叠的KD层变换器模块(31标记中收集上下文信息，然后对所有图像标记通过互注意力机制进行下一个单词的预测，[0082]在步骤S310中，将掩码文本描述输入初始句子编码器获得第一句子编码器输掩码单词标记和图像标记来恢复掩码部分的单词。可通过一个覆盖整个词汇表的分类器，由交叉熵损失函数(softmax)的驱动，利用跨模态编码器中输出的掩膜单词标记的上下文多模态特征重新生成掩膜标记对应的原始的单词，获得表示预测的掩码对应的原始的单词的第一编码器预测文本描述解码器的具体实施方式，MSG任务致力于教跨模态解码器如何根据输入图像逐字地自回归[0085]在步骤S316中，从第一编码器预测文本描述分布中采样获得编码器预测文本描[0086]在步骤S318中，从第一解码器预测文本描述分布中采样获得解码器预测文本描特质体现在两模态之间的无限制信息传递，而MSG的特质体现为视觉到文本的信息传递)，促进了预训练的跨模态的VL任务对视觉语言模[0094]步骤S402至S404的具体实施方式可参照上述步骤S202至S204、步[0098]在步骤S4102中，将第一目标编码器输出与第一句子编码器输出通过初始跨模态[0099]在步骤S4104中，以文本描述为标签基于第一编码器预测文本描述分布获得第一掩码语言建模损失。MLM任务的目标是根据非掩码单词标记和图像标记来恢复掩码部分的模态编码器中输出的掩膜单词标记的上下文多模态特征重新生成掩膜标记对应的原始的目标编码器314，句子编码器312的第一句子编码器输出和目标编码器314的第一目标编码[0102]在步骤S4088中，将掩码预训练图像输入初始目标编码器获得第二目标编码器输[0103]在步骤S4106中，将第二目标编码器输出与第二句子编码器输出通过初始跨模态器将增强的掩码图像标记(即第二目标编码器输出)和增强的单词标记(第二句子编码器输出)进行编码获得上下文多模态特征后输入到一个分类器中进行目标分类获得第一编码器[0104]在步骤S4108中，预训练图像为标签基于第一编码器预测目标分布获得第一掩码目标分类损失。MOC的任务损失可表示为度量了每个掩码图像标记对应的区域图像的预测列的向量输入目标编码器314，句子编码器312的第二句子编码器输出和目标编码器314的[0106]在步骤S4110中，根据第二句子编码器输出和第一目标编码器输出执行图像句子输出来度量图像-句子相似性，例如将第二句子编码器输出和第一目标编码器输出馈送入基于注意力的两层多层感知器(Multi-LayerPerceptron,MLP)来计算图像-句子相似度，任务执行方式可触发更早的图像-句子对齐，从而避免了通过共享的跨模态编码器引入的标编码器314，将句子编码器312的第二句子编码器输出和目标编码器314的第一目标编码[0108]在步骤S4112中，将第一目标编码器输出与第一句子编码器输出通过初始跨模态态解码器的具体实施方式，MSG任务致力于教跨模态解码器如何根据输入图像逐字地自回[0109]在步骤S4114中，以文本描述为标签基于第一解码器预测文本描述分布获得第一和输入图像的顺序单词标记。可将掩码句子生成目标编码器314，句子编码器312的第一句子编码器输出和目标编码器314的第一目标编码[0111]在步骤S4122中，从第一编码器预测文本描述分布中采样获得编码器预测文本描[0112]在步骤S4124中，从第一解码器预测文本描述分布中采样获得解码器预测文本描过用编码器预测文本描述、解码器预测文本描述代替掩码文本描述获得第二阶段任务损[0117]图5A示出了图4A中所示的步骤S4126在一实施例中的处理过程示意图。如图5A所[0118]在步骤S412602中，将编码器预测文本描述输入初始句子编码器获得第三句子编码器输出。可为对图4A中的初始跨模态编码器执行的MLM任务获得的编码器预测文本分布[0119]在步骤S412604中，将第一目标编码器输出与第三句子编码器输出通过初始跨模[0120]在步骤S412606中，以文本描述为标签基于第二编码器预测文本描述分布获得第[0121]在步骤S412608中，将第一目标编码器输出与第三句子编码器输出通过初始跨模输入初始目标编码器获得的第二目标编码器输出与第三句子编码器输出通过初始跨模态[0122]在步骤S412610中，以预训练图像为标签基于第二编码器预测目标分布获得第二掩码目标分类损失。可将第二掩码目标分类损失表示为人oc(sz,T)。[0123]在步骤S412612中，将解码器预测文本描述输入初始句子编码器获得第四句子编码器输出。可为对图4A中的初始跨模态编码器执行的MSG任务获得的编码器预测文本分布[0124]在步骤S412614中，将第一目标编码器输出与第四句子编码器输出通过初始跨模[0125]在步骤S412616中，以文本描述为标签基于第二解码器预测文本描述分布获得第二掩码句子生成损失。可将第二掩码句子生成损失表示为GSO(S,,T)。编码器316和跨模态解码器318输出的各位置的掩码单词标记的预测单词分布。对预测单词分布进行采样获得采样单词，用这些采样单词替代人工掩码标记的掩膜单词标记序列，得到了两个非掩膜单词标记序列(SE和SD)，如图5B所示，其中SE中[MASK]对应的采样单词为后，将句子编码器312的输出与第一阶段预训练中通过目标编码器314编码的增强的图像标码的单词标记SD与第一阶段预训练中通过目标编码器314编码的增强的图像标记一同输入[0131]图6A示出了图4A中所示的步骤S4126在一实施例中的处理过程示意图。如图6A所[0132]在步骤S412622中，将编码器预测文本描述输入初始句子编码器获得第三句子编[0133]在步骤S412624中，将第一目标编码器输出与第三句子编码器输出通过初始跨模[0134]在步骤S412626中，以文本描述为标签基于第三解码器预测文本描述分布获得第[0135]在步骤S412628中，将解码器预测文本描述输入初始句子编码器获得第四句子编[0136]在步骤S412630中，将第一目标编码器输出与第四句子编码器输出通过初始跨模[0137]在步骤S412632中，以文本描述为标签基于第三编码器预测文本描述分布获得第[0138]在步骤S412634中，将第一目标编码器输出与第四句子编码器输出通过初始跨模[0139]在步骤S412636中，以预训练图像为标签基于第三编码器预测目标分布获得第三态编码器316和跨模态解码器318输出的各位置的掩码单词标记的预测单词分布。对预测单词分布进行采样获得采样单词，用这些采样单词替代人工掩码标记的掩膜单词标记序列，后，将句子编码器312的输出与第一阶段预训练中通过目标编码器314编码的增强的图像标SD与第一阶段预训练中通过目标编码器314编码的增强的图像标记一同输入到跨模态编码[0144]图7A示出了图4A中所示的步骤S4126在一实施例中的处理过程示意图。图7A与图器预测文本描述输入初始句子编码器获得第三[0147]在步骤S412644中，将第一目标编码器输出与第三句子编码器输出通过初始跨模[0148]在步骤S412646中，以文本描述为标签基于第三解码器预测文本描述分布获得第器预测文本描述输入初始句子编码器获得第四[0150]在步骤S412650中，将第一目标编码器输出与第四句子编码器输出通过初始跨模[0151]在步骤S412652中，以文本描述为标签基于第三编码器预测文本描述分布获得第[0152]在步骤S412654中，将第一目标编码器输出与第四句子编码器输出通过初始跨模[0153]在步骤S412656中，以预训练图像为标签基于第三编码器预测目标分布获得第三[0155]图7B示出了图4A中所示的步骤S414在一实施例中的处理过程示意图。如图7B所[0160]根据本公开实施例提供的方法和视觉语言模型，利用大规模的图像-文本描述数数据和任务处理结果不同。下面将对处理视觉语言下游任务的具体实施方式进行具体描征通过全连接层后通过S形函数获得3129个可能的答案的概率分布。可基于交叉熵损失来[0168]基于描述的图像检索任务在从给定描述图像的内容的文本描述的图像池中获得基于交叉熵损失来优化整体的模型架构。一次训练的数据量大小为16，学习率设置为的设计还要低，表明ISM的跨模式编码器设计通过在共享跨模态编码器中引入不匹配的图[0179]第一预训练模块908可用于将预训练图像和掩码文本描述输入初始视觉语言模型练模块1008包括文本描述预测模块10082和文本描述采样模块10084，文本描述预测模块损失计算模块10104、图像句子匹配损失计算模块10106、掩码句子生成损失计算模块[0187]第一预训练模块1008可用于将预训练图像和掩码文本描述输入初始视觉语言模[0188]文本描述预测模块10082可用于将预训练图像和掩码文本描述输入初始视觉语言器预测文本描述分布和第一解码器预测文本描[0189]目标编码模块100822可用于将预训练图像输入初始目标编码器获得第一目标编[0190]目标编码模块100822还可用于将掩码预训练图像输入初始目标编码器获得第二[0191]句子编码模块100824可用于将掩码文本描述输入初始句子编码器获得第一句子[0192]句子编码模块100824还可用于将文本描述输入初始句子编码器获得第二句子编[0193]句子编码模块100824还可用于将编码器预测文本描述输入初始句子编码器获得[0194]句子编码模块100824还可用于将解码器预测文本描述输入初始句子编码器获得[0195]跨模态编码模块100826可用于将第一目标编码器输出与第一句子编码器输出通[0196]跨模态编码模块100826还可用于将第二目标编码器输出与第二句子编码器输出[0197]跨模态编码模块100826还可用于将第一目标编码器输出与第三句子编码器输出[0198]跨模态编码模块100826还可用于将第一目标编码器输出与第三句子编码器输出[0199]跨模态编码模块100826还可用于将第一目标编码器输出与第四句子编码器输出[0200]跨模态编码模块100826还可用于将第一目标编码器输出与第四句子编码器输出[0201]跨模态解码模块100828可用于将第一目标编码器输出与第一句子编码器输出通[0202]跨模态解码模块100828还可用于将第一目标编码器输出与第四句子编码器输出[0203]跨模态解码模块100828还可用于将第一目标编码器输出与第三句子编码器输出[0204]文本描述采样模块10084可用于从预测文本描述分布中采样获得预测文本描述。预测文本描述包括编码器预测文本描述和解码[0205]文本描述采样模块10084还可用于从第一编码器预测文本描述分布中采样获得编[0208]掩码语言建模损失计算模块10102可用于以文本描述为标签基于第一编码器预测[0209]掩码语言建模损失计算模块10102还可用于以文本描述为标签基于第二编码器预[0210]掩码语言建模损失计算模块10102还可用于以文本描述为标签基于第三编码器预[0211]掩码目标分类损失计算模块10104可用于以预训练图像为标签基于第一编码器预[0212]掩码目标分类损失计算模块10104还可用于以预训练图像为标签基于第二编码器[0213]掩码目标分类损失计算模块10104还可用于以预训练图像为标签基于第三编码器[0214]图像句子匹配损失计算模块10106可用于根据第二句子编码器输出和第一目标编[0215]掩码句子生成损失计算模块10108可用于以文本描述为标签基于第一解码器预测[0216]掩码句子生成损失计算模块10108还可用于以文本描述为标签基于第二解码器预[0217]掩码句子生成损失计算模块10108还可用于以文本描述为标签基于第三解码器预[0218]阶段损失计算模块10110可用于基于编码器预测

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CN113792113B 视觉语言模型获得及任务处理方法、装置、设备及介质（北京京东尚科信息技术有限公司）

文档简介

温馨提示

最新文档

评论

CN113792113B 视觉语言模型获得及任务处理方法、装置、设备及介质 （北京京东尚科信息技术有限公司）

文档简介

温馨提示

最新文档

评论

相关文档

CN113792113B 视觉语言模型获得及任务处理方法、装置、设备及介质（北京京东尚科信息技术有限公司）