CN113836333B 图文匹配模型的训练方法、实现图文检索的方法、装置 (北京百度网讯科技有限公司)_第1页
CN113836333B 图文匹配模型的训练方法、实现图文检索的方法、装置 (北京百度网讯科技有限公司)_第2页
CN113836333B 图文匹配模型的训练方法、实现图文检索的方法、装置 (北京百度网讯科技有限公司)_第3页
CN113836333B 图文匹配模型的训练方法、实现图文检索的方法、装置 (北京百度网讯科技有限公司)_第4页
CN113836333B 图文匹配模型的训练方法、实现图文检索的方法、装置 (北京百度网讯科技有限公司)_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

US2020380298A1,2020.12.03本公开提供了一种图文匹配模型的训练方输出的样本文本的文本特征表示和预测语义标像特征表示;基于真实语义标签和预测语义标失函数;至少基于第一损失函数和对比损失函2获取样本文本和所述样本文本相应的样本图像,所述样本图像样本图像匹配的正例样本文本和与所述样本图像不匹配的负根据第一预设规则标记所述样本文本的真实语义标签,所述真实标记所述样本文本中的至少一个实体词的真实属将所述样本文本输入所述文本编码子模型,以获取所述文本编将所述样本图像输入所述图像编码子模型,以获取所述图像编样本图像的图像特征表示,所述图像特征表示包括图像正例特征表示和图像负例特征表基于所述样本文本的文本特征表示和所述样本图像的图像特征表基于所述样本文本的文本特征表示以及所述样本图像的图像正例特征表示和图像负,其中,所述对比损失函数Lossexat的计算公式中的utext为所述样本文本的文本特基于所述样本文本的文本正例特征表示和文本负例特征表示以及所述样本图像的图像特征表示,计算对比损失函数LOSSC.izt,所述对比损失函数基于下述公,其中,所述对比损失函数的计算公式中的uimg为所述样本图像的图像特3损失函数Losse,所述总对比损失函数Losse基于下述公式计算得到:;基于所述第一损失函数、所述第二损失函数和所述总对比损失函数Losse,调整所述4.一种利用图文匹配模型实现图文检索的方法,所述图文匹3中任一项所述的训练方法来训练得到,所述图文匹配模型包括文本编码子模型和图像编将待检索文本输入所述文本编码子模型,以获取所述文本编码子模基于所述待检索文本的文本特征表示和所述图像库中各图像的图5.一种图文匹配模型的训练装置,所述图文第一获取模块,被配置用于获取样本文本和所述样本文图像包括与所述样本文本匹配的正例样本图像和与所述样本文本不匹配的负例样本图像,所述样本文本还包括与所述样本图像匹配的正例样本文本和与所述样本图像不匹配的负语义标记模块,被配置用于根据第一预设规则标记所述样本文本属性标记模块,被配置用于根据第二预设规则标记所述属性标记模块被进一步配置用于标记所述样本文本中的至少一个实体词的真实属性标第二获取模块,被配置用于将所述样本文本输入所述文本第三获取模块,被配置用于将所述样本图像输入所述图像编4第一计算模块,被配置用于基于所述真实语义标签第二计算模块,被配置用于基于所述真实属性标签和预测对比损失计算模块,被配置为用于基于所述样本文本的文本特基于所述样本文本的文本特征表示以及所述样本图像的图像正例特征表示和图像负,其中,所述对比损失函数Lossexat的计算公式中的utext为所述样本文本的文本特基于所述样本文本的文本正例特征表示和文本负例特征表示以及所述样本图像的图像特征表示,计算对比损失函数LOSSC.izt,所述对比损失函数基于下述公,其中,所述对比损失函数的计算公式中的uimg为所述样本图像的图像特损失函数Losse,所述总对比损失函数Losse基于下述公式计算得到:;第一调参模块,被配置用于基于所述第一损失函数、所述第二调参模块,被配置用于基于所述总对比损失函数Losse,调整所述图像编码子模6.一种利用图文匹配模型实现图文检索的装置,所3中任一项所述的训练方法来训练得到,所述图文匹配模型包括文本编码子模型和图像编获取模块,被配置用于将待检索文本输入所述文本编码子模型,计算模块,被配置用于基于所述待检索文本的文本特5库中各图像的图像特征表示为利用所述图像编确定模块,被配置用于基于相应的相似度,从所述图像库中确所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被8.一种存储有计算机指令的非瞬时计算机可读存储6[0004]在此部分中描述的方法不一定是之前已经设想到或采用7[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特[0016]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性[0019]图4示出了根据本公开的实施例的利用图文匹配模型实现图文检索的方法的流程8[0021]图6示出了根据本公开的实施例的利用图文匹配模型实现图文检索的装置的结构[0025]在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目[0027]图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的[0028]在本公开的实施例中,服务器120可以运行使得能够执行图文匹配模型的训练方法以及利用图文匹配模型实现图文检索的方法的一个或多个服务[0029]在某些实施例中,服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他[0030]在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或9系统(例如GOOGLEChromeOS);或包括各种移动操作系统,例如MICROSOFTWindows[0033]网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协[0034]服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存[0035]服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序用服务器(VPS,VirtualPrivateServer)服务中存在的管理难度大、业务扩展性弱的缺[0039]在某些实施例中,数据库130中的一个或多个还可以由应用程序使用来存储应用[0043]图3中示意的样本图像306包括与样本文本301匹配的正例样本图像302和与样本[0045]预训练的方法通过在进行目标任务之前采用大量的语料函数和对比损失函数对图文匹配模型进行微调,能够实现保留文本编码子模型310的语义视频中的多个帧,可以通过预训练的图像编码子模型320(例如resnet模型)处理样本视频的多个视频帧,得到多个视频帧的图像特征的序列vvideo_feature=Resnet([img输出的样本文本301的文本特征表示311和预测语义的条件下,通过文本编码子模型310输出的预测语义标签314与真实语义标签304相同的概i码子模型310进行调参,能够增强文本编码子模型310对样本文本301本身的语义信息的感图像的相似性,则样本文本301与正例样本图像302的相似度为sim(vtext,vimg)=sim(vhexr,Dimng)=cossimilarity(veexr,Dsmng),其中负例样本图像303可以是随机选取[0060]根据本公开的另一些实施例,样本文本301包括与样本图像匹配的正例样本文本和与样本图像不匹配的负例样本文本,文本特征表示311包括正例文本特征表示和负例文[0061]根据本公开的一些实施例,样本图像与样本文本301正例的相似度为sim(vimg,vtext)=CosSimilarity(vimg,vtext),样本图像与负例样本文本的相似度为对比损失函数为LOSSU.zr=Max(sim(vmgrviex)-sim(vimg,vexe)+al,0),其中a为预先设定的阈于样本文本301获取与样本文本301匹配的正例样本图像302和与样本文本301不匹配的负同时,基于正例样本图像302获取与样本图像匹配的正例样本文本和与样本图像不匹配的负例样本文本,以获取[0063]根据一些实施例,可以结合上述两个技术方案,计算总对比损失函数Losscl=[0066]基于第一损失函数调整文本编码子模型310的参数可以使文本编码子模型310保数可以使由文本编码子模型310输出的样本文本的文本特征表示311与由图像编码子模型320输出的正例样本图像的图像特征表示3[0067]根据本公开的一些实施例,文本编码子模型310的输出还包[0068]根据本公开的一些实施例,根据第二预设规则标记样本文本301的真实属性标签[0069]根据本公开的一些实施例,也可以同时标记样本文本301中的多个实体词的真实是给定样本文本301S后由文本编码子模型310预测的ti属性的真实值,即预测属性标签[0072]根据本公开的另一方面,还提供了一种采用如上方法200训练得到的图文匹配模型包括文本编码子模型和图像编码子模型。图5示出了根据本公开的实施例的图文匹配模[0077]第二获取模块503被配置用于将样本文本输入文本编码子模型,并获取文本编码[0078]第三获取模块504被配置用于将样本图像输入图像编码子模型,并获取图像编码[0079]第一计算模块505被配置用于基于真实语义标签和预测语义标签,计算第一损失[0080]对比损失计算模块506被配置为用于基于样本文本的文本特征表示和样本图像的[0081]第一调参模块507被配置用于至少基于第一损失函数和对比损失函数,调整文本[0085]第二计算模块510被配置用于基于真实属性标签和预测属性标签,计算第二损失[0086]根据本公开的一些实施例,属性标记模块509被配置用于标记样本文本中的至少[0087]根据本公开的一些实施例,语义标记模块502被配置用于对样本文本中的目标词本文本不匹配的负例样本图像,图像特征表示包括图像正例特征表示和图像负例特征表本图像不匹配的负例样本文本,文本特征表示包括文本正例特征表示和文本负例特征表[0091]获取模块601被配置用于将检索文本输入文本编码子模型,并获取文本编码子模[0092]计算模块602被配置用于基于待检索文本的文本特征表示和图像库中各图像的图[0093]确定模块603被配置用于基于相应的相似度,从图像库中确定与检索文本匹配的至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,[0098]参考图7,现将描述可以作为本公开的服务器或客户端的电子设备700的结构框的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执单元708以及通信单元709。输入单元706可以是能向设备700输入信息的任何类型的设备,计算机程序加载到RAM703并由计算单元701执行时,可以执行上文描述的方法200或者方机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器[0103]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器[0106]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部字数据通信(例如,通信网络)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论