版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(12)发明专利(10)授权公告号CN114332519B(65)同一申请的已公布的文献号(43)申请公布日2022.04.12(73)专利权人杭州电子科技大学地址310018浙江省杭州市下沙高教园区2号大街(72)发明人姜明陈景翔张旻李鹏飞(74)专利代理机构杭州君度专利代理事务所(特殊普通合伙)33240专利代理师朱月芬GO6N3/0464(2023.01)(54)发明名称一种基于外部三元组和抽象关系的图像描述生成方法本发明公开了一种基于外部三元组和抽象关系的图像描述生成方法。本发明首先提取图像描述文本中的三元组,构建外部关系库并对三元组进行特征编码。将文本相似度高于阈值的三元组聚类为一类。同时模型对图像进行目标检测得得到目标视觉特征集合与目标类别集合;根据文本相似度在外部关系库中查询目标与目标类别相似的三元组。模型利用目标视觉特征对图像的利用卷积神经网络融合视觉特征与文本特征,对目标、属性、关系编码特征与相似关系和抽象关系的编码特征,输入到双层LSTM序列生成视觉模块视觉模块视觉特征预割目标构建场景图预测关系编码模块外部知识模块构建外部关系库聚类抽象关系motoreycledownacountmopedonaditroa场景图端码融合特征且标检测解码模块2步骤(2)根据三元组中关系rel的文本相似度,将文本相似度高于设定阈值的三元组聚属性attr、关系rel的类别词向量e。,ea,e以及它们对应的视觉特征v。,va,V;4-2为了获得更好的节点特征,融合对应类别词向量与视觉特征,u=ReLU(W₁e+W₂v)-(W₁e-W₂v2.根据权利要求1所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特3OpenIE,提取图像文本描述中的三元组R={subject,predicate,object},构建外部关系1-2使用预训练语言模型BERT对图像文本描述进行编码,得到所有图像文本描述中每个单词的特征编码;设图像文本描述由K个单词构成,则该段图像文本描述的特征向量为1-3由于提取的三元组是在图像文本描述中出现过的单词,假设三个单词在图像文本描述中的位置为i,j,k,则三元组的编码特征d为三元组在描述对应位置的特征编码的平均3.根据权利要求2所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特元组集合Rabs={ri,r₂,r3,…rk₁},则该类抽象关系4.根据权利要求3所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特3-1使用在VisualGenome数据集上预先训练的FasterRCNN对图像进行目标检测,FasterRCNN能够获得目标类别W以及相应目标在图像中的区域以及特征;针对图像I,取FasterRCNN最终输出并得到的目标类别集合W={w₁,W₂,…,w},w∈R以合V={v₁,V₂,…,v},v∈R°,如3-2根据目标类别集合W,按照公式(2)计算文本相似度,在外部关系库中查询与目标类相似关系即三元组集合Rsim={r1,r1,r1,…rK₂},则该类相似关系Rs的特征编码如公45.根据权利要求4所述的一种基于外部三元组和抽象关系的图像描述生成方法,其特征在于步骤(5)所述,具体实现过程如下:5-1将归纳偏置融入到图像描述生成模型中,模型融合场景图编码特征与关系的编码特征,得到最终的融合特征V^,如公式(10)所示;其中,D是相似关系编码特征Dsm与抽象关系编码特征Dabs的拼接,V是场景图编码特征Vrxy,Vax,V₀的拼接;5-2在MSCOCO数据集上进行端到端的训练,epoch设置为20,学习率为0.00001,batchsize为16,使用Adam优化器渐进式的调整学习率;在推理过程中使用波束搜索,波束大小为5;利用标准的交叉熵损失来训练模型,公式(11)所示;其中,T为输入序列的长度,y,为输入第t个特征后生成的单词,y1为真实描述的第1至t5-3将测试图像输入到模型中,获得图像描述。5技术领域[0001]本文发明涉及图像描述生成方法,具体来讲是一种基于外部三元组和抽象关系的图像描述生成方法,属于图像描述生成领域。背景技术[0002]图像描述生成是计算机视觉和自然语言处理相结合的综合性任务,具有极大的挑战性。受到自然语言处理领域编码解码器、注意力机制与基于强化学习的训练目标启发,现代图像描述生成模型取得了惊人的进展,研究者对图像描述生成领域的关注也日益增长。在一些评价指标上甚至超过了人类。[0003]图像描述生成方法的技术不断发展,但是存在一个从未解决但是不容忽视的问题,就是现有模型仅是对图像中显著目标的简单描述,生成的效果甚至不如对图像进行一系列的目标检测。在上下文推理的过程中,人会利用之前学习到的知识,帮助我们更好完成地完成推理。此外,有研究表明,基于视觉的语言生成并非是端到端的,而是与高层抽象符号有关。如果把视觉场景抽象成符号,生成过程就会变得清晰。受此启发,本文从图像描述中提取三元组,构建外部关系库,根据图像的目标类别查询相似关系,为模型提供先验知发明内容[0004]本发明的目的是针对现有技术的不足,提供一种基于外部三元组和抽象关系的图像描述生成方法,以解决传统的图像描述生成方法无法生成的描述过于简单的问题,并且在原有基础上提高预测准确性。[0005]本发明有益效果如下:[0006]本发明从图像描述中提取三元组,构建外部关系库,将与图像相关的相似关系融入模型中,使模型生成描述的表述更加丰富。[0007]本发明根据文本相似度将三元组聚类,生成抽象关系并融入模型中,使得模型生成的描述更加准确。附图说明[0008]图1是本发明的整体实施方案流程图[0009]图2是本发明的构建外部三元组与抽象关系示意图[0010]图3是本发明的场景图生成示意图[0011]图4是本发明的图像描述生成示意图[0012]图5是本发明的整体结构示意图具体实施方式[0013]下面结合附图对本发明作进一步描述。6[0014]参照图1和5所示是本发明的整体实施方案流程图。[0015]为了解决这些问题,本发明在构建了外部关系库,根据图像目标类别从库中查询相似关系与抽象关系,与场景图特征相融合。具体来说,首先使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系库,并对三元组进行特征编码。根据三元组中关系的文本相似度,将相似度高的三元组聚类为一类,称之为抽象关系。同时,模型对图像进行目标检测,得到目标视觉特征与语义标签。模型根据文本相似度,在外部关系库中查询主系分别进行预测,生成场景图,并利用多模态图卷积神经网络融合视觉特征与文本特征,对[0016]参照图1和5所示,一种基于外部三元组和抽象关系的图像描述生成方法,包括以下步骤:[0017]一种基于外部三元组和抽象关系的图像描述生成方法,包括以下步骤:[0018]步骤(1)使用开放域知识抽取工具,提取图像描述文本中的三元组,构建外部关系[0019]步骤(2)根据三元组中关系rel的文本相似度,将文本相似度高于设定阈值的三元[0020]步骤(3)对图像进行目标检测,得到目标视觉特征集合V与目标类别集合W;根据文本相似度,在外部关系库中查询主语或宾语(即目标obj)与目标类别相似的三元组,称之为[0021]步骤(4)利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预[0022]步骤(5)图像描述生成模型用于融合场景图编码特征与关系编码特征,得到融合特征;所述的关系编码特征包括相似关系的编码特征和抽象关系的编码特征;融合特征输入到图像描述生成模型的双层LSTM解码器中进行训练,挑选最优训练模型;将图像输入训练好的图像描述生成模型,输出对应的图像描述。[0023]进一步的,如图2所示,步骤(1)所述具体实[0024]1-1使用MSCOC0与VisualGenome数据集中的图像文本描述,利用开工具OpenIE,提取图像文本描述中的三元组R={subject,predicate,object},构建外部关系库;[0025]1-2使用预训练语言模型BERT对图像文本描述进行编码,得到所有图像文本描述中每个单词的特征编码;设图像文本描述由K个单词构成,则该段图像文本描述的特征向量为{e₀,e₁,e₂,…,ek,.…,eg},其中e表示第k个单词的特征编码,为768维特征向量;[0026]1-3由于提取的三元组是在图像文本描述中出现过的单词,假设三个单词在图像文本描述中的位置为i,j,k,则三元组的编码特征d为三元组在描述对应位置的特征编码的7[0029]2-1计算文本相似度,使用余弦相似度作为计算函数,假设两个三元组的编码特征分别为di,,dj,则两个三元组的相似度如公式(2)所示;[0032]2-2使用无监督文本聚类算法,将文本相似度大于设定阈值的三元组聚为一类,称之为抽象关系Rabs;[0033]2-3对抽象关系Ras进行特征表示,假设抽象关系Rabs存在K₁个三元组,则抽象关系即三元组集合Rabs={r1,r₂,r3,…rk₁},则该类抽象关系Rab的特征编码如公式(3)所[0037]3-1使用在VisualGenome数据集上预先训练的FasterRCNN对图像进行目标检测,FasterRCNN能够获得目标类别W以及相应目标在图像中的区域以及特征;针对图像I,取FasterRCNN最终输出并得到的目标类别集合W={w₁,W₂,…,w},w∈R‘以及目标视觉特征集合V={v₁,V₂,…,v},v∈R⁴,如公式(4)所示;[0038]W,V=Faster[0039]3-2根据目标类别集合W,按照公式(2)计算文本相似度,在外部关系库中查询与目标类别相似的三元组,称之为相似关系Rs;m;[0040]3-3与抽象关系类似,对相似关系R;m进行特征表示,假设相似关系存在K₂个三元组,则相似关系即三元组集合,则该类相似关系Rim的特征编码如公式(5)所示;[0044]4-1利用目标视觉特征V,对图像的目标obj、属性attr、关系rel分别进行预测,生器进行属性预测;对于关系,利用MOTIFS场景图生成模型进行关系检测;最终分别得到目标[0045]4-2为了获得更好的节点特征,融合对应类别词向量与视觉特征,通过公式(6)得[0047]4-3将融合后的融合节点特征u。,ua,u_输入到多模态图卷积神经网络MGCN中进行80,为其中的主语目标;obj(o)为第x个目标节点的宾语节点集合,o为其中的宾语目标;[0053]5-1将归纳偏置融入到图像描述生成模型中,模型融合场景图编码特征与关系的[0056]5-2在MSCOCO数据集上进行端到端的训练,epoch设置为20,学习率为0.00001,[0060]基于本专利发明的图像描述生成方法与现有的基准模型和基于先验知识的图像模型MRCS本专利9价指标上均与其他模型有较高的提升,说明基于外部三元组和抽象关系的图像描述生成方法在提高图像描述生成上发明有效。开始开始提取三元组构建外部关系库聚类抽象关系将图像输入Faster-RCNN进行目标检测查询相似关系三元组特征编码融合特征编码输入序列
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年吉林外国语大学马克思主义基本原理概论期末考试笔试真题汇编
- 2025年白城医学高等专科学校马克思主义基本原理概论期末考试笔试题库
- 2025年河北大学工商学院马克思主义基本原理概论期末考试笔试题库
- 2025年三峡电力职业学院马克思主义基本原理概论期末考试参考题库
- 江西赣州某小区6#住宅楼工程施工组织设计
- 节能技术改造服务协议
- 养老机构运营管理合同
- 应急演练安全培训课件
- 2026年企业文化传承服务合同
- 养老院健康检查与疾病预防制度
- 北京市2022-2023学年四年级上学期语文期末试卷(含答案)
- 老年人肌肉健康小知识讲座
- 2024年度医院放疗科述职报告课件
- 胃脘痛的中医护理查房课件
- 林业地类代码表
- 美容院经营管理策略学习手册
- 辅导员工作谈心谈话分析-辅导员谈心谈话案例
- 混凝土回弹数据自动计算表格
- 中国特色革命道路的探索复习课
- 技术调研报告模板
- 行业标准海绵铜
评论
0/150
提交评论