版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
法一方面能够更准确有效地提取输入图像中包2根据预设规则对所述第一图像特征中的像素进行处理通过编码网络模型对所述图像区域中的对象进行特征提通过反射解码网络模型基于所述第二图像特征和起始词所述通过反射解码网络模型基于所述第二图像特征和起将所述第二图像特征和第M反射解码子网络输出的词向量输入至第M+1反射解码子网通过所述第M+1反射解码子网络对所述第一图像特征中的目标区域特征进行解码,以将所述第二图像特征和所述起始词向量输入至第一反射解码子网络基于所述第二图像特征和所述起始词向量对所述第一图像特征中的目标区3将前一时刻所述反射解码子网络输出的词向通过所述第一长短期记忆网络对所述第二图像特征和所述目标词向量进行特征提取,将所述第一输出信息和所述第一图像特征输入至所述注意力机制网络进行视觉匹配,通过所述第二长短期记忆网络对所述第一输出信息和所述目标区域特征进行特征提通过所述反射式注意模块根据过去时刻的所述第二输出信息和当前时刻的所述第一块根据过去时刻的所述第二输出信息和当前时刻的所述第一输出信息及所述第二输出信根据所有所述过去时刻的第二输出信息和所述当前时刻的第二输出信息确定目标矩对所述目标矩阵进行降维处理,以获取第一特征信息基于注意力机制将所述第一特征信息和所述第二特征信息相加,以获取第三特征信将所述第三输出信息与第三权重矩阵相乘,以获取与所述目标区域特征对应的词向根据所述图像样本和所述文本描述样本对待训练反射式知损失函数为当前时刻所述待训练反射式解码网络输出的词向量在文本描述样本中的真4根据预设压缩函数对所述全连接信息进行压缩,以获根据所述预测位置和与所述反射式注意模块输出特征所对应的词向量在所述文本描特征提取模块,用于获取输入图像,对所述输入图像特征转换模块,用于根据预设规则对所述第一图存储装置,用于存储一个或多个程序,当所述一器执行时,使得所述一个或多个处理器实现如权利要求1至13中任一项所述的图像描述生5像编码用一个固定向量表达,然后直接使用循环神经网络将其解码成一个描述内容的句[0006]本公开的实施例提供了一种图像描述生成方法、图像描述生进而至少在一定程度上可以准确有效地提取图像中包含的自然语言信息,并生成更为准6所述第一图像特征中的目标区域特征进行解码,以获取与所述目标区域特征对应的词向所述第一输出信息及所述第二输出信息确定当前时刻与目标区域特征对应的第三输出信7为当前时刻所述待训练反射式解码网络输出的词向量在文本描述样本中的真实位置和预8[0032]图6示意性示出了根据本公开的一个实施例的视觉注意力模块的处理流程示意[0034]图8示意性示出了根据本公开的一个实施例的反射式注意模块的处理流程示意[0036]图10示意性示出了根据本公开的一个实施例的反射位置模块确定位置感知损失[0038]图12示出了适于用来实现本公开实施例的图像处理装置的计算机系统的结构示本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,[0041]附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相9关技术中图像描述生成方法的流程示意图,如图2所示,将图像201输入至编码网络模型和局部特征信息输入至注意力机制网络层,通过注意力机制网络层可以输出一混合特征;然后通过第二层LSTM对该混合特征和第一隐藏状态共同进行处理,以输出第二隐藏状态;[0052]计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”[0057]图3示意性示出了根据本公开的一个实施例的图像描述生成方法的流程图,该图特征输入至反射解码网络模型中,同时还可以将起始词向量输入至该反射解码网络模型一反射解码子网络基于第二图像特征和起始词向量对第一图像特征中的目标区域特征进二图像特征和第M反射解码子网络输出的词向量输入至第M+1反射解码子网络,通过第M+1块、反射式注意模块RAM(ReflectiveAttentionModule)和反射式位置模块RPM一长短期记忆网络(LSTM-1)501、第二长短期记忆网络(LSTM-2)502和注意力机制网络(Attvis)503,其中第一长短期记忆网络501用于根据第二图像特[0069]在步骤S601中,将前一时刻反射解码子网络输出的词向量与第LSTM-1而言,根据第一图像特征确定的第二图像特征r和前一时刻反射解码子网络输出的词向量为LSTM-1的输入特征,为了保证输入的词向量的维度与LSTM-1处理的数据维度相过FasterR-CNN等卷积神经网络对输入图像进行特征提取,以获得第一图像特征{ri}(i=同时输入至注意力机制网络,通过注意力机制网络Attvis对第一输出信息和第一图像特征例中的LSTM,并且进一步地,可以采用不同类型的循环神经网络替换本公开实施例中的式注意模块利用文本注意力机制对当前时刻的隐藏状态和过去时刻的隐藏状态进行匹配。前时刻的第一输出信息及第二输出信息确定当前时刻与目标区域特征对应的第三输出信左上角的柱体代表第二输出信息,根据过去时刻的第二输出信息和当前时刻的第二输出信息可以组成具有相应维度的目标矩阵,例如可以是1000×1的目标[0088]在本公开的一个实施例中,获取包含与所有第二输出信息对应的第二权重矩阵当前时刻待训练反射式解码网络模型输出的词向量在文本描述样本中的真实位置和预测[0096]由于文本描述S中的任何一个词向量依赖与其相邻的前一词向量,因此可以应用的相对位置I;:最后根据预测位置和与第三输出信息对应的词向量在文本描述样本中的真幼儿观看某一页的图画时,该页的图画会被输入至图像处理单元以获取对应的文本描述。[0108]本公开中的图像描述生成方法通过反射解码网络模型对编码网络模型编码的第[0109]值得说明的是,虽然本公开实施例中主要针对长短期时序模经网络和生成对抗网络技术也可以采用本公开中的反射式注意力模块和反射位置模块进一图像特征中的像素进行处理,并根据处理后的像素确定第二图像特征;描述生成模块短期记忆网络对所述第二图像特征和所述目标词向量进行特征提取,以获取第一输出信息;将所述第一输出信息和所述第一图像特征输入至所述注意力机制网络进行视觉匹配,用于通过所述反射式注意模块根据过去时刻的所述第二输出信息和当前时刻的所述第一待训练反射式解码网络输出的词向量在文本描述样本中的真实位置和预测位置之间的距所述预测位置信息和与所述反射式注意模块输出的特征所对应的词向量在所述文本描述[0129]如图12所示,计算机系统1200包括中央处理单元(CentralProcessingUnit,储部分1208加载到随机访问存储器(RandomAccessMemory,RAM)1203中的程序而执行各器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(LocalArea因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质从其上读出的计算机程序根据需要被安装入存储部分1208。或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以块或者单元的特征和功能可以进一步划分为由多个者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 通信协议原理与实践指南
- 2025年事业单位招聘考试综合类专业技能测试试卷(林业工程方向)
- 2025年世界结核病日结核病知识测试题含参考答案
- 2025年事业单位教师招聘考试语文试卷(作文)
- 【8道期中】安徽省蚌埠市蚌山区2025-2026学年八年级下学期4月期中道德与法治试卷(含解析)
- 2025年初中数学函数图像解题步骤归纳总结
- 2026年人工智能客服系统部署合同协议
- 2026农副产品冷链物流市场挑战分析及服务创新规划分析研究报告
- 2025新创新知识继续教育必修课题库及答案
- 2026农业生物农药研发技术生物总量测定环境风险评估研究
- 2026AHA-ASA急性缺血性卒中早期管理指南解读课件
- 2026年北京市高校毕业生到农村从事支农工作招聘467人农业笔试参考题库及答案解析
- 放射科床旁照相工作制度
- 辽水集团笔试试题题库
- 鱼塘平地改造方案范本
- 2026新疆文旅投集团所属产业公司选聘50人笔试模拟试题及答案解析
- 2025-2026学年安徽省马鞍山市高三第一次教学质量监测物理试卷(含解析)
- 工程伦理道德案例分析
- 辽宁省抚顺市(2025年)招聘警务辅助人员考试真题及答案
- 2026年网络安全攻防电子数据取证关键技术题库
- 《中药提取物质量控制研究技术指导原则(征求意见稿)》
评论
0/150
提交评论