多模态数据融合与检索技术-多模态学习_第1页
多模态数据融合与检索技术-多模态学习_第2页
多模态数据融合与检索技术-多模态学习_第3页
多模态数据融合与检索技术-多模态学习_第4页
多模态数据融合与检索技术-多模态学习_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多模态学习2.3多模态数据融合与检索技术2.2多模态学习2.1多模态数据概述主要内容2.1.2异源多模态数据2.1.1异构多模态数据2.1多模态数据概述2.1.1异构多模态数据异构多模态数据:由不同的媒介产生的模态数据,包括文字、图像、照片、声音、动画和影片。文本图像动画声音视频2.1.2异源多模态数据2.1.1异构多模态数据2.1多模态数据概述2.1.2异源多模态数据异源多模态数据:来自不同传感器的同一类媒介产生的数据。红外图像合成孔径雷达(SAR)图像超声诊断图像(B超)计算机断层扫描图像(CT)2.3多模态数据融合与检索技术2.2多模态学习2.1多模态数据概述主要内容2.2多模态学习2.2.3多模态学习实际应用2.2.2多模态学习研究进展2.2.1多模态学习分类概述2.2.4多模态学习研究展望2.2.1多模态学习分类概述多模态学习:多模态数据的挖掘分析过程可被理解为“多模态学习”,目的是建立一个能处理和关联多种模态信息的模型,有效的“多模态学习”可获得更丰富的语义信息,进而提升待表示事物的整体性能。基于模型的多模态学习:表示学习与协同学习基于任务的多模态学习:转化任务,融合任务,检索任务。传统多模态学习前沿多模态学习1970-20102.2.1多模态学习分类概述多模态表示学习(MultimodalRepresentation):通过利用多模态之间的互补性和关联性,剔除模态间的冗余性,从而为每个模态提取最具有判别性的特征表示,以帮助它们学习到更好的特征表示,并最终表示和汇总成多模式数据。包括两大研究方向:联合表示学习与协同表示学习。2.2.1多模态学习分类概述联合表示学习(JointRepresentations):将多个单模态投影到一个共享的子空间。以便能够融合多个模态的特征,形成一个多模态向量空间。2.2.1多模态学习分类概述协同表示学习(CoordinatedRepresentations):多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束,例如线性相关。2.2.1多模态学习分类概述多模态协同学习(MultimodalCo-learning):使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。迁移学习(TransferLearning):从相关领域中迁移标注数据或者知识结构来完成或改进目标领域的学习效果。2.2.1多模态学习分类概述多模态协同学习(MultimodalCo-learning):使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。邻域适应性(DomainAdaptation):解决将训练域上学习到的模型应用到目标域中,利用信息丰富的源域样本来提升目标域模型的性能。2.2.1多模态学习分类概述多模态转化(MultimodalTranslation):也称为映射,是将一个模态的数据信息转换为另一个模态的数据信息。2.2.1多模态学习分类概述多模态融合(MultimodalFusion):通过联合多个模态的信息,进行目标预测(分类或者回归)任务,常见的应用包括视频与音频识别、手机身份认证、多模态情感分析等。视频与音频识别:分别提取音频以及视频的特征信息,再将有用的信息综合起来作为某一个实例的融合特征,从而进行识别工作。2.2.1多模态学习分类概述多模态融合(MultimodalFusion):通过联合多个模态的信息,进行目标预测(分类或者回归)任务,常见的应用包括视频与音频识别、手机身份认证、多模态情感分析等。手机身份认证:利用手机的多传感器信息,提取融合之后用于认证手机使用者是否是注册用户。2.2.1多模态学习分类概述多模态融合(MultimodalFusion):通过联合多个模态的信息,进行目标预测(分类或者回归)任务,常见的应用包括视频与音频识别、手机身份认证、多模态情感分析等。多模态情感分析:利用多个模态的数据,得到更加准确的情感类型判断结果。2.2.1多模态学习分类概述多模态检索(MultimodalRetrieval):对来自同一个实例的不同模态信息的子分支或元素寻找对应关系,多模态检索可分为时间维度、空间维度。时间维度空间维度2.2多模态学习2.2.3多模态学习实际应用2.2.2多模态学习研究进展2.2.1多模态学习分类概述2.2.4多模态学习研究展望2.2.2多模态学习研究进展多模态学习可应用于语音识别和生成、图像识别、事件监测、情感分析和跨媒体检索等方面,赋予机器理解和融合图像、语音、文字、视频等模态所包含信息的能力。主要包含三种应用领域:视听语音识别多媒体内容索引和检索多模态交互多模态学习表示学习协同学习转换融合检索视听语音识别√√

√√多模态检索√√√

√情感与影响

2.2多模态学习2.2.3多模态学习实际应用2.2.2多模态学习研究进展2.2.1多模态学习分类概述2.2.4多模态学习研究展望2.2.3多模态学习实际应用AlphaGO:世界围棋第一人柯洁九段在和AlphaGo的围棋终极人机大战以0:3完败,成为人类顶尖高手与这台机器之间的最后一次较量。2.2.3多模态学习实际应用DeepLTranslator:在AI的辅助下,通过神经网络的学习,提供更好的翻译结果,使不同文化更加贴近。它支持文档翻译和多种手写语言的翻译,实现了文本、视觉等模态信息的交流互通。2.2.3多模态学习实际应用自动驾驶汽车:通过多模态融合的方式更加准确引导车辆驾驶,包括超声波雷达、毫米波雷达、激光雷达以及摄像头多种信息感知设备。2.2.3多模态学习实际应用Facebook:运用机器学习让网络社交变得更加有趣、方便,提升了用户的体验度。包括风格迁移、文字翻译、图像-文字描述、人脸识别、自动监测、搜索推荐。2.2.3多模态学习实际应用淘宝:网络模型基于全球规模最大的商品认知图谱以及全球首个每日万亿量级的云端协同图神经网络,支持4亿商品对应的图像和视频检索,可利用自然语言学习、实时机器翻译、语义识别等技术辅助店小蜜、实时翻译、商品评价分析等关键链路。2.2.3多模态学习实际应用语音助手(Siri、Cortana):听懂用户需求并做出对应的操作,省去手动操作的困扰。智能音箱(小度、小爱同学):与智能家居相联系,实现语音控制操作的功能,在很大程度上改善了人们生活习惯。图像识别与标准(腾讯):减少了人工消耗,提高了识别进度与正确率。商品推荐系统(阿里巴巴):便捷了用户对于同一类商品的需求搜索,实时更新的商品推荐也为用户提供了更为新颖的购物体验。自动驾驶汽车(特斯拉):通过输入视觉信息、雷达信息、位置信息、语音信息、自然语言信息等,自动识别行人,障碍物,综合信息后决定汽车的行驶方向与速度。2.2多模态学习2.2.3多模态学习实际应用2.2.2多模态学习研究进展2.2.1多模态学习分类概述2.2.4多模态学习研究展望2.2.4多模态学习研究展望多模态表示学习:主流方法局限于静态条件下,如何进行动态学习是之后研究的主要方向。多模态协同学习:如何挖掘得到尽可能多的模态间的不同信息来促进模型的学习是一个很有价值的研究方向。多模态转化任务:如何找到合适的主观评价指标来适用于不同类型的转化任务是未来的主要研究方向。多模态融合任务:由于每一种模态有可能会受到不同类型和不同程度的噪声影响,如何解决多模态融合过程中的噪声干扰是未来的主要研究方向。多模态检索任务:解决针对不同模态数据设计相似度度量指标的问题;解决检索精度受噪声影响大,元素匹配错位时模型性能下降严重的问题;解决由于媒介或成像机理不同,导致检索过程会出现一对多的关系的问题。2.3多模态数据融合与检索技术2.2多模态学习2.1多模态数据概述主要内容2.3多模态数据融合与检索技术2.3.2多模态数据检索2.3.1多模态数据融合2.3.1多模态数据融合多模态数据融合:早期融合(EarlyFusion):先从每种模态中分别提取特征,这些特征很大程度上直接代表模态,然后在特征级别进行不同方法的融合,即特征融合。2.3.1多模态数据融合多模态数据融合:后期融合(LateFusion):不在原始的数据维度上进行融合处理,而是对每种模态的数据分别用不同的算法模型进行训练学习,将得到的不同结果以某种决策方式进行融合以得到最终的决策结果。2.3.1多模态数据融合多模态数据融合:中期融合(IntermediateFusion):针对不同模态数据的特点选择不同的神经网络架构。图像采用卷积神经网络(CNN);文本音频等序列化数据采用循环神经网络(RNN);或选择多个全连接层完成特征提取。然后通过共享表示层对不同的特征表示进行融合。2.3.1多模态数据融合多模态数据融合传统方法:基于规则的融合方法:在时间对齐程度较高的多模态数据上能取得较好的效果,常见的方法是线性加权融合法。基于分类的融合方法:将多模态观测的结果分类到预定义的类别中。分类的方法包括有支持向量机、贝叶斯推理、D-S理论、动态贝叶斯网络和最大熵模型等。基于估计的融合方法:包括卡尔曼滤波、扩展卡尔曼滤波和粒子滤波融合方法。这些方法能够根据多模态数据来更好地估计运动目标的状态。2.3.1多模态数据融合多模态数据融合前沿方法:基于池化的融合方法:它通过计算视觉特征向量与文字特征向量两者的外积来创造联合表示空间,便于进行特征向量融合,以及多模态向量中所有元素之间的乘法交互。基于深度学习的融合方法:算法中所使用的的深度模型大致可以分为判别模型和生成模型,将注意力集中在特征图的特定区域或特征序列的特定时间步长上,可以提高整体性能与特征提取的可译性。基于图神经网络的融合方法:不仅适用于各个模态内的拓扑关系图建模,还适用于多个模态间的拓扑关系建模。它能够传递更多的多模态数据信息,增强模型的可译性与最终结果。2.3多模态数据融合与检索技术2.3.2多模态数据检索2.3.1多模态数据融合2.3.2多模态数据检索多模态数据检索:是以一种模态的数据作为请求,检索出最相关的另外一种模态形式的数据。策略一:学习一个多模态数据的共享层,基于共享层来建模各模态数据之间的关联。2.3.2多模态数据检索多模态数据检索:是以一种模态的数据作为请求,检索出最相关的另外一种模态形式的数据。策略二:将不同模态的数据经过抽象后都映射到一个公共的表示空间,在该表示空间中建立不同模态间的关联。2.3.2多模态数据检索多模态数据检索传统方法:基于典型相关分析法的检索方法:优化统计值来学习线性投影矩阵,主要用于数据分析和降维,能够进行多个空间的联合降维。基于偏最小二乘法的检索方法:通过潜在变量对多种模态之间的关系进行建模。相比于典型相关分析法,还具备了去噪音、突出主要潜变量等其他优点,有利于优化基于相关性的跨模态信息检索的结果。基于双线性模型法的检索方法:使用双线性模型来学习近似解,不明确地描述问题的内在几何或物理现象,具有广泛的适用性。基于传统哈希的检索方法:解决了需要在大量的高维数据中检索出最相似数据的情况,而检索过程需要采用索引技术,其中哈希法是最为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论