视频多模态融合

上传人：b*** IP属地：天津上传时间：2022-08-11 格式：DOCX 页数：5 大小：46.14KB 积分：15 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、帧(Farme):帧是视频数据流中的基本组成单元每一帧均可看成一个独立的图像。视频数据流就是由这些连续的图像帧构成的在PAL视频格式中，视频采样率为25帧/秒,在NTSC视频格式中,视频采样率为30帧/秒。镜头(Shot):镜头是摄像机拍下的不间断的帧序列,是视频数据流进一步结构化的基础结构层。关键帧(KeyFarme):关键帧是可以用来代表镜头内容的图像。在切分出镜头结构以后，关键帧就被用来表示各个镜头的底层特征，从而进行进一步的视频结构化。在一个视频镜头中，一般关键帧的数目要远远小于镜头所包含的图像帧数目。场景(Secne):语义上相关和时间上相邻的若干组镜头组成了一个场景，场景是视频所蕴

2、涵的高层抽象概念和语义表达。组(Gmup :组是介于视频镜头和语义场景之间的结构。例如:一段采访录像，镜头在主持人与被采访者之间频繁切换，整个采访过程属于一个场景,而那些关于主持人的所有镜头属于一组,关于被采访者的所有镜头属于另外一组。连续视频数据流(图像帧)镜头边缘检测视频镜头视频帧图2.1视频数据结构化流程视频镜头边缘检测视频可以看作是一系列时间上相互依赖的图像帧组成的数据流。通常而言，在视频情节内容发生变化时，会出现镜头切换，从一个镜头内容转移到另外一个镜头内容。视频蕴涵有丰富的视觉、听觉和字幕信息，所以这些底层特征可以是颜色、纹理、形状、音调和文本等，然后可以采用单模态分析方法

3、,即只使用一种模态信息进行处理,或是采用多模态分析方法，即同时使用两种或是两种以上的模态信息进行处理。基于这些提取的底层特征我们可以将视频片段索引到相关的语义概念上例如，汽车、冰球、海滩、采访等场景。目前多数实验结果表明，多模态视频融合分析能够产生有效的视频索引，方便视频片段的分类。鲁棒是Robust的音译，也就是健壮和强壮的意思。它是在异常和危险情况下系统生存的关键。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，是指控制系统在一定(结构，大小)的参数摄动下，维持其它某些性能的特性视频数据融合分析实时地通过语

4、义访问多模态视频数据库有着广泛的应用前景这就需要人们关注视频片段的自动索引。视频数据分析方法是按照如下步骤进行的:首先，从原始的视频数据流中提取一系列底层特征因为视频蕴涵有丰富的视觉、听觉和字幕信息, 所以这些底层特征可以是颜色、纹理、形状、音调和文本等，然后可以采用单模态分析方法, 即只使用一种模态信息进行处理或是采用多模态分析方法，即同时使用两种或是两种以上的模态信息进行处理。基于这些提取的底层特征我们可以将视频片段索引到相关的语义概念上，例如，汽车、冰球、海滩、采访等场景。目前多数实验结果表明，多模态视频融合分析能够产生有效的视频索引,方便视频片段的分类。一种简单的多模态融合分析方

5、法是，分别对单个模态的数据进行处理分析，然后综合得到的分析结果。方法已经产生了良好的实验结果，但是这些方法缺少扩展性和鲁棒性,而且在理论上也存在着两个基本的问题:一是哪些模态信息对于视频融合分析最为有益?二是如何选择性地融合这些最优的模态信息？为了解决这两个问题，文献【23中，作者使用pAC)和独立成分分析(Independentoc哪onent劫 alysis,I以)方法，完成对视频的融合分析。他们提供了一个独立模态信息的分析方法，从原始的底层特征中提取了最优的模态信息。一旦独立的模态信息被定义以后，研究的第二步就是如何选择一种最优的方法来融合这些模态信息，以方便视频数据的后期处理，

6、例如，视频镜头的分类。假设我们得到的是真正的独立模态特征，并且每个模态特征都能为类别的预测提供准确的后验概率，那么我们只要简单地使用产品合成规则(Prdouct 一 CombinatinoRule)就可以计算特征信息与预测类别之间的相关概率。但是上述两个条件在大多数视频数据的分析任务中并不存在，所以，采用产品合成规则并不合适。另外一个比较通用的融合方法是使用权重加和规则Weihgtde 一 SumRul。)，这种方法将各种模态特征线性地融合在一起。权重加和规则的优点在于简单，但它线性的约束条件不允许这种方法在高维复杂的模态信息中被使用,因此它不能在PCA和ICA提取的模态特征中挖掘相

7、互依赖的信息。23中者最后使用超核融合(sPuer KemelFusoin)算法将那些独立的模态特征非线性地融合在一起，其中线性融合将作为上述方法中的一种特殊情况。这虽然PCA和ICA两种方法并不能保证在高维的模态信息中发现真正独立的模态特征。所以，本文将采用支持向量聚类(uspportveoctrClusertnig,sVO的方法来完成独立模态特征的选取，并通过基于统计的最大信息嫡(MxanilumEnir叩y,ME)方法来最优化地融合所提取的模态信息。我们使用isoMAP和支持向量机聚类(SVC)相结合的方法对原始的多模态特征进行分析，发现其中的独立模态特征。然后使用最大嫡(Mx

8、amiumEniorpy)模型对这些独立模态特征进行最优化融合。第三章视频的多模态融合分析利用视频的多模态特征，获取数据流中的语义信息已经成为研究热点。由于视频蕴涵有多种内容丰富的模态信息，融合分析视频中的多模态特征将有助于我们对视频的语义理解。传统的视频多模态融合分析大多是基于先验知识的它们缺乏足够的理论来解决两个基本的问题一是哪些模态信息对于视频融合分析最为有益？二是如何选择性地融合这些最优的模态信息？我们使用isoMAP和支持向量机聚类（SVC）相结合的方法对原始的多模态特征进行分析，发现其中的独立模态特征。多模态特视频可以从视觉、听觉和文本等通道中提取多模态特征。视频的视觉特征包

9、括图像的颜色特征、纹理特征、镜头运动和人脸特征等,听觉特征包括有音调特征、重要停顿等,文本特征则包括有转录文本、视频字幕等。多模态的识别而是使用基于ISOMAP非线性降维和支持向量机聚类SVC来对原始特征进行降维和独立模态数目D的发现。独立模态发现该算法用于将m维多模态特征转换成K个独立的模态。假设我们在空间X中给定一组m维的点集（每个数据点表示一个训练样本），那么，独立模态发现算法就是把空间X分割成K个子空间，每个子空间可以看作一个独立的模态。从视频数据中提取的多模态原始特征可以看作是在高维空间X中一些数据点。由于原始多模态特征的维数很大，我们必须采用一个有效的维数约减算法来避免

10、维数灾难问题。 SIOMoP可以对高维数据进行非线性降维，同时还保留了经典的维数约减算法中的主要优点。 SIOMAP保证覆盖了高维原始特征空间中的所有真实维数和JL何结构，因此,SIOMAP更加适合对高维视频多模态原始特征进行维数约减。通过sIOMAP对高维原始特征空间X进行维数约减得到新的特征空间y,但是空间y 的维数仍然较高，所以，我们还可以通过支持向量机聚类算法（SVC）对空间Y进行分割，得到K个维数更小的相对独立的空间。然后（其中包含有审计融合，加权融合）使用最大嫡MxamiumEniorpy）模型对这些独立模态特征进行最优化融合。多模态的融合得到了 D个不同的模态，并且己经为每

11、一个模态训练了一个单独的分类器那么现在的任务就是选择一种合适的方法对这D个分类器的结果进行融合。基于最大嫡的多模态分析出了一种基于最大嫡模型对视频进行多模态融合分析的算法。该算法针对不同的模态,用最大嫡原理发掘不同模态之间的相关性，并对此进行最优化融合。视频多模态原始特征独立模态模态1 2。K多模态融合多模态融合分类器实验分析原始的多模态特征集小于isomap略小于采用独立模态特征集小于当ISomap在采用向量聚类首先，针对视频的多模态特征，本文提出了一种新的视频多模态融合分析机制，用于完成对视频镜头的检测和分类，主要包含以下几个新特点：提出了一种全新的独立模态发现算法。用流型算法(SIOMAP)对从视频镜头中提取的多模态高维特征向量进行非线性降维，然后使用支持向量机(S叩portVe以。Clusertnig,SVC)对降维后的特征向量进行聚类，发现有效的独立模态。.提出了一种基于最大嫡模型对视频进行多模态融合分析的算法。该算法针对不同的模态，用最大嫡原理发掘不同模态之间的相关性，并对此进行最优化融合。在第四章中，我们提出了一种基于转录文本的视频语义自动标注算法。人们通常使用手工方式对视频数据进行文本标注，以支持基于语义的视频管理与检索。随着视频数据库的不断增大，手工

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

视频多模态融合

文档简介

温馨提示

最新文档

评论

视频多模态融合

文档简介

温馨提示

最新文档

评论

相关文档