多模态深度学习_第1页
多模态深度学习_第2页
多模态深度学习_第3页
多模态深度学习_第4页
多模态深度学习_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多模态深度学习作者:日期:

MultimodalDeepLearning(多模态深度学习)未完待续原创2016年06月22日08:53:40摘要:本文提出一种在深度网络上的新应用,用深度网络学习多模态。特别的是,我们证明了跨模态特征学习——如果在特征学习过程中多模态出现工对于一个模态而言,更好的特征可以被学习(多模态上学习,单模态上测试)。此外,我们展示了如何在多模态间学习一个共享的特征,并在一个特别的任务上评估它一类器用只有音频的数据训练但是在只有视频的数据上测试(反之亦然)。我们的模型在CUAVE和AVLetters数据集上进行视-听语音分类,证明了它在视觉语音分类(在AVLetters数据集上)和有效的共享特征学习上是已发表中论文中最佳的。1.介绍在语音识别中,人类通过合并语音-视觉信息来理解语音。视觉模态提供了发音地方和肌肉运动的信息,这些可以帮助消除相似语音(如不发音的辅音)的歧义。多模态学习包括来自多源的相关信息。语音和视觉数据在语音识别时在某个"中间层”是相关的例如音位和视位;未加工的像素是很难与语音波形或声谱图产生相关性的。在本文中,我们对"中间层”的关系感兴趣,因此我们选择使用语音-视觉分类来验证我们的模型。特别的是,我们关注用于语音识别的学习特征这个学习特征是和视觉中的唇形联系在一起的。

全部任务可分为三部分-特征学习、有监督训练和测试。用一个简单的线性分类器进行有监督训练和测试,以检查使用多模态数据的不同的特征学习模型(eg:多模态融合、跨模态学习和共享特征学习...)的有效性。我们考虑三个学习布置——多模态融合、跨模态学习和共享特征学习。(如图1所示)多模态融合:数据来自所有模态,用于所有模态。跨模态学习:数据来自所有模态,但只在某模态可用。共享特征学习:训练和测试用的不同模态的数据。如果特征可以在跨不同模态下捕获相关性,这会允许我们进行评价。特别的是,学习这些布置可以使我们评估学到的特征是否具有模态不变性。FeatureLearningSupervisedTrainingTestingClassicDeepLearningAudioAudioAudioVideoVideoVideoMultimodalFusionA+VA+VA+VCrossModalityA+VVideoVideoLearningA+VAudioAudioSharedRepresentationA+VAudioVideoLearningA+VVideoAudioFigure1:MultimodalLearningsettingswhereA+VreferstoAudioandVideo.接下来,我们描述模型的构造块。然后,我们实现了不同的使用深度学习的多模态学习模型,这些模型可以实现不同的多模态任务。最后,我们展示实验结果和总结。2.背景

深度学习的当前工作已经测试了deepsigmoidalnetworks是如何被训练的,以产生有用的用于手写数字识别和文本的特征。当前工作的关键在于使用RBMs(RestrictedBoltzmannMachines)微调的进行贪心的逐层训练。我们使用一个扩展的稀疏RBMs,它学习到的特征对于数字和自然的图像来说是有意义的特征。2.1稀疏RBMs为了正则化模型使其稀疏,我们让每个隐藏层单元有一个使用了正则化惩罚的预先期望的激活函数,这个正则化惩罚的形式是Wj(p-E阳时]))2.,其中{V】,…}是训练集,Q决定了隐藏层单元激活函数的稀疏性(就是隐藏层单元激活函数是否被激活)。3.学习结构这部分描述我们的模型,用它来完成语音-视频二模态的特征学习任务。输入到模型里的语音和视频是连续的音频和视频图像。为了推出我们的深度自编码模型,我们先描述一些简单的模型以及他们的缺点。(下面的都是预训练模型)I.RBM模型。用其分别训练语音和视频,学习RBM之后,在v固定时得到的隐藏层值可以作为数据的一个新特征。我们将这个模型作为基准来比较我们的多模态模型的结果,也可以将其用来预训练我们的深度网络。HiddenUnitsHiddenHiddenUnitsOO…oS][oo…••rf■JI"OO二OO]loo-OOAudioInputVideoInput(a)AudioRBM(h)VideoRBMII.为了训练多模态模型,一个直接的方法是训练一个把语音和视频数据连接在一起的RBM。虽然这个模型联合了语音和视频数据的分布,但它仍是一个浅层模型。语音和视频数据之间的关联是高度非线性的,RBM很难学习这些相关性形成多模态特征。事实上,我们发现在隐藏层单元学习到的浅层的二模态RBM结果与单模态下的值有很强的关联,但与跨模态下的值就没有。ShaiedRepresentation.AudioInputVideoInput(c)ShallowBimodalRBMIII.因此,我们考虑在每个模态的预训练层贪婪的训练一个RBM,前面(,・"tShaiedRepresentation.AudioInputVideoInput(c)ShallowBimodalRBMDeepHiddenLay^t[oo…。。][c。…c。AudioInputVideoInput(d)BimodalDBN然而,上述的多模态模型还有两个问题。第一,没有明确的目标提供给模型去发现跨模态间的相关性;一些隐藏层单元只针对语音调整参数,另一些只针对视频调整参数,这样模型才有可能找到想要的特征。第二,在跨模态学习布置中只有一个模态用于监督训练和测试,这样的模型显得很笨拙。只有一个模态呈现,就要整合没有观察到的可见变量来推理。因此,我们提出解决以上问题的深度自编码模型。我们首先考虑跨模态学习布置:特征学习过程中两个模态都呈现了,但只有一个模态用于有监督训练和测试。当只给视频数据时,深度自编码模型用于训练重建语音和视频模态(图3a)。我们用二模态的DBN(Deepbeliefnetwork瓶重(图2d)去初始化深度自编码模型。中间层可以作为新特征表示来用。这个模型可以看做多任务学习的一个实例。

VideoHecflnstniciionAudiuRecmiijtructiuiiAudioInputVidtuInputVideoHecflnstniciionAudiuRecmiijtructiuiiAudioInputVidtuInput(b)BimodalDeepAutoencoderVideoInput(a)Video-OnlyDeepAutoeneoderAndioRecunfitiuctiunVideuKecunstnictionFigureitDeepAutoeneoderModels.A''video-only^modelisshownin(a)wherethemodellearnstoreconstnictbothmodalitiesgivenonlyvide。astheinput.Asimilarmodelcanbedrawnforthe"audio-only1'setting.Wetrainthe(b)bimodaldeepautoeneoderinadonoisingfashion,usinganaugmenteddarasetwithexamplesLliatrequirethenetworktoreconstructbothmodalitiesgivenonlyone.Bothmodelsarepre-trainedusingsparseRBUm(Figure2d).Sinceweuseasigmoidtransferfunctionmthedeepnetwork,wecaninitializethenetworkusingtheconditionalprobabilitydistributionsp(h|vjandpivluofthelearnedRBM,我们在布置中使用图3a模型。另一方面,当多模态适合任务时,并不清楚如何使用模型针对每个模态进行深度自编码训练。一个直接的方法是训练解码权重tied(这个我也不知道怎么理解)的网络。但是,这样的方法扩展性不是很一如果在测试时我们允许任意模态相结合形成特征,我们将需要训练指数级数量的模型。受到降噪自编码模型的启发,我们提出训练二模态深度自编码模型(3b),它使用了一个扩充(对单模态输入的扩充)但是有噪声的数据集。实际上,我们扩充时一个模态用全零作为输入,另一个模态用原始值作为输入,但是依旧要求模型重建这两个模态。因此,三分之一的训练数据只有视频作为输入,三分之一的训练数据只有语音作为输入,最后三分之一既有视频又有语音

M/由于使用了稀疏RBMs进行的初始化,我们发现就算深度自编码训练之后,隐藏层单元还是有低期望激活函数。因此,当一个输入模态全设为零,第一层特征也接近于零。所以,我们本质上训练了一个模态特别的深度自编码网络(3a)。当某个模态输入缺失时,这个模型仍是鲁棒的。M/4.实验和结果我们用分离字母和数字的语音-视频分类来评估我们的模型。稀疏参数广采用交叉核实来选择,即其它所有参数都保持固定包括隐藏层大小和权重调整)。4.1数据预处理我们用时间导数的谱来表现语音信号,采用PCA白化(就是归一化)将483维减少到100维。对于视频,我们预处理它以便于只提取嘴部的ROI(感兴趣区域)。每个嘴部ROI都缩放到60*80,进一步使用PCA白化减少到32维。我们用4帧连续视频作为输入,这近似于10帧连续的语音。对每个模态,我们都在时间上进行特征均值归一化,类似于去除直流分量。我们也注意到在特征里增加时间导数,这种用法在文献里有很多,它有助于模拟不断变化的语音信息。时间导数用归一化线性斜率计算,所以导数特征的动态范围可以和原始信号媲美。4.2数据集和任务我们保证没有测试集数据用于无监督特征学习。所有的深度自编码模型都用全部无标签的语音和视频数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论