已阅读5页,还剩107页未读, 继续免费阅读
(计算机科学与技术专业论文)基于相关性挖掘的跨媒体检索研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学睥十学位论文 摘耍 摘要 从九十年代初期开始,基于内容的多媒体检索一直是计算机领域的研究热点 认知心理学的研究表明人脑对外界事物的认知需要跨越矸i 同感官传递的信息以作 出综合的判断,类似地,人们对多媒体数据的检索需求是要能够灵活跨越卅i 同类 型的多媒体数据( 如图像、音频等) ,以形成对多媒体语义的整体理解这就需要 有一种新的榆索方式能够处理和查询不同类型的多媒体数据,本文的闩的便是研 究这种灵活跨越小同类型多媒体数据的榆索方式跨媒体榆索。 针对图像、音频等多媒体数据在底层内容特征上的异构性和不可比性使得难 以计算跨媒体相关性的现状,奉文以典型相关性分析为突破点,研究了图像和音 频在内容特征上潜在的统计关系,并且在特征降维的同时最大程度地保持了相关 性学习结果,从而通过自定义的距高函数实现了跨媒体的相关性度量:还进一步 提出了基于增量学习的相关反馈机制,从用j 、交互过程中提取先验知识,以修正 图像和音频数据集在同构子空间中的拓扑结构,从而有效缩小了底层内容与高层 语义之间的鸿沟,提高了跨媒体检索效率。 大量研究证明流形结构在多媒体数据表达方面可以发现非线性的数据关系, 本文提出一个流形子空间计算方法,用来模拟文本、图像和音频数据在语义空间 上的分布关系。该方法通过计算多媒体数据的本征距离矩阵,在此基础上求取语 义子空间的本征参数,从而得到内嵌的非线性的流形子空间作为语义子空问;同 时给出了短期修正和长期修正两种策略用以结合相关反馈信息来更新流形结构。 针对w e b 环境中多媒体数据集之间特有的跨媒体数据关系,提出以w e b 页面 中的多媒体对象为最小数据单元,建立跨媒体关联图用以综合表达在内容特征、 链接关系和用户交互三方面的数据关系;提出全局相关性推理算法充分利用跨媒 体关联图中各种数据关系之间的互补性,从而准确找到跨媒体的相关对象; 提出用隐性语义索引分析图像的视觉特征和音频的听觉特征之间的互索引关 系,并通过交互式的相似度传递优化了图像和音频的聚类质量,设计了主动学习 策略用以计算用户标注的反馈样本周围未标注样奉的的条件概率,加速了图像和 音频之间跨媒体检索的收敛过程,而且当查询例子不在数据库中时也能取得较好 的检索性能。 在数据管理方面,针对多媒体资源数据量大、存储分散等特征,本文从信息 第1 页 浙江人学晦十学位论文摘耍 共享这个基奉问题出发,尝试将数宁图书馆中海量、分布的多媒体数据资源用嘲 格技术进行管理,给出了初步的技术方案和体系设计,以及仿真实验结果。 关键词计算机视觉、机器学习、跨媒体榆索、图像检索、音频检索、典型相关 性分析、非线性流形、主动学习、相关性推理 第2 页 浙江人学啤士学位论文 b s t r a c t a b s t r a c t i nt h ep a s tt w e n t yy e a r s ,c o n t e n t - b a s e dm u l t i m e d i ar e t r i e v a l ( c b m r ) h a sb e e nh o t r e s e a c hi s s u ei nt h ea r e ao fc o m p u t e rv i s i o n p s y c h o l o g yr e s e a r c h e sf i n d t h a th u m a nb r a i n s s y n c h r o n o u s l yp r o c e s sd i f f e r e n ts c i b o fi n f o r m a t i o n 。s u c ha sv i s u a la n da u d i oi n f o r m a t i o n r e t r i e v a lr e q u i r e m e n to fm u l t i m e d i ad a t an e e d st op r o c e s sa n dr e t r i e v a ld i f f e r e n tt y p e so f m u l t i m e d i ad a t a , s u c ha si m a g ea n da u d i o t h i sp a p e ra i m st op r o v i d ean e wk i n do f c r o s s m e d i ar e t r i e v a lm e c h a n i s mw h i c hs m o o t h l yr e t r i e v a ld i f f e r e n tt y p e so f m u l t i m e d i ad a t a i n t r i n s i c a l l y ,t h ef i m d a m e n t a lc h a l l e n g ei nc r o s s - m e d i ar e t r i e v a ll i e si nt h eh e t e r o g e n e i t y o fd i f f e r e n tl o w 1 e v e lf e a t u r e s f i r s t c a n o n i c a lc o r r e l a t i o nb e t w e e nm e d i ao b j e c t so fd i f f e r e n t m o d a l i t i e si se x p l o r e d a ni s o m o r p h i cs u b s p a c ei sc o n s t r u c t e db a s e do nt h ea n a l y s i so fb o t h v i s u a lf e a t u r e sa n da u d i t o r yf e a t u r e s ,a n dt h em a p p i n gp r o c e s sm a x i m a l l yp r e s e r v e si n i t i a l c o r r e l a t i o nu n c h a n g e d a l s op o l a rc o o r d i n a t e sa r eu s e dt oj u d g et h eg e n e r a ld i s t a n c eo fm e d i a o b j e c t sw i t hd i f f e r e n tm o d a l i t i e si nt h es u b s p a c e s i n c et h ei n t e g n t yo fs e m a n t i cc o r r e l a t i o n s i sn o tl i k e l yl e a r n e df r o ml i m i t e dt r a i n i n gs a m p l e s ,u s e r s r e l e v a n c ef e e d b a c ki su s e dt o a c c u r a t e l yr e f i n ec r o s s m e d i as i m i l a r i t i e s h o wt om a pn e wm e d i ao b j e c t si n t ot h el e a r n e d s u b s p a c ei sa l s od i s c u s s e d a n dt h u s 。a n yn e wm e d i ao b j e c tw o u l db et a k e n 捆q u e r ye x a m p l e l o t so fr e s e a r c h e sh a v ep r o v e dt h a tm a n i f o l ds t r u c t u r ei sm o r ep o w e r f u lt h a ne u c l i d e a n s p a c e sf o rd a t ar e p r e s e n t a t i o n t h i sd i s s e r t a t i o np r o p o s e sn o n l i n e a rm u l t i m o d a ls e m a n t i c u n d e r s t a n d i n gm e t h o d st od i s c o v e r m u l t i m e d a lc o r r e l a t i o n si ns e m a n t i c s t h i sm e t h o d c a l c u l a t e sm u l t i m o d a lg e o d e s i cd i s t a n c em a t r i x ,b a s e do nw h i c hg e o d e s i cb a s i sv e c t o r sa r c w o r k do u tt ob u i l ds e m a n t i cs u b s p a c e l o n g - t e r ma n ds h o r t - t e r ms t r a t e g i e sa r cd e s i g n e dt o r e f i n ec r o s s m e d i ar e t r i e v a la n du p d a t em a n i f o l ds t r u c t u r e ag r o s s m e d i ac o r r e l a t i o nr e a s o n i n ga p p r o a c hi sp r o p o s e dt os o l v et h ep r o b l e mo f c o r r e l a t i o nm e a s u r eb e t w e e nm u l t i m e d i ad a t af r o mw e bp a g e s m u l t i m e d i ac o r r e l a t i o n sa r e r e p r e s e n t e da n dq u a n t i f i e di nac r o s s m e d i ac o r r e l a t i o ng r a p h au n i q u er e l e v a n c ef e e d b a c k t e c h n i q u ei sd e v e l o p e dt ou p d a t et h ek n o w l e d g eo fc r o s s m e d i ac o r r e l a t i o n sb yl e a r n i n gf r o m u s e rb e h a v i o r s ,a n dt oe n h a n c et h er e t r i e v a lp e r f o r m a n c ei nap r o g r e s s i v em a n u e l l a t e n ts e m a n t i ci n d e xi si n t r o d u c e dt oa n a l y z eu n d e r l y i n gf e a t u r es y m b i o t i cc o r r e l a t i o n s w h i l ed i m e n s i o nr e d u c i t o n a ni t e r a t i v e o p t i m i z a t i o na l g o r i t h m i sd e s c r i b e dt oi m p r o v e 第3 页 浙江大学博+ 学位论文a b s t r a c t c l u s t e r i n gq u a i i t yo fb o t hi m a g ea n da u d i od a t a s e t si ns u b s p a c e w ed e s i g na c t i v el e a r n i n g s t r a t e g i e si nr e l e v a n c ef e e d b a c kt ou t i l i z eu n l a b e l e dd a t ai n f o r m a t i o n ,a n dt h e r e f o r e ,w h e n q u e r yd a t ai so u t s i d ed a t a b a s ec r o s s m e d i ar e t r i e v a lp e r f o r m a n c ei se n c o u r a g i n g t h i sd i s s e r t a t i o na l s od i s c u s s e sg r i d b a s e dd a t a s t o r a g ea n ds e r v i c em a n a g e m e n ti n t y p i c a la p p l i c a i t i o no fd i g i t a ll i b r a r i e s a sm u l t i m e d i ad a t ai sm a s s i v e ,h e t e r o g e n e o u si n l o w - l e v e lc o n t e n ta n ds t o r a g e di nd i s t r i b u t e dp l a c e s ,g r i d b a s e ds y s t e ma r c h i t e c t u r ea n d f r a m e w o r ki sd e s c r i b e dt oi m p r o v em u l t i m e d i ad a t as h a r i n g a l s oe m u l a t i o n a le x p e r i m e n t sa l e i m p l e m e n t e da n dt y p i c a lr e s u l t sa r eg i v e n k e y w o r d sc o m p u t e rv i s i o n , m a c h i n el e a r n i n g ,c r o s s m e d i ar e t r i e v a l ,i m a g er e t r i e v a l ,a u d i o r e t r i e v a l ,c o r r e l a t i o na n a l y s i s ,m a n i f o l dl e a r n i n g ,a c t i v el e a r n i n g ,c o r r e l a t i o nr e a s o n i n g 第4 页 浙江人学陴十学位论文 第1 章缔论 第1 章绪论 随着信息技术的高速发展,数码相机、数码摄像机、m p 3 等t 具产生的图像、 音频,视频等多媒体数据已经遍布到叫络的各个角落,人们周胃环绕的信息不仅 仅是文字,而是蕴涵了丰富语义的多媒体数据,一个语义概念可以从音、形、意 等多个角度综合表达。这些多媒体数据呈现出底层特征异构、高层语义关联的特 征。为了满足人们对多媒体信息的检索需求,需要研究一种新的检索方法,使得 可以检索到相似主题、不同类型的多媒体对象。例如提交一幅小鸟的图片,除了 可以检索到各种相似的鸟类图像,还可以检索到乌儿动听的叫卢这种新的榆索 方式能够处理和查询不同类型的多媒体数据,极大地扩展了人们获取多媒体信息 的途径和范围。本文将这种可以实现不同类型之间灵活跨越的多媒体检索方式称 为跨媒体检索。 基于内容的多媒体检索是计算机视觉领域一个活跃的研究方向。随着计算机 科学技术的发展,该研究分别经历了文本检索、图像( 视频) 检索、音频检索和 网上多媒体信息检索等几个研究阶段,并综合应用了模式识别、统计分析、人工 智能、人机交互、数据库、网络通讯等多个领域的知识。而跨媒体检索是基于内 容的多媒体检索研究在当前计算机科学与现实生活发展背景下产生的一种新的概 念和需求。传统的多媒体检索方法大多集中于对图像、音频、视频等的内容分析 和相似度计算,而不能解决不同类型多媒体数据之间的相关性匹配问题,如:一 幅图像与一段音频例子之间的相关性,所以传统的方法难以实现跨媒体检索。 本文从多媒体对象的底层特征出发,研究了基于相关性挖掘的跨媒体检索, 分析了多媒体数据集之间各种潜在的关联信息,以准确地度量了跨媒体的相关性, 从而解决了跨媒体检索面临的关键问题。跨媒体检索将在广度和深度上进一步推 动多媒体数字资源的共享和有效利用。 1 1 研究背景 现代计算机和通讯技术的飞速发展使得图像、视频和音频等多媒体信息迅速 膨胀,整个互联网世界也。多姿多彩”,不再拘泥于单一的文本信息。特别是九十 年代末以来,伴随着网络带宽的增长、大规模存储介质的普及以及多媒体应用的 兴起,多媒体数据在互联网中所占的比重越来越大人们通过网络访问到不同类 第5 页 浙江大学博士学位论文第1 章绪论 型的数宁化资源,每个人接触信息的器官“眼睛”和。耳朵”在无形中被延伸, 这使得人们对多媒体数据的检索需求也日益增长。其中,最为乖要的就是对“跨 媒体”检索的需求。 认知神经心理学方面的研究认为人脑的认知过程呈现出“跨媒体”的特性, 即,来自视觉、听觉等不同感官的信息相互刺激、共同作用而产生最终的认知结 果 1 】【1 7 】。实际上,早在1 9 7 6 年,麦格克就已经揭示了人脑对外界信息的认知需 要跨越和综合不同的感官信息,以形成整体性的理解【5 6 】。“b a + g a = d a ”是最经典 的麦格克效应的例子:播放一个朗读a ”的声音片断,同时播放一个做朗读“g a ” 口形但没有声音的视频画血,结果“9 8 ”的测试者认为接收到的信息是“d a ”。 这种现象被心理学家命名为“听嘴唇,看声音”,并出现在1 9 7 6 年n a t u r e 的一篇 论文中,成为人类感知整合领域的里程碑。 上述研究说明了人们对外界信息的认知过程是对视觉、听觉等小同感觉器官 传递来的不同类型信息的综合理解,这些信息之间也存在互补性和相关性。同样, 人们对多媒体信息进行检索时,系统如果可以查找到小同类型的相关数据而小 只是局限在单一类型之中,则会更好地满足人们对多媒体信息的榆索需求。为了 适戍这种新的检索需求,本文主要研究了基于相关性挖掘的跨媒体榆索,使得用 户可以提交一种类型的查询例子,系统检索到不同类型、语义相似的多媒体对象。 例如:用音频例子检索图像。 1 2 研究问题与相关工作 跨媒体榆索的研究对象是不同类型的多媒体数据,这些数据在底层内容特征 上彼此异构,在高层语义上相互关联,里现出如下特性: ( 1 ) 多媒体数据混合并存在互联刚世界中或者是在多媒体资源库中,往往 同时包含了不同类型的多媒体对象,比如:图像、音频、视频等等,这 些数据同时存在于数据库中。 ( 2 ) 不同类型的多媒体数据表达相似语义。多媒体信息流奉质上是由图像、 音频和视频等多媒体数据共同形成的,是多媒体数据的综合体,其中包 含的每种类型的数据都表达了一定的语义信息,使得同一个语义概念可 以用图像和音频等不同类型的多媒体数据共同表达。这就比单一类型的 表达方式更完整、更生动、更准确地描绘了语义概念。 ( 3 ) 数据结构复杂具体表现在两个方面: 第6 页 浙江大学博十学位论文 第1 章绪论 不同类型的多筠 体数据之间组织方式灵活多变,存在多种数据关联结 构,例如,一幅图像与一个音频例子被同一个嗍页所包含,同时该刚 页可能链接到包含其他多媒体对象的另一个嘲页,或者是被某一个多 媒体叫页所指向: 图像、音频和视频等多媒体数据本身都是半结构或无结构化的,计算 机难以根据底层的视觉或听觉特征准确理解高层语义,例如:根据图 像的颜色特征识别该图像是否表达了。爆炸”的语义,或是根据音频 例子的听觉特征识别是发生了“爆炸”还是“鼓掌”的语义事件。 由于多媒体数据具有上述特性,不同类型的多媒体数据之间的相关性计算变 得 - 分困难。一方面,底层内容特征之间具有异构性和小可比性,例如:从图像 数据中提取的视觉特征向量与从音频例子中提取的听觉特征向量之间往往维数不 同,并且表达不同的内容属性。因此,无法直接根据底层内容特征进行图像和音 频之间的跨媒体相关性计算例如:一个2 0 0 维的视觉特征向量和一个5 0 0 维的 听觉特征向量。可能是共同表达了“爆炸”的语义,然而,前者是从色彩、纹理 和形状等属性层面描述了爆炸发生时的场景画面,后者则从时域或频率特征上描 述了爆炸发生时的听觉震撼力等。这两个不同维数、不同属性的特征向量可以表 示相似的语义信息,但是计算机却很难在底层特征上准确度量两者间的相关性 这种异构性和不可比性同样存在于其他不同类型的多媒体数据之问。此外,跨媒 体检索与图像检索、音频检索一样,也面临着底层内容特征与高层语义间的鸿沟 问题1 2 6 1 。 然而,。皮之不存,毛将焉附”,底层内容特征是高层语义概念的基奉载体。 本文从多媒体数据中提取的彼此异构的底层特征出发,主要解决以下几个问题: 1 ) 跨媒体数据关系的发现: 不同类型的多媒体数据虽然可以表达相似的语义,却难以用数学形式找 到这种语义相似性在底层特征上对应的数据关系模型,使得计算机可以 自动匹配不同类型的多媒体对象。因此,跨媒体检索首先要解决的问题 就是如何找到跨媒体的数据关系,并将其形式化。 2 ) 符合跨媒体特性的数据表达机制: 数据表达机制直接影响跨媒体检索效率的高低。传统方法采用不同属性 的底层特征表达不同类型的多媒体对象,如:图像的颜色、纹理、形状 等视觉特征,音频的质心、衰减截止频率等听觉特征这种表达机制不 第7 页 浙江人学蚺十学位论文第1 章绗论 能反映小同类型之间的潜在关系, 符合跨媒体数据关系的表达机制。 3 ) 跨媒体的相关性计算和求精: 数据之间独立、异构。需要研究一种 统一描述卜同类型的多媒体对象。 不同类型的多媒体数据之间的相关性计算是实现有效跨媒体检索的关 键现有的相似度匹配方法多是根据单一类型子空间中的距离函数进行 度量,无法计算不同子空间中多媒体对象之间的距离。这就需要研究跨 媒体的相关性计算方法,以准确地反映跨媒体的语义关系。同时,还要 研究子空间优化和相关反馈等方法,对跨媒体相关性计算结果进行求精, 以缩小语义鸿沟,提高跨媒体榆索的准确率。 4 1 多媒体数据的综合检索: 不同类型的多媒体数据如何无缝地集成到个统一的跨媒体检索平台中 是跨媒体检索能够广泛应用的关键。尤其是对于训练数据集以外的媒体 对象,需要研究如何准确引入到已有的检索系统中,平滑地实现与训练 集中所有数据之间的跨媒体检索。 虽然基于内容的多媒体检索一直是计算机视觉平u 信息检索领域的研究热点, 但是,现有的技术和方法都小能解决跨媒体检索面临的上述问题,相关t 作简述 如下: 基于内容的多媒体检索一般通过视觉、听觉或者几何等底层特征进行相似度 匹配而实现检索【9 9 】。早期有以0 b i c 3 3 ,v i d e o o 1 9 等为代表的基于内容的原型 检索系统,但是由于缺少高层语义的支持,系统的查准率和查全率都不能让用户 满意。因此,研究者们对如何缩小底层特征和高层语义之间的差距进行了研究, 典型的有例子学习【7 5 、流形学习 8 9 1 和融合分析【2 3 】等方法被用来进行多媒体语 义理解。 之后,为了克服训练样本的不足,相关反馈机制常被使用 6 6 】,以结合用广 的感知先验知识例如:利用反馈信息修改查询向量使其向相关检索对象的分布 中心移动 6 7 】,或调整距离度量公式中各分量的权值 9 8 】,近年来一些机器学习方 法也与相关反馈方法相结合 2 6 】。这些研究都取得了定成果,提交一种多媒体 对象都可检索到同种类型的相似结果。 上述研究可以划分为图像检索 4 4 2 0 8 9 】、音频检索【5 7 3 4 】、视频检索 7 4 1 1 2 9 等。这些研究都是以单一类型的多媒体数据为研究对象,或者虽能处理不 第3 页 浙江大学时十学位论文第l 章绪论 同类型的数据,却不支持检索过程中不同类型问的跨越,例如:以图像为查询例 子检索音频数据。为了与跨媒体榆索区别,本文将这些只能查找相同类型多媒体 数据的检索方式称为单模态检索传统的基于内容的多媒体检索方法大多只研究 单模态检索中的相似度计算和检索性能改进方法,不能解决不同类型的多媒体数 据的交互检索问题。跨媒体检索血临一系列新的挑战,包括跨媒体数据关系的挖 掘、符合跨媒体特性的数据表达、跨媒体相关性计算、不同类型多媒体数据的综 合检索等。 一些研究者先后提出了类似跨媒体思恕的研究,【5 4 对视频新闻所包含的转 录文本和互联网页向所包含的文本进行分析,实现视频对象和互联刚页面在文本 特征上的相似匹配,【2 1 通过挖掘多属性特征进行视频数据库的索引和检索。总的 来说,这些研究综合分析了单一类型的多媒体数据中不同属性的底层特征,例如: 视频片断中包含的颜色、纹理等视觉特征,以及均方根、衰减截止频率等听觉特 征,以提高视频语义理解和视频检索的效率,然而,这些方法没有解决跨媒体的 相关性匹配这一基本问题。 1 3 研究目标与贡献 本文就基于相关性挖掘的跨媒体检索展开了研究,其日标是通过分析不同类 型的多媒体数据之间的潜在关联,实现跨媒体相关性的准确度量,使得在检索过 程中可以灵活跨越不同类型的多媒体数据。例如:在跨媒体检索系统中,当用户 提交一幅“鸟类”的图像,系统不但可以返回相似的“鸟类”图像,而且还可以 检索到描述。鸟类”叫声的音频片断,甚至是描述“鸟类”日常生活习性的视频 片断。本文以多媒体数据的内容特征为出发点,结合统计分析、机器学习和智能 处理等技术进行了深入探究,提出了一系列新方法以实现上述研究日标,主要贡 献归纳为如下几个方面: 1 ) 提出异构特征的同步分析方法 不同类型的多媒体数据在内容特征上存在统计关系,这在一定层度上 反映了潜在的跨媒体语义联系,本文通过典型相关性分析对图像的视 觉特征和音频的听觉特征实现同步处理,挖掘了内容特征之间潜在的 跨媒体关系; 传统的多媒体特征分析方法通常是对单一类型的多媒体数据的内容 第9 页 浙江人学博十学位论文第1 章毒f 论 特征进行主成分提取、去噪、降维、保持奉征度量结构等,与之小同, 奉文的方法可以同时处理不同炎型多媒体数据的内容特征,在特征降 维的同时发现了特征之间的关联信息。 2 ) 图像和音频内容的统一表达 提出半监督式相关性保持映射算法,将图像的视觉特征j 句量和音频的 听觉特征向量都映射到同构的子空间中,同时最大程度地保持映射前 后图像和音频数据集之问的相关性不变,从而图像和音频数据从分别 用异构的视觉和听觉特征向量进行表达转化为统一的数据表达形式; 还提出了动态相关性排序算法以提取用户交互过程中的先验知识,使 得图像和音频数据在子空间中的拓扑结构更符合高层语义联系。 3 ) 跨媒体语义的非线性分析 提出一种基于非线性学习的多媒体数据集中跨媒体语义的两步分析 算法:首先使用流形学习得出语义关系的个非线性估计;然后用短 期修正和长期修正策略对相关性计算结果求精; 探讨了在非线性流形学习结果中新媒体对象的引入问题,提出了几何 定位和交互定位两种方法。 4 ) 基于w e b 的跨媒体相关性推理 针对w e b 环境中多媒体数据集之间特有的跨媒体数据关系,提出以 w e b 页面中的多媒体对象为最小数据单元,建立跨媒体关联图用以综 合表达在内容特征、链接关系和用户交互三方血的数据关系; 提出全局相关性推理算法充分利用跨媒体关联图中各种数据关系之 间的互补性,从而准确找到跨媒体的相关对象。 5 ) 图像和音频的特征共生关系学习 对图像和音频的特征共生矩阵进行隐性语义索引。得出在最小二乘意 义上的最优估计。在此基础上设 r 了图像和音频之间交互式的共生关 系优化算法,提高了多媒体数据集的聚类质量; 设计了主动学习策略用以计算用户标注的反馈样本周围未标注样本 的的条件概率,加速了图像和音频之间跨媒体检索的收敛过程,而且 当查询例子不在数据库中时也能取得较好的检索性能。 第1 0 页 浙江人学博十学位论文 第1 章绪论 1 4 论文组织 本文从相关性发现、数据表达、关系模型、计算结果求精和人机交互等方面, 详细探讨了基于相关性挖掘的跨媒体检索血临的关键问题,图1 1 所示为奉论文 中各章之间的关系: 图1 1 本论文的组织结构 具体内容组织如下: 第1 章描述了本文的研究背景、t :t 标和主要贡献等。 第2 章综述了跨媒体检索的相关研究。从单模态检索中的相关性分析研究和 类似跨媒体检索思想的研究两个方面总结了现有的相关工作,对比分析了这些研 究的特点和应用于跨媒体检索的局限性。 第3 章分析了不同类型的多媒体数据( 图像和音频) 在底层内容特征上的典 型相关性计算问冠。 第4 章介绍图像的视觉特征和音频的听觉特征的统一表达方法,研究一种符 合跨媒体相关性的数据表达机制,建立统一、同构的数据模型来表达不同类型的 多媒体对象: 第5 章介绍多媒体数据集中跨媒体语义的非线性学习方法,分析向量空间中 第1 i 页 浙江大学博十学位论文第1 章绪论 内嵌的非线性结构。 第6 章介绍基于w e b 的跨媒体相关性推理方法,研究w e b 页面上多媒体数据 集中i m r a m e d i a 和c r o s s - m e d i a 两种数据关系,在此基础上提出不同数据关系间的 互补和推理方法以准确找到跨媒体的相关对象。 第7 章介绍图像和音频特征的共生关系学习,对特征共生矩阵进行奇异值分 解得到相同坐标系下的数据点坐标,结合共生关系优化和主动学习机制进行求精。 第8 章介绍系统框架设计与实现,给出了跨媒体检索系统的界血图和典型检 索示例;并尝试将数宁图书馆中海量、分布的多媒体数据资源用州格技术进行管 理,给出了初步的技术方案和仿真实验结果。 第9 章是本文的结束语和展望部分。 第1 2 页 浙大学博+ 学位论文 第2 章跨蝶体榆索棚关研究综述 第2 章跨媒体检索相关研究综述 多媒体是文字、图像( 视频) 和音频等的综合体,这些多媒体数据表达了丰 富的语义。图像检索、音频检索、视频检索等基于内容的多媒体检索研究以某一 特定类型的多媒体数据为研究对象,实现自动语义理解和榆索。跨媒体检索是基 于内容的多媒体检索领域一个崭新的研究方向,是为了实现检索过程中不同类型 的多媒体数据间的灵活跨越。与传统的基于内容的多媒体检索研究不同,跨媒体 检索需要度量不同类型的多媒体对象之间的相关性。由于不同类型的多媒体数据 采用不同属性的底层特征进行数据表达例如:图像的视觉特征向量和音频的听 觉特征向量,这种内容异构性使得跨媒体的相关性度量l 分困难。本文从相关性 挖掘的角度探讨了跨媒体榆索面临的关键问题,使得跨媒体相关性可以在相同的 数据表达框架下度量。 传统的基于内容的多媒体检索研究虽然没有解决跨媒体相关性度量问题,但 是在数据关系挖掘方面已有许多与本文相关的研究工作。为了缩小多媒体检索过 程中底层内容特征和高层语义之间的语义鸿沟【6 8 】,近年来许多研究者探索了多 媒体数据间的潜在关系挖掘问题,将其作为缩小语义鸿沟的桥粱,用于提高多媒 体检索的效率。这些研究主要包括特征融合分析【2 3 】【3 8 】【2 5 】和多媒体对象关联信 息挖掘【9 2 】【8 2 】【9 1 】两个方面。融合分析技术基于不同种类的内容特征,通过概 率模型、线性模型、用户交互等方法综合理解多媒体数据所蕴涵的语义;一些研 究者还关注不同数据集之间的关联信息挖掘,例如:w e b 链接关系、文本和图像 之间的标注关系等,用以传递和修正相似度计算结果。上述两方面的研究与本文 的跨媒体检索类似,通过挖掘多媒体数据集中的潜在关系实现有效检索,然而, 这些研究的t :l 标与跨媒体检索不同,是为了提高图像、音频等单模态检索效率, 而不是实现检索过程中不同类型多媒体数据问的灵活跨越所以难以用于计算跨 媒体的相关性,不能解决跨媒体检索面临的基本问题。 另方面,虽然跨媒体检索研究目前还处于起步阶段,一些研究者已经开始 关注不同类型多媒体数据之间的互检索问题,例如:图像和标注文本之间的相互 检索和跨语言检索等。这些研究主要是围绕文本相关的多媒体数据而展开,虽然 形似跨媒体检索,却难以用于解决本文所述的跨媒体检索的关键问题。 本章首先介绍了跨媒体的定义,包括跨媒体研究的起因、主要研究范畴,队 第1 3 页 浙江人学博十学位论文第2 币跨媒体榆索相关研究综述 及奉文在跨媒体研究中的定位;然后综合分析了与基于相关性挖掘的跨媒体榆索 紧密相关的一些研究进展,讨论了这些技术与奉文研究的异同,以及应用于跨媒 体检索的局限性。 2 1 跨媒体的定义 随着多媒体技术的发展,计算机可以存储、分析和理解的多媒体数据不断增 多,从单一的文奉发展到图像、音频、视频、3 d 模型等半结构化和无结构化的数 据。“跨媒体”的提出正是基于多媒体技术的不断发展,而且更加符合人脑对视觉、 听觉等不同感官信息的综合处理模式,使计算机能够更好地模拟人脑管理和使用 不同类型的多媒体数据。奉节从人脑认知的跨媒体特性出发,介绍了跨媒体思想 的提出、研究范畴、以及奉文在整个跨媒体研究中的定位。 2 1 1 人脑认知的跨媒体特性 人类通过视觉、听觉、触觉等1 i 同感官形成对事物的感知,本质上,人脑所 处理的信息本身就具有跨媒体特性,“m c g u r k 现象”和近期神经系统科学进行的 研究从不同角度揭示了人脑认知的跨媒体特性。1 9 7 6 年,m c g u r k 等人验证了人类 对外界信息的认知是基于不同感官信息( 如听觉和视觉等) 而形成的整体性理解, 任何感官信息的缺乏或不准确将导致大脑对外界信息的理解产生偏差,这个现象 被称为。m c g u r k 现象”【5 6 】。m c g u r k 现象揭示了大脑在进行感知时,不同感官 被无意识和自动的结合到了一起进行处理。更为重要的是,后继神经系统科学研 究也揭示,在大脑皮层的颢上沟和脑顶内沟等部位,不同感官信息的处理神经相 互交融,人脑生理组织结构决定了其对外界的认知过程是通过跨越多种感官信息 的融合处理【l 】。 另一方面,从人工智能研究的角度来看,1 9 7 6 年n e w e l l 和s i m o n 提出了物 理符号系统假设,认为物理符号系统是表现智能行为必要和充分的条件任何信息 加t 系统可以看成是一个具体的物理系统,如:人的神经系统、计算机的构造系 统等;之后以m c c a r t h y 和n i l s s o n 等为代表主张任何事物都可以用统一的逻辑框 架来表示,即用形式化的方法描述客观世界;在2 0 世纪7 0 年代后期提出的知识 系统,作为人工智能学科最重要的工业化和商业化产物以轴助人们进行问题求解, 如:产品质量的评价、辅助医疗诊断、金融决策支持等。传统的人工智能研究的 第1 4 页 渐江大学博十学位论文第2 章跨蝶体检索棚关研究综述 日标是让机器模仿人,认为人脑的思维活动可以通过一些公式和规则来定义,希 望通过把人类的思维方翻译成程序语言输入机器,使机器有朝一日产生像人类 一样的思维能力。然而,人脑得到的信息中可以符号化的只占很小一部分,8 5 以上是符号以外的形象数据,如:一幅花红柳绿的风景图、一段余音绕粱的音乐 等。传统的人工智能研究面对多媒体的信息环境,不能自如地模拟人脑的智能活 动跨媒体思恕对于人工智能研究的荤要意义正体现在着眼于对“8 5 ”以上的 非符号信息的综合理解和有效利用,以使计算机可以更好地模拟人类感知。 2 1 2 主要研究范畴 跨媒体是一个比较广义的概念,主要包括以下几个研究范畴: ( 1 ) 跨媒体检索:用户i 柚计算机提交一种类型的多媒体对象作为查询例子, 系统可以自动找到其他不同类型、在语义上相似的多媒体对象。虽然 不同类型的多媒体对象之间没有直接的可比性,比如:一幅l l l 水画和 一段描述小河流水声的音频在底层内容特征上彼此异构,但却可以用 机器学习、统计分析等方法学习两者在统计意义上潜在的相关性,并 以此为依据进行跨媒体检索。 ( 2 ) 跨媒体推理:推理是从一种命题合理演绎到另外一种命题,跨媒体推 理就是从一种类型的多媒体数据经过问题求解转向另外一种类型的多 媒体数据。例如:o c r ( o p t i c a lc h a r a c t e rr e c o g n i t i o n ) 技术就是 从图像到文本的推理,基于内容的图像检索是从图像到图像的推理, 视频动画技术是从视频数据到动画序列的演绎。跨媒体推理囊括了这 些不同类型的多媒体数据之间的转换研究。 ( 3 ) 跨媒体存储:现有处理海量数据的检索技术主要是针对文奉信息,如: g o o g l e 和百度等搜索引擎,针对多媒体检索的研究工作其出发点并不 是针对跨媒体海量数据。跨媒体存储研究高效压缩、索引和分片等方 法,以及对用户行为的个性化索引等技术,用于提高海量环境下的跨 媒体检索效率,更好地支持上层应用。 上述三个方面从底层数据存储到上层应用技术的不同方面描述了跨媒体思想 对多媒体研究领域的技术涵盖和突破性要求,也是一个整体性的研究框架设计。 要实现上述研究思路,需要在海量数据库、多媒体索引、并行计算、机器学习和 第1 5 页 浙江大学博十学位论文第2 市跨燃体椅索棚关研究综述 统计分析、计算机视觉。以及信息检索等领域取得突破性的研究进展 2 1 3 本文的定位 本文蕈点研究了跨媒体检索这一主要课题,针对不同类型的多媒体数据之问 的相关性匹配展开了深入研究,以实现榆索过程中多媒体数据问的灵活跨越。跨 媒体检索方式极大地扩展了人们获取多媒体信息的范同和方式,也吏加符合人脑 认知的特性。 针对多媒体检索的研究工作也己开展多年【9 9 】,早期有以q b i c 和v i r a g e 等 为代表的基于内容的原型系统,之后结合例子学习、融合分析和反馈建模对多媒 体语义提取进行了研究【7 5 】,出现了以卡耐基一梅隆的i n f o r m e d i a ( h t t p :w w w i n f o r m e d i a c s c m t l e d u ) 、i b m 的m a r v e l 视频检索 ( h t t p :m p 7 w a t s o n i b m c o m ) 等为代表的结合语义与内容的视频榆索系统。然而, 这些研究主要针对单一类型的多媒体数据,或虽能处理多种类型的多媒体的数据, 却不支持不同类型之间的跨越。奉章以下章节综述了在多媒体榆索领域相关的研 究进展,归纳了这些研究的主要特点,以及应用于跨媒体榆索的局限性。 2 2 融合分析 融合分析是多媒体内容分析与理解领域的研究热点 2 3 1 ,其出发点是:只有 不同特征的融合才能表示多媒体数据所蕴涵的完整语义信息,好比人脑要并行接 受与处理一切听觉和视觉等信息一样。在这方面,机器学习方法被大量采用【3 8 】, 取得了一些好的效果。多媒体研究领域的国际知名会议,如:a c m m m 、i c m e 和p c m 等,在其举行的t u t o r i a l 中多次重点介绍如何在多媒体语义理解方面应用机器学 习。强调融合分析的必要性【6 0 】【2 3 】。融合分析与跨媒体检索思想的共同之处在于 分析不同属性的特征以理解其表达的共同语义。目前的融合分析方法主要应用于 单一类型多媒体数据的检索,大部分的单模态检索方法和系统都是通过提交一种 查询例子,返回与其相似的相同类型的多媒体对象,例如:图像检索【4 4 儿2 0 】【8 9 】、 音频检索【5 7 】【3 4 】、视频检索【7 4 】【2 9 1 、运动数据检索【5 8 】等研究。这些领域的研究 通过提取多媒体数据相应的视觉或听觉特征,如:颜色、纹理、运动、形状、短 时能量和音调等等,并将多媒体对象用底层特征构成的特征向量来表达以实现 对多媒体信息的管理和查询。 第1 6 页 浙江大学博十学位论文 第2 章跨蝶体检索棚关研究综述 考虑到多媒体数据所表示的音、形、意等丰富信息,如果仅仅是单独使用视 觉或听觉特征对音频、视频( 图像) 进行分析,将导致部分多媒体信息丢失。基 于内容的多媒体检索血l 临的“语义鸿沟”【6 8 】促使研究者开始通过对数据进行融 合分析以提高语义理解准确性。下血分别从图像和视频两方面介绍融合分析研究 的相关进展和局限性。 2 2 1 图像内容特征的融合分析 现有的商业搜索引擎,如g o o g l e 和y a h o o ,主要使用与图像相关的文本信息 ( 如:文件名、标注文= 牟= 等) 进行相似度匹配以提供图像检索_ | 叠i 务。但由于文本 信息本身具有一词多意、一意多词等不确定性特征从而导致以文本为查询条件 的图像检索结果差异较大例如:用广提交。老虎”这个关键宁作为查询条件, 系统可能会返回盂加拉虎、高尔夫球选手“老虎一伍兹”、甚至是老虎牌蚊香等远 离用户查询意图的图像检索结果,使用户难以快速找到所需信息。此外,w e b 是 一个有“噪音”的环境,只使用单一类型的多媒体数据作为查询条件难以获取满 意的查询结果。 许多研究关注“基于多属性特征的w e b 图像检索”【3 2 5 2 1 1 0 3 1 ,把w e b 图像的不同属性特征( 如底层视觉特征、环绕文宁的t f x l d f 特征,以及图像链接 信息等) 看成是不同的“m o d a l i t y ”,然后用融合分析的方法进行语义理解,以 提高图像检索效率。【3 】证明了图像的不同属性特征之间可以进行互补和修正,指 出“虽然文本和图像单独来看具有歧异性,但是两者综合起来理解则语义
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年土地契约合同
- 幼儿园消防火灾应急疏散预案
- 2025年特种作业人员考试(煤矿提升机操作作业)历年参考题库含答案
- 2026年医院患者营养膳食配送服务合同
- 护理三基三严考试题及答案完整版
- 2025年CAAC四类无人机执照考试复习题库(含答案)
- 2025年慢病健康管理培训测试题及答案
- 2025年技能高考试题及答案
- 2025年药房药品失效处理规范考核试题及答案解析
- 医疗器械监督管理条例培训考核试题及答案
- GB/T 17850.3-1999涂覆涂料前钢材表面处理喷射清理用非金属磨料的技术要求铜精炼渣
- GB/T 13477.18-2002建筑密封材料试验方法第18部分:剥离粘结性的测定
- FZ/T 01057.2-2007纺织纤维鉴别试验方法 第2部分:燃烧法
- 第五章-金融衍生工具市场-货币金融学-蒋先玲课件
- 加拿大育空考察报告 - 副本
- 《中药炮制技术》 教学课件大全
- 素描静物中苹果绘画步骤课件
- 半导体光刻技术
- 大学生创业计划书(创新创业课)
- DB32T 3947-2020 明挖现浇隧道混凝土收缩裂缝控制技术规程
- 建筑工程标准工期定额
评论
0/150
提交评论