




已阅读5页,还剩61页未读, 继续免费阅读
(计算机软件与理论专业论文)web脚本语义与图像特征融合的多媒体检索机制研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
坚奎堂堡主堂垡笙苎 塑蔓 摘要 随着网络宽带的普及和多媒体技术的发展,多媒体在网络的广泛传播已经成为 现实,并且日益成为重要的资源。它们主要以图片、图形、视频、音频、动画等形 式分布在i n l e m e t ,i n t r a n e t 的网页中,多媒体具有数据量大,非结构化,语义不直 观性、多义性、主观性等特点,其检索也柙对要复杂得多,因此探索有效检索w e b 多媒体信息的方法,成了我们面临的一大挑战。 w e b 多媒体检索( w e bm u l t i m e d i as e a r c h ) 就是要建立一个有效的搜索引擎 ( s e a r c he n g i n e ) 。i d 前网上多媒体信息检索基本途径主要有两种:基于语义关键词 的检索和基于内容的检索。前者采用传统的文本信息检索方法( t e x ti n f o r m a t i o n r e t r i e v a l ) ,对网络多媒体建立基于关键词的索引,后者基于多媒体内容本身具有 的各利- 色彩、纹理、形状等物理特征,采用图形图像、视频切割等技术提取相应的 特征,而建立特征索引多媒体库。 本文只考虑w e b 脚本语义和图像( 特征) 之间的融合分析,它建立在基于w e b 脚本和基于内容的两中检索基础至上的,因此本文第二章进行了基于w e b 脚本语 义的图像检索,剖析了w e b 脚本x m l h t m l 文件中语义关键词的来源,探讨了提 取方法,提出了初步系统架构等:然后第三章对基于内容的图像检索进行研究,介 绍了目前图像内容检索的基本方法,以及颜色、形状、纹理三种主要特征数据的提 取算法,提出了系统架构;再是第四章对基于w e b 脚本关键词和图像特征的多媒 体( 图像) 融合检索进行了深入研究,采用受到控词典中的关键词作为基于w e b 脚本 关键词子系统查询输入,提取返回结果较前面的图像,根据隐马尔可夫链( h m m ) ;j i 练出这个关键词对应的特征向量值,建立关键词和特征的对应关系,设立联合向量, 并在此基础上实现融合检索的算法,构建了融合检索系统原型,有效提高了检索的 综合性能。 关键词:多媒体信息检索,w e b 脚本分析,基于内容的图像检索,语义与特征融合 塑堕兰堡塑! 型婆 竺! ! 坠呈! a b s t r a c t w i t ht h ew i d ep o p u l a r i z i n go fw i d e b a n d e dn e t w o r ka n dt h ef a s t d e v e l o p i n go f m u l t i m e d i at e c h n o l o g y ,i tb e c o m e sa ni r r e f r a g a b l ef a c tt h a ta l lk i n d so fm u l t i m e d i ac a n p e n e t r a t ei n t on e t w o r k ,a n dg r o wi n t oo n eo fi m p o r t a n ts o u r c e sf o rp e o p l ei n c r e a s i n g l y t h e ye x i s ti nt e r m so fi m a g e s ,g r a p h i c s ,v i d e o s ,a u d i o s ,a n i m a t i o n sa n de t co ni n t e r n e t i n t r a n e t ,b e c a u s em u l t i m e d i ai so f l a r g ed a t a ,o f n os t r u c t u r e ,o fo b s c u r es e m a n t i c sa n do f s u b j e c t i v em e a n i n g ,i t sr e t r i e v a lp r o v e sm u c hm o r ec o m p l e xc o m p a r e dw i t ht e x t s n a t u r a l l y ,t h ep r o b l e mo f h o wt oe f f e c t i v e l yr e t r i e v a lw e bm u l t i m e d i ac o m e s u p t oo n eo f o u rg r e a tc h a l l e n g e sn o w a d a y s t h e k e yt ow e b m u l t i m e d i as e a r c hs h o u l db et oe s t a b l i s ho n ee f f e c t i v ew e bs e a r c h e n g i n ef o rm u l t i m e d i a s of a r , t h e r eh a v eb e e nm a i n l yt w oa p p r o a c h e st og e t t i n gt h e t a r g e t :t e x t k e y w o r d b a s e dr e t r i e v a la n dc o n t e n t b a s e dr e t r i e v a l t h ef o r m e r a d o p t s t r a d i t i o n a lt e x ti n f o r m a t i o nr e t r i e v a lt e c h n o l o g i e st oe x t r a c tk e y w o r d sf r o mk i n d so f w e bp a g e s c o n t a i n i n g o r l i n k i n g t h o s e s u p p o s e dm u l t i m e d i a ,a n d t h e nc o n s t r u c t s m u l t i m e d i ad a t a b a s ei n d e x i n go nt h e s es e m a n t i ck e y w o r d s ;w h i l et h el a t t e r a p p l i e s i m a g i n g ,g r a p h i n g ,v i d e o s e g m e n t i n ga n do t h e rm e t h o d st oa n a l y z ei n h e r i t e df e a t u r e so f s u p p o s e dm u l t i m e d i ai t e ms u c ha sc o l o r , s h a p ea n d t e x t u r e t h e nf e t c ht h e i rq u a n t i t a t i v e v e c t o r s ,a n dl a s tb u i l dm u l t i m e d i ad a t a b a s ei n d e x i n go nt h e s ev e c t o r s s t a t i s t i c a l l ye x c e p tt e x t ,i m a g ec u t st h el a r g e s ts h a r ei nk i n d so f w e b m u l t i m e d i a ,a s w e l la sa p p e a r st h em o s t h e l p f u ls o u r c e t op e o p l e h e r e i no n l ym u l t i m e d i af u s i o na n a l y s i s a n dr e t r i e v a lo fw e bs c r i p ta n di m a g ei sc o n s i d e r e d ,w h i c hi sb a s e do nb o t hw e bs c r i p t a n d i m a g ec o n t e n t ,s oi nc h a p t e rt w o t h e p a p e rp r e s e n t st h ep r i n c i p l e sa n dt e c h n o l o g i e s o f m u l t i m e d i aa n a l y s i sa n dr e t r i e v a lb a s e do nw e b s c r i p t ,a n dt h e np r o b e si n t oh t m l x m l s c r i p tf i l e s ,m u l t i m e d i as e m a n t i c ss o u r c e sa n d t h e i re x t r a c t i o nm e t h o d s ,a n da tl a s ts h o w t h eb a s i ca r c h i t e c t u r eo fw e b s c r i p tb a s e dm u l t i m e d i ar e t r i e v a ls y s t e m ;i nc h a p t e rt h r e e t h ep a p e rt a k e sr e s e a r c ho ni m a g er e t r i e v a l ,a n di n t r o d u c e sc o m m o na p p r o a c h e st oi t , e x t r a c t i o np r i n c i p l e sa n dm e t h o d sf o ri m a g ef e a t u r e ss u c ha sc o l o r , t e x t u r ea n ds h a p e ,a n d t h e np r e s e n t st h ea r c h i t e c t u r eo fc o n t e n t - b a s e di m a g e r e t r i e v a ls y s t e m ;i nc h a p t e rf o u rt h e p a p e rf o c u s e so nf u s i o nm e c h a n i s mo fw e bs c r i p ta n di m a g ef e a t u r ei nt h ef o l l o w i n g :1 ) f e t c ht h ew o r d sf r o mc o n t r o l l e dl e x i c o na si n p u tt op r e v i o u sw e b - s c r i p tb a s e dr e t r i e v a l i i 浙江大学硕十学位论文 a b s t r a c t s y s t e m ;2 ) r e a dt h ep r e v i o u ss e v e r a li m a g e s a n de x t r a c t st h e i rf e a t u r e sv e c t o r s ( p r e s e n te d l a t t e r ) ;3 ) t r a i nt h e s ev e c t o r si ng r o u pb yk e y w o r d a n d g e t st h eh m m o f e v e r yg r o u p ;4 ) c o n s t r u c tt h er e l a t i o n s h i pb e t w e e nt h ek e y w o r da n di t sf e a t u r ev e c t o r ,a n dd e f i n e a n c o m b i n a t i o nv e c t o ro ft h e m ;5 ) r e a l i z ef u s i o na n a l y s i sa n dr e t r i e v a la l g o r i t h m s ,c o n s t r u c t t h es y s t e mw h i c hp r o v e st oi m p r o v e t h ee f f i c i e n c yo f w w wm u l t i m e d i ar e t r i e v a l k e y w o r d s :m u l t i m e d i ai n f o r m a t i nr e t r i e v a l w e bs c r i p ta n a l y s i s ,c o n t e n tb a s e di m a g e r e t r i e v a l ,f u s i o no fs e m a n t i c sa n d f e a t u r e s u l 堂塑型塑堑坠堂堡兰 兰二童笪笙 第一章绪论 随着社会需要的变化和科学技术发展的发展创新,信息检索技术分别经历了文 本检索、基于内容的多媒体检索和网上多媒体信息检索等几个研究阶段。 19 5 1 年,商人与学者c a l v i nm o o r e s 在( ( d a t ac o d i n g a p p l i e dt o m e c h a n i c a l o r g a n i z a t i o no fk n o w l e d g e ) 中首次使用“信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) ” 这个单词去描述如下过程:客户提交一个找寻信息的请求,然后通过某种转换或计 算,得到与客户请求相似或相关的资料。 他写到,“i n f o r m a t i o nr e t r i e v a le m b r a c e st h ei n t e l l e c t u a l a s p e c t s o ft h e d e s c r i p t i o n o fi n f o r m a t i o na n di t s s p e c i f i c a t i o nf o rs e a r c h ,a n da l s ow h a t e v e r s y s t e m s ,t e c h n i q u e s ,o rm a c h i n e s t h a ta r ee m p l o y e dt oc a r r yo u tt h e o p e r a t i o n ”。 m o o r e s 至少强调了三点:( 1 ) 用户对要找寻信息的内容进行高度抽象概括,形 成语义描述;( 2 ) 使用一个相似度量函数,从信息仓库中得到与用户请求相似的信 息集合,并且将它们反馈给用广;( 3 ) 用何种系统和何种技术自动实现上面两个目 标。其中,第一点就是设计一个检索界面,方便用户的查询;第二点就是将用户请 求与所建立的索引进行相似度比较,得到“最相似”的查询结果;而第三点则是如 何保证信息检索系统的实用化。 2 0 世纪9 0 年代初,国际上就开始了对基于内容的多媒体信息检索方面的研究。 从基本的颜色检索,到综合利用多种多媒体特征进行检索,该项技术已经发展到了 高级阶段,大量原型系统已经推出,其中,部分已投入到实际应用中,以检验其有 效性。同时,多媒体内容描述标准m p e g7 也正在制定当中。 爆炸式增长的网络资源是一把双刃剑1 1 】。随着网络宽带的飞速增长和多媒体应 用的兴起,多媒体在网络上分布的比重越来越大。据统计,视觉信息( 图像、图形、 视频、音频、动画等) 己占到w w w 的1 5 ,而且此数字还在飞速增长1 2 】。当前我们 面对的文档不再是简单的单模态数据,而是由图像、视频、音频和文字等媒质信息 综合构成。在这一一背景下网上多媒体信息检索就应运而生了,它集合了模式识别、 鲨鬯芝苎! ! 些兰垡堕塞 塑二至笪堡 统计理论、人t 智能、数据库、网络通讯和人机交互等知识,为计算机科学研究领 域一个活跃的研究方向。 1 1 研究背景与要解决的问题 早期多媒体检索所采取的文本标注方式 s l ,但是这样存在如下缺点:一是人工注 释需要大量的人力,尤其足对于大型的音频信息库。在这样的信息环境中,每天都 有大量的新资料出现,需要及时把这些资料归档。没有计算机的自动或辅助处理, 资料的更新周期就不能满足用户的需要。另一个缺点是人工注释难以解决蕴藏在音 频数据中丰富的内容以及内容感知描述的主观性。第三个方面,就是对于实时广播 流媒体的处理,手工处理是完全不可行的,必须用计算机进行实时的内容分析。 9 0 年代兴起的基于内容多媒体检索可以分为两类:一类是基于视觉或听觉内 容的多媒体信息检索;类是基于视觉利听觉融合内容的多媒体检索。在前种方 法中f 4 】,图像( 视频) 、音频的视觉或听觉特征,如色彩、纹理、形状、短时能量、 频谱等特征被提取出来,基于这些提取出来的特征进行相似度比较,得到相似的多 媒体信息。在后一种方法中,多媒体的视觉和听觉特征被融合入一个检索模型中, 进行多模态特征相似度比较查询m 删。 基于内容的多媒体信息查向存在如下问题:( 1 ) 用户所提交的检索关键字是基 于语义的,一般不会是一个图像( 视频) 或者音频例子。而基于内容的多媒体检索 是基于多媒体本身视觉或听觉内容的,不足多媒体自身所代表的语义。因此,在多 媒体所蕴涵的高层语义和多媒体所表示的低层视听特征方面存在一个鸿沟。如何填 补多媒体高层语义和多媒体地层特征是要解决的问题。( 2 ) 网络多媒体信息都是以 h t m l 、x m l 等半结构化脚本语言来组织的,这些半结构化脚本语言部分标注了多 媒体语义,如何应用这些标注的语义信息完整表达多媒体语义是面向w v w v 信息检 索要解决的问题。 本文试图开发创新性的弥补多媒体高层语义和底层特征之间的鸿沟算法与刚 络多媒体语义检索工具,在v w w v 上为无结构化的多媒体信息建立结构化索引, 使得用户可以根据自己的个人兴趣,进行基于语义的多媒体信息查询。 堂垡生! 兰堡塑丝茎 塑二至堑笙 1 2 国i 为# 1 - 研究现状 多媒体处理不仅仅是文本、视频和音频等媒体信息的简单融合,而足儿种不同 媒体信息的交叉和融合。传统的媒体信息技术往往只是对一种媒体信息的处理,如 对文本信息处理的自然语言理解,对音频信号的语音压缩和合成对视频图像信号 处理的基于内容的图像和视频检索。 h 前对多媒体信息融合检索技术的研究主集中在三个方面【2 】【4 1 【5 】:一是把音频利 视频特征按照一定的时序关系融合到一个检索框架中即多媒质特征融合;二是用视 频( 或音频) 实现对音频( 或视频) 相互索引,即单媒质交叉融合;三是用音频和视频分 别得到多媒体场景判断结果,然后把视频音频的结果结合起来考虑,得到最后结果, 即单媒质结果融合。 本文试图建立一个基于w e b 脚本语义和特征融合的图像搜索引擎,属于单媒质 交叉索引。目前卡耐基梅隆( c m u ) 大学研究的i n f o r m e d i a 项目,综合利用了图像 分析、语音识别和自然语言理解等相关领域知识,实现羽多媒体资料的检索与概括 ( s u m m a r i z a t i o n ) 。其基本思想是把音频流中的语音转换( t r a n s c r i b e ) 成文本信 息,然后通过基于关键字的寻找,去定位关键字所在的视频片断;s p a e k 【3 】等人 把图像附带的文本信息和图像特征结合起来,达到图像分类目的,以提高图像检索 的精确度。 他们还是将文字信息作为一种重要的媒质进行分析,而视频( 图像) 和音频媒质 j l 是作为辅助信息。但是,在多媒体数据( 流) 中,图像( 视频和音频) 信息起着越来越 重要的作用,很多时候,多媒体信息( 流) 中只包含图像( 视频与音频) 信息,女h w e b 页中很多视频、音频、图像等都没有明确标注。如今随着宽带的快速普及、p c 的廉 价爿级、网络通信以及数码科技的发展,多媒体在i n t e r n e t 的广泛传播已经成为可能, 但是由于其内容繁多而组织风格各异【1 l 标注比较随意,有时候我们很难根据关键 测从这个信息的“汪洋大海”找到需要的东西,或者丢失很多东西。将嵌入在w e b 脚本里面的多媒体语义词剽多媒体本身特种同等看待,构建基于v v e b 的多媒体融合 检索,相互弥补不足,到目前为止还没有很多这个方面的尝试。( g o o g l e y a h o o ,b a i d u 鲨鬯翌兰燮堂垡鲨奎 笙二皇些望 只是基于w e b 脚本关键词的检索,并没有作这个方面的融合实践。) 1 3 本文的贡献和目标 网络多媒体信息都是以h t m l 、x m l 等半结构化脚本语言来组织的,它们部分 标注了多媒体语义。如果可以应用这些标注信息,并结合多媒体的底层物理特征, 就可以有效地建立一个w e b 多媒体语义的自动标注系统,并进而实现基于关键词的 多媒体搜索。 另一方面,大量的嘲络多媒体通过搜索引擎系统聚集到一起,使得基于内容的检 索更为可行,因为巨大的媒体库町以提供不断提炼改进的素捌,而且还可以采用各 种基于物理特征的统计分析方法加以分类,开辟特征检索的新视野。 基于关键词和基于内容的检索都有各自的优点和缺点,如果把这两者结合起来考 虑,应该是很有意义的一种探索和尝试。 本文最终是要构建一个基于w e b 脚本关键词和特征融合的多媒体( 图像) 搜索引 擎原型系统,它同时具有关键词检索、特征检索、特征和关键词融合检索三种功能, 它的整个架构分别由基丁i 内容的图像检索、基于关键词的图像检索、以及两者融合 f 建立在前面两者基础之i 二) 的图像检索三个了系统,因而下文我们需要分别探索这三 个子系统各自的和三者衔接的构建理论及实现技术。 1 4 本文的结构 论文第一章是绪论,介绍了论文背景、目标等。 本文以下是正文,分4 部分,具体内容是这样组织的: 第二章介绍了w e b 脚本可能跟多媒体语义有关的结构和标记分析,以及提取关 键词的方法; 第三章介绍了基于内容的多媒体( 图像) 检索的技术,颜色、纹理和形状等特征提 取的算法,以及网络图像检索系统构架; 第四章介绍了w e b 脚本和图像特征融合的多媒体检索技术,系统原型构建,以 塑垩奎堂堡堂鱼堕壅 笙二主堕笙 及系统运行环境; 第五章列以上的探索研究作个小结和展望。 ! 塑垩奎堂堡主堂堡垒塞 塑三皇苎王些! 堂查至墨塑童堡堡丝室 第二章基于w e b 脚本语义的多媒体检索 2 1w e b 脚本分析 2 0 世纪4 0 年代以来人们就梦想能拥有一个世界性的信息库。在这个数据库中 数据不仅能被全球的人们存取,而且应该能轻松地连接其它地方的信息,以便用户 可以方便快捷地获得重要的信息。 随着科学技术的迅猛发展,人们的这个梦想已经变成了现实。目前正在使用的 最流行的系统叫”环球信息网w w w ”( w o r l dw i d ew e b ) 。简而言之,w w w 是一个 以i n t e r n e t 为基础的计算机网络,它允许用户在一台计算机通过i n t e r n e t 存取另一 台计算机上的信息。从技术角度上说,环球信息网足i n t e r n e t 上那些支持v w w v 协 议和超文本传输协议h t t p 的客户机与服务器的集合,透过它可以存取世界各地的 超媒体文件,内容包括文字、图形、声音、动画、资料库、以及各式各样的软件。 目前w e b 脚本的主要脚本语言足h t m l ,x m l ,他们各有自己的特点和用途。论 文接下来分别介绍了h t m l x m l 的特点,结构,标记,以及如何从这些脚本文件 中提取跟多媒体相关的语义信息。 2 1 1h t m l 脚本 h i m i _ 文件概述 h t m l 是h y p e r t e x tm a r k u pl a n g u a g e ( 超文本标记语言) 的首字母缩写,是一 种可用于生成网页的编码语言,s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e , 标准通用置标语言) 的一个简化子。跟传统的计算机语言相比,h t m l 正是具有面向 网络服务,开放标准,容易理解设计,整合超文本,支持多媒体这些革命性特点, 使得它成为当今网络世界里最流行的脚本语占,用以描述超文本文档。 h t m l 标记( h t m lm a r k u p ) 是h t m l 文档的控制语言,用于指定浏览器显卅和 打| = 1 1 文档的方式。它是用小于号“ ”括起来的短语和符号,l l 、 堕塑兰兰塑型兰篁! ! 垒兰 笙三童茎王坠! 壁查堕墨塑兰堡箜丝室 b o d y 等。许多h t m l 标记以成剥的方式出现,如 、 等, 用来描述对标记中的文档的属性。我们称它们是成对标记。 h t m l 文件由标记和表示信息的文本共同组成,扩展名是h t m l 或h t m ,它们是 可供浏览器解释浏览的文件格式,可以使用记事本、写字板或f r o n t p a g ee d i t o r 等 编辑工具来编辑。如今遍布i n t e r n e t 嘲的几十亿的w e b 就是通过这种简单方便的机 制构建的。 h 诩l 文件的组织结构和内容表达 每个h t m l 文档都应至少有如下成对标记 ( 有的 是h t m l 和 ) 。一个最简单的h t m l 文档是这样: a s i m p l eo n e h t m l 标记作为其文档基本控制元素,通过标记对 或者嵌套标记 嵌套对 ( t a 9 2 形式,结合具体的内 容,在上述基本的结构框架中特定位置切入,而实现各釉各样的文档风格及内容表 达。根据h t m l4 0 参考,标记总共可以分为: 基本标记、标题标记、格式标记、文档整体标记、图像标记、表格标记、帧标 记、链接标记、文本标记、格式标记、格式标记、窗体标记等1 2 类,每个类都各 自的标记集合,实现了与类别相应的文档表达功能。w e b 中包含的各种信息就是通 过这种机制来组织的。很显然地,要是w e b 中包含的多媒体标注以及简单的语义 描述,我们就可以通过对多媒体引入标记以及文档结构分析直接获取。 塑坚查兰堡主堂垡堕茎 蔓三至苎王翌! 塑查至墨塑墨堡堡竺室 2 1 2 x m l 脚本 x m l 文件概述 x m l 是可扩展标志语言( e x t e n s i b l em a r k u pl a n g u a g e ) l 拘简称。与h t m l 一样, x m l 是从所有标志语言的元语标准通用标志语言s g m l ( s t a n d a r dg e n e r a l i z e d m a r k u pl a n g u a g e ) ) l j 里派生出来。x m l 也是一种元语言,一个定义w e b 应用的 s g m l 的子集。利s g m l 一样,也可以用x m l 来定义种种不同的标志语言满足小 同的需要,特别在数据表现方面。 随着w e b 应用的不断发展,h t m l 的局限性也越来越明显的体现出来了: 首先,h t m l 是一种界而技术:它把数据和数据的表现形式混在了起,这使得 分开两者变得相当的困难。 它有一个复杂的标签集:你不能用你自己的特定应用标签来扩展它。它是“平 面型”的,不能指定一种数据的层次结构来表现数据间诸如包含,重要性等这些细 节。 它不能把数据简单地传送给客户端让客户端自行进行进一步的处理事实上, h t m l 总是在服务器端产生,客户端只是个显习j 机器。 它只能提供一种显示方式给你的数据如果你想提供不同的显示方式,你就不得 不在服务器端重新产生这些数据和完整的h t m l 页,这样才能在客户端显示出来 如果数据和显示形式是分离的话,那你就可以把数据下载到客户端,之后根据你的 需要随意发送有关这些数据的不同的显示方式。 它的可读性不强,无论是人读还是计算机读都是一样。h t m l 也不是很严谨 有些标签需要匹配开始和结束匹配符( 虫l l 和 ) ,但是也有一些只有开 始符没有结束符( 如c p 和 ) 。h t m l 解释器不得1 i 处理这些有些随机的格式。 h t m l 和x m l 是w o r l dw i d e w e bc o n s o r t i u m ( 简称w 3 c ) 制定的标准。w 3 c 的成员意识到随着互联网的飞速发展,必须要找到一种办法将数据和网页的表现方 式分离开来。刚为s g m l 相当的复杂( 它的说明有5 0 0 多页) ,很难实王见;x m l 标准 远比它简单( 只有少少的2 6 页) 。如今x m l 既有h t m l 的简易性,又有s g m l 的大 部分功能,因此当之无愧地成为新1 弋网络应用开发的领导者。 塑塑2 苎望生堂丝苎 塑三童茎王鉴! 壁查亘墨塑童塑堡丝窭 尽管严格地讲,x m l 只是一种数据标志说明语言,但它已经开始渐渐地把一系 列相关的技术包含进来了,象x m ld o m 、x s l 、x l l 、x m l 命名空间和v m l 。在 本文中,我们将看到x m l ,x s l ( e x t e n s i b l es t y l el a n g u a g e 可扩展形式语言) ,和 x m l d o m ( d o c u m e n to b j e c tm o d e l 文档对象模型) 这几种先进的技术,大大扩大 了x m l 的功能。 x m l 功能极其强大,但是涉及到的规范也很多。希望从x m l 脚本中获取多媒 体丰富的语义,必须充分地熟悉x m l 的组织结构等特点。接下来就着重对x m l 文 件展开剖析。 x m l 文件组织结构和内容表达 x m l1 o 标准设立一套严格的文件标准规则,其中最基本就是每一个有开始标 签的元素都要有一个相应的结束标签,而且子元素的结束标签一定要在包含它的母 元素的结束标签之前。一般标签对描述一个元素间部分叫做内容。x m l 的开始标签 也可以是属性列表,女l l 。 例 如这就是不符合规则的形式: 以f 合乎规则的形式: 在w 3 c 的x m l 标准中有完整而详细的规则列表。一个格式正确的x m l 文件 必须至少包含一个元素。也就是说,文件中必须有根元素( 不在其他任何一个元素中 的元素) 。这使得每一个x m l 文件都是一个层次分明的元素列表。x m l 文件通过把 元素置于其他标签对中,来定义产生这种元素间的层次关系( 父子,兄弟关系) 。 为了说明这一点,让我们来看一个例子: 塑堑坠塑塑塑二主茎王堂堂查亟墨塑童堡簦笙室 兰”j w c uw 十时义制争蜾怦稀甯 表a :x m l 格式的航空公司的航线数据示例: r a l e i g h ,n c a i r p o r t r d u ( r a l e i g hd u r h a mi n t l ) s a nf r a n c i s c o s f o ( s a nf r a n c i s c oi n t l ) c h a r l o t t e ,n c c l t u s a i r w a y s 1 4 9 20 0 b o e i n g 7 4 7 n o d i n n e r 1 1 :0 0 a r r i v a l _ t i m e 1 4 :0 0 表a 是一些以x m l 格式表述的航空公司的航线数据。从中可以看到x m l 相对 来说可读性比较强。标签和它们的内容都具有相当的自释性。如果在一个h t m l 表 羔壁生壁兰堡兰兰垡丝二! ! 一 笙三空兰主翌! 堕查堡墨盟麦塞竺丝塑 单中又会是怎样的呢? 几乎不可能把数据从网页中分离出来。但在x m l 格式下,我 们可以轻松地用一个旅行代理程序得到这些数据,把它们存到一个数据库中,或重 新格式它的显示方式。 格式正确的x m l 文档v s 有效的x m l 文档 一个正确编写的x m l 文档可以有两种形式:它可以是格式正确的或者是有效 的。如果一个x m l 文档在编写时遵从了x m l 标准中所列的规则,那么它就被认为 是格式正确的。如果一个x m l 文档在编写时还遵循了一个标准的文件数据格式或 组织架构,那么它就被认为是有效的。 在使用x m l 交换数据时,有效性是相当重要的。如果我有一个有关发票的x m l 文档而且我想和我的商业伙伴通过它来交换数据,那我该怎么办呢? 显然,我首先要 告诉我的伙伴我想要的文件格式利我的文档将遵从的格式。 目前有两种方法可以用来详细定义x m l 文档的格式:d o c u m e n tt y p e d e 骱i t i o n ( d t d ) 利x m ls c h e m a d t d 是x m l l 0 标准中的一部分,所以它们i :1 前 是最流行的定义方法。但是问题在于d t d 使用的语法非常不直观,这就与x m l 的 宗旨背道而驰,而且d t d 不能让你自己指定不同元素的类型。 x m ls c h e m a s 说明烈格则是由微软利其他x m l 业界公司提出来的,被w 3 c 视为未来d t d 的替代者。x m ls c h e m a s 使用一种类x m l 语法来描述x m l 文档。 另外,x m ls c h e m a s 提供了在文件中描述元素类型的功能( 通过x m l d a t a ) 。在我 们看来,对那些非s g m l 专业人员而言,s c h e m a s 比d t d 更容易阅读,更容易理 解,也更容易编写。 x m l 能够让你轻松地定义自己的文件格式和标签,不过如果每一个人都使用他 臼己定义的文件格式的话,恐怕就没有人能彼此交换相似的文件信息了。目前有两 个比较正式的通用文件标准组织,而且两者相互对立。在这种对峙的情况下,很多 公司不得不痛苦地游离在两大阵营之间。 b i z t a l k 这个由微软公司领导的组织希望建立一个为通用商务文件( 发票,订单 等) 服务的平台。x m lo r g 这个组织则站在与微软公司对立的角度上,提倡用d t d 来定义基本商务文件格式。究竟哪一个标准会在这场游戏中取得最后的胜利,现在 堕鬯2 量堑生兰兰! 墼 丝三童茎! 坠! 堂查至墨塑兰堡堡堡室 评论还为时过早。将来最有可能出现的情况是有两到三种流行的文件格式,而转换 工具会帮助人们把文件从一种格式转换到另一种格式。 x m ld o c u m e n t 0 b j e c tm o d e l 接下米将介绍如何将一个x m l 文件转换成一个h t m l 文件在浏览器上显示出 来,使用x m ld o c u m e n to b j e c tm o d e l ( d o m ) 来读写x m l 文件。当个x m l 处理 器解析了一个x m l 文档后,处理器把该文档保存到。个内存空间树中。d o m 是访 问该树的程序化接口,通过它你可以读、添加、删除和编辑树中的节点。每个 d o m 树都以个文件对象为起点,所有的数据都保存其中。在i e 5 中,可以通过 任何一个程序或脚本语言对x m ld o m 进行访问。例如,在表b 中的j a v a s c r i p t 将改变美洲航空公司第一个航班的航线: 表b :用j a v a s c r i p t 将改变美洲航空公司第一个航班的航线: v a rm y d o c u m e n t = n e w a c t i v e x o b j e c t ( ”m i c r o s o f t x m l d o m ”) : m y d o c u m e n t 1 0 a d ( ”f l i g h t s x m l ”) : m y d o c u m e n t ,d o c u m e n t e i e m e n t c h i l d n o d e s i t e m ( 0 ) c h i l d n o d e s i t e m ( 3 ) t e x t = ”a m e r i c a na i r l i n e s ” 程序的第- - 行龟, j 建了一个空的d o m 对象。第二行通过d o c u m e n tl o a d ( ) 方法把 我们的数据文件引入到d o m 对象中。最后,在最后行用一个很长的命令去访问 第一航班的航线的节点并改变其中属于“美洲航空公司”的节点的内容。这一切是 通过c h i l d n o d e s 属性实现的,它使我们可以通过一个数字索引来访问某个子节点。 d o m 还提供了很多其他的方法让我们可以通过名称或其他属性来访问节点。 上面的例予显然很一般,不过它很好地向我们展示了有关d o m 的程序是个什 么样子。如果你想用x m l 进行一些工作,就必须要了解d o m ,同时还要学会如何 操作、访问文档对象树。 塑塑型苎塑型苎! 堡垒奎 塑三童些主鉴! 型查至墨堕童燮堡箜室 2 2 脚本中多媒体语义源及提取方法 2 _ 21 h t m l 脚本的多媒体语义源及提取方法 现有w e b 页的语义源 目前比较成功的搜索引擎代表主要有:g o o g l e ,y a h o o ,b a i d u ( 百度) ,a l t a v i s t a 。 它们在w e b 脚本中考虑的多媒体语义源有: ( 1 ) ur l ,多媒体u r l 中的文件名、i j 录名。 ( 2 ) a i r ,h t m l 中作为多媒体描述的标记。 ( 3 ) ,h 1 6 ) 中文本描述文章各级主题。 ( 4 ) ,概括整个网页的内容。 ( 5 ) a n c h o rt e x t ,描述嵌入网页的多媒体。 ( 6 ) 环绕文本,多媒体周围的文本信息。 系统比较 g o o g l e 搜索到的结果太多,以致用户真正想要的资料有时候无法很精确的被显 示在前几页:其搜索结果的擗序不稳定,有时以多媒体环绕文本为先,有时以标题 为先,使得语义相近的图片不能紧跟在一起;组图片往往只是给出其中的一副,忽 略其他的内容;另外,g o o g l e 对中文网页的检索远不及英文检索,这表明对中文网 页的考虑是不够的。 y a h o o 是全球公认最大的商务网站,但是它的多媒体( 图片) 搜索对于双字节的 中文搜索并没有很多的技术积累;沿袭传统目录式浏览的模式,界面风格单;另 外检索出的图片相关度并不令人很满意。 b a i d u ( 百度) 建成世界第一的中文多媒体( 图像) 库,在“目录”和“指南”下 的细日未按一定次序( 如拼音或字顺) 排列;图片资源相对于g o o g l e 显得过于小: 在同- 个搜索结果网页里面往往会出现很多重复图片,冗余信息比较多;主要面向 中文刚页,针对采用非汉字标识( 例如英文、拼音及其它们的缩写) 的u r l 、文件名源 提取不足;另外搜索到的图片相关度刁i 是很高。 浙江人学硕士学位论文 第二章基于w e b 脚本语义的多媒体检索 a l t a v i s t a 一直都是互联网上最大的搜索引擎之一,但不支持自动断词查询;在 更新频率卜- 不是很快,其中文搜索的技术已经有两三年没有改进过,检索内容更新 频率大约是一个月一次;出现同一网站的图片次数太频繁,过滤技术欠佳。 鉴于对上述系统的分析和相关文献f 1 】【6 9 1 ,笔者认为当前引擎存在如下主要问 题: ( 1 ) 没有充分考虑到中英文网页布局、表达上的差异。例如中文u r l 很多采用拼音 的缩写,需要分析之后才可明确各目录表达的信息。 ( 2 ) 针对同一网页出现多幅图片提出的语义提取准则,相互之间没有明确的约束, 在具体实现中容易重复提取( 出王兕重复的内容) ,甚至是错误提取( 显刁i 不相关的内 容) 。 ( 3 ) 关键词提取源主要集中在传统的超链族( u r l ) 和标记上,没有充分考虑到w e b 多 媒体描述风格的多样性。 ( 4 ) 传统标记源语义提取还彳i 够全面。 这些缺陷导致检索结果中出现了重复、无关、繁杂等状况,需加以改进。 语义的表达和提取 w e b 多媒体的语义表达风格是多种多样的。因此我们在语义源发掘和提取方法 方面必须体现这点,以实现基于关键词的最好查全率( r e c a l l ) 并1 3 准确率( p r
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大班幼儿育儿小知识培训课件
- 大洋洲地理课件
- 大棚种苗知识培训课件
- 大棚知识讲解员培训内容课件
- 2025年高温超导材料项目规划申请报告
- 三方商标使用协议
- 输出协议模板
- 海南省公考真题2025
- 2024年安顺市西秀区招聘公费师范生真题
- 绿牌车出租协议
- 2025年体育教练员执业能力考试试题及答案解析
- 2025年住培结业考试题库及答案
- GB/T 17395-2008无缝钢管尺寸、外形、重量及允许偏差
- GB 15630-1995消防安全标志设置要求
- 实习协议模板(最新版)
- 《新视野大学英语预备级1》教案
- 车间拆除及场地土壤治理与地下水修复工程项目技术方案工程方案和设备方案
- 无跨越架封网装置计算程序(直接求解)
- 《病理检验技术》课程标准
- 医务人员礼仪培训
- 五年级上册英语教案-Unit1 We have new friends(Lesson2) |人教精通版
评论
0/150
提交评论