




已阅读5页,还剩80页未读, 继续免费阅读
(通信与信息系统专业论文)语义web若干关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语义w e b 若干关键技术的研究 摘要 在过去的几年中,i n t e r n e t 技术发展迅速。i n t e m e t 给人们提供了 大量的信息,极大的改变了人们进行交流通信的方式。 然而,随着i n t e m e t 的发展,它的弊病也逐渐暴露出来。现在,虽 然人们不再面临着信息不够的问题,但是却面临着信息过量、信息迷 向的问题;同时,由于i n t e r n e t 其特有的开放性,相对于传统媒体, 展现了前所未有的活泼性,这也导致了网上大量不良信息泛滥的现 况。这主要是两个方面的问题:一方面“正确得人往往很难找到正确 的信息”,也就是信息查找的问题;另一方面“不正确得人往往很容易 接触到不正确的信息”,也就是信息过滤的问题。 语义w e b 将能k , 很z 好的解决上述的问题。语义w e b 是现在w e b 的 一个扩展,在语义w e b 中信息具有良好的定义,能够使得人类与计 算机更好的协作。语义w e b 将使得网页的内容具有结构和逻辑,从 而创造出一种新的网络环境。一旦网页的内容具有结构和逻辑,那么 信息的获取和信息的过滤都将变得比较容易。 本文首先分析了基于x m l 的w e b 体系结构,分析了w e b 信息空 间,分析了语义w e b 的体系结构,讨论了语义w e b 发展的主要思想。 其次,重点讨论了语义w e b 的语言,分析了x m l 以及r d f ,研 究了基于r d f 的w e b 元数据描述和交换的方法,研究了r d f 与w e b 信息过滤的问题。 再次,研究了语义w e b 的核心本体技术,重点研究了形式化分析 工具和方法,引入了i d e n t i t y 、u n i t y 、r i g i d i t y 以及d e p e n d e n c e 四个 本体的基本性质,结合实例讨论了基于元属性的分类技术,分析研究 了本体语言以及本体工具。 接着,研究了语义w e b 内容获取的技术,分析对照了语义标注的 三种方法,对现在内容获取技术的问题进行了分析,并提出了可能的 解决方案。 然后,研究了基于语义w e b 技术的内容安全分级管理体系,分析 比较了内容监管的模式以及方法,研究了基于标记的内容监管技术, 引入了信息网关的概念,给出了基于信息网关的内容监管体系结构。 最后,分析了语义w e b 的可量测性以及语义w e b 经济上的影响, 对语义w e b 技术进行了总结以及展望。 关键词:语义w e b ,元数据,本体,语义标注,内容监管 上海交通大学硕士学位论文 k e yt e c h n o l o g yr e s e a r c h e so n s e m a n t i cw e b a b s t r a c t r e c e n t l y , t h ei n t e r n e th a sd e v e l o p e dv e r yf a s t i n t e r n e tp r o v i d e sp e o p l eah u g e a m o u n to f i n f o r m a t i o n ,a n di th a sc h a n g e dt h em e t h o do f p e o p l e sc o m m u n i c a t i o n s h o w e v e r , w i t ht h ed e v e l o p m e n to fi n t e m e t ,i t sm a l p r a c t i c eh a sb e e ne x p o s e d a l t h o u g hp e o p l ed o n tf a c et h ep r o b l e mo fl e s si n f o r m a t i o na n yl o n g e r , t h e yf a c et h e p r o b l e mo fe x c e s s i v ei n f o r m a t i o ni n s t e a d a tt h es a m et i m e ,c o m p a r e dt ot r a d i t i o n a l m e d i a ,i n t e m e ts h o w si t ss p e c i a ll i v e l i n e s sb e c a u s eo fi t so p e n n e s s ,t h o u g h ,t h e r ei sa h u g ea m o u n to fb a di n f o r m a t i o n t h o s ea r et w op r o b l e m s ,o n ei s “t h er i g h tp e o p l e c a n n o tf i n dt h er i g h ti n f o r m a t i o ne a s i l y ,t h a ti st os a yt h ep r o b l e mo fi n f o r m a t i o n r e t r i e v a l ;t h eo t h e ri s “t h ew r o n gp e o p l ec a nf i n dt h ew r o n gi n f o r m a t i o ne a s i l y ”,t h a t i st os a yt h ep r o b l e mo f i n f o r m a t i o nf i l t e r t h es e m a n t i cw e b ( s w ) c a nr e s o l v et h et w op r o b l e m se a s i l nt h es wi sa n e x t e n s i o no ft h ec u r r e n tw e bi nw h i c hi n f o r m a t i o ni sg i v e nw e l l d e f i n e dm e a n i n g , b e t t e re n a b l i n gc o m p u t e r sa n dp e o p l et ow o r ki nc o o p e r a t i o n t h es ww i l le n a b l et h e w e bp a g e st oh a v es t r u c t u r ea n dl o g i c ,o n c et h ew e bh a ss t r u c t u r ea n dl o g i c , i n f o r m a t i o nr e t r i e v a la n df i l t e ri nt h ew e bw i l lb e c o m ev e r ye a s i l y i nt h i sd i s s e r t a t i o n ,f i r s t l y , w ea n a l y z et h ew e bs t r u c t u r eb a s e do nx m l ,a n a l y z e t h ew e bi n f o r m a t i o ns p a c e ,a n a l y z et h ew h o l es t r u c t u r eo ft h es wa n dd i s c u s st h es w m a i n p r i n c i p l e s s e c o n d l y , w ed i s c u s st h es wl a n g u a g e ,a n a l y z et h ex m l a n dr d f , r e s e a r c ho l l h o wt od e s c r i b ea n de x c h a n g ew e bm e t a d a t ab a s e do nr d fa n dt h eh o wt od e s c r i b e p i c sr a t i n gv o c a b u l a r i e si nx m l r d f t h i r d l y , w er e s e a r c ho nt h eo n t o l o g yt e c h n o l o g y , w h i c hi st h eb a c k b o n eo fs w w er e s e a r c ho nt h ef o r m a lt o o l sa n dm e t h o d so fo n t o l o g i c a la n a l y s i se s p e c i a l l y w e i n t r o d u c ef o u rf u n d a m e n t a lo n t o l o g i c a ln o t i o n s :i d e n t i t y , u n i t y , r i g i d l ya n d d e p e n d e n c e w ed i s c u s sat a x o n o m yc i e a n i n ge x a m p l eb a s e do nm e t a p r o p e r t ya n d r e s e a r c ho nt h eo n t o l o g yl a n g u a g e sa n do n t o l o g yt o o l s t h e n ,w er e s e a r c ho nh o wt og e ts wc o n t e n t ,a n a l y z ea n dc o m p a r et h r e e s e m a n t i ca t m o t a t i o nm e t h o d s w ea n a l y z et h ep r o b l e m so fc u r r e n ts wc o n t e n t i i l 上海交通大学硕士学位论文 m e t h o d s ,a n dg i v et h es o l u t i o n sw h i c hc a r lb ee x p l o r e d a f t e rt h o s e ,w er e s e a r c ho i lt h ea r c h i t e c t u r eo ft h ec o n t e n tc l a s s i f i c a t i o n s u p e r v i s i o ns y s t e mb a s e do nt h es wt e c h n o l o g y w ea n a l y z ea n dc o m p a r et h ec o n t e n t s u p e r v i s i o nm o d e sa n dm e t h o d s w er e s e a r c ho nc o n t e n tc l a s s i f i c a t i o ns u p e r v i s i o n t e c h n o l o g yb a s e dt h ec o n t e n tl a b e la n dp r o p o s et h ea r c h i t e c t u r eo fc o n t e n ts u p e r v i s i o n b a s e do i li n f o r m a t i o ng a t e w a y f i n a l l y , w ea n a l y z et h es c a l a b i l i t yo fs wc o n t e n t ,t h ee c o n o m i ci m p a c to ft h e s wa n ds u m m a r i z et h es w t e c h n o l o g ya n dd i s c u s st h ep r o s p e c to f t h es w k e yw o r d s :s e m a n t i cw e b ,m e t a d a t a ,o n t o l o g y , s e m a n t i c a n n o t a t i o n ,c o n t e n t s u p e r v i s i o n 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存和汇编本学位论文。 保密函,在三年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上方框内打“”) 学位论文作者签名:许床群 日期:三口。;年,月尹e l 指导教师签名:磅童群 日期:p 0 3 年1 月彤日 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:译,穆碍 日期:加 年,月烨日 答辩委员会成员 姓名工作单位专业技术职务签名 急枷牟匕湛瑟只、扣 f 鼻 弘疆俘私旨 粗耸 。商孺 石擗 蔼爰一7 三,1 相惬喃最 钒眇 一, 、,李生红 叫向萎 v , 。1 。忻移乙 答辩评语和决议: 论文针对语义w e b 的关键技术包括体系结构、发展思想、语言、核 一t l , 部分本体技术以及内容获取技术等关键问题进行了研究探讨,对存在 的问题提出了可能的解决方案,同时沦文还结合实际项目重点研究了基 于语义w e b 的内容安全分级管理体系结构。 该论文选题先进、内容充实、分析t f 确、条理清楚、具有一定的新 意,反映了作者具有较扎实的理论基础和较强的科研能力,该论文已经 达到了硕士学位沦文的要求。 许崇祥同学在答辩过程中能清楚的说明自己的研究工作,回答问题 正确,经过答辩委员会认真讨论,投票表决,一致同意许崇祥同学通过 论文答辩,并建议学校学位委员会授予其工学硕士学位。 表决结果: 狙逸也 答辩委员会主席:e m ”7 l ( 签名) o们月,fr 上海交通大学硕十学位论文 第一章引言 1 。1 目前的互联网所面临的问题 在过去的几年中,互联网技术获得了飞速的发展,网页、主机以及域名的数 量以惊人的速度持续不断的增氏f 1 。现在,互联网上大约有数量超过4 0 亿的网 页,根据预测,网页的数量在2 0 0 3 年将超过1 6 5 亿 2 】。每天,在互联网上新增 加数量大约3 0 0 万的网页或者说每天有5 9 0 亿字节的文本被新增加,一个网页平 均的生存时间为4 4 天 3 o 如果一个人想要每天和网页的内容保持一致,那么他 就需要每秒钟能够下载一千万字节才能够实现 4 1 。互联网主机的数量正以指数倍 的速度增长。图l 一1 显示了互联网主机增长的速度。现在,人们面对的不再是信 息不够的问题,而是信息过量、信息迷向的问题。 m 0 88 0 ,帅0 ,0 图1 - 11 9 8 9 2 0 0 2 年互联网主机的数量”1 f i g u r e1 - 1i n t e m e th o s tn u m b e r ss i n c e1 9 8 9u p t o2 0 0 2 【4 由于互联网的开放性和普遍性,“任何事务可以说有关任何事务的任何事 务”,这就带来了一个严峻的问题,一方面“正确得人往往很难找到正确的信息”, 例如:我们要查找有关“c a ( c e r t i f i c a t i o na u t h o r i t y ,证书授权) ”的资料,我们 输入关键字“c a ”,搜索引擎却往往返回很多有关美国c o m p u t i n g a s s o c i a t e s ( c a ) 公司、加拿大( c a n a d a ,简写为c a ) 甚至钙( c a l c i u m ,简写为c a ) 信息,我们就不得 不再花费很多的时间和经历在众多的返回信息中查找我们真正需要的资料;另一 方面“不正确得人往往很容易接触到不正确的信息”,例如:儿童很容易接触到 有关的色情、暴力的新闻,而这往往是父母所不希望看到的。因此面对着浩如烟 海的错综复杂的信息,如何帮助人们有效地选择和利用所感兴趣的信息,尽量易 除不相关、无聊以及不良的信息,同时保证人们在信息选择方面的个人隐私权利, 成为学术界和企业晃所十分关注的焦点。 上海交通大学硕士学位论文 1 1 1 信息查找的问题 面对着海量的信息,即使最大的、最普遍的搜索引擎,如a l t a s t a n l t 晒:, h w i a l t a v i s t a c o m ) 以及h o t b o t ( h t t p :w w w h o t b o t c o m ) , 在1 9 9 7 年 的时候仅仅索引了3 5 左右的可以获取的网页信息 5 】。图1 2 显示了截止到2 0 0 1 年底几个流行的搜索引擎的网页索引率。现在g o o g l e ( h t t p :l l w w w g o o g l e c o m ) 可 能是最大的搜索引擎,大约已经收集了2 0 亿的网页,大约已经覆盖了4 0 的公 开的可以获取的网页资源。 图1 - 2 几个流行搜索引擎的w e b 覆盖率”1 f i g u r e1 - 2w e bc o v e r a g ep e r c e n t a g eb yp o p u l a rs e a r c he n g i n e s 【6 网页搜索引擎产生并且维持一个由它们在互联网上发现的文档中的词语构 成的索引,他们返回用户一个由与用户输入的关键词相关的信息构成的有级别的 列表作为搜索的结果,但是往往只有很少的结果对于用户来说是有价值的,大部 分返回的结果是没有用的,用户往往需要从返回的许多搜索结果中再进行人工过 滤。随着互联网的持续发展,这些普通意义的搜索引擎面临着越来越严重的问题。 一方面,他们的索引不能覆盖到全部的公开的信息,或者已经覆盖的信息已经过 时了,但是引擎没有相应的更改,最重要的是,他们不能覆盖到隐藏的需要身份 认证的信息,而这些隐藏的需要认证的信息往往是最重要的信息;另一方面,搜 索引擎返回的信息往往大部分对用户来说是没有价值或者是价值很小的。 1 1 2 信息过滤的问题 许多文档系统被设计用来收集、贮藏一些特殊的信息,一个用户可以假定在 这些系统中的信息具有一定程度的“质量”( q u a l i t y ) ,然而,互联网1 壬何东西都能 够与其他任何东西链接”的特性决定了信息的差别在网络中很难得到体现,网络 技术不会区分潦草写成的草稿与精细修饰的成品,不会区分商业信息与学术信 息,不会区分各种不同的文化、语言。媒体等等。现在的互联网上既有垃圾又有 宝石,为了使用户能够放心的使用互联网,用户必须能够控制这些结合用户的意 见以及有关信息的信息策略进行有效过滤的技术_ j 。 上海交通入学硕上学位论文 我们都知道,一系列技术的报告,只会包括达到了某个一定标准的文档,而 网页本身不能提供这个标准,并且不得不能够承载各种各样的信息,美丽的和丑 陋的,诚实的和欺骗的。例如,互联网上充斥着大量色情、暴力的不良信息,全 球7 5 的家长明确表示,担心这些不良信息对孩子的负面影响。因此有些用户 肯定会要求所有的信息能够被组织和过滤,但是,现在互联网的无中心的特性表 明,通过一个中心机构来组织和过滤这些信息是不可能的,并且每个人的标准是 不一样的,一个人列出的分类标准也仅仅使他一个人的观点。如何才能够给拥有 不同标准的用户一个有关高质量的主观的理解,同时能够保持互联网的开放性 呢? 答案就是通过过滤,传统的审查机关通过强制的阻止人们之间的交流来实 现,而过滤是通过用户自己来控制。但是要直接对海量的毫无规范的信息直接进 行过滤是不现实的,一种可以实现的方法就是通过对有关信息的信息间接进行管 理,比如:一些系统包括了一些“希望的站点”列表或者“不希望的站点”的列 表,父母如果不希望自己的孩子看到有关色情、暴力的信息,他们就可以通过控 制系统来控制子女们无法看到他们不希望孩子看到的站点。这种有关信息的信息 就是元数据。然而,遗憾的是,现在互联网上几乎没有元数据。 1 2 问题的分析 当前的互联网获得如此飞速发展的一个根本原因就在于它的基础h t m l 的 简单性,h t m l 仅仅被用来简单的说明文档的结构和层次,而不是文档的语义; 万维网的发明者t i m b e m e r s l e e 认为w w w 还只是一个具有叛逆精神的“青春期 少年”,其技术水平和操作功能尚不尽如人意,并非成熟到完全能够实现自己发 明它时的初衷。比如,h t m l 功能现在看来仍然比较死板。这种语言只能决定网 页的外观,只能规定用什么样的字体,什么地方用什么颜色、哪些地方插入何种 图片文件等等。对于多数电脑程序及浏览器而言,这些语言或语句既杂乱无章也 毫无意义。在i n t e m e t 上传递h t m l 文档时,从文件角度和工作原理来说,当用 户对其中某个词感兴趣,只需以鼠标点击这个词的u r l ( u n i f o r mr e s o u r c e l o c a t o r ,通用资源定位符) ,就会立刻链接到特定的文件( 资源) ,而这个文件就 是对该词的进一步解释。新的文件又可以照此方法重新链接另一个文件,如此 这般地链接下去。这是h t m l 及基于t c p i p 协议之上的超文本传输协议h t t p 最突出的功能特点和技术优势之一。然而在没有任何线索的情况下,由h t m l 支持的搜索引擎在分析和检索网络信息时,目前尚不能百分之百正确地理解词语 及其概念的涵义,更不可能由此而准确地推导和梳理出其间的逻辑关系,因而也 就难以帮助人们解决许多难以克服的难题。超文本链接的威力在于“任何东西都 能够与其他任何东西链接”,这就直接导致了现在互联网内容的无序性,缺乏规 范。所以,目前为止的万维网都是作为一个供人们使用的文件的载体而不是一个 可以自动处理的数据与信息的载体而极其迅速的发展起来的。现在的互联网主要 是向人们展示信息,w e b 浏览器、w e b 服务器以及搜索引擎等根本就不能区分 天气预报和科学文档,不能区分一个个人主页和一个著名公司的主页【8 ,这种机 器能够处理信息内容的能力的缺乏将严重的影响现在的互联网的功能:计算机被 限制为仅仅传播以及展示信息,不能真正的帮助我们处理这些信息。 在互联网发展的过程中,有三大技术起了决定性的作用:第一是分组交换与 中介信息处理器的发明,使分布式网络a p a r n e t 得以诞生:第二是t c p i p 协议 上晦交通大学硕士学位论文 的提出和实施,便a p a i h i c t 得以扩展延伸,数据传输畅通无阻;第三是h t m l 与w w w 的出现,使得一个全球最大的信息资源利用系统诞生。从网络分层的 角度讲,分组交换技术和中介信息处理器的发明似的物理层的扩展成为可能, t c p i p 协议的提出和实簏在网络层上统一了机器交互的语法。这两层都属于信 息基础设施,技术已经趋于成熟,不管怎样总是朝着超高带宽的方向发展,但是 有一点是肯定的,那就是他们都要对应用层透明。所以从目前的状况来看, i n t e r n e t 要想完全发挥威力,不仅在于更快的c p u 、更好的服务器以及更宽的带 宽,还在于建立一种有利于交流和对话的机制,在于发展一种更有利于相互理解 的基础技术。这种技术必须从最基本的信息表示和交换开始,排除一切平台和语 言的分歧,以自由、平等、开放为原则,以对人类对现实世界的一致理解为基础, 为全人类提供一种全新的高质量的信息服务。而要提供这种服务根本在于应用层 技术的革新,而应用层要从根本上获得发展,只有走统一语义的道路桫j 。 1 3 问题的解决 1 9 9 8 年,万维网的发明者t i mb e m e r sl e e 提出了语义w e b ( s e m a n t i cw e b ) 的概念,他将语义w e b 定义为“语义w e b 是现在w e b 的一个扩展,在语义w e b 中信息具有良好的定义,能够使得人类与计算机更好的协作”【1 。t i mb e m e r sl e e 所领导的非赢利性组织w 3 c 于2 0 0 0 年创建了w w w s e m a n t i e w e b o r g 网站。语 义w e b 简单的说就是计算机能够理解并处理的一类新型网络。前面讲到,万维 网的根本性质就是它的普遍性,信息的差别在现在的网络中很难得到体现。信息 的差别可以表现在很多方面,其中之一就是主要供人们利用而产生的信息和主要 供机器处理而产生的信息二者之间的差别。前者包括从电视广告到诗歌的所有各 种文化信息,而后者则包括数据库、程序以及传感器输出等等。语义w e b 的目 标就是要弥补信息的差别很难得到体现这一缺陷。 在语义w e b 中,w e b 的内容不仅仅用来显示,更重要的是具有真正的含义, 使得可以用软件工具在w e b 中漫游来处理用户提出的复杂任务。在s e m a n t i c w e b 看来,w e b 上的定义和关联的数据都可以被机器使用,不但可以显示,还可以在 各种各样的应用中使用。它认为数据和软件都可以是网络上的资源,软件就是网 络中些组件的组合。它的建设分成三个步骤:通过标记语言( 如x m l ) 定义 一套术语,形成某个领域的o n t o l o g y ,这样不断地在网络中建设很多o n t o l o g y ; 然后编制软件,能够根据o n t o l o g y 之间的关系进行推理;最后基于推理软件建 设应用。t i m b e r n e r s l e e 认为:s e m a n t i c w e b 将会给网页有意义的内容带来结构, 从而为网络中的代理了用户复杂需求的a g e n t 提供一个具有足够信息丰度的环 境。s e m a n t i cw e b 是一种概念框架,具体实现需要由不同的领域中的专家和实体 努力才能完成。它提出的是一种通用的思路。 语义w e b 将使得网页的内容具有结构和逻辑,从而创造出一种新的网络环 境。一旦网页的内容具有结构和逻辑,那么不难想象,信息的获取和信息的过滤 都将变得比较容易。例如:要查找一个叫l e o p o l d 得人,那么旦语义在万维网 上获得普及之后,一个搜索程序可以根据若干“七拼八凑”的片断记忆正确的找到 一个人( 这些记忆包括,该人叫l e o p o l d ,他所在的公司是你的一位客户,他有 一个孩子在你的母校上学等等) 。这些信息的正确组合并不存在于单一网页上, 但是语义w e b 使得程序能够更加容易的识别分布在不同网页的各个要素。更 般的说语义将使复杂的过程与交易能够自动的执行。 4 上海交通大学硕士学位论文 1 4 本文的内容安排 本文在第二章中将首先讨论基于x m l 的w e b 体系机构,讨论w e b 信息空间; 然后将对发展语义w e b 的代价进行探讨,给出语义w e b 的体系结构;接着将讨 论语义w e b 发展的思想;最后将分析语义w e b 的分层结构。 在第三章中,本文将首先讨论x m l 的特点,然后详细地研究语义w e b 的基 础r d f ,讨论r d f 的特点,介绍r d f 的两个规范- r d f 模型和语法规范以及 r d f 模式规范:研究基于r d f 的w e b 元数据描述和交换技术:最后将讨论基于 ) f 的w 曲信息过滤技术。 在第四章中,本文将主要讨论语义w e b 的核心部分一本体。首先将介绍什么 是本体、本体的研究现状以及本体的作用;然后结合一个实例重点研究了本体的 方法论一形式化分析方法;最后将讨论本体语言以及本体工具。 在第五章中,本文将首先讨论获取语义w e b 内容的方法,分析语义标注方法 的分类;然后将研究内容获取的技术;最后对目前内容获取技术存在的问题进行 分析,并提出可能的解决方案。 在第六章中,本文将首先从监管需求和监管难度两方面阐述内容监管模式研 究的必要性;然后从网络的不同位置指出- - e e 可能的监管模式分析当前存在的两 种监管手段;然后将详细阐述基于标记的内容监管方法;最后将给出以信息网关 为中心的内容监管体系结构模型。 最后,在第七章,本文对语义w e b 技术进行了展望与总结。 上海交通大学硕士学位论文 第二章语义w e b 整体结构和思想 2 1 基于x m l 的w e b 体系机构 传统的w e b 的体系结构中客户端是一个浏览器,如图2 1 所示,它充当着浏 览者的代理角色。比如你要访问h t t p :w w w s j t l l e d u c 1 1 时,就进行了下面的三步 处理: 1 ) 浏览器与i n t e r n e t 上的目录服务器计算机联系,以获得请求的w e b 网页 的i n t e r a c t 地址。该网页是用h t m l 编写的文件。 2 ) 如果找到了该地址,浏览器就会与w e b 站点联系并请求获得该文件。 3 ) 如果请求的文件可以使用,站点就会通过i n t e r n e t 将它发送给浏览器, 浏览器就会翻译文件并显示文件内容。 一震 客户端浏览器带有c g f 或者a s p 脚本的h t t p 服务器 图2 一i 传统的w e b 结构 f i g u r e2 - 1c o n v e n t i o n a lw e bs t r u c t u r e 如果客户端浏览器或者程序将一个x m l 文档作为请求发送给服务器,如图 2 2 所示。这就给我们带来了以下几点好处:我们不再局限于基于浏览器的客户 端。因为x m l 本身就是数据,而且可以由程序任意地进行控制。同样的数据, 既可以设定其样式化在浏览器中显示,也可以交给一个代理进行后台处理。在这 种机制中,x m l 文档无需假设数据的最终用途。服务器端的应用程序与客户端 的耦合程度要松散的多,因为程序具备了找出x m l 文档的结构的能力。这样一 来,富有创新意义的应用程序就可以根据程序的要求编写结构新颖的各类文档, 应用程序也无需为每一种新的文档类型编制定制的软件。 在不久的将来,网络中的服务器、客户机以及应用程序都将使用这种机制交 换数据。事实上,任何一种平台都支持这种机制,它使用简单,能够处理来自不 同数据源的标记数据。应用程序的开发者可以使用来自非传统数据源或者其他服 务器的数据以满足客户端的请求。自此,w e b 开发已经从客户机i n 务器计算机 体系迈向真正的多层模式。 上海交通大学硕十学位论文 2 2w e b 信息空间 带有脚本的h t t p , 日e 务器 图2 - 2x m l 下的w e b 结构 f i g u r e2 - 2w e bs tr u c t t i r eu n d e rx m l 有器 w 3 c 联盟在其主页h t t p :w w w w 3 o r g 明确提出它的任务是将w e b 引向它的 完全潜力一l e a d i n gt h ew e bt oi t sf u l lp o t e n t i a l 。“完全潜力”主要包含两个含义: 首先是一种人与人交流的手段,其次是软件主体成为人类的一个辅助工具。 2 2 1h t t p 空间 w e b 体系结构最基本的定义是全球资源标识( u n i v e r s a lr e s o u r c ei d e n t i f i e r , u r l l 。w e b 上的任何东西唯一地由一个不透明的字符串( 一个u r i 和一个分段标 识符1 来表示。最著名的u r 空间是h t t p 空间。 h t t p 空问包括两部分,一部分是使用域名系统( d o m a i nn a m es y s t e m ,d n s ) 的层次化来表示,另外一部分是不透明字符串,由拥有域名的本地权威机构来定 义它的意义。对于整个h t t pw e b 来说,d n s 根是一个关键性的资源,将它作 为一个整体公平的进行管理是十分重要的。 为了解决与h r r p 相关的许多命名问题,u r n ( u n i f o r mr e s o u r c en a m e s ) 便 被提了出来。如果创建一个新的空间,它就可以作为通用u r i 空间的子空间, 从而使得w e b 的通用性得到保持,也使得新空间的功能可用于所有的空间。 目前在i n t e m e t 上,协议往往被固定用于某种应用,比如:h t t p 被用于w e b 页面,n n t p 被用于网络新闻,s m t p 被用于e m a i l 消息,然而它们所传输的对 象大多是m i m e 对象。显然,如果机器、网络以及软件代理能够自适应的决定 使用那一种协议来发布信息将是一件非常理想的情况。 2 2 2 内容以及远程操作 u r i 规范定义了一个空间,它是u r i 和资源之间的一个映射。为了使用该空 l 海交通大学硕士学位论文 间的内容,便需要解析标识符的运算。在h t t p 中这通过 g e t ”操作来实现。除 了g e t 以外其他任何方法的使用都是不正确的,因为这样就会形成另外的独立 的空间,从而破坏了统一性。 h t t p 的扩展即包含一个自适应系统,作为一个实际的或者预期的需求的功 能,用于信息的预发布和用于副本的定位,使目前混乱的s m t p 、n n t p 、h t t p 以及h t t i p s 协议实现优化,这是一个非常值得研究的领域。 2 2 2 1 远程操作 h t t p 最开始的时候被设计为针对一个对象进行远程操作并具有一个灵活的 方法集的协议。分布式面向对象系统,如c o r b a 、d c o m 以及r m i 与w e b 地 址空间在某些方面有比较大的区别。鉴于此,h t t p 。n g 组织对未来的n g 发展 进行了对方面的调查,比如远程过程调用和已经有的w e b 协议的可能的统一; 然面,这一研究工作并没有得到很好的效果。不过x m l 给这个问题的解决带来 了一线曙光。 h t t p 和x m l 都遇到了可扩展性的问题。x m l r d f 扩展模型足以满足远程 过程调用的需要,并且远程过程调用消息是结构化文档的先例。采用远程过程调 用系统并将它在r d f 模型中表示出来将是一个很合理的结果。 2 2 2 2 消息和文档 新的协议应该从消息交换的意义来定义,这里的消息就是x m l 文档,实际 上也就是r d f 文档;商务协议是使用放在w 曲上的文档或者是用i n t e r n e t 通过 s m t p 或者h t t p 发送的文档来定义的。因此可以认为消息和文档是同样的,不 仅能在给文档签名的地方提供消息签名,还能在给二进制编码的地方提供二进制 编码。 对于h t t p 协议发展的目标应该包括: 1 ) 一个允许多个并发消息交换的协议。 2 ) 一个数据类型标准,用于与具有名称空间的x m l 文档样普通和一样 可扩展的对象 3 ) 一个模式系统,允许定义c o r b a 、d c o m 、r m i 等远程过程调用接口, 并且具有用于远程过程调用传输的格式。 4 ) 对远程过程调用状态转换协议的扩展,允许w e b 应用所需的异步性。 5 ) 复杂的社会传媒协议在新的远程过程调用功能上的实现。 2 2 2 3 访问协议的扩展 w 3 c 在协议扩展方案上的工作已经开展了很长时间,但是没有在h t t p l 1 中大规模采用,而是采取了补充规范说明的形式。许多特征如p i c s 如果能在早 期的h t t p 协议版本中定义,那么现在肯定不但可以避免很多麻烦,而且肯定能 从中受益不少。因此下一代协议如h t t p 。n g 的扩展就显得尤为重要,丽从数据 格式的可扩展性中得到的经验对h t t p n g 的扩展有所帮助甚至能被h t t p n g 直接使用。 协议或者数据格式的规范说明必须考虑并且区分必需的和可选的扩展。能够 在x m l 中做到这一点是非常重要的。 l 海交通大学硕士学位论文 2 2 3 数据格式 2 2 3 1 格式协商 当u r i 体系结构被定义,并且人们已经使用了至少一种可解析的协议后,人 们对一个可互操作的全球超文本系统的需求至少是可用于资源内容或者w e b 对 象的一个公共格式。 w e b 初始设计假定了将会持续有大量的私有数据格式的增长,因此h t t p 被 设计为具有客户端和服务器协商公共格式的特征。 2 2 3 2m i m e 类型 在h t t p 中,数据的格式是通过m i m e 类型定义的。形式上这涉及到i a n a 维护的中心注册,但是在体系结构上,w e b 本身应该能作为一个新类型库被使用。 2 2 3 3 结构化文档的通用语法:l 尽管任何人都可以在一种新语言中自由使用任何语法,但是共享语法有明显 显著的优点,以至于新语言都用x m l 编写。除了共享工具、解析器和理解力所 产生的高效率之外,它还承担了以国际化的方式提交给x m l 的工作,以及可扩 展性。 2 2 3 4 名称空间 对x m l 的种种需求表明x m l 语言必须具有以下几个特征: 1 1 必须能够精确的将语言定义为第一类对象。 2 ) 必须能以多种语言混合形成文档。 3 ) 每一个文档应通过它所用语言的u r i 成为自定义的。 4 1 必须能够理解一个文档子集。 当使用一种新的语言的时候,新语言或者扩展已有语言的新特性必须作为一 个新的名称空间被定义。一个名称空间的u r i 必须用于识别语言。x m l 应被认 为是包含x m l l 0 和名称空间两者。1 9 9 9 年提供了x m l 和r d f 模式语言可用 的草案。新的名称空间必须设计成为模式语言草案的测试案例,并且不依赖于 d t d 的功能。 新的语言( 名称空间) 可以通过两种方式引入。一种是作为一个全新的应用, 另外一种就是作为已有的应用,如h t m l 或者r d f 的扩展。 名称空间文档是语言发布者保存关于名称空间的定义资料的地方,它可包括 或者链接到: 1 ) 按照句法的约束( 如在x m l 模式中) 。 2 1 属性的范围或者域( 如在r d f 模式中) 。 3 1 用于语言表现的默认的或者强制性的样式表( 如在c s s 或者x s l 中) 。 2 2 4 人类可读信息 人类可读信息指的是传统意义上用于人类消费的文档。尽管机器可以传输、 上海交通大学硕士学位论文 提交、分析和索引这些文档,但是理解它们的思想是人工只能的问题,不将它作 为w e b 体系结构的一部分来讨论,也不是本文研究的内容。所以,当我们谈到 机器可理解的文档的时候,我们指的是显示的为机器推理准备的数据,也就是语 义w e b 的一部分。 2 2 4 1 形式和内容的分离 s g m l 组所提倡的一个体系结构规则就是形式与内容的分离。它是w e b 体系 结构一个实质部分,这将使得设备的独立性成为可能,也有助于分析和处理。 h t m l 中表现信息的加入使其可使用样式表,但是这样就违背了形式和内容分离 地原则。因此,该规则适用于除了h t m l 之外地许多规范的说明,比如:在数 学标记语言( m a t hm a r k u pl a n g u a g e ,m a t h m l ) 中存在两个层次的语言,个与数 学上的意义有关,另一个仅仅表明物理外观。 2 2 4 2 图形 用于人类可读信息的不同语言的发展是可以相对独立的。所以2 d 图形语言 ( 如p n g 和s v g ) 是真正独立于3 d 语言( 如v r m l ) 以及文本语言( h t m l 和m a t h m l ) 的。 2 2 4 3 t t m l 、x i - i t m l 以及转换策略 通用文档语言的价值非常大,以至于h t m l 在w e b 上获得了绝对主导的地 位。w 曲应用程序需要能够处理h t m l ,因为它是w e b 的连接组织,但是它在 体系结构上并没有什么特别的位置。未来的发展计划是将h t m l 从一个s g m l 应用移植到作为一个x m l 名称空间来定义。 从现在的h t m l 到未来基于x m l 的h t m l 的转换策略实施起来比较困难, 主要因为: 1 1 目前很多网页不符合h t m l a 0 标准,同样也不符合s g m l 。 2 ) 浏览器必须保持在很长时间里能够读这些已经有的网页。 3 ) 大部分现有的浏览器不能够解析x m l 。 然而,x h t m l 能够编写形式良好的x m l 文档,同时浏览器将其显示为 h t m l 并且能够被正确地解析;同时人们可以通过名称空间声明区分一个旧的 h t m l 文档和一个x m l 文档,所以经由x h t m l 从h t m l 过渡到x m l 是一个 可行的选择。 转换策略第一阶段是在一个站点内使用x m l ,并且用于内部文档,同时将 网页格式化为x h t m l ;这将使得网站能够使用许多的x m l 工具,在一定程度 上刺激了x m l 工具的发展。第二阶段是网站将h t m l 页转换为x h t m l 页。 这样的动机就是能够直接在网站上使用x m l 工具;这将产生一个形式良好的 x m l 页的基础,并且有利于在浏览器和搜索引擎中加入x m l 解析。 在转换阶段,任何找到x m l 文档的x m l 浏览器都必须假定
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 稻谷淀粉含量测定工艺考核试卷及答案
- 轻质石膏板生产工艺考核试卷及答案
- 五下从军行教学课件
- 2025年呼吸内科副主任医师题库试题附答案
- 光电子材料化学气相烧结工艺考核试卷及答案
- 教师教学课件在哪里找到
- 制作远教扶贫教学课件
- 照护服务考试题库及答案
- 往届证券考试题库及答案
- 发动机叶片整形修复质量监控工艺考核试卷及答案
- 2025至2030中国富锂锰基正极材料行业全景调研及竞争规模调查报告
- 挂名法定代表人协议
- 高中物理课程标准2025
- 人教版八年级下册道德与法治第三单元第五课5.3基本政治制度教学设计
- 饲料营销技巧培训
- 防治地质灾害培训课件
- 秋季肠道疾病预防
- 2024中国中煤销售集团总部及所属企业电力营销专业人才招聘笔试参考题库附带答案详解
- 初中英语沪教牛津版单词表(共6册)
- 学校安全隐患自查报告及整改措施
- 酒店客房验收工程项目检查表
评论
0/150
提交评论