已阅读5页,还剩59页未读, 继续免费阅读
(管理科学与工程专业论文)基于语义网技术的web数据获取与集成研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着i n t e r n e t 及其相关技术的飞速发展,信息的发布与传播变得非常的简 便和迅速,w w w ( w o r l dw i d ew e b ) 已成为了最大的信息集散地,同时也伴随着 一个重大的问题信息泛滥。它给w e b 上有效信息的获取和利用带来了一定的 困难。 如何让用户更加迅速地获取w e b 上的大量信息,如何让用户更加有效地利用 这些信息这是目前国际上许多机构和组织正在研究的焦点问题,也是w e b 知 识管理与应用的关键技术之一。 为此,本文提出了解决以上问题的一套方案,并介绍了实现相应方案的一套 系统。本文采用s e m a n t i cw e b 提倡的资源描述框架( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ) 和o n t o o g y 技术,重点研究了数据的获取和集成问题。 f 资源描述框架是对w e b 上存在的所有资源进行描述的一种元数据标识方法。 本文所介绍的系统首先抽取w e b 上存在的有效数据并转存为r d f 标识的文档,然 后再对这些文档进行集成,集成为具有相同语义信息和结构的r d f 文档数据库。 数据获取的过程分为三个阶段:定义描述文件、获取网页有效数据和格式转 换。首先要针对要获取数据的网页描述出要获取哪些数据及如何转换成为r d f 文 档,然后由系统来执行数据的获取和格式转换。文中介绍了描述文件的格式和定 义方法,并介绍了数据获取和格式转换的过程。 数据集成的过程也分为三个阶段:定义系统o n t o l o g y ,定义o n t o l o g y 差异 文件及统一文档结构文件和数据集成。o n t o l o g y 是数据集成的基础。文中介绍 了o n t o l o g y 的定义方法,定义工具及在定义完成后数据集成的过程。 为了增加可行性,文中还举了个具体的数据获取和集成的实例网上租 房数据的获取和集成。 最后对论文工作进行了总结和展望,提出了此方面尚需要研究和改进的问 题, , 关键词:数据获取,数据集成,网页包装,s e m a n t i cw e b ,r d f ,o n t o l o g y d a m l + o il 分类号:t p 3 9 t r j 。f v a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e r n e ta n do t h e rr e l a t i v et e c h n o l o g i e s ,i n f o r m a t i o n p u b l i c a t i o na n dc o m m u n i c a t i o nb e c o m em o r ea n dm o r ec o n v e n i e n ta n ds p e e d yo nt h e w e b w w w ( w o r l dw i d ew e b ) h a sb e c o m et h el a r g e s ti n f o r m a t i o nd a t a b a s e ,b u tab i g p r o b l e m - i n f o r m a t i o no v e r f l o wh a p p e n s i ti sd i f f i c u l tf o rt h eu s e r st oo b t a i na n du s e t h eu s e f u ii n f o r i l l a t i o no nt h ew e b h o wc a l lt h eu s e r sg e tt h ei n f o r m a t i o no i lt h ew e bm o r eq u i c k l y ? h o wc a nt h e u s e r su s et h ei n f o r m a t i o nm o r ee f f e c t i v e l y 7 i ti saf o c a lp r o b l e mt h a tm a n y i n t e r n a t i o n a lo r g a n i z a t i o n sa n dg r o u p sa r ed o i n gt h er e s e a r c h ,a n di ti sa l s oo n eo f t h e k e yt e c h n o l o g i e so f w e bk n o w l e d g em a n a g e m e n ta n da p p l i c a t i o n s o ,t h i sd i s s e r t a t i o nh a sp r o p o s e das o l u t i o nt os o l v et h ep r o b l e md i s c u s s e da b o v e a n di n t r o d u c e das y s t e mo fi m p l e m e n t i n gt h es o l u t i o n t h i sp a p e rh a sa d o p t e dt h e r d fa n do n t o l o g yt e c h n o l o g i e so ft h es e m a n t i cw e b t h ek e yp a r to ft h ep a p e ri s a b o u td a t ae x t r a c t i o na n di n t e g r a t i o no f t h es e m i s t r u c t u r e dd a t ao nt h ew e b r d fi sa ni n f r a s t r u c t u r et h a te n a b l e st h ee n c o d i n g ,e x c h a n g ea n dr e u s eo f s t r u c t u r e dm e t a d a t a i ti su s e dt od e s c r i b et h er e s o u r c e se x s i t i n go nt h ew e b t h e s y s t e mi n t r o d u c e di nt h i sp a p e rf i r s te x t r a c t st h eu s e f u ld a t aa n ds t o r e st h ed a t ai n r d fd o c u m e n t s t h e nt h es y s t e mi n t e g r a t e st h er d fd o c u m e n ti n t oar d fd o c u m e n t d a t a b a s ew i t lt h es a n l es e m a n t i c sa n ds t r u c t u r e t h ed a t a e x t r a c t i o np r o c e s sc a nb ed i v i d e di n t ot h r e ep h a s e s :d e f i n i n gt h e s p e c i f i c a t i o nf i l e ,e x t r a c t i n gt h eu s e f u ld a t ao nt h ew e bp a g ea n dt r a n s f o r m i n gt h e f o r m a to ft h ed a t a t h i sp a p e ri n t r o d u c e st h ef o r m a to ft h es p e c i f i c a t i o nf i l ea n dt h e c r e a t i o nm e t h o d a n di ta l s oi n t r o d u c e st h ep r o c e s so fd a t a e x t r a c t i o na n df o r m a t t r a n s f o 瑚a t i o n t h ed a t ai n t e g r a t i o np r o c e s sc a na l s ob ed i v i d e di n t ot h r e ep h a e s :d e f i n i n gt h e s y s t e mo n t o l o g y , d e f i n i n gt h ed i f f e n c eo ft h eo n t o l o g i e s a n du n i f o r md o c u m e n t s t r u c t u r ef i l e ,a n di n t e g r a t i n gt h ed a m o n t o l o g yi st h eb a s eo ft h ed a t ai n t e g r a t i o n t h i sp a p e ri n t r o d u c e st h em e t h o da n dt o o lo ft h eo n t o l o g yd e f i n i t i o na n dd a t a i n t e g r a t i o np r o c e s s a ne x a m p l ea b o u th o u s er e n t a lo nt h ew e bh a sb e e np r o p o s e di nt h ep a p e r f i n a l l y , t h i sd i s s e r t a t i o ng i v e sas u m m a r i z a t i o na n df u t u r ew o r ka n dp r o p o s e st h e p r o b l e m st ob ed o n ei nt h ef u r t h e rr e s e a r c h 【k e yw o r d s1 d a t ae x t r a c t i o n ,d a t ai n t e g r a t i o n ,w e bw r a p p e r , s e m a n t i cw e b r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,o n t o l o g y , d a m l + o i l v i 我有一个关于v , a x w 的梦想它由两个部分组成。 在第一部分中,w v , a x 变成了一个有利于人们相互合作的强大 工具。我总是把信息空间想象为某种每个人都可以直接凭直觉获得的 东西,人们不仅可以浏览,而且可以创造它 在梦想的第二部分,合作延伸到了计算机。机器变得可以分析 、) c ,) c ,、) ( ,上的所有数据包括内容、链接、以及人与计算机之间的 交易。能够实现这一切的一种“s e m a n t i c w e b ”尚未出现,但一旦它 出现,每天的交易、行政活动,以及我们的日常生活就将通过机器之 间的对话来完成,而人类只要提供灵感和直觉就行了 t i mb e m e r s l e e ,w w w 的发明者 基于语义网技术的w e b 数据获取与集成研究 第一带动机与综述 1 1 动机 第一章动机与综述 随着i n t e r n e t 及其相关技术的飞速发展,w w w ( w o r l dw i d ew e b ) 已成为了 最大的信息集散地。w e b 上聚集了大量宝贵的信息,但在获取信息的过程中,经 常需要访问多个不同的网站,甚至要对这些信息进行组合比较。然而由于网站的 高度不相关性和结构上的差异性,给用户带来许多的问题:其一,其中有用的信 息也如同w w w 一样分布在“w o r l dw i d e ”,用户难以掌握所需信息的位置;其二, 用户为了查找所关心的页面,不得不首先了解网站的组织结构。尽管网站的这种 结构上的差异性对用户来说并非主要的问题,但它仍然会给用户带来麻烦和不必 要的时间浪费;其三,经常在用户最关心的信息上缺少链接,这样用户就不得不 再一次对信息进行搜索来寻找他们所关心的信息 1 :其四,有用的数据混杂在 无数其它数据中,一般人必须亲自从网页的大量数据中抽取一点点有用的数据, 对于长期的数据分析人员,这样从各个网页中收集信息将是一个不小的负担;其 五,从网上得到的数据都是h t m l 文件,很难把其中包含的信息用于和其它网页 信息进行组合和交叉比较 2 。 语义网( s e m a n t i cw e b ) 的发展前景就是要成为有意义及有效的信息交换、 共享和获取的媒介平台 3 。资源描述框架( r d f :r e s o u r c ed e s c r i p t i o n f r a m e w o r k ) 和x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 技术是实现此前景的一种 重要的信息交换标准 4 ,它们给半结构化文档( 如:h t m l 文档) 增加了结构和 语义信息。到目前为止,已经提出了很多描述r d f 和x m l 文档的方案 5 ,6 ,7 , 8 ,9 ,l o 。n ,1 2 ,1 3 ,1 4 ,1 5 和多种处理r d f 和x m l 数据的复杂方法,特别 在 r d f 和 x 札的查询语言和奄询技术方面,如 1 0 ,l1 ,1 6 ,1 7 ,1 8 ,1 9 ,2 0 ,2 1 ,2 2 ,2 3 。我们在对w e b 上存在的资源进行描述以后, 计算机可以对它们进行自动的搜索和处理。 然而,在实现语义网的美好前景之前,我们不得不来处理大量的用h t m l 来标 识的“历史遗留”数据。而把整个的w e b 信息转换成为结构化的r d f 或x m l 文档 是非常困难的,所以我们只能把目标集中在大量的具有相同主题的m t m l 文档上, 这些h t m l 文档虽然由不同的人来维护的但都具有相同的主题,都在描述相同类 型的信息。例如:各个不同论文网站中的文章信息,各个不同图书馆维护的不同 图书信息,各个不同的房屋租赁中介网站维护的房屋租赁信息,不同公司的财务 信息,不同拍卖网站的拍卖信息( 如:w w w e a c h n e t n e t 和w w w y a b u y c o m 的拍 基干语义网技术的w e b 数据i k 取与集成研究 第一章动机与综述 卖信息) 。 现有技术的缺陷:图1 1 描述了租房网站( w w w a n j i a ,t o m ) 的租房信息 2 4 的例子,先让我们来看一下这些文档的h t m l 源代码。现有的技术在定位隐藏在 h t m l 文本背后的信息:疗面提供了有限的支持。 1 ) 现有的基于关键字的搜索引擎不支持对文档的结构化查询。例如:当 你在查询“具有j a v a 编程技术的人员的简历”问题时。基于关键字的 搜索引擎或许会返回来自印度尼西亚的爪哇岛的人员的简历信息。这 个问题说明应用程序不了解h t m l 文档中的语义信息内容,因为h t m l 是一种外观性的版面性标识语言,它只能定位文本的位置,而不能描 述信息的语义。 2 ) 在搜索结果中所存在的异构( h e t e r o g e n e i t y ) 信息是用户不希望看到 的。例如:一个用户在浏览租房信息时希望看到的是统一风格和相同 含义的的显示,这样就能迅速找到最关心的内容。现有技术都不能很 好地处理这个问题。 3 )从一个用户的角度来看,他非常希望有一个对于这些具有不同风格的 房屋租赁信息集成一个具有近似或一致风格的信息库以便于进行数据 管理。这样的一个集成信息库同样会有助于查询和显示房屋信息。现 有的技术不支持对异构的具有特殊主题文档的自动集成。 在改进以后,我们所得到的是一个r d f 文档的集成库,其中的r d f 文档的语 义信息都使用一致的o n t o l o g y 语义标签。 图1 1 租房信息的h t m l 文档图 上面图中表示内容的h t m l 源代码如下: 委托编号 t d ) 区域 地址 t d 房型 ( a h r e f = r e n t d e t a i l s a s p ? hi d = 1 1 8 8 1 6 1 2 t a r g e t = 一b l a n k l 室0厅 & n b s p : 5 0 0 元月每套 & n b s p : 6 2 5 1 8 3 4 l n b s p : , l f s & n b s p : 长宁区 & n b s p : ( ah r e f = r e n t d e t a i l s a s p ? h i d = 1 2 7 1 5 2 1 0t a r g e t = _ b l a n k 凯旋路靠虹桥路 凯 旋路 & n b s p : l 室1 厅 & n b s p : 5 5 0 元月每套 & n b s p : 6 2 8 0 7 3 8 2 n b s p : 上面的h t m l 代码在转变成r d f 文件如下: z y i 长宁区 定西路,新华路 姆p e l 室o 厅 3 基于语义问技术的w e b 数据获取与集成研究第一章动机与综述 5 0 0 6 2 5 1 8 3 4 i 在转换成r d f 文档以后。用户和其它的应用程序就比较容易地获取和处理这 些信息。可能的应用如下: 用户可以使用r d f 查询语言对这个集成库进行结构化的查询。 可以使那些对这些文档不熟悉的用户对这些文档有一个整体的把握,并 迅速的获得其中的细节信息或者用户所最关心的内容。 可以优化文档的存储。为了方便信息的获取,r d f 的结构可以根据结构 的相似性存储在一起。 1 2 综述 本论文是为了解决在1 1 部分中提出的问题,提出了一个技术解决方案,并 介绍一个相应的w e b 数据获取转换和集成系统,它可以把异构的特殊主题的w e b 文档转换成为遵循统一的o n t o l o g y 的r d f 文档。 1 2 1 方案目标 我们的技术方案可以实现如下目标: 目标l ( 数据抽取) :从w e b 文档中抽取信息。确定抽取网页,描述网页 中要抽取的数据,获取网页代码,抽取其中数据。 目标2 ( 格式转换) :根据r d f 语法把抽取到的数据转换成r d f 格式。格 式转换的描述中包括抽取数据的语义标签名,语义标签的含义,数据所 描述的是资源还是属性,所从属的命名域;如果数据为数字,它的度量 单位信息等等。 目标3 ( 数据集成) :基于所定义的系统o n t o l o g y 对r d f 文档进行集成。 集成包括两部分内容:表示语义的统- a n 文档结构的统一。集成后的文 档具有相同的语义和结构。 1 2 2 系统框架 系统的三个部分实现了上面所描述的三个目标,系统的三个部分分别是:( 1 ) 数据抽取程序,( 2 ) 格式转换程序,( 3 ) 数据集成程序。图1 2 是系统的总体框 4 基于语义喇技术的w e b 数据获取与集成研究第一章动机! l 综述 架结构图。 系统集成的过程从获取w e b 网站上的w e b 文档开始,所处理的所有w e b 文档 都有着相同的主题,都描述同样类型的信息。首先用户对应要获取数据的w e b 文 档进行分析,书写网页描述文件。网页描述文件包含两部分:数据抽取和格式转 换。前者是对w e b 文档中所要抽取的数据的描述,后者是对如何把抽取到的数据 转换成r d f 文件及数据的语义标签和含义( 网站o n t o l o g y ) 的描述。然后数据抽 取程序根据对描述文件中数据抽取部分的描述抽取网页上用户的有效数据。 格式转换程序根据描述文件中的格式转换部分把由数据抽取程序所获取到 的数据转换成r d f 格式的文档。 在转换成r d f 格式文档以后,可能来自不同的网站的具体所包含的内容或意 义会略有不同,数据集成程序首先根据系统o n t o l o g y 与网站数据源o n t o l o g y ( 包 含在描述文件的格式转换部分中) 的差异对这些来自不同网站的r d f 文档进行度 量单位的统一集成,然后根据最终文档结构文件把来自不同网站的信息及成为一 个r d f 文档,进行文档结构的统一。o n t o l o g y 是数据集成的基础。o n t o l o g y 是 关于一组术语的定义,在文章的第二部分会详细描述。 此时,来自不同网站的w e b 文档被转换成为具有相同结构和相同语义的r d f 文档库。其它的应用程序可以对此文档库进行索引,存储和查询,以进行进一步 的利用。 图1 2 系统框架图 基于语义姗技术的w e b 数据获取与集成研究第一章动机与综述 图1 3 是系统对数据的处理过程。w e b 中的具有相同主题的w e b 文档被数据 抽取程序和格式转换程序根据用户对网页抽取数据和如何转换格式的描述转换 成为r d f 格式的文档。然后由数据集成程序根据系统o n t o l o g y 与网站数据源 o n t o l o g y 的差异文件及统一结构文档对r d f 文档进行度量单位统一和文档结构 统一集成,把来自不同网站的数据处理成为一个r d f 的文档库,以利于其它应用 程序的使用。 1 3 文章结构与主要贡献 1 3 1 文章结构 图1 3 数据流图 文章共分为六章,每一章的内容如下: 第一章“动机与简介”介绍了本文的动机,提出了解决w e b 数据获取与集成 的系统的目标和总体框架结构。 第二章“背景知识介绍”介绍了理解本文所需的一些w e b 基础背景知识。首 先介绍了标示语言从s g m l 、h t m l 到x m l 的发展过程。然后论述了本文所基于的 语义网( s e m a n t i cw e b ) 技术的几大关键技术:x m l 、r d f 、o n t o l o g y 。最后介绍了 6 基于语义网技术的w e b 数据获取与集成研究第一章动机与综述 语义网的含义与框架结构。 第三章“数据的获取与转换”介绍了数据获取与转换的方法。首先提出数据 获取与转换需要解决的问题,然后就问题提出了解决的方法,最后介绍了此方面 的研究现状及与本文方法的比较。本章和下一章是本文的核心部分。 第四章“数据集成”介绍了数据集成的方法。首先提出数据集成需要解决的 问题,然后就问题提出数据集成的方法,最后介绍了目前的数据集成方法的相关 研究。 第五章“数据获取与集成实例”就本文提出的数据获取与集成系统在w e b 数 据获取与集成方面的实际应用。 第六章“结论与展望”总结了全文,并且说明了进一步的工作方向。 i 3 2 主要贡献 论文围绕w e b 访问中存在的不便之处,提出了w e b 访问的一种解决方案,文 章的主要贡献如下: 利用当前w e b 流行技术语义网技术对w e b 的数据进行获取、转换与 集成。语义网是下一代的w e b 技术,它可以使计算机能够对w e b 信息进 行自动处理。 提出了对w e b 数据进行获取与集成的一种总体解决方案。它可以初步解 决当前w e b 信息泛滥与难于获取的问题。 对半结构化的w e b 数据的获取方法中提出了利用描述文件对网页数据及 如何转换进行描述的方法。 利用语义网的重要技术资源描述框架( r d f ) 作为数据的表示格式, 可以有利于数据的集成,并能够支持最新的语义网技术。 本文利用o n t o l o g y 的方法进行数据集成,对知识表示与共享具有积极的 作用。 基于语义网技术的w e b 数据获取与集成研究 第一章背景知识介绍 第二章背景知识介绍 2 1 标识语言的发展 2 1 1 s g m l s g m l 是i s o 在1 9 8 6 年所订定的标准,编号是i s o8 8 7 9 。s g m l 是一种元语 言( m e t a l a n g u a g e ) ,元语言是一套可以用来定义其它更专门性的标识语言的通 用规则,h t m l 就是由s g m l 所定义出来,专门使用在w w w 上的标示语言。s g m l 主 要应用在文字资料的交换,但也适用于其它的资料型态,s g m l 是很好的资料储 存格式,适用于任何复杂的文件结构,但缺点是在网络传输( n e t w o r kd e l iv e r y ) 方面较为不便。 2 1 1 1s g m l 的优点 1 有弹性( f l e x i b i l i t y ) :s g m l 能描述任何的信息结构与任何复杂的文件,其 应用可以简单如h t m l ,也可复杂如t e i 、e a d 、c l m i ;s g m l 是完全可扩展的 ( e x t e n s i b l e ) ,可以针对各种类型的文件结构订定出合适的标签集( t a g s e t ) ;s g m l 是理想的资料储存格式,提供了相当多的选项功能,可以适用于 最复杂的信息处理。 2 非专属性( n o n p r o p r i e t a r y ) 、平台独立( p l a t f o r m i n d e p e n d e n t ) 与系统 独立( s y s t e m i n d e p e n d e n t ) :s g m l 并不专属于特定的平台与特定的应用系统, 因此s g m l 文件可以在彼此不兼容的系统间交换,不会造成信息遗失 ( i n f o r m a t i o n1 0 s s ) ,这个特性使得s g m l 文件可以长久保存。 3 信息再利用性( r e u s a b i l i t y ) :透过s g m l 文件内容模块( c o n t e n tm o d u l e ) 的再利用,使得文件的产生更有效率、更经济,s g m l 文件的内容可以重复利 用,或者被其它的s g m l 文件使用,不须重新产生内容。同一份文件内容也可 以透过样式表( s t y l es h e e t ) 以多种呈现方式出版。 2 1 1 2s g m l 的限制 i s g m l 应用程序不易开发:s g m l 庞大且复杂的选项功能虽然使得s g m l 具有较 高的弹性,但也增加了应用程序开发上的难度,即使s g m l 工具的主要供应 厂商a r b o r t e x t 所发表的产品,也没有百分之百支持s g m l 标准。事实上, 基于语义蚓技术的b 数据获取与集成研究第二章背景知识介绍 s g m l 有许多选项很少被应用,如果把这些不常用的选项去掉,将使得应用程 序的开发变得更容易。 2 s l 文件不易在w e b 上传布:要能够浏览s g m l 文件,必须要有文件类型定 义( d o c u m e n tt y p ed e f i n i t i o n ;简称d t d ) 及样式表( s t y l es h e e t ) 。d t d 定义了文件结构间的关系,样式表定义了这些结构的呈现格式,如果少了d t d 与样式表就只能看s g m l 文件的原始代码。由于目前w e b 上的主流浏览器只 支持h t m l ,h t m l 文件并不需要d t d 与分离的样式表,因此s g m l 文件在w e b 上只能透过特定了浏览器( 如p a n o r a m a ) 才能阅读,不过这类的浏览器并不 普及。如果希望s g m l 信息能在w e b 上被大多数人浏览,只好透过转换程序 将s g m l 转成h t m l ,但这样的转换往往会造成信息遗失( i n f o r m a t i o nl o s s ) , 原本s g m l 文件中所标示的结构在转换成h t m l 文件后并无法继续存在。 3 缺法厂商的支持:w e b 上的主流浏览器厂商m i c r o s o f t 与n e t s c a p e 支持h t m l 的发展,但并没有支持s g m l 的意愿:由于s g m l 过于复杂,也只有少数厂商 愿意投资开发s g m l 的相关应用程序,这使得s g m l 在普及上造成很大的障碍。 2 1 2h t m l h t m l 是s g m l 最著名的应用,是一种专为w w w 网页显示及浏览而设计的简易 标识语言,目前是w w w 上制作网页的标准语言格式。w w w 的创始人t i m b e r n e r s l e e 对h t m l 所下的定义是:“h t m l 是一种用以创造超文件的简易资料格 式,其所创造出来的文件可在不同的作业平台间移动。”由此可知,可移植性 ( p o r t a b l e ) 与简易性( s i m p l e ) 是h t m l 的两大特征。h t m l 文件除了包含文字 信息外,尚可包括声音、影像等多媒体信息,而h t m l 的超链接除了网页内的链 接,也包括网页之间的链接。以下介绍h t m l 的特色与限制。 2 1 2 1h t m l 的特色 1 h t m ld t d 的设计主要是满足w e b 显示的需求。许多标签纯粹是用来指定网页 的呈现细节,例如: b r 是换行( 1 i n eb r e a k ) ; h r 是画一并行线( h o r i z o n t a lr u l e ) ; b 表示粗体字( b o l d ) ; i 表示斜体字( i t a l i c ) ; 2 h t m l 有内建的样式( s t y l e ) 。h t m l 希望直接使用s g m l 标识来控制网页呈现 的样式,亦即h t m i 。不需要有分离的样式表,这使得h t m l 更为简单易用,但 9 基于语义网技术的w e b 数据孰取与集成硼究 第二章背景知识介绍 缺点是较没有弹性,同样的文件内容只能设定一种呈现样式。 3 h t m l 引用s g m l 的标识最简化特征( m a r k u pm i n i m iz a t i 0 1 3f e a t u r e ) 。这是 为了尽量减少h t m l 文件标识的数量,使h t m l 的标识更简单,最明显的例子 是结束标签( e n d t a g ) 的省略。例如在h t m l2 0d t d 中,p ( p a r a g r a p h ) 的结束标签是可以省略的。 4 h t m l 没有采用s g m l 的超链接( h y p e r li n k i n g ) 机制。h t m l 的超链接是利用 标签 ( a 是a n c h o r 的意思) 的“h r e f ”属性来指向w e b 上的任意文件。 2 1 2 2h t m l 的限制 1 结构上的限制:h t m l 最大的限制就是它的标签集是固定的,而这些标签大都 属于呈现导向( p r e s e n t a t i o n o r i e n t e d ) 的标签,主要用来指定网页的显示 格式,这个特性使得h t m l 只能支持固定且简单的文件结构,而且在信息再利 用、资料交换与自动文件处理方面都造成很大的限制。 2 信息交换的限制:由于w e b 的普及,上网人数不断增加,使得w e b 成为许多 企业组织交换资料最理想的场所,但由于h t m l 的标签集是固定的,且这些标 签大都属于呈现导向的标签,利用h t m l 作为资料交换的格式,很难对每一项 所要交换的资料作清楚的描述。例如:有一家网络书店想要透过w e b 从出版 商那里取得一些新出版书籍的书目资料,并希望把这些资料自动转入自己的 数据库中,再动态地把新书信息呈现在网站上,书目资料包括了作者、书名、 出版社、i s b n 等字段,以h t m l 标签来标示这些书目资料,并没有办法逐 一标示每个字段,通常是把它包装成表格的形式,以利于浏览,但如此一来 却没有办法利用程序将h t m l 中的书目资料转入数据库中,因为程序没法分辨 h t m l 文件中哪一段信息是作者、哪一段信息是书名,就算出版商以s g m l 来储存书目资料,清楚地描述每一个书目资料的字段,但一旦要透过w e b 传 送,将s g m l 转成h t m l 后,这些书目资料的字段结构就无法存在了。 3 自动文件处理的限制:自动文件处理可节省人力操作的成本,降低人工输入 的错误,改善整体作业流程的品质,并提高文件传递的速度。透过w e b 有许 多的文件处理流程事实上可以被自动化,尤其在i n t r a n e t 或e x t r a n e t 若能 将数据库中的资料转出后作自动处理,或文件经过自动处理后直接转入数据 库,将能大幅提高效率。目前在w e b 上一些窗体应用程序就是自动文件处理 简单应用,如有些在线问卷系统或在线投票系统,使用者将填完的问卷资料 直接传入服务端的数据库后,可以直接实时读取数据库的统计结果。由于h t m l 的标签集是固定的,而这些标签大都属于呈现导向的标签,因此h t m l 文件所 能做的自动化处理事实上有很大的限制。所有文件处理高度自动化的流程, 基于语义网技术的w e b 数据获取与集成研究 第二章背景知识介绍 都必须透过统一的资料格式,而且这个资料格式必须能携带丰富的内容语义, 从这个角度来说h t m l 并不是一种适合作自动文件处理的资料格式。 4 无法支持较精确的查询:目前在w e b 上使用者可以透过搜索引擎( s e a r c h e n g if i e ) 所提供的关键词查询( k e y w o r ds e a r c h ) 来寻找相关的信息,但由 于目前w e b 上的信息不断增加,使得搜索引擎的查询结果往往会找到太多的 信息,而这些信息又不一定能符合自己的信息需求,往往使用者花在过滤出 所需信息的时间,会超过真正去看这些信息的时间。搜索引擎的准确率 ( p r e c i s i o nr a t e ) 不高是因为的所用的查询模式是对网页进行全文检索, 虽然也可以将搜寻的目标限制在h t m l 文件的t i t l e 部分来提高准确率,但这 样又会降低查询的回收率( r e c a l lr a t e ) 。一个较好的办法是提供可以指定 内容( c o n t e n t s p e c i f i c ) 的标签,例如: 庄子 与 庄子 便有所区分,如此一来查询时便可做较精确的限定, 其效果有如字段化查询一般,不过h t m l 并无法让网页制作者自行定义可以指 定内容语义的标签,煳l 将能解决这个问题。 2 1 3x m l x m l 是w 3 c 在1 9 9 6 年底提出的标准,它是从s g m l 衍生出来的简化格式,也 是一种元语言( m e t a - l a n g u a g e ) ,可以用来定义任何一种新的标示语言。x m l 的 制定是为了补足h t m l 的不完美,使得在w e b 上能够传输、处理各类复杂的文件, 它去除了s g m l 复杂不常用及不利于在w e b 传送的选项功能,让使用者可以很容 易地定义属于自己的文件型态,程序设计者也能在更短的时间开发x m l 相关应用 程序。x m l l 0r e c o m m e n d a t i o n 已于1 9 9 8 年2 月公布,相关标准目前仍在发展 之中,x m l 的发展获得了各界的支持,其中包括了s u nm i c r o s y s t e m s , f i c r o s o f t , n e t s c a p e ,a d o b e 等软件厂商的支持。 2 1 3 1x m l 的发展背景 x m l 的发展背景主要是因为h t m l 的诸多限制已经影响了w w w 的发展,h t m l 的限制在前面已经介绍过了,x m l 的发展成员大都对s g m l 及结构化的信息 ( s t r u c t u r e di n f o r m a t i o n ) 有相当丰富的应用经验,他们相信引进x m l 技术, 能够弥补h t m l 的不足,对w w w 的发展能有以下几个方面的贡献: 1 电子资料交换( e d i ) :结构化信息的一个主要应用是资料交换,不同的领域 可以针对领域的特性制定共同的信息内容模型( c o n t e n tm o d e l ) ,并以这个 共同的内容模型来标示信息,如此可以促使同领域的信息可以更容易且更有 基于语义网技术的w e b 数据获取与集成研究第二章背景知识介绍 效率地交换,这个共同的内容模型,我们称之为d t d 。无疑地,w e b 是理想的 电子资料交换的媒介,但h t m l 并非理想的资料交换格式,也难以充分地表现 各种信息内容模型与语意结构,而x m l 所要提供的正是一套可以在w e b 上承 载各种结构化信息的框架。 2 与j a v a 技术更紧密结合:j a v a 技术的出现使得浏览器能成为通用的应用系统 平台,但h t m l 固定的卷标集及不擅长描述语义的特性,使得j a v a 程序没有 太大的发挥空间,而x m l 正好可以给予j a v a 程序大显身手的环境,以x m l 作 为各种结构化信息的标准格式,搭配上j a v a 程序,可以使得应用程序大部分 的运算得以在客户端执行,这和目前大部分的w e b - b a s e d 应用程序主要透过 伺服端的c g is c r i p t s 来完成大部分的运算是相反的模式。借着x m l 与j a v a 技术的结合,将应用程序的运算从伺服端移到客户端来,有助于降低网络的 流量与增加网络的速度。 3 携带平台独立( p l a t f o r m i n d e p e n d e n t ) 信息:h t m l 与x m l 的始祖s g m l 提供 了一套能够指定信息的结构与语义的语法规则,而且具备了平台独立性。不 像m i c r o s o f t 的r t f 、a d o b e 的p o s t s c r i p t 以及其它专属性的文件格式,s g m l 所提供的是一套具备平台独立性与系统独立性的语法规则。 2 1 3 2x m l 的设计目标 根据x m l1 or e c o m m e n d a t i o n 4 ,x m l 的设计目标如下: x m l 将能直接在i n t e r n e t 上使用。 x m l 将支持各种不同的应用。 x m l 将与s g m l 兼容。 处理x m l 文件的程序能很容易被开发。 x m l 的选项功能将保持最少,最好是零。 x m l 文件应该是易读且清晰的。 x m l 的设计应该很快就绪。 x m l 的设计将是正式且简洁的。 x m l 文件将很容易被产生。 精简对于x m l 标识来说是最不重要的。( h t m l 的标识便尽求精简) 2 1 3 3x m l 与h t m l 主要的不同 1 信息提供者能任意定义新的标签与属性名称。 2 文件结构可以是任意阶层或复杂的内嵌结构( n e s t e ds t r u c t u r e ) l 2 3 4 5 6 7 8 9 l 基于语义网技术的w e b 数据获取与集成研究 第二章背景知识介绍 3 x m l 文件可以包含语法( g r a m m a r ) 的选择描述,让必须执行结构确认 ( s t r u e t u r a lv a l i d a t i o n ) 应用程序使用。 4 x m l 不像h t m l 只有内建的样式,x m l 提供了样式表标准,称为可扩展样式语言 ( e x t e n s i b l es t y el a n g u a g e :简称x s l ) 。 5 x m l 除了支持像h t m l 的简单链接( s i m p l el i n k ) ,也提供了几种功能更强大 的超链接机制。x m l 的超链接机制被制定为x m l 链接语言( x m ll i n k i n g l a n g u a g e ;简称x l i n k ) 与x m l 指针语言( x m lp o i n t e rl a n g u a g e ;简称 x p o i n t e r ) 。 2 1 3 4x m l 的样式表 x m l 提供的样式表标准,称为x s l ,1 9 9 8 年1 2 月发布1 o 版草案,简介如 下: 1 与c s s ( c a s c a d i n gs t y l es h e e t s ) 兼容:c s s 是m i c r o s o f t 与n e t s c a p e 所 支持的样式表标准,作为h t m l 预设样式的替代机制。由于h t m l 的样式是内 建的,并没有提供样式表,透过c s s 就能使得h t m l 在显示格式上有较大得弹 性。x s l 将在功能上涵盖c s s 的功能,并且使能从c s s 透过程序自动转换到 x s l ,如此一来现有以c s s 所设定的格式不至于从新来过。 2 具备重新排序( r e o r d e r i n g ) 的能力:借着x s l 样式表,不需透过服务端程 序的重新处理,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合作竞标协议合同范本
- 医疗保密协议合同范本
- 医院股权收购合同范本
- 商品使用许可合同范本
- 商场铺面租赁合同范本
- 合作招生协议合同范本
- 双重房屋租赁合同范本
- 医用耗材代理合同范本
- 商铺分租合作合同范本
- 商场垃圾清运合同范本
- 2024-2025学年度菏泽家政职业学院单招《语文》试卷附答案详解【典型题】
- 年产单面线路板0.6万平方米、双面线路板24万平方米、多层线路板1.2万平方米建设项目环评报告表
- 中国企业供应链金融白皮书(2025)-清华五道口
- 朔州市朔城区招聘社区工作者笔试真题2024
- DB61T 1121-2018 政务服务中心建设规范
- 【2025年】辅警招聘考试试卷题库《综合理论知识》附答案
- 中小学网络安全知识竞赛题库及答案
- 腔隙性脑梗死课件教学
- 2025食品检验员知识初级考核题库及答案
- 2025至2030中国军工行业市场发展现状及发展趋势与发展趋势分析与未来投资战略咨询研究报告
- 2025-2030中国数控卧式车床行业运行动态及盈利前景预测报告
评论
0/150
提交评论