(计算机应用技术专业论文)xml与结构化数据库数据转换技术研究.pdf_第1页
(计算机应用技术专业论文)xml与结构化数据库数据转换技术研究.pdf_第2页
(计算机应用技术专业论文)xml与结构化数据库数据转换技术研究.pdf_第3页
(计算机应用技术专业论文)xml与结构化数据库数据转换技术研究.pdf_第4页
(计算机应用技术专业论文)xml与结构化数据库数据转换技术研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华中科技大学硕士学位论文 摘要 随着因特网技术的发展,w c b 迅速成为全球最大和最重要的信息资源库。为了弥 补h t m l 在语义方面的不足,1 9 9 8 年2 月w 3 c 推出可扩展标记语言x m l 由于其具 有良好的可移植性和可扩展性,x m l 已经逐步取代了h t m l 成为了i n t e m e t 上数据表 示和交换的标准。随着x m l 重要性的增加,如何使数据更通用,能被异构系统、任何 应用都接受及以x m l 形式发布关系数据库的信息成了当前研究的热点。 以武汉邮政广告公司地址库与邮政综合网数据的转换为课题来源,分析了x m l 的 相关技术,x m l 的基本内容及其特点,详细阐述了x m l 与数据库的关系及建立x m l 与数据库转换机制的重要性。现有的x m l 与数据库之间的转换算法只是将) ( 】l 直接 转换成数据库中的数据,在转换过程中x m l 的完整性将会遭到破坏,并使数据库的检 索增加许多额外的工作。针对上述情况,从数据库的角度出发提出了基于关系数据库 设计的e r 概念模型与d t d 图的转换算法。此算法尽可能的保留了x m l 中的所有信 息,也在最大程度上保证了数据的完整性。此算法解决了在转换过程中所造成的数据 库插入、删除、更新等异常,解决了x m l 模型过于复杂而在转换过程中可能产生过多 的表格的问题,提高了数据库查询效率,并通过应用实例表明了该算法的可行性。 针对该算法设计了相应的应用软件,实现了x m l 与数据库之间的数据后台转换, 并在实际应用中取得了较好的效果。 关键词:可扩展标记语言,文档定义类型,关系数据库,概念模型,d t d 图, 映射 华中科技大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ei n t e r n e t ,t h ew o r l dw i d ew e bh a sb e c o m et h el a r g e s ta n d t h em o s ti m p o n a n ts o u r c eo fi n f o 加a t i o n t bs p a nt h ef a u l ti nt h ea s p e c to fl e x e m eo ft h e h t m l ( h y p e r t e x tm 耵k u pl a n g i l a g e ) ,t h ew 3 c ( w o r l d w i d ew c bc o n s o r t i u m ) i n t r o d u c e d t h ex m l ( t h ee x t e n s i b l em a r k u pl a n g u a g e ) i nf e b n l a r y ,1 9 9 8 b e c a u s eo fi t sf i n e p o n a b i l i t ya n de x p a n d a b i l i t y ,t h ex m l h a sg r a d u a l l yr e p l a c e dt l l eh t m l ( t h eh y p e r l 陀x t m a r k u pb n g i l a g e ) a n db e c o m et h es t a l l d a r df o rt h er 印r e s e n t a t i 咖a n di n t e r c h a n g eo ft h e d a t ao nt h ei n t e m e t a n dw i t ht h ei n c r e a s eo fi t si m p o r t a n c e ,i th a sb e c o m eo n eo ft h e h o t s p o t so fp r e s e n tr e s e a r c ht os t u d yh o wt 0am a k et h ed a t am o r eg e n e r a l ,a c c e p t e db ya l l k i n d so f 叩p l i c a t i o ni n c l u d i n gi s o m e r i cs y s t e m s ,a n dh o wt or e l e a s et h ei n f o 衄a t i o no ft h e d a t a b a s e w i t ht h ex m l b a s e do nt h ec o n v e r s i o nb e t w e e nt h ea d d r e s sd a t a b a s ea n dt h ed a t af 如mm e c o m p r e h e n s i v ep o s tw e b o fl h ew u h a np o s ta d v e i t i s i n gc o m p a n y t h ee s s a ya n a l y z e st h e r c l a t e dt e c h n i q u e s ,t h ee s s e n c e sa i l dt h ef e a t u r e so ft h ex m l ,a n dne x p l a i ni nd e t a i lt h e r e l a t j o n s h i pb e 俩e e nt h ex m l a dt h ed a t a b a s e ,t h ei m p o r t a n c eo f b u i l d i n gt h ec o n v e r t i n g m e c h a n i s mb e t 、v e e nt h et w o t h ep r e s e n ta l g o r i m i nc a no n l yc o n v e r tt h ex m li n t ot h ed a t a j nt h ed a t a b a s e1 i t e r a l l y ;d e s t t o y i n gt h ei n t e g r i t yo ft h ex m l d u n n gt h ep r o c e s so fc o n v e n i n g , a n d ,a f t e rt h ec o n v e r s i o n ,a u 粤n e n t i n gl o t so fe x t r aw o r k so ni n d e x i n g f r o mt h ep o i n to f v i e wo fd a t a b a s e ,b a s e do nt h er e l a t i o n a ld a t a b a s e ,t h ee s s a yp u t sf b 哪a r dt h ec o n v e r s i o n a 1 9 0 r i t h mb e t w e e nt h ee rc o n c 印t u a lm o d ea n dt h ed t dd i a g r 锄t h ea k o r i t h mt r i e st 0 c o n s e e st h ec o m p l e t ei n f o r m a t i o nf 如mt h ex m la n de n s u r e st h eo r j g i n a n t e 鲥t yt ot h e n l a x i m u me x t e n t b e s i d e s ,i ts e t t l e dt h ed i s o r d e ro ft h ei n s e n i o n ,d e l e t i o na n du p d a t ei i lt h e d a t a b a s e ,o c c u r r i n gd u r i n gt h ep r o c e s so fc o n v e r s i o n ,a n dr e s u l t i n gf r o mt h eo v c r - p e r p l e x i t yo f t h ex m l ,t h ep r o b l e mo ft h ep r o b a b l ep f o d u c l i o no ft m a n yt a b l e s t h u s ,i ti m p r o v e dt h e e f f i c i e n c yo ft h ed a t a b a s ee n q u i r y t h ef c a s i b i l i t yo ft h ea l g o r i t h mh a sa l s ob e e np m v e d t h m u 曲e x a m p l e so fa p p l i c a t i o ni ni h ee s s ay t h ee s s a ys u p p l i e st h er e s p e c t i v e 叩p l i c a t j o ns o f t w a r es y s t e mo ft h ea l g o r i t h m ,w h i c h r e a l i z e st h eb a c k g r o u n dc o n v e r s i o nb e t w e e nt h ex m la n dt h ed a t a b a s ea n da c h j e v e s c o n l p a m t i v e l yg o o dr e s u l t si np r a c t i c a lu s e k e yw o r d s :t h ee x t e n s i b l em a r k u ph n g u a g c ,d o c u m e n tt y p ed e f i n i t j o n , r e l a t i o n a ld a t a b a s e ,c o n c 印t u a lm o d e ,d t dd i a g r a m ,m a p p i n g i l 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集 体,均己在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 学位论文作者签名_ 百傅 日期;净r z 年r 月d 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在 年解密后适用本授权书。 本论文属于 不保密吖 ( 请在以上方框内打“”) 学位论文作者签名:彳爱丁多乖 日期;n 铂毛r 月,护日 指导教师签名:椰融淑 日期:阳瞬,月,p 日 华中科技大学硕士学位论文 1 1 课题背景 1 绪论 经过近十年的发展,i n t e m e t 已经成为一个巨大,分布范围广泛,全球性的信息服 务中心,它涉及到新闻,广告,消费信息,金融管理,教育,政府,电子商务和许多 其它信息服务,w 曲包含了丰富和动态的链接信息以及w e b 页面的访问和使用信息。 但随着i n t e m e t 的迅速发展,人们却遇到了w 曲上存在的大问题:一是i n t e m e t 速度极 慢;二是虽然可以在线获得各种信息,但是找到所需的信息常常极为困难。其主要原 因是由于目前w 曲语言一h 1 m l 的性质引起的。因为h t m l 并不具备大规模的w c b 应用所需的可扩展,结构化和数据验证等特性。为此,1 9 9 6 年开始w 3 c ( w b d dw i d e w 曲,世界万维网联盟) 的一个工作组致力于设计一种超越h t m l 能力范围的新语言, 这个语言被命名为x m l ( e x t e n s i b l em a r k u ph n g i l a g e ,可扩展标记语言) i l j o1 9 9 8 年2 月,w 3 c 发布了x m l l o 规范。 最近几年来,大量的研究致力于将数据库技术应用于网上数据的管理和查询,但 是网上的数据缺乏统一的,固定的模式,这使得将传统的数据库技术直接应用于网上 相当的困难,因此半结构化数据模式应运而生。事实上,r 益普及的x m l 数据就是一 种自描述的半结构化数据,它的出现推动了w w w 在电子商务、电子数据交换和电子 图书馆等多方面的应用。 在计算机领域中,数据库技术成功的解决了数据荚享性差。数据库中的数据可以 被不同的应用程序所使用,不同的应用程序通过如0 d b c ( o p e nd a t a b a s ec o n n e c t i v i t y , 开放数据库连接) 的数据库接口来访问数据库中的数掘。数据库只是描述和存放数据内 容,至于数据内容如何被应用则是由应用程序来决定的。x m l 在这一点上采取了和数 据库相同的思想。在x m l 文档中通过使用d t d ( d o c u m e n tt y p ed e f i n i t i o n ,文档类型 定义) 描述了文档中的数据是如何组织存放的,但是它并不涉及这些数据应该如何被 应用,比如如何显示1 1 _ 2 j 。x m l 解析器根据d t d 把x m l 文档中的数据解析成层次型 的结构化数据。这样要,数据就可以被不同的应用程序根据自己的需要来进行应用。 现实的规范主要是由可扩展样式语言x s l ( e x t e n s i b l es t y l el a n g u a g e ) 来规定的。 从整个组织结构上看,x m l 与数据库是非常相似的。数据库系统提供了d d u d a t a d e f i n i t i o nh n g u a g e ,数据定义语言) 来让用户定义它想存放的数据的逻辑结构,用户输 华中科技大学硕士学位论文 入数据库的数据是逻辑数据【3 】。x m l 系统则是用d t d 的形式让用户自己定义数据的 逻辑结构,而用户的实际数据是以x m l 文档的形式存放的,解析器根据d t d 的描述 输入层次性的逻辑数据,在这个意义上,x m l 中的d t d 就相当于数据库中用d d l 对 数据的逻辑结构的定义;而x m l 文档则相当于数据库系统中的物理数据文件,x m l 的层次性逻辑结构对应于关系型数据库的表;x m l 的解析器对应着数据库管理系统 d b m s 中实现物理数据和逻辑数据之间映射的部分。 与传统的数据库相比,x m l 以牺牲效率的代价获得人性化的特点。其实x m l 本 身并不是数据库,x m l 只意味着x m l 文档,只有当x m l 被用于数据存储时,x m l 以及与之相关的技术结合组成一个数据库管理系统【”。但是以文档为中心的x m l 数据 库在数据的有效组织、索引结构、安全性、事务处理、数据完整性、触发器、多用户 处理机制等方面与传统的数据库相比还有许多欠缺。由于当大量的数据需要处理时, 数据库能提供很好的查询,连接与修改,几乎所有的大型商业应用系统都是和数据库 相关。 1 2 课题研究目的与意义 因特网是目前为止世界上最大的最丰富和最密集的信息源。在海量的异构的w 曲 信息资源中,蕴藏着巨大潜力价值的知识。首先,面向w 曲的数据挖掘w 曲上有海量 的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。从数 据库研究的角度出发,w e b 网站上的信息也可以看作一个数据库,一个更大、更复杂 的数据库1 4 j 。w e b 上的每一个站点就是一个数据源,每个数据源都是异构的,因而每 + 站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想 要利用这些数据进行数据挖掘,首先,必须要研究站点之间异构数据的集成问题,只 有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数 据资源中获取所需的东西。其次,还要解决w e b 上的数据查询问题,因为如果所需的 数据不能很有效地得到,对这些数据进行分析、集成、处理就无从谈起。另一方面, 以x m l 为基础的新一代w w w 环境是直接面对w 曲数据的,不仅可以很好地兼容原 有的w 曲应用,而且可以更好地实现w e b 中的信息共享与交换。 而目前,大多数企业足采用传统的关系数据库的形式来存储数据。于是,如何将 现有关系数据库数据转换为x m l 文档,以便在i n t e m e t 上进行传输,是一个非常热门 的研究课题。同时,企、世为了保持现有的业务处理系统,不希望立即、完全更改现有 华中科技大学硕士学位论文 的数据存储形式。于是,如何将从i m e m e t 上获取到的x m l 文档的内容保存到已有的 关系数据库中,也是企业急需解决的一个问题。根据这种需求,研究实现x m l 与关系 库转换系统,实现x m l 文档与关系数据之间的转换系统,是一个应用方向十分重要, 应用领域十分广阀的系统。在网络经济时代,各种同构异构应用系统之间存在着大量 的数据交换,而几乎所有的大型应用系统都是和数据库相关联的,数据库的交互就是 要在目的数据库再现源数据库信息,那么x m l 与关系库转换系统就起到一种中间转换 处理单元的作用,也就是说,它负责处理从x m l 文档到关系数据库数据,以及从关系 数据库数据到x m l 文档的互相转换。 因此研究从关系数据库数据到x m l 文档的相互转换,主要具有以下几个方面的意 义: 1 ) 实现了从关系数据库数据到x m l 文档的转换,就可以很容易实现数据的w e b 化,提供更为全面的数据服务。 2 ) 实现了从x m l 文档到关系数据库数据的转换,可以更好的管理x m l 数据。 当数据转化为关系数据库的数据后,就可以充分的利用关系数据库的成熟技术进行各 种处理。 1 3 国内外研究概况 现在,许多数据库厂商都把x m l 支持结合到其产品中,或者提供了可在其数据库 中合用的x m l 工具,实现传统数据库与x m l 文档之间的转换,特别适合以数据为中 心的应用。如0 r a c l e 公司的0 r a c l e8 i 9 i ,m i c m s o f t 公司的s q l s e r v e r2 0 0 0 ,i b m 公司的 d b 2 x m l e x t e n d e r s y b a s e 公司的s y b 弱e a d a p t i v es e r v e r 。 目前,已经有一些公司对x m l 的转换进行了开发。l o t u s 公司的d o m i i l 数据库可 以处理x m l 。而设在麻省的r e a d i n g 的x ”i s j o n 企业解决方案公司的c o n t e n t x m l 是一套内容管理系统,它可以在任何一种流行的关系数据库中存储x m l 文件1 5 】。其好 处是可以开展基于内容的协同工作,进行多通道内容输出。在关系数据库中处理x m l 数据中,可以用中间件( m i d d l e w a r e ) 进行转换。如m j c m s o n 的a d o ,i b m 的d a t a b a s e d o m ,s o c k e ts e r v e r 的0 d b c 等,当数据不是很复杂时,可以轻松的实现x m l 文档与 传统数据库之间的转换。 著名的s o f l w a r ea g 公司的d b x ml t h ec o n n e c l j o nf a c t o r v 公司的 x h i n e d b ,x y z f i n d 公司的x y z f i n d 等,是以x m l 文档自身的形式来存储x m l 文 档,支持事务、安全、多用户访问、编程的a p l 和查询语言等,其内部模型是基于x m l 华中科技大学硕士学位论文 文档格式的。 1 4 课题的主要研究工作 武汉邮政信息中心目前拥有如国家局名址系统、省版名址信息系统、社保帐单录 入系统、电子警察罚单录入系统、试发函录入系统等几大数据库。拥有个人名址7 9 9 2 万条,企业信息7 6 6 9 7 万条。根据市场发展和客户需求现有个性库名址4 6 万条,专业 库名址3 8 1 万条,国家局自由库名址7 2 万条,邮政资源库2 0 0 万条,基础地址库1 6 1 万条,国际名址库0 3 万条。为加快企业的发展,需要充分利用因特网上的数据资源来 不断的扩充现有的数据库;并充分利用现有的数据库实现对邮政综合网、商函投递系 统平台及邮政1 1 1 8 5 平台中名址实时更新及维护。这就涉及到了需要解决w 曲中x m l 文档与关系数据库之间的数据转换问题。为了充分完成这种转换,通过大量的理论研 究,从数据库的角度出发提出了基于关系数据库设计的e r 概念模型与d t d 图的转换 算法,此算法尽可能的保留了x m l 中的所有信息,也在最大程度上保证了数据的完整 性。此算法解决了在转换过程中所造成的数据库插入、删除、更新等异常,解决了x m l 模型过于复杂而在转换过程中可能产生过多的表格的问题,提高了数据库查询效率。 论文通过应用实例表明了该算法的可行性。 本文分析了x m l 的一些相关理论和技术,研究了现有的x m l 与数据库之间的转 换技术,提出了d t d 图与er 图的转换技术,并对此算法进行了详细的描述。 华中科技大学硕士学位论文 2 1x m l 及相关技术 2 1 1x m l 现状与特点 2 系统采用的核心技术 随着w e b 应用越来越广泛和深入,h t m l 过于简单的语法使它在表达复杂信息方 面显得力不从心。尽管h t m l 推出了一个又一个新版本,但始终满足不了人们提出的 更高的要求。同时,由于计算机技术的飞速发展,使得实现比当初发明h 删l 时复杂 的得多的w c b 测览器成为可能。1 9 9 6 年w 3 c 下正式成立了专门的x m l 小组,并于 1 9 9 8 年2 月1 0 日批准公布了x m l l o 标准。x m l 是由万维网协会r w 3 c ) 设计,特别 为w e b 应用服务的s g m l ( s t a i l d a r dg e n e r a lm a r k u ph n g u a g e 通用标记语言) 的一个 重要分支i ”。总的来说,x m l 是一种中介标示语言,可提供描述结构化资料的格式, 详细来说,x m l 是一种类似于h i m l ,被设计用来描述数据的语言【4 l 。x m l 提供了一 种独立的运行程序的方法来共享数据,它是用来自动描述信息的一种新的标准语言, 它能使计算机通信把i n t e m e t 的功能由信息传递扩大到人类其他多种多样的活动中去。 x m l 由若干规则组成,这些规则可用于创建标记语言,并能用一种被称作分析程序的 简明程序处理所有新创建的标记语言,正如h t m l 为第一个计算机用户阅读h t 锄e t 文档提供一种显示方式一样,x m l 也创建了一种任何人都能读出和写入的世界语。 x m l 解决了h t m l 不能解决的两个w 曲问题,即i n t e m e t 发展速度快而接入速度慢的 问题,以及可利用的信息多,但难以找到自己需要的那部分信息的问题。x m l 能增加 结构和语义信息,可使计算机和服务器即时处理多种形式的信息。因此,运用x m l 的 扩展功能不仅能从w 曲服务器下载大量信息,还能大大减少网络业务量。 2 1 2x m l 相关技术 x m 己中的标志( 1 a g ) 是没有预先定义的,使用者必须要自定义需要的标志,x m l 是能够进行臼解释( s e l fd e s c r i b i n g ) 的语言。x m l 使用d t d 来显示这些数据,x s l 是 一种来描述这些文档如何显示的机制,它是x m l 的样式表描述语言【”。x s l 的历史比 h t m l 用的c s s ( c a s c a d i n g s t y l es h e e t s 层叠式样式表) 还要悠久,x s l 包括两部分 2 卅: 华中科技大学硕士学位论文 一个用来转换x m l 文档的方法;一个用来格式化x m l 文档的方法。x l l ( e x t e n s i b l e l i n k b n g u a g e 可扩展链式语言) 是x m l 连接语言,它提供x m l 中的连接,与肿m l 中的类似,但功能更强大。使用x i 工,可以多方向连接,且连接可以存在于对象层级, 而不仅仅是页面层级。由于x m l 能够标记更多的信息,所以它就能使用户很轻松地找 到他们需要的信息。利用x m l ,w 曲设计人员不仅能创建文字和图形,而且还能构建 文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。 2 1 3x m ld t d 与ls c h e m a 概述 d t d ( ( d o c u m e n tt y p ed e f i n i t i o n 文档类型定义) 是现存的模式语言的一种实际的标 准,它和其它模式语言相比较存在着很大的缺陷。它像堆积木一样将元素和属性结合 在一起,但是有许多文档信息没有包含在d t d 中。d t d 定义了文档的整体结构和语 法,使应用系统解析器能检验x m l 文档的有效性,或提供编辑工具以产生符合定义的 x m l 文档。但其本身不是x m l 文档,因此d t d 的定义不仅难以学习,而且在实践中 所能提供的定义不能满足信息资源组织的需要。 与d t d 不同,s c h e m a 本身就是x m l 文档,而且具有d t d 的功能,也是定义x m l 文档结构和语法的标准1 6 j 。由于x m l s c h e m a 将d t d 重新按照x m l 语义规范来定义, 充分体现了x m l 自描述性特点,也解决了d t d 存在的种种弊端。s c h e m a 添加了许多 新的机制,例如:元素和属性能够被继承、用户能定义数据类型等等。虽然它包含了 x m l 文档的大部分信息,但同时也遗漏了一些信息,如条件定义等。 由于x m ls c h e m a 成为正式推荐的时间较晚,加之x m ld t d 语法相对简单,所 以现在大部分的研究和应用都是基于x m ld t d 展开的。x m ls c h e m a 比x m ld t d 具有更强的表现力,能够更好的满足不同领域应用的需求。然而x m ld t d 不会很快 被x m l s c h e m a 替代并最终消失。x m l s c h e m a 虽然在大多数的应用中都有替代x m l 的趋势,但x m l d t d 并不能完全被x m l s c h e m a 替代。 2 1 4x m l 特点 j 下是x m l 的特点决定了其卓越的性能表现【2 1 。x m l 作为一种标记语言,有许多 特点: 数据简单。x m l 经过精心设计,整个规范简单明了,它由若干规则组成,这些 华中科技大学硕士学位论文 规则可用于创建标记语言,并能用一种常常称作分析程序的简明程序处理所有新创建 的标记语言。x m l 能创建一种任何人都能读出和写入的世界语,这种创建世界语的功 能叫做统一性功能。如x m l 创建的标记总是成对出现,以及依靠称作统一代码的新的 编码标准。 丌放。x m l 是s g m l 在市场上有许多成熟的软件可用来帮助编写、管理等,开 放式标准x m l 的基础是经过验证的标准技术,并针对网络做最佳化。众多业界顶尖公 司,与w 3 c 的工作群组并肩合作,协助确保交互作业性,支持各式系统和浏览器上的 开发人员、作者和使用者,以及改进x m l 标准。x m l 解释器可以使用编程的方法来 载入一个x m l 的文档,当这个文档被载入以后,用户就可以通过x m l 文件对象模型来 获取和操纵整个文档的信息,加快了网络运行速度。 高效且可扩充。支持复用文档片断,使用者可以发明和使用自己的标签,也可 与他人共享,可延伸性大,在x m l 中,可以定义无限量的一组标注。x m l 提供了一 个标示结构化资料的架构。一个x m l 组件可以宣告与其相关的资料为零售价、营业税、 书名、数量或其它任何数据元素。随着世界范围内的许多机构逐渐采用x m l 标准,将 会有更多的相关功能出现:一旦锁定资料,便可以使用任何方式透过电缆线传递,并 在浏览器中呈现,或者转交到其他应用程序做进一步的处理。x m l 提供了一个独立的 运用程序的方法来共享数据,使用d 1 d ,不同的组中的人就能够使用共同的d t d 来 交换数据。你的应用程序可以使用这个标准的d t d 来验证你接受到的数据是否有效, 你也可以使用一个d t d 来验证你自己的数据。 2 2 半结构化数据 i n t e m e t 的迅速发展使其成为全球信息传递与共享和最具潜力的资源库,为人们提 供了越来越多的数据资源。半结构化是h t e m e t 数据的最大特点1 8 】。从数据库研究的角 度出发,w 曲上网站信息也可以看作一个数据库,一个更大、复杂性更高的数据库。 w e b 上每一个站点就是一个数据源,每一个数据源都是异构的,因为每一站点跟其他 站点的信息和组织形式都不一样,这就构成了一一个巨大的异构的,开放的分布式数据 库环境。它作为一种新资源,为新技术产生丌辟了新领域,同时也为传统数据处理技 术研究提出了新方向。 由于网上数据的不断激增,对网卜信息的应用需求也不断提高。近年来,大量研 华中科技大学硕士学位论文 究致力于将数据库技术应用网上数据管理和查询,使查询可以在更细粒度上进行,并 集成多个数据源数据。但是,将传统数据库技术直接应用于网上数据的最大困难在于 网上数据缺乏统一的、固定的模式,数据往往是不规则的,且经常变动的。因此,针 对半结构化数据领域的研究应运而生。 半结构化数据具有两大特性【9 1 0 j :结构不规则和结构隐含。结构不规则的数据主要 存在于异构数据中,结构隐含主要指w 曲数据,对于这两种不同特性的半结构化数据, 分别可以用数据模型和信息抽取使其结构化。实际上,这两种来源的数据并不是界限 如此分明,在数据集成领域中还包含w 曲数据的集成问题。而相当一部分w c b 页面的 生成要依靠其后的数据库,所以在两种方法的选择上,并不是严格按照数据特性划分 的。 综上所述可以给出这样一个定义1 9 】:半结构化数据是介于完全结构化数据和无结构 数据之间的一种数据类型。半结构化数据虽然有一定的结构,但却是不严格的、多变 的和不完整的。 半结构数据的模式具有以下特点: 对半结构数据来说是先有数据,后有模式。一般是先进行查询,查询结果即为 数据结构及其模式。 半结构数据的模式是用于描述数据的结构信息,而不是对数据结构进行强制性 约束。 半结构数据的模式规模可能很大,甚至超过源数据的规模,而且因数据的不断 更新而处于动态的变化过程之中。 半结构数据的模式不讲求精确性,可能描述其中一部分结构,也可能根据数据 处理的不同阶段的视角而不同。 隐含的模式信息。半结构数据具有一定的结构,但其结果与数据混在一起,没 有显示的模式定义,如h i m l 非常灵活,能满足网络这种复杂分布式环境的要求。 不规则的结构。一个数据集合可能由异构的元素组成,例如学生集合中某些学 生有电子邮件地址,而另一些学生则没有,同样的信息可能由彳i 同类型的数据表示, 例如某些姓名是字符串,而另外一些则是由f i r s tn 姗e 和l a s tn a m e 组成的复杂结构。 华中科技大学硕士学位论文 2 3x m l 与半结构数据 x m l 是可扩展的标记语言。它的最大特点在于其标志( t a g ) 是不可预先定义的, 是由用户自己定义,能够反映一定的数据含义。简单来讲x m l 是一种半结构化的数据 模型,它解决了h t m l 不能解决的两个w e b 问题,即i n t e m e t 发展速度快而接入速度 慢的问题,以及可利用的信息多,但难以找到自己需要的那部分信息的问题吼x m l 具有简单、开放、高效有可扩充和国际化等特点,这些特点决定了其卓越的性能表现。 半结构数据的结构类似于图或树,这种结构通常称为标记有向图( h b e l e dd i r e c t e d g r a p h ) 【1 2 l 。x m l 图是一种非常灵活的数据模型。图的节点表示属性,图的每一个边 用元素标签标识。通常一个x m l 图通常满足下列条件:a 图的顶点由唯一的字符串标 识,称为对象标识( o i d ) ;b 图的边用元素标记( e l e m e n tt a 2 ) 来标记:c 图的节点用 一组属性值标记;d 图的叶结点由值( 字符串) 标记;e 图有一个根结点。由此可见, x m l 图非常适合描述分布的、多态的、动态变化的w 曲数据。 数据( 包括不规则数据) 与x m l 图也能很方便地直接映射【”。例如,o e m ( o b i e c i e x c h a i l g em o d e l ) 模型与x m l 图之间的对应关系就非常简单【1 1 】:o e m 对象对应于x m l 中的元素( e l e m e n t ) ;0 e m 中的子对象关系反映了x m l 中的元素嵌套。它们之间的 不同之处在于x m l 的子元素可能是有序的,并且x m l 元素可能包含( 属性、值) 的 列表。为了支持x m l 的这两个特点,可以在o e m 模型中引入如下三个新特性:a 有 序的子对象;b ( 属性、值) 列表;c 引用边( r e f e r e n c ee d g e ) 。通过上述修改,o e m 就能很容易地成为支持x m l 的数据模型了。 2 4x m l 与数据库 2 4 1 u l 文档的存储技术的现状和分类 x m l 存储管理 x m l 存储管理定义为【2 】: 1 ) 它是一个x m l 文档及其部分的集合,它被一个能够管理和控制这些文档集合 的信息系统维持; 2 ) 它币是一个单独的存储结构化和半结构化数据的仓库。它应当具有各种管理 x m l 数据的能力,象关系数据库一样。例如:数据的独立性、完整性、入【1 权限、冗 9 华中科技大学硕士学位论文 余等等。 基于数据库的存储分类 现有的x m l 数据管理有四种方式【1 3 1 : 1 、基于文件系统的存储管理技术:这种技术是将x m l 数据存储到文件系统中。 h t m l 的存储管理都是基于这种平面的文件系统。但x m l 和h t m l 有着很大的区别。 x m l 是层次结构的,而h 1 m l 不是。一种方法是将x m l 数据以b l o b ( 二进制大对 象) 的形式进行存储,然后在每次使用它时进行解析。由于反复的解析,破坏了x m l 的结构,所以这种方法存在很大的缺陷。 2 )基于层次数据库的存储管理技术:由于x m l 本身是层次结构的,所以可以将 x m l 数据存储在层次数据库中。但层次数据库技术非常的不成熟,而且操作非常复杂, 因此这不是一种很有效的方法。 3 1基于关系数据库的存储管理技术:关系数据库是现在最成熟的数据库技术, 可以将x m l 的模式映射到关系数据库中。例如:将d t d ( 文本类型定义) 映射到关 系数据库中。 4 1 基于面向对象数据库的存储管理技术:面向对象数据库用自身的方法,关系 和语义来管理分层x m l 树。同时提供了强大的导航和链接的功能。虽然面向对象数据 库的体系结构非常适合存储x m l 数据,但它本身技术还不成熟限制了它的应用。 2 4 2x m l 与数据库的比较 其实x m l 本身不是数据库,x m l 只意味着x m l 文档,只有当x m l 被用于数据 存储时,x m l 以及与之相关的技术结合就组成一个数据库管理系统。该系统应主要由 以下四个部分组成【1 3 _ “】:d t d 或s c h e m a s 是数据库的逻辑模型描述,对x m l 数据 库内容的存储、访问都依据该模型。在模型中规定了元素( e l e m e n t s ) 、属性( a t t r i b u t e s ) 、 p c d a l r a 以及文档内容的顺序。x m l 文档是x m l 数据库的数据区,一个x m l 文 档就是一个基本的存储单元,相当于关系数据库中的一个表格。x q u e r v 、x p a t h 、 x q l 、x m l q l 、q u i l t 是数据库查询语言。s a x 、j d o m 、d o m 是数据库管理处 理工具,提供对x m l 数据库的编辑、管理功能,以及与其他语言的编程接口。 当前数据库遇到的问题有: 1 )将现有数据库中数据转化成适于w e b 的形式,需要相当的工作量,时至今同 虽然从c c i s e e r a p i ,s e n p t s 到j a 、,a 等等出现了许多解决方法,并且已在实际应用 华中科技大学硕士学位论文 中取得了很好的效果,但仍有问题存在; 2 )传统数据库中的数据以二进制码的形式存储,并且不同的数据管理系统有着 各自的专有格式,这就带来了表示上的困难,更是进行交换的一大障碍。随着网络的 发展,数据交换的能力已成为新的应用系统的一个至关重要的指标。 相对于x m l ,数据库在数据管理方面具有管理方便,存储占空间小,检索速度快, 修改效率高,安全性好等优点,但客观上需要一种应用方式将其丰富的数据有效的发 布出来,以消除平台差异,增强语义描述功能,降低环境要求。 相对于数据库技术,x m l 技术在数据应用方面有很多优点【1 7 l 。第一,跨平台。x m l 文件为纯文本文件,不受操作系统、软件平台的限制;第二,易表义。x m l 具有s c h e m a 的自描述语义的功能,容易描述数据的语义,这种描述能为计算机理解和自动处理。 但x m l 技术在数据管理上存在明显缺点:首先,x m l 技术采用基于文件的管理机制, 文件管理存在着容量大,管理困难的缺点;第二,目前x m l 的检索是基于节点的检索, 存在大量数据的x m l 文件造成检索度极低;第三,解析手段有缺陷,x m l 具有两种 解析机制,s a x 方式是基于文件的解析,速度慢。d o m 方式是基于内的方式,资源 消耗极大;第四,修改率低,目前x m l 的修改是基于节点的;最后,x m l 的安全性 和并发操作机制也是需要解决的问题之定。总体上看,x m l 在数据应用方面具有易表 义,跨平台的优势,但客观上需要一种有效的存储、检索和修改等方面的管理机制。 通过上述分析比较不难得出在数据库管理方面,数据库尤其是关系数据库具有其 他方式( 包括普通文件,x m l 文件,对象数据库) 无法比拟的优越性。而应用方面, 特别是w e b 信息共享及异构应用交换方面,x m l 又具有其它技术无法比拟的优点,通 过比较有这样几点结论: 1 ) 人们在现实中还是习惯使用关系数据库,绝非仅仅习惯使然,更深层的原因是 x m l 缺乏像关系数据库这样有效的数据管理手段,造成数据存贮管理困难,检索修改 效率极低,这同时也是制约x m l 技术普及的原因之一,x m l 尚不能代替关系数据库; 2 ) 通过x m l 技术降低数据库的使用条件,可以使其中丰富的数据资源得到利用 并且在x m l 异构数据交换方面具有很大优势; 3 ) x m l 和关系数据库在数据应用和数据管理方面各有优势,应相辅相成,扬长 避短的关系。 华中科技大学硕士学位论文 2 4 3 现有的x m l 数据库 x m l 数据库是可以对) ( i l 文档进行存取管理和数据查询的数据库,是一个能够 在应用中管理x m l 数据和文档的数据库系统【1 8 】。一个x m l 数据库是x m l 文档及其 部件的集合,并通过一个能管理的控制这个文档集合本身及其所表示信息的系统来维 护【1 7 2 0 1 。x m l 数据库不仅是结构化数据和半结构化数据的存储库,x m l 数据管理包 括数据的独立性、集成性、访问权限、视图、完备性、冗余性以及数据恢复等。 对于x m l 数据库有两种不同的观点:一种观点认为,只有以x m l 原始的格式存 储x m l 的数据库才能称为x m l 数据库;另一种观点认为,只要能存入和检出x m l , 且它本身又是一个数据库,那它就是一个x m l 数据库,而不必考虑数据是怎样存储的 1 1 5 】。通常,凡内部不是以x m l 格式存储的x m l 数据库,称做支持x m l 的数据库 ( x m le n a b l ed b ) ;而内部以) 【l l 格式存储数据,就称为原始的x m l 数据库 ( n a t i v e x m ld b ) 。 现有的x m l 数据库有下面三种类型1 2 1 】: 1 ) x e d b :x e d b ( x m l e n a b l e dd a t a b a s e ) 是能处理x m l 的数据库。其特点是 在原有数据库系统上扩充对x m l 数据库的处理功能,使之能适应x m l 数据存储和查 询的需要。一般的做法是在数据库系统之上增加x m l 映射层,这可以由数据库供应商 提供,也可以由第三方厂商提供。映射层管理x m l 数据的存储和检索,但原始x m l 元数据和结构可能会丢失,而数据检索的结果是不保证是原始的x m l 形式,x e d 的 基本存储单位与具体实现等密切相关 2 ) n x d :n x d ( n a t j v ex m l d a t a b a s e ) 即纯x m l 数据库。其特点是以自然的方 式方法处理x m l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论