(计算机科学与技术专业论文)xml数据与关系型数据的转换研究及其在物流信息平台中的应用.pdf_第1页
(计算机科学与技术专业论文)xml数据与关系型数据的转换研究及其在物流信息平台中的应用.pdf_第2页
(计算机科学与技术专业论文)xml数据与关系型数据的转换研究及其在物流信息平台中的应用.pdf_第3页
(计算机科学与技术专业论文)xml数据与关系型数据的转换研究及其在物流信息平台中的应用.pdf_第4页
(计算机科学与技术专业论文)xml数据与关系型数据的转换研究及其在物流信息平台中的应用.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(计算机科学与技术专业论文)xml数据与关系型数据的转换研究及其在物流信息平台中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院学位论文 摘要 以o r a c l e 、s q ls e r v e r 为代表的关系数据库应用非常广泛、技术较为成熟,在信息系统 建设中占有重要的地位,是数据存储的基础。而x m l 作为一种新兴的技术已得到广泛地认 同,并被视为未来数据格式的标准。从长远来看,未来的数据交换都会采用x m l 标准。这 样,现有已建设或者待建设的关系数据库的数据如何转换为x m l 数据,新产生的x m l 数据 又如何存储在关系数据库中就成了一个迫切需要解决的问题。本文研究了x m l 数据与关系 数据之间的相互转换和查询的转换,然后将其成功地应用到物流信息平台系统中。 首先,本文深入分析了关系数据和x m l 数据的本质特征,提出了几个映射模式,给出 了关系数据到x m l 数据转换的算法,很好地解决了如何将关系数据以x m l 形式发布的问题。 文中给出了两个转换算法:第一个算法产生的结果是每个表对应一个元素,第二个算法产生 相互嵌套的一组元素。 其次,本文深入分析了最新x m l 模式描述语言x s d ,以及现有x m l 模式到关系模式 的转换算法,提出了依据结构图转换模式的算法,并给出了转换数据的方法。本文提出的新 算法能处理多对多关系,转换后得到的数据也更符合范式的要求。 第三,本文深入分析了x m l 查询语言x q u e r y 和s q l 查询语言的特点,提出通过查询 国转换查询的方法,并研究了将查询结果还原的方法。该方法充分利用已有的s q l 查询技术, 较好地处理了x q u e r y 查询。 作者基于x m l 技术设计并实现了物流信息平台,该平台具有良好的扩展性。应用本文 提出的算法,很好地解决了平台与已有系统交互时存在的数据转换的技术难题。 关键词: 关系数据,x m l 数据,转换,映射模式,x s d ,查询,x q u e r y 第1 页 a bs t r a c t a sak i n do fm a t u r et e c h n i q u e ,r e l a t i o n a ld a t a b a s e ss u c h a so r a c l ea n ds q ls e r v e ra r ew i d e l y u s e da n d p l a yi m p o r t a n tr o l e si n t h ec o n s t r u c t i o no fi n f o r m a t i o ns y s t e m t h e ya r et h eb a s i so fd a t a s t o r a g e x m la san e wt y p eo ft e c h n i q u eh a sb e e nw i d e l ya d o p t e da n di sr e g a r d e da st h ef u t u r e s t a n d a r do fd a t af o r m a t f r o mal o n g - t e r mp o i n to fv i e w ,f u t u r ed a t ae x c h a n g ew i l la d o p tx m l s t a n d a r d s t h u s ,h o wt oc o n v e r td a t ai ne x i s t i n go rt o b e - b u i l tr e l a t i o n a ld a t a b a s et ox m l d a t aa n d h o wt os t o r en e w l yg e n e r a t e dx m ld a t ai nr e l a t i o n a ld a t a b a s eh a v eb e c o m eap r e s s i n gt a s k t h i s d i s s e r t a t i o ns t u d i e st h ec o n v e r s i o nb e t w e e nx m ld a t aa n dd a t ai nr e l a t i o n a ld a t a b a s ea n dt h e c o n v e r s i o nf r o mx q u e r yt os q lq u e r i e s ,a n dt h e nt h ea p p l i c a t i o no fa l l t h e s et e c h n i q u e st oa l o g i s t i ci n f o r m a t i o ns y s t e m m sd i s s e r t a t i o nf i r s ta n a l y z e st h ec h a r a c t e r i s t i c so fr e l a t i o n a ld a t aa n dx m l d a t a ,p r e s e n t s s e v e r a lm a p p i n gr u l e sa n da l g o r i t h m so nc o n v e r s i o nf r o mr e l a t i o n a ld a t at ox m ld a t a t h e s e t e c h n i q u e ss o l v et h ep r o b l e m o fh o wt op u b l i s hr e l a t i o n a ld a t ai nx m lf o r m a t t w oa l g o r i t h m sa r e s h o w nh e r e :t h ef i r s ta l g o r i t h mg e n e r a t e so n ee l e m e n tf o re a c ht a b l e ;a n dt h es e c o f l da l g o r i t h m g e n e r a t e sa s e to f n e s t e de l e m e n t sf o rt h et a b l e s t h e n , t h i sd i s s e r t a t i o na n a l y z e st h en e w e s tx m l s c h e m a d e s c r i p t i o nl a n g u a g ex s d a sw e l la s c u r r e n ta l g o r i t h m s0 1 3 c o n v e r s i o nf r o mx m ls c h e m a t at or e l a t i o n a ls c h e m a t a h e r ev q ep r e s e n t s c h e m a t ac o n v e r s i o na l g o r i t h m sb a s e do ns t r u c t u r a lg r a p ha n dm e t h o d so nd a t ac o n v e r s i o n t h e s e n e w a l g o r i t h m sc a nd e a lw i t l lm a n y - t o m a n yr e l a t i o n a n dt h ed a t ac o n v e n e da r em o r es u i t e df o r n o r m a lf o r m s f i n a l l y ,t h i sd i s s e r t a t i o na n a l y z e st h ec h a r a c t e r i s t i c so f x m lq u e r yl a n g u a g ex q u e r ya n ds q l q u e r yl a n g u a g e ,p r o p o s e sq u e r yc o n v e r s i o nm e t h o d v i aq u e r yg r a p h t h em e t h o dt or e v e r tt h e q u e r y r e s u l ti sa l s os t u d i e d t h e s em e t h o d sc a nf u l l yu t i l i z ec u r r e n ts q l q u e r yt e c h n i q u e sa n d c a r ld e a l w i t h x q u e r yp r o p e r l y b a s e do i l 舳t e c h r f i q u e s , w eh a v e d e s i g n e da n di m p l e m e n t e dal o g i s t i ci n f o r m a t i o np l a t f o r m w i t hf m ee x t e n s i b i l i t y b a s e do nt h ea l g o r i t h m sp r o p o s e di nt h i sd i s s e r t a t i o n ,t h ep r o b l e m so fd a t a c o n v e r s i o nb e t w e e nt h en e w p l a t f o r ma n d t h e e x i s t i n gs y s t e m s a r ew e l ls o l v e d , k e y w o r d s :r e l a t i o n a lt u p l e ,x m ld o c u m e n t s ,t r a n s f o r m a t i o n ,m a p p i n gr u l e ,x s d ,q u e r y ,x q u e r y 第1 i 页 独创性声明 本入声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文题目 羔凹幽盖叁型j 进壹丝拯缱杰趔,垒物盈睦复:孝! 量锯一f i 学位论文作者签名:_ 曼二l 牝日期:z 一。尹年三月r 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定。本人授权 国防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子 文档,允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密学位论文在解密后适用本授权书。) 学位论文题目 学位论文作者签名: 作者指导教师签名: 善复埤 匿爱军 日期:矽口圹年二月厂日 日期:l 州华年乙月f 自 垦堕鲨鳖鳖塑些塑篓竺圣一 = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 一 图目录 圈2 1 图2 2 图2 3 图3 1 图4 1 图4 2 图4 3 图4 4 图4 5 图5 1 图5 2 图5 3 图5 4 图5 5 图6 i 图6 - 2 图6 3 图6 4 圈6 - 5 x m l 文档样例 d t d 描述的模式 x s d 描述的模式 d b l 数据库中表之间的关系图 父子元素的表示方法 例4 1 的结构图, 一 s h a r e di n l i n i n g 算法的转换结果 改进后的结果一一 a 、b 间为多对多关系时的结构图 一般查询语句 有函数的查询语句 1 e t 子句中嵌套查询子句 图5 1 ( a ) 的查询图一 图5 2 ( a ) 的查询图 物流信息平台的整体结构 平台中的x m l 处理模块 关系数据转换到x m l 数据的流程图 x m l 数据转换到关系数据的流程图 x m l 查询处理流程图 13 13 1 4 2 2 3 0 3 l ,3 2 3 3 3 3 ,3 9 4 0 4 0 4 3 4 3 ,4 8 5 4 5 5 5 6 ,5 7 第1 i i 页 国防科学技术大学研究生院学位论文 表2 - 1c s s 和x s l 的比较 表5 - 1 两种查询语句的比较 表5 - 2 部分函数转换表 表目录 16 4 1 4 6 里堕整兰垫查奎兰塑茎生堕鲎垡堕苎 - _ _ _ _ _ 一一 第一章绪论 1 , 1x t m l 的历史与现状 作为互联网的新技术,x m l 的应用非常广泛,在各领域内的应用前景也十分光明。现有 的x m l 应用可分为以下几类: 1 ) 设计标记语言 由于x m l 是一种元标记语言,用户可以利用它建立自己领域内的标记语言,使该领域 的用户可以通过该标记语言交换数据信息,已经定义的标记语言包括化学领域的c m l 、数学 领域的m a t h m l 、移动通讯领域的w m l 、表示产品数据的p d m l 等。 2 1 文件保值 x m l 作为一种文件格式,能用于保存一些重要的有价值的文件,如政府公文、科研报告 等。x m l 文件实际是包含标记的文本文件,它无需特殊工具支持,只要磁盘文件存在,读取 就不成问题:而且在文本文件只丢失部分数据时仍可读剩下的数据。同时由于x m l 文件的 自描述性,在理解标记的情况下,x m l 文档就是可理解的。 3 ) 数据交换 数据交换是x m l 最令人激动的应用,x m l 使不同计算机和不同应用系统之间能够交换 数据,数据交换的核心问题是信息的标准化。最典型的做法是不同的领域可以制定自己的标 准,同一领域内,参与者按这个标准组织数据就可以进行数据交换,如,m m 、u n i s y s 和 其他合作伙伴定义的x m i ( x m lm e t a d a t a i n t e r c h a n g e ) 是一个存储和共享面向对象的程序设 计信息的标准;m i c r o s o f t 和m a r i m b a 合作提出的开放软件描述( o p e n s o f t w a r ed e s c r i p t i o n , o s d ) 是用于描述软件的一个x m l 标准。x m l 在数据交换领域的优势为电子商务带来了新 的机遇和活力,首先可以替换传统的e d i ,使数据交换变得更为廉价和方便;其次为智能代 理的发展提供了新的推动力,x m l 数据能使智能代理非常容易地利用已有的知识库理解数 据;第三,使得搜索更加精确。 4 ) w e b 应用 在h t m l 遇到不可克服的困难时,x m l 诞生了。x m l 的信息表示方式使得数据搜索更 有效ax m l 可以使用数字签名,使w e b 的应用扩展到安全保密领域。x m l 的广泛使用必然 推动w c b 不断发展。 第1 页 垦堕型兰垫查奎堂婴茎竺堕兰垡笙茎 5 】w a p w a p 是x m l 技术在无线移动通讯上的应用,可广泛建立在多种无线网络如t d m a 、 c d m a 、g s m 等,以及任意操作系统如p a l m o s 、w i n d o w sc e 、o s 9 、j a v a o s 等上。它甚 至提供了不同家用设备之间的业务互通能力。 x m l 的出现使互联网跨入了一个新的阶段,它将成为因特网领域中一个重要的开发平 台,x m l 的诞生已经而且将继续促使全新种类的应用程序的产生,而这些新的应用程序又需 要新的软硬件工具,所以无论软件、硬件,x m l 都将开辟一系列新市场,促成互联网上新革 命。 x m l 作为一种自描述的可扩展的标记语言,对描述结构化、半结构化的数据有着很大的 优势,可以根据需求领域的不同要求,定制具有自己特色的标记语言,以完成异构系统之间 的数据交换。目前,对于x m l 数据的管理还没有成熟的产品。利用已有的数据管理系统, 如r d m s ,来管理x m l 数据是一种可行的方法,这样可以充分利用己有的成熟技术。 1 , 2 课题背景和意义 以o r a c l e 、s q ls e r v e r 为代表的关系数据库应用非常广泛、技术较为成熟,在信息系统 建设中占有重要的地位,是数据存储的基础。而x m l 作为一种新兴的技术已得到广泛地认 同,并被视为未来发展的标准。从长远来看,未来的数据交换都会采用x m l 标准。这样, 现有已建设或者待建设的关系数据库的数据如何转换为x m l 数据,新产生的x m l 数据如何 存储在关系数据库中就成了一个迫切需要解决的问题。本课题研究了x m l 数据与关系数据 之间的相互转换和查询的转换,然后将其成功应用到物流信息平台系统中。 没有足够的物流管理经验和专业人才,就会造成采购、运输及仓储成本的增加,降低经 营效益。现代商品经济的发展使城市与区域之间的经济活动日趋扩大,由此造成了物流量的 急剧增加,物资流通的形式和规模也发生了根本性的改变,传统的物流配送方式与物流信息 传播手段己无法适应现代物流发展水平。电子商务在跨越了一系列屏障之后,必须逾越物流 配送这瓶颈。物流业在我国已形成强烈需求的态势。随着我国加入w t o ,国外的大型物 流企业将逐步登陆中国市场。 从系统中数据交换的角度看,目前使用的标准是e d i ( e l e c t r o n i cd a t ai n t e r c h a n g e ,电子 数据交换) 。e d i 虽然很有效,但启动费用很高。虽然全世界的前1 0 0 0 0 家公司中9 8 以上 都在使用e d i ,但全世界其他公司中却仅有5 是e d i 的用户。x m l 作为互联网的新技术, 具有自我描述性、可扩展性,并且构建在u n i c o d e 统一码基础上。这些特点使它成为i n t e m e t 上数据交换的新热点。 第2 页 里堕型兰垫查奎兰竺塞生堕兰垡笙茎 据专业咨询公司统计,物流行业中“数据交换”受到高度关注。由于一个物流企业往往 会为多个生产厂商服务,而每个生产厂商使用的管理软件可能不同,因此他们的数据格式、 单据形式也可能不完全一样。这意味着,物流企业要同时适应自己不同客户的数据格式和单 据形式。如果不能很好地解决数据交换的问题,物流企业的相关工作人员将不得不大量地重 复录入,这会大大增加订单的出错率,降低工作效率。如果物流软件具有“数据交换”功能, 能与多套不同软件对接,那么就完全能够解决这一问题。 实际上,“数据交换”问题不仅仅表现在物流企业与业主之间,它还大量存在于物流企 业与相关政府部门之间。目前,与物流企业密切相关的铁道部和海关总署都在加紧有关物流 的信息化建设。例如,在货运计划和货运管理上,铁道部投资建设的管理平台系统可以在年 底和明年初开通,客户可以全程监管、查询集装箱所处的位置和状态;海关总署正进行以“快 速通关”为目标的实时数据传输改革,全国海关通过网络实行一次申报、一次查验、一次放 行。这些系统都将和物流企业的软件管理系统发生密切的关系,如果一个物流软件不能和它 们进行“交流”,提供“数据交换”,那么必然会遭到淘汰。 在电子商务中使用x l v i l 交换数据是各大企业看好的趋势,各软件商也逐步在产品中加 入对) 0 儿的支持。v 几提供一种标记数据的标准语法,并允许使用者在消息中加入附加信 息,这样就可以将脚本和商业规则相联系,为电子商务应用提供各种完整的解决方案和功能, 包括资料传递、资料采集与资料呈现等等,让设计流程大为简化。帆可以让电子商务拥有 更多的资源选择,并且让消费者或供应商与合作伙伴之间维持更密切、更有效的关系。 因此,基于v i l 设计物流信息平台可以很好地解决数据交换的问题。 1 3 主要研究工作 本文分析了“l 的有关技术规范,研究了“l 数据存储和查询的理论,并将这些理论 应用于物流信息平台系统中。主要工作包括以下几个方面: 1 ) 对于v i l 技术的产生、发展和现状进行了广泛的分析与研究。 对x m b 技术产生、发展和现状的研究分析表明,x i l , 技术的产生和迅速发展已经对i t 领域产生了巨大影响。虽然m 。的规范有很多仍处于草案阶段,但相关的工具,产品不断 涌现。从微软和i b m 抛开敌意,联手建立x l v i l 语言相关规范可见一斑。 分析了v i l 语言、咀。模式描述语言、x m l 查询语言后,研究发现x i v i l , 数据是树状 层次结构,现有的数据库系统不能直接用于存储x m l 数据。解决方法有两个,一是为沮。 数据专门研究一种数据库,目前也有人在按此方法做研究工作。二是使用已有数据库系统来 存储x _ m l 数据。对于已有的大量关系数据库系统用户来说,找到用关系数据库来存储m 。 第3 页 垦堕型兰垫查奎兰旦塞竺堕兰垡笙壅 一一一 数据的方法是很有意义的事。已有人在这方面做了很多工作t 但还有很多值得进一步研究的 问题。本文在已有工作的基础上,进一步深入研究了这方面的问题,并将研究成果应用于物 流信息系统中。 2 ) 深入分析了关系数据和x i v i l 数据的本质特征,研究了关系数据到讧l 数据的转换a 本文首先研究了关系数据到x m l 数据的转换。关系数据是二维表格形式,而x m l 数据 是树状层次结构。转换的关键在于模式的转换,文中给出了两个转换算法:第一个算法将每 个表转换成一个元素,各元素是对等关系:第二个算法产生相互嵌套的一组元素。 文中还研究了转换中保留语义的问题,主要实现了外关键字约束和域值约束的保留。然 后研究了数据转换的技术实现。 3 ) 研究了x 2 v i l 数据到关系数据的转换。 要将树状层次结构的札数据转换为二维表格结构的关系数据,关键在于找到一个合 适的划分,将) 洲l 数据中的元素、属性恰当地分组。每组刚好存储到一个表格中,可以用 外关键字来保留各表中元素之间的关系。x m l 模式描述元素、属性间的关系,因此,可以依 据o e m 模型为使用x s d 描述的x m l 模式构建元素、属性间的结构图,并依据该图将元素、 属性分组。文中根据这个思路,提出了新的模式转换算法x t r ,该算法能处理多对多关系, 而且算法的结果更符合范式的要求。 之后,研究了转换中保留语义的问题,主要实现了域值约束,出现次数约束和c h o i c e 约 束。然后研究了数据转换的技术实现。最后分析了将x m l 数据转换后还原的问题。 4 ) 深入分析了x m l 数据查询语言x q u e r y 和s q l 查询语言的本质特征,研究了x q u e r y 语言到s q l 语言的转换。 查询在实际应用中使用很频繁,因此,为了在关系数据库系统中使用x m l 技术,还要 考虑查询。将x m l 数据存储到关系数据库后,可以将x m l 的查询转换到关系数据库上的 s q l 查询,然后将s q l 查询结果还原为x m l 数据。按照这个思路,文中描述了x q u e r y 语 言到s q l 语言的转换,及查询结果的还原技术。 在分析了x q u e r y 语言后,发现语句中涉及的变量和元素构成一个查询图,查询图简化 了转换x q u e r y 语句的过程。文中依据查询图提出了转换方法和还原技术。 5 ) 成功地将x m l 技术应用到物流信息平台中。 文中介绍了基于x m l 技术设计并实现物流信息平台的方法。描述了x m l 技术的应用: 一是用最新模式描述语言x s d 建立相关的x m l 模式;二是实现x m l 数据和关系数据的相 互转换:三是描述了在w e b 上显示x m l 数据的实现技术。 第4 页 一 里堕型兰垫查奎兰翌茎竺堕兰焦至苎 _ - _ _ _ _ _ _ - _ - _ _ _ _ _ _ _ - - _ _ _ _ - _ - _ _ _ 一一 1 ,4 论文的组织 本文是这样组织的: 第二章对课题中要用到的知识作了简单的介绍。首先介绍了关系模型,分析了关系模型 的数据结构、关系操作、关系的完整性约束和关系模型的优缺点。然后介绍了x m l 技术, 包括x m l 的发展史,并和大家熟悉的h t m l 作了比较,然后是x i v l l 的简要语法知识,最 后介绍了半结构化数据和它的o e m 模型。 第三章主要描述关系数据到x m l 数据的转换。要转换关系数据,主要是将关系模式转 换为x m l 模式。文中提出了两个算法以便将关系模式转换为x m l 模式。转换完模式后,将 数据按模式的对应关系一一填充便可完成整个转换。 第四章主要描述x m l 数据到关系数据的转换。这个转换的关键在于要将x m l 模式转换 为关系模式。x m l 模式类似树型结构,而关系模式是二维表格形式。因此,主要是找到合适 的划分,将皿。模式中的元素、属性恰当地分组。转换的第一步是依据x m l 模式构建结构 图。然后利用x t r 算法将其转换成关系模式,最后给出保留x m l 中语义的方法。转换完模 式后,将数据按模式的对应关系一一填充即完成整个转换。 第五章主要描述x q u e r y 语句到s q l 语句的转换及查询结果还原的方法。详细分析了 x q u e r y 语言,描述了转换查询语言的方法。即:基于x t r 算法,采用查询图来构造s q l 语 句,最后描述了将s q l 查询结果还原的方法。 第六章主要描述x m l 在物流信息平台中的应用。首先描述了物流信息平台的整体结构 和特点。然后介绍了物流信息平台中x m l 的应用,即设计相应的x m l 模式,处理x m l 数 据和w e b 网站上) m 几的处理。 第七章是对本课题的总结和展望。 1 5 研究成果 在论文的理论研究和工程应用中,作者主要取得了以下四个方面的研究成果: 1 ) 分析并研究了关系数据和x m l 数据的本质特征,提出了将关系数据转换为x m l 数据的方法。这一部分的主要内容作为论文关系模式到x m l 模式的转换研究发 表在计算机工程与科学的2 0 0 4 年第2 期上。 2 ) 提出了x m l 数据到关系数据的转换方法,其主要内容作为论文( ( x m l 模式到关系 模式的转换研究已录用,预计在2 0 0 5 年第6 期刊出。 3 ) 提出了x q u e r y 查询语句到s q l 查询语句的转换方法及还原查询结果的方法。 第5 页 国防科学技术大学研究生院学位论文 4 ) 将x m l 技术成功应用到物流信息平台中。 6第页 一! 型堂垫查查兰塑窒生堕兰垡堕茎 :一 _ _ _ _ _ _ 一 第二章关系模型与x m l 技术 2 1 1 关系模型概述 2 1 关系模型 关系模型是目前最重要的一种数据模型。关系数据库系统采用关系模型作为数据库的组 织方式。 1 9 7 0 年美国i b m 公司s a nj o s e 研究室的研究员ef ,c o d d 首次提出了数据库系统的关系 模型,开创了数据库关系方法和关系理论的研究,为数据库技术奠定了理论基础。由于 e f c o d d 的杰出工作,他于1 9 8 1 年获得a c m 图灵奖。 关系模型由关系数据结构、关系操作集合和关系完整性约束三部分组成。 2 1 1 1 关系模型的数据结构 关系模型的数据结构非常单一,即关系。在关系模型中,现实世界的实体以及实体问的 各种联系均用关系来表示。在用户看来,关系模型中数据的逻辑结构是一张二维表。 关系模型要求关系必须是规范化的,即要求关系必须满足定的规范条件,这些规范条 件中最基本的一条就是,关系的每个分量必须是一个不可分的数据项,也就是说,不允许表 中还有表。 关系模型建立在集合代数的基础上,下面从集合论角度给出关系数据结构的形式化定 义。 定义2 t域是一组具有相同数据类型的值的集合。f 4 j 例如,自然数、整数、实数都可以是域。 定义2 2 给定一组域d i ,d 2 。,d 。,这些域中可以有相同的。d i ,d 2 ,d 。的 笛卡尔积为: d l x d 2 x d 。= ( dr ,d 2 ,山) l d i d i ,i = l ,2 ,1 1 ) 其中的每个元素( d r ,d 2 ,d 1 1 ) 叫做一个n 元组( n t u p l e ) 或简称元组( t u p l e ) 。 元素中的每个值d i 叫做个分量( c o m p o n e n t ) 。 笛卡尔积可表示为一个二维表。表中的每行对应个元组,表中的每列对应一个域, 定义2 3 d i d 2 d 。的子集叫做域d l ,d 2 ,d 。上的关系。表示为 第7 页 国防科学技术大学研究生院学位论文 _ _ _ - _ _ _ _ _ _ l _ _ _ - _ _ _ _ - _ _ _ _ _ - 一。 r ( d 1 ,d 2 ,d n ) 这里r 表示关系的名字,n 是关系的目或度( d e g r e e ) 。 当n = 1 时,称浚关系为单元关系( u n a r yr e l a t i o n ) 。 当n = 2 时,称该关系为二元关系( b i n a r y r e l a t i o n ) 。 2 1 1 2 关系操作 关系模型给出了关系操作的能力,但不对r d b m s 语言给出具体的语法要求。 关系模型中常用的关系操作包括:选择( s e l e c t ) 、投影( p r o j e c t ) 、连接( j o i n ) 、除 ( d i v i d e ) 、并( u r i o n ) 、交( i n t e r s e c t i o n ) 、差( d i f f e r e n c e ) 等查途( q e r y ) 操作和增 加( i n s e r t ) 、删除( d e l e t e ) 、修改( u p d a t e ) 操作两大部分。查询的表达能力是其中最主 要的部分。 关系操作的特点是集合操作方式,即操作的对象和结果都是集合。这种操作方式也称为 一次一集合( s e t a t a - t i m e ) 的方式。早期的关系操作能力通常用代数方式或逻辑方式来表示, 分别称为关系代数和关系演算。关系代数是用对关系的运算来表达查询要求的方式。关系演 算是用谓词来表达查询要求的方式。关系演算又可按谓词变元的基本对象是元组变量还是域 变量分为元组关系演算和域关系演算。关系代数、元组关系演算和域关系演算三种语言在表 达能力上完全等价。 关系代数、元组关系演算和域关系演算均是抽象的查询语言,这些抽象的语言与具体的 d b m s 中实现的实际语言并不完全一样。但它们能用作评估实际系统中查询语言能力的标准 或基础。 2 1t3 关系的三类完整性约束 关系模型允许定义三类完整性约束:实体完整性、参照完整性和用户定义的完整性。其 中实体完整性和参照完整性是关系模型必须满足的完整性约束条件,应该由关系系统自动支 持。用户定义的完整性是应用领域需要遵循的约束条件,体现了具体领域中的语义约束。 规则2 1实体完整性规则 若属性a 是基本关系r 的主属性,则属性a 不能取空 值。 规则2 2 参照完整性规则若属性( 或属性组) f 是基本关系r 的外关键字,它与 基本关系s 的主关键字k 。相对应( 基本关系r 和s 不一定是不同的关系) ,则对于r 中每 个元组在f 上的值必须为: 或者取空值( f 的每个属性值均为空) : 或者等于s 中某个元组的主关键字值。 第8 页 国防科学技术大学研究生院学位论文 2 1 1 4 关系模式 在数据库中要区分型和值。关系数据库中,关系模式是型,关系是值。关系模式是对关 系的描述。那么一个关系需要描述哪些方面呢? 首先,关系实质上是一张二维表,表的每行为一个元组,每列为一个属性。一个元组就 是该关系所涉及的属性集的笛卡尔积中的一个元素。关系是元组的集合,因此关系模式必须 指出这个元组集合的结构,即它由哪些属性构成,这些属性来自哪些域,以及属性与域之间 的映象关系。 t 其次,一个关系通常是由赋予它的元组语义来确定的。元组语义实质上是一个n 目谓词, r l 是属性集中属性的个数。凡使该n 目谓词为真的笛卡尔积中的元素,或者说凡符合元组语 义的那部分元素的全体就构成了该关系模式的关系。 现实世界随着时间不断地变化,因而,在不同时刻,关系模式的关系也会有所变化。但 是,现实世界的许多已有事实限定了关系模式所有可能的关系必须满足一定的完整性约束条 件。这些约束或者通过对属性取值范围的限定,或者通过属性值之间的相互关联,主要体现 于值的相等与否来反映。关系模式也应当刻画出这些完整性约束条件。 因此,一个关系模式应当是一个四元组。 定义2 4关系的描述称为关系模式( r e l a t i o ns c h e m a ) 。它可以形式化地表示为: r ( u ,d ,d o m ,f ) 其中r 为关系名,u 为组成该关系的属性名集合,d 为属性组u 中属性所来自的域,d o m 为属性向域的映象集合,f 为属性间数据的依赖关系集合。 关系是关系模式在某一时刻的状态或内容。关系模式是静态的、稳定的,而关系是动态 的、随时间不断变化的,因为关系操作在不断地更新着数据库中的数据。但在实际中,人们 常常把关系模式和关系都称为关系。 2 1 1 s 关系数据的规范化 为了使数据库设计的方法走向完备,人们研究了规范化理论。从1 9 7 1 年起,e f c o d d 就提出了这一理论,规范化理论的研究已经取得了很多成果。按属性间依赖情况来区分关系 规范化的程度,可以分为第一范式、第二范式、第三范式和第四范式等。 第一范式( i n f ) 即二维表格中每个分量必须是不可分的数据项。 定义2 5 设r 是属性集u 上的关系模式。x ,y 是u 的子集。若对于r 的任意一个 可能的关系r ,r 中不可能存在两个元组在x 上的属性值相等,而在y 上的属性值不等,则 称x 函数确定y 或y 函数依赖于x ,记作x 叶y 。若y 不函数依赖于x ,贝l l i a 作肖。y 。 9第顶 一 一一 里堕型堂垫垄奎兰婴窒竺堕兰垡堡苎 一一一 _ _ _ - _ _ _ _ _ - _ _ _ _ _ _ _ _ _ _ _ _ - _ _ _ _ _ _ 一 一一 第二范式( 2 n f ) ,若r e 1 n f ,且每个非主属性完全函数依赖于主关键字,则r 2 n f 。 第三范式( 3 n f ) ,关系模式r 中若不存在这样的主关键字x ,属性组y 及非主属性z ( z 垡y ) 使得x 斗y ,( y x ) r 斗z 成立t 则称r 3 n f 。 b c n f 范式:关系模式r l f 。若x 一】,且y 垡x 时x 必含有主关键字,则r b c n f 。 3 n f 和b c n f 是在函数依赖的条件下对模式分解所能达到的分离程度的测度。一个模式 中的关系模式如果都属于b c n f ,那么在函数依赖范畴内,它已实现了彻底的分离,已消除 了插入和删除的异常。3 n f 的“不彻底”性表现在可能存在主属性对主关键字的部分依赖和 传递依赖。 定义2 6设r 是属性集u 上的一个关系模式。x ,y ,z 是u 的子集,并且z = u z 一,r 。 关系模式r 中多值依赖x 斗斗y 成立,当且仅当对r 的任一关系r ,给定一对( x ,z ) 值, 有一组y 的值,这组值仅仅决定于x 的值而与z 值无关。若z 斗一y ,而z :o 即z 为空, 则称x 哼哼y 为平凡的多值依赖。 第四范式( 4 n f ) ,关系模式r 1 f ,若对r 的每个非平凡多值依赖z 呻斗r ( r 垡z 1 , x 都含有主关键字,则称r 4 n f 。 在关系数据库中,对关系模式的基本要求是满足第一范式。这样的关系模式是合法的、 允许的。但是,人们发现有些关系模式存在插入、删除异常、修改复杂,数据冗余等问题。 解决这些问题的办法就是采用规范化理论。 规范化的基本思想是逐步消除数据依赖中不合适的部分使模式中的关系模式达到某种 程度的“分离”。让一个关系描述一个概念、一个实体或者实体间的一种联系。若多于一个 概念就把它“分离”出去。规范化的实质就是概念上的单一化。 2 1 2 关系模型的优缺点 关系数据模型具有下列优点: 1 ) 关系模型与非关系模型不同,它建立在严格的数学概念的基础上。 2 ) 关系模型的概念单一。无论实体还是实体间的联系都用关系表示。对数据的检索结 果也是关系( 即表) 。所以其数据结构简单、清晰,用户易懂易用。 3 ) 关系模型的存取路径对用户透明,从而具有更高的数据独立性、更好的安全保密性, 也简化了程序员的工作和数据库开发与建立的工作。 关系数据模型也存在缺点,其中最主要的缺点是,由于存取路径对用户透明,查询效率 往往不如非关系数据模型。因此为了提高性能,必须对用户的查询要求进行优化,结果增加 第1 0 页 国防科学技术大学研究生院学位论文 一 了开发数据库管理系统的难度。 2 2 1x m i 概况 2 2x m l 技术概述 1 9 6 9 年,i b m 的研究人员e dm o s h e r ,r a yl o r i e 和c h a r l e sfg o l d f a r b 发明了第一种现 代标记语言通用标记语言g m l ( g e n e r a l i z e dm a r k u pl a n g u a g e ) 。g m l 是一种自参考的 语言,它可以用于标记任何数据集台的结构,同时它也是一种元语言( m e t a l a n g u a g e ) ,能 够描述其它语言及其语法和词汇表的语言。此后g m l 发展为标准通用标记语言s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 。1 9 8 6 年国际标准化组织i s o 将s g m l 接受为国 际性的数据存储和交换的标准,收录为i s 0 8 8 7 9 。s g m l 是一种用标记来描述文件数据的通 用语言,包含了一系列的文档类型定义d t d ( d o c u m e n tt y p ed e f i m 6 0 n ,文档类型定义) , s g m l 的语法是可以扩展的,s g m l 的语义标记有助于计算机分类和索引,并且可以扩展成 处理新数据格式的各种方法。s g m l 是一种非常强大,也非常复杂的标记语言,它已经被美 国政府及其合同商、大型制造公司、信息技术发布者广泛采用,但它的复杂性及价格的昂贵 又使大多数商业用户和个人用户无法享受此项技术所带来的益处。有鉴于此,、c b 的发明者 欧洲核物理研究中心的t i mb e m e r s l e e 根据当时( 1 9 8 9 年) 计算机技术的能力,提出 了h t m l ( h y p e r t e x t m a r k u pl a n g u a g e ) 。 h t m l 由s g m l 这个元语言定义,h t m l 中所定义的标记是固定的,不可扩展的,它 不需要d t d 。这种固定的语法使得h t m l 易学易用,很快成为目前i m e m e t 上广泛使用的一 种标准格式,有力地推动了w e b 的发展。 h t m l 侧重于主页表现形式的描述,大大丰富了主页的视听效果,为推动w w w 的发展, 推动信息和知识的网上交流发挥了不可取代的作用。可是h t m l 自身的特点使它蕴涵许多危 机,并日益成为h t m l 继续发展的障碍,它的缺点主要表现在: 1 ) h t m l 是为描述主页的表现形式设计的,它疏于对信息语义及其内部结构的描述, 不能适应日益增多的信息检索和存档要求; 2 ) h t m l 对表现形式的描述能力不够,无法描述矢量图形、科技符号等特殊显示效果; 3 ) h t m l 标记的不可扩展性及实用要求使得它的标记集日益臃肿,而且松散的语法要 求使得文档结构混乱、缺乏条理,导致浏览器的设计越来越复杂,从而降低浏览的 时间效率和空间效率。 针对上述缺陷,随着i n t e m e t 发展,急需开发种新的标记语言来克服以上缺点,x m l 第1 1 页 国防科学技术大学研究生院学位论文 就是在这种形势下开发出来的。 1 9 9 6 年,w 3 c ( w 。f l dw i d ew e b c o n s o r t i u m ,万维网协会) 就开始设计一种可扩展的标 注语言,当时的工作重点是期望将s g m l 的灵活性和强大功能与已经被广泛采用的h t m l 结合起来。这种后来变成x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 的语言继承 了s g m l 规范的很多特性,而且事实上,就是后者的一个子集。x m l 较s g m l 更为简化, 很大程度上是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论