(计算机软件与理论专业论文)基于双时态关系数据模型的xml转换与查询.pdf_第1页
(计算机软件与理论专业论文)基于双时态关系数据模型的xml转换与查询.pdf_第2页
(计算机软件与理论专业论文)基于双时态关系数据模型的xml转换与查询.pdf_第3页
(计算机软件与理论专业论文)基于双时态关系数据模型的xml转换与查询.pdf_第4页
(计算机软件与理论专业论文)基于双时态关系数据模型的xml转换与查询.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机软件与理论专业论文)基于双时态关系数据模型的xml转换与查询.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于双时态关系数据模型的x m l 转换与查询 计算机软件与理论专业 硕士生:黄钊梅 指导教师:叶小平副教授 摘要 随着时态信息需求的飞速发展,时态信息处理技术的应用领域越来越广阔, 并有向多元化的方向发展的趋势。由于时态信息数据的海量性以及时态信息存在 方式的异构性,时态信息处理日益多样化和复杂化。现有的时态模型大多只是在 常规关系数据库或对象数据库中增加一些时态扩展功能,不能满足时态操作复杂 性及时态信息异构性的要求。随着x m l 技术的出现及其标准化进程的推进,人 们发现x m l 可以与现有一些时态技术结合,从而有效处理时态信息。这里,x m l 的主要优势在于;首先,x m l 在表示时态数据结构方面具有关系数据库所不具 有的优势,x q u e r y 的查询机制也为时态查询提供了很好的支持:其次,x m l 本 身的标准化特性使得进行数据交换的工作量大大减少。 目前结合x m l 技术来对时态信息进行处理的研究还处于探索发展阶段,相 应模型多数都过于复杂,对查询技术处理要求比较高。特霁j 是对于双时态数据中 两种时态变量的使用与算法考虑不够充分,另外也缺乏对时态关系和x m l 模式 之间有效转换的深入讨论。本文结合了多项前人工作成果,以双时态关系数据库 的实际操作需求为出发点,在t s q l 2 中表示数据模型的基础上,提出适合于时 态变量处理的规范化双时态关系数据模型b r d m 并在该模型框架内,结合时 态分组理念构造分组归并算法,探讨双时态数据从规范化关系模型到x m l 文档 模式的转换机理,然后在转换工作的基础上,分析转换的利弊及提出相应解决方 案,最后研究了带变量的双时态x m l 文档查询的查询,并在o u i p 上予以实现。 关键字t 规范化双时态关系数据模型,时态变量,时态分组归并,时态x m l 转换与查询 t h ex m lt r a n s f e r r i n ga n dq u e r y i n gb a s e d o nb i t e m p o r a l r e l a t i o n s h i pd a t am o d e l c o m p u t e rs o f t w a r ea n dt h e o r y n a m e :h u a n gz h a o m e i s u p e r v i s o r :v i c ep r o f e s s o ry ex l a o p i n g a b s i r a c t w i t ht h er a p i d l yi n c r e a s i n gd e m a n do ft e m p o r a li n f o r m a t i o n , t e m p o r a lp r o c e s s i n g t e c h n o l o g i e sa r ei n v o l v e di nv a r i o u sa p p l i c a t i o nf i e l d sa n dg e t t i n gam u l t i p l e xg r o w t h b e c a u s eo ft h et r e m e n d o u ss t o r a g ea n dh e t e r o g e n e o u sc h a r a c t e r i s t i c ,t h ep r o c e s s i n go f t e m p o r a li n f o r m a t i o ni sg e t t i n gm o r ea n dm o r em u r i f o r ma n dc o m p l i c a t e d h o w e v e r , t h et e m p o r a lm o d e l so fn o w a d a y sm o s t l ye x t e n ds o m ea d d i t i o n a lt e m p o r a lf u n c t i o n f o rt h er e l a t i o n s h i pd a t a b a s eo r0 1 ) j e c td a t a b a s e , w h i c hc a n tf u l f i l lt h er e q u i r e m e n to f p r 0 s s m gt e :m 1 0 0 m li n f o r m a t i o n x m l , t h ee x t e n s i b l em a k e u pl a n g u a g e ,t u r n e du p w i t hm a n ya t t r a c t i v ea d v a n t a g e sa n ds h o w ss e v e r a ls u p e r i o r i t i e so v e rt r a d i t i o n a l d a t a b a s eo up r o c e s s i n gt e m p o r a li n f o r m a t i o n f i r s t l y , x m lc a ne x p r e s st e m p o r a ld a t a m o r en a t u r a l l ya n dm e a n i n g f u l l y , s e c o n d l y , x o u c r yg i v e se x c e l l e ms u p p o at o t e m p o r a lq u e r ya n dp r o v i d e sa ne a s yp r o g r a m m i n g f o ru s e r s ,f i n a l l y , t h es t a n d a r d i z e d c h a r a c t e r o f x m l m a yr e d u c e s a g r e a t d e a l o f w o r k l o a d i n d a t a e x c h a n g i n g a t p r e s e n t ,t h ei n t e g r a t i o no fx m la n dt e m p o r a li n f o r m a t i o ni s s t i l la ta l l e x p l o r i n gs t a g e m a n ym o d e l sh a v eb e e ne s t a b l i s h e dt oc o m b i n ex m l a n dt e m p o r a l i n f o r m a t i o n , w h i l em o s to ft h e ma r ec o m p l e x , a n dn o tc o n v e n i e n tf o rp r o c e s s i n g q u e r y - l i t t l ea t t e n t i o n sh a v eb e e np a i dt ot r e a tw i t ht h et w ot e m p o r a lv a r i a b l e s 虹 b l t e m p o r a ld a t a b a s e ,a n de f f i c i e n tt r a a s f c n i n gm a p p i n gb e t w e e nt e m p o r a lr e l a t i o n s h i p a n dx m ls c h e m as t i l lr e q u i r e saf u r t h e r 啦u d y i nt h i sp a p e r , w ef i r s tg i v ead e t a i l d e s c r i p t i o no f t h er e a lm a n i p u l a t i o no f b i t e m p o r a ld a t a b a s e t h e nm a k i n gr e f e r e n c et o t h es n o d g r a s sr e p r e s e n t a t i o nd a t am o d e l , w ep u tf o r w a r db r d m ,as t a n d a r d i z e d b i t e m p o r a lr e l a t i o n s h i pd a t am o d e l , w h i c hi s o fs u f f i c i e n tc o n s i d e r a t i o no ft h et w o t e m p o r a lv a r i a b l e s ,n o wa n du c t h i r d ,b a s e do nb r d m ,w ee s t a b l i s ht h et e m p o r a l l y g r o u p e dc o a l e s c i n ga l g o r i t h m , a n d d i s c u s st h e b i t e m p o r a l d a t a t r a n s f e r r i n g m e c h a n i s mb e t w e e nb r d ma n dx m ld o c u m e n t t h e nw ea n a l y z et h ep r o b l e m s g e n e r a t i n gf r o mt h et r a n s f e ra n dp r o v i d es o l u t i o n s l a s t ,w es h o ws e v e r a lx m l q u e r i e sw i t hb i t e m p o r a lv a r i a b l e sb yu s i n go u i p ,a nx q u e r ys u p p o r t e ds o f t w a r e k e yw o r d s :s t a n d a r d i z e db i t e m p o r a lr e l a t i o n s h i pd a t am o d e l ,t e m p o r a lv a r i a b l e , t e m p o r a l l yg r o u p e dc o a l e s c i n g ,t e m p o r a lx m lt r a n s f e r r i n ga n dq u e r y i n g - - 第1 章绪论 1 1 问题研究的背景和意义 随着数据库技术的迅速发展,特别是多媒体技术和网络技术的发展,时态信 息的应用已渗透进各行各业中。但由于还没有成熟的时态模型和软件产品,大部 分与时态相关的应用,只是借鉴当前一些时态数据模型,在实际实现中仍然只能 采用传统的技术,这就使得时态信息在实际应用产生了很多问题: 一方面,时态信息数据海量级的历史记录及其运算的复杂性使得现有数据库 产品还不能很好的支持时态数据的存储、查询、更新等业务操作。例如,时态信 息传统的关系数据库结构化查询语言( s t r u c t u r e dq u e r yl a n g u a g e s q l ) 在面对 双时态数据库的时候,是显得相当笨拙的,首先s o l 对时间的支持类型不够丰 富,其次,它在进行时态运算处理的时候,不但要书写的s q l 语句繁琐,查询 执行的效率也低下。 另一方面,时态信息应用领域越来越广阔。时态信息需求多元化,时态信息 的应用也相应地多元化。另外,时态信息的存在方式是异构的,对于任意级数的 企业或者部门的计算机应用而言,为了能够和外部数据系统交互,它必须要为不 同的交换标准提供不同的数据接口,为每个异构存储的格式构筑转换应用,这不 能不说是一项繁复而庞大的工程。要实现时态信息的共享和协作处理,就必须寻 求高效的数据转换和传输模式。 跳出关系数据模式的框框,我们在x m l 领域看到了时态数据在存储、传输、 交换等技术发展的新景观,x m l 正被迅速接受成为一种通用的数据容器、传输 格式和交换标准。先来看看x m l 所具有的卓越的性能表现及其对时态信息处理 的支持1 5 1 1 1 6 11 1 7 1 1 x m l 具有扩展性,允许用户自定义标记,使得x m l 文档具有自我描述 的特性,能清晰描述时态数据的时态特性; 2 x m l 文档的数据组织方式容易阅读,也容易理解,它的“层次”结构或 称为“树形”结构可以非常自然的表达时态数据信息的不同历史版本; 3 x m l 是一种文本格式文件,这个本质使得它与具体的处理技术和平台无 第1 章绪论 关,人们能根据需要使用各种技术来处理x m l 文档,通过x m l 建立平台无关 的交换标准,就可实现低线性代价的星状数据交换模式。 4 另外,虽然作为一种标记语言,但x m l 不是一种独立发展的技术,它实 际上是一系列正在发展中的技术体系,这些技术提供的支持包括:x m l 文档结 构的定义,如d t d 、s c h e m m 节点集的导航搜索功能,如x d a t h ;提供显示x m l 数据表现方式,如x s l 、x s l t :提供资源对象的链接和选择功能,如x l i n k 、 x p o i n t e r ;以及创建、读取和操作x m l 文档内容的接口,如s a x 、d o m 。特别 是x q u e r y ,这种w 3 c 目前正在不断完善的x m l 查询语言规范,为用户提供灵 活的基于x m l 文档的查询机制,可以快速高效的提取数据信息。 x m l 、x o u e r y 等相关技术为时态数据的存储表示、查询更新以及传输交换 等多方面的研究开拓了新的广阔前景,这也正是本文研究问题的出发点。 在前人的研究成果基础上,本文首先从分析双时态数据库中实际的操作原理 入手,将t s q l 2 中基于表示的关系数据模型进行必要的扩充,建立规范化双时 态关系数据模型,以适应带变量的双时态数据处理的需要;其次以构建的规范化 双时态关系数据楱型为基本框架,比较深入地讨论时态关系数据的双时态分组归 并,这是时态数据向x m l 转化过程中的一个关键问题;以双时态分组归并原理 为基础,建立了个从双时态时态关系模式到x m l 文档模式的转换枫制,同时 探讨如何利用x o u e r y 对转换后的双时态x m l 文档进行查询,为用户返回x m l 格式的结果,从而达到进行数据交换的目的。 本论文所选课题研究的意义在予: ( 1 ) 建立的规范化双时态关系数据模型为时态变量的分析与处理提供了一 个框架,同时由于是t s q l 2 中表示数据模型的扩充,因此所建立相关算法可以 在已有技术平台实施。 ( 2 ) 基于已有数据库平台的时态查询总是不尽人意,而通过有效的x m l 转 换,从而可以利用有效的x m l 查询工具x o u e r y 对时态x m l 文档进行处理, 同时得到标准化格式的时态查询结果,在现有环境下为进行时态数据操作提供了 一种新的有价值的选择。 ( 3 ) 本文的查询结果在o u i p 上实现,至少说明我们的基本工作具有实际应 用可能性与进一步研究工作的前景。 第1 章绪论 1 2 国内外研究现状 1 2 1 时态数据库技术的研究现状 文献1 1 调查了到目前为止时态数据库技术的发展现状,它概括说到,自上世 纪八十年代初时态数据库技术产生以来,经过大量计算机工作者的研究和实践, 时态数据库在基础理论、数据模型、数据库语言、应用技术等方面都取得了丰盛 的成果,时态信息技术目前仍处于不断研究和发展阶段。现有的时态数据库研究 现状及不足可以归纳如下: 1 在现有的时态数据模型中,对时间数据的描述主要是依照j b e nz v i 于 1 9 7 9 1 9 8 2 年间提出的时间点时间区间模型、有效时间( v a l i dt i m e ) 、事务时间 ( t r a n s a c t i o nt i m e ) 以及双时态( b i - t e m p o r a l ) 等概念;时态数据演算主要是基于 j e a l l e n 于1 9 8 4 年提出的十三种时间区间演算( 或其扩展) 。主要不足是:时态数 据运算体系不完备,时态关系演算还没有系统和有力的数学理论支持。 2 时态数据模型多,一些标准在逐步提出申请,但是时态数据模型还不够成 熟,还没有形成较完整的国际标准,而且各种模型都还存在一些不足。时态数据 模型一般都是传统关系数据模型的扩展,并将传统关系数据库作为特例。主要方 法是在t d b 中增加一些运算,如a f f e r 、b e f o r e 和o v e r l a p 等;扩展一些 操作,例如时态选择,时态投影、时态连接等。目前大部分时态数据查询语言是 通过扩展当前的查询语言,如s o l 或者q u e l ,时态数据查询功能有限效率较 低。由于种种原因,数据库厂商难以下决心选用t d b 技术应用予产品。 3 在应用方面,由于八十年代数据库技术迅速发展,特别是九十年代多媒体 技术、网络技术等发展,时态信息的应用呈现出勃勃生机。在地理信息系统、农 业信息系统,电信信息系统,电子商务,电子商务,智能决策支持系统,数据仓 库与数据挖掘,特别是时空( s p a t i o - t e m p o r a l ) 信息技术和多媒体信息系统方面, 时态信息处理技术得到空间的重视和应用。但是,由于还没有成熟的时态模型和 软件产品,大部分与时态相关的应用,只是借鉴当前一些时态数据模型。在实际 实现中仍然只能采用传统的技术,其时态部分的解释是由应用程序而非数据库本 身来进行。 文献2 1 中提到,到二十世纪九十年代初,人们提出的时态数据模型及其查询 第1 章绪论 语言已不下四十多种。时态数据库的各种特征及应考虑的问题基本上都已覆盏, 当今关键的问题应该是总结成果,研究实现技术。作者同时还指出,任何一种时 态数据模型要满足所有的要求是不可能的,现有的各种时态数据模型在用途上都 各有侧重。接着介绍了t s q l 2 中提出的二种时态数据模型,分别为双时态概念 数据模型( b i t e m p o r a lc o n c e p t u a ld a t am o d e l ,b c d m ) 和s n o d g r a s s 的面向存储 的表示数据模型( r e p r e s e n t a t i o n a ld a t am o d e l ,r d m ) 。其中b c d m 有着十分明 显的缺点,它的时间标签占用存储空间过大,直接用b c d m 形式存储时态数据 是不现实的。用表示数据模型表示时态数据,可以节省存储空间,但这种模型使 得数据的表现形式具有很大的随意性,不利于处理时态数据这样多变且具有复杂 运算操作的数据类型。 以上的现状描述是引发本文在现有数据模型基础上建立规范化定义的双时 态数据模型的原因。 1 2 2 关系模式与x m l 文档的转换 自从1 9 9 8 年2 月美国w 3 c 组织发布x m l l 0 版本标准以来,x m l 已经成 为i n t e m e t 上最热门的话题之一,x m l 的卓越高效性能广为人知。人们把信息数 据和x m l 整合应用,或者利用x m l 的数据自描述性能把x i v l l 文档作为数据 的存储容器;或者利用x m l 文本格式的简单性和平台无关性,把x m l 作为数 据传输交换的手段;等等。但就目前来说,由于历史因素,绝大部分的数据都是 存储在关系数据库当中,那么要和x m l 整合,就必须首先建立关系模式到x m l 模式的映射机制从而实现转换。我们先来看看一般的关系模式是如何映射到 x m l 模式的。 1 一般关系模式与】a m l 文档的映射 数据库表保存的是结构化的数据,而x m l 文档所描述的数据是半结构化的, 为了能够在x m l 文档和数据库闻传递数据,必须为x m l 文档和数据库的数据 建立结构的映射关系,这种映射关系分为两类:模板驱动和模型驱动1 2 3 1 0 以模板驱动的技术没有预先定义x m l 文档结构和数据库结构之间的映射关 系,而是使用将命令语句内嵌入模扳的方法,让数据传输中间件来执行该模板。 这种技术的缺点是必须要由程序员编写数量可观的代码嵌入模板来生成x m l 文 第1 章绪论 档,这是一件比较繁重的工作,但是这种技术的最大优点就是使用起来非常灵活, 通常包含了数据结构的编程思想,如循环和条件结构,用户可以很方便根据需要 设计映射结构。 基于模型驱动技术的映射模式原理是把x m l 文档中的数据模型的结构映射 成数据库表的结构,反之亦然。这种技术通常镌够自动完成很多的转换工作但 是它们部分别有一定的局限性,例如x m l s q l 依赖于s q l 3 的对象视图来处理 那些同时映射到几个数据库表的有着复杂结果的x m l 文档,所以它不适用于那 些不支持s o l 3 技术的数据库。 同时,许多技术专家和研究学者一直在寻求x m l 和数据库这两种技术更好 的结合途径。由于关系数据库在现实中的应用最为普及,人们对x m l 文档和关 系数据库之间数据的转换研究较多。例如文献阱1 中通过分析x m l 文档和关系 数据表的形式化,分别生成d t d 文档形式化框架和关系结构的形式化框架,然 后进行转换的映射;文献淄1 一文中用一种数据结构代替x m l 对象树,用数据 结构到关系数据库的转换替代了对象数据库到关系数据库的转换;在文献哳1 中, 作者提出了规则驱动的在x m l 模式与关系模式之间进行数据转换的方法,该方 法极大地抽取了转换的共性,采用转换脚本作为转换特性的描述方法,实现了一 个低线性代价的星状数据交换模式;文章m 1 从四个角度讨论了转换,分别是从 x m l 文档提取数据存储到数据库中,获取数据库中的数据根据已知的d t d 文档 生成相应的x m l 文档,根据确定的x m l 文档的d t d 描述生成数据库表的关系 模式,以及从数据库表的关系模式导出d t d 文档;在文献嘣1 中,作者提出了 s i l k r o u t e 这样一个转换机制,它使用了两种x m l 查询语言,首先用x r l 查询 语言来实现关系数据库数据到x m l 文档的转换,应用程序可使用x m l _ q l 来 查询生成的x m l 文档以获得需要的结果,该机制的实现方法较为繁复,必须使 用两种不同的查询语言,这就对用户的要求比较高,造成了很多限制和应用局限 性。其他的还有文献啦斟1 。总体来说,他们的方法大同小异。或采用不同的编 程工具,或讨论不同的数据库文件。 在上述文献的查阅当中,发现当前的主要方法为分析x m l 的结构描述文档 ( d t d ) 和关系数据库的结构特征,遥过在x m l 文档中元素、属性和关系数据 库中数据表的行、列之间构造简单的映射来达到转换的目的。以上研究都是在普 第1 章绪论 通关系数据库内的x m l 转换的探讨,并没有涉及到时态数据处理领域,但很多 方法为本论文在时态领域的数据交换研究提供了很大的启发作用。 2 时态关系模式与x m l 模式的映射 至于时态数据库与x m l 文档转换方面,在所查阅到的文献当中,国内的研 究很少涉及到,国外的学者当中,对这一问题研究较多的有f u s h e n gw a n g 、c a r l o z a n i o l o 、t o s h i y u k i a m a g a s a 等人。t o s h i y u k i a m a g a s a 在文献玎5 1 中提出了t x p a t h 数据模型来表示x m l 文档数据的历史记录,这种结构显得过于复杂,而且只是 讨论了有效时间单时态的情况,随后他在文章6 1 的研究中,把时态x m l 文档 数据映射到t x p a t h 模型,然后转换到关系数据库中,目的是为了利用现有的关 系数据库技术,处理时态数据信息,如s q l ,由于s q l 对时态信息处理技术的 欠缺,这似乎不是一个更好进行时态信息处理的办法。文献b 7 1 在x m l ) 【h t m l 文档中使用了一个 标签标识有效时间,使得应用程序可以使用x s l 技术 在w e b 浏览器上显示时态信息,没有涉及到时态运算等操作;文献b b l 提出一 个基于度的方法( d i m e n s i o n - b a s e d ) 来管理x m l 文档的历史记录,但是没有谈 到如何查询的问题;以上的学者都没有涉及到有效时间n o w 和事务时间t i c 的 处理;e w a n g 和c z a n i o l o 在他们的前后四篇论文啪m 1 中工作的成果主要是建 立了一个称为基于x m l 的双时态数据模型( x b f f ) ,并用x q u r y 实现了一些时 态的查询工作,但是没有考虑版本信息丢失以及历史记录的版本查询的问题,本 文的一部分工作就是在他们的模型讧的基础上,改进他们的建模方法,并实 现用x q u e r y 进行历史记录的版本查询,以及寻求版本信息重构的方法。在第3 章,我 】会对x b f r 模型做进一步的介绍。 1 2 3 时态数据的查询 当前时态数据的查询语言大多都是基于某种特定的时态关系数据模型基础 上提出来并实现的,例如,t e m p s o l 、t q u e l 、h q u e l 、h t q u e l 、t s q l 2 等1 1 1 1 2 1 。 t e m p s q l 模型先是引进了时态属性值、时态元组、生命周期、时态表达式等 一些t e m p s q l 特有的基本概念,而后建立时态数据库模型。t e m p s q l 查询语言 则是支持t e m p s q l 模型的一种语言,它是在s q l 的语言框架上加上了时态语义的 产物。t e m p s q l 模型中有许多复杂的技术细节,例如当历史性数据出现错误需要 第1 章绪论 更新时,“修改历史”将可能影响库中历史的公正性和可靠性。尽管t e m p s q l 引 进了双时态机制,可以实现对数据错误和修改历史进行查询,但是这种模型使得 时态数据库中的数据随着时间的延伸而增加,时态数据的存储需要更大的空间。 h q u e l 、h t q u e l 和t q u e l 是基于q u e l 发展起来的时态查询语言,其中h q u e l 和h t q u e l 建立在n o n 一1 n f 关系模型基础上,只有t q u e l 语言建立在1 n f 时态关 系( t e m p o r a lr e l a t i o n s ) 之上,其基本结构是对q u e l 语言的扩展,保存了q u e l 的风格。但是t q u e l 对于间隔中的某个不确定时间点缺乏简明的表达,也就是说, 在有效时间的确定性问题中,t q u e l 可以确定一个事件的产生引发一个事件存储 在一个事态数据库中,但却无法确定事件发生的确切时间。另外,t q u le 还存在 着其它的缺点如无法简明的表达“1 1 月最后一个星期五,如果不是交易日则取 这一天之前的交易日的股价”等的时态描述。 t s q l 2 语言是在b c d m 上使用的时态查询语言,这是时态数据库标准化过程中 的重要语言,也是当前最有代表性的时态数据库查询语言,它是时态数据模型、 时态数据库查询语言的研究成果与s q l - - 9 2 的结合。尽管t s q l 2 提供了专门针 对事务时间和有效时间的相应处理机制,但是同时也使得查询语句的复杂性增加 了,并且在应用过程中从数据结构到语言处理都要有所支持,仍然不能做到可以 方便轻松的处理复杂的时态数据库查询、更新操作。 以上时态关系模型的查询语言在处理实际问题中都各有长处,也存在有缺 点,但是它们有一个共同之处就是都只是在某种模型上增加对时态的扩展发展而 来,这在某种程度上就使得它们对时态查询的处理有些“先天不足”,总的来说, 查询效率不尽理想。 在x m l 技术领域。有两种基于x m l 文档的查询x p a t h 和 ( q u e r y ,现在可用的 版本是x q u e r y l 0 和x p a t h 2 0 n 7 之2 1 。它们是由w 3 c 同一个工作组正在开发的, 而且它们的规范也是互相关联的。x p a t h 是一种用来选择x m l 文档各部分的表达 式语言,x p a t h 表达式的某些方面类似于常规表达式,只是它们对x m l 节点进行 操作,而不是对字符进行操作,具有令人难以置信的强大功能,并且易于使用和 易于理解。对于简单的数据提取,单独使用x p a t h 就可以了,但是x q u e r y 构建 在x p a t h 规范之上,它拥有的最强大的新特性是f l _ r r 表达式构建查询。至于对 时态数据支持方面,我们现在至少可以看到删l 和时态处理技术结合有着以下的 第1 章绪论 好处: ( 1 ) 首先,两种时间类型有效时间和事务时间的时问变量在x m l 文档里可 以直接表示为“n o w ”和“u c ”,使得事务时间和有效时间的区间右边端点表示 更为合理和明确,同时也没有计算机系统所能表示最大日期时间的限制。 ( 2 ) x q u e r y 是跟随x m l 一起发展而成的x m l 查询语言,可与x m l 非常 和谐无问地结合在一起使用,x q u e r y 查询的结果以x m l 节点集的格式返回, 可以直接为用户拿去与其他业务伙伴交换共享资源,而无需进行繁琐的转换工 作,同样具有国际化、标准化的意义。 ( 3 ) x q u e r y 更像一种编程语言,支持循环等逻辑,支持分组、排序、连接 等操作。相对于传统数据库的标准s q l 语句,x q u e r y 在对x m l 数据的查询方 面,是一种功能更强大、更易于编程的方法。 我们可以预料,随着x m l 标准化进程的推进,x q u e r y 会如s q l 一样,成为 x m l 查询的主导方式,并有着s q l 无法比拟的高效优势。基于这个原因,本文所 要构造的模型采用x q u e r y 作为x m l 查询语言,第三章将会对x q u e r y 语言进行更 详细的介绍。 1 3 本文的内容结构 时态数据库技术的研究从二十世纪七十年代兴起开始到现在,已经获得了非 常重大的成果,而且随着时态信息在众多领域的应用需求不断增多,时态信息处 理技术已成为许多新一代数据库与信息系统的关键技术,但由于还没有成熟的时 态模型和软件产品的支持,大多只是在常规的关系、对象数据中增加时闯信息的 描述来表示时态,这种处理办法对于时间表示欠细,查询困难,不便管理。目前 大部分与时态相关的应用,都必须借助于主流数据库技术与平台软件技术的结 合。同时,x m l 及其相关技术的出现和飞速发展,为时态数据信息的表示、查 询等处理提供了新的相对于目前其他处理技术更为有效的途径。 上述现状正是本文研究工作的出发点。本文首先在现有时态数据模型基础上 建立了规范化双时态关系数据模型,接着探讨双时态数据从规范化关系模型到 x m l 文档模式的转换工作。并在转换工作的基础上研究了基于双时态x m l 的 时态查询问题。 第1 章绪论 本论文的内容结构如下: 第1 章为绪论部分,简述论文所研究问题的究背景、研究现状和论文的内容 结构安排。 第2 章介绍了论文研究所涉及到的时态基础知识及时态建模关键技术,以期 读者对时态知识有个基本的了解。 第3 章简要介绍了x m l 及其相关技术体系,其中着重介绍本文处理问题时 所要用到的3 中技术:x m l 、s c h e m a 、x q u e r y ,并阐述这三种技术在处理时态 数据上所具有的优势;最后还讨论了当前x m l 技术和数据库、时态数据库技术 应用结合的一些研究,从中引出本文处理问题的技术手段。 第4 章是论文的主体部分,从详细描述双时态关系数据模型建立和更新过程 出发,阐述了如何建立规范化双时态关系数据模型,并在此基础上构造双时态关 系模型到x m l 模式的映射机制,最后讨论了对有效时间和事务时间两种时间类 型的时态变量在不同版本的时态绑定查询中的若干问题。 第5 章为结语部分,总结本论文的主要工作结果,分析其中不足,并提出对 下一步研究工作的展望。 第2 章时态数据库基础知识 时态数据库是记录和管理时态信息的数据库,是在传统关系数据库的基础上 添加时态信息的处理发展而成的。时态数据库有着深厚的理论基础和丰富的应用 技术知识,本文在这一章里只是介绍关于时态数据库的一些最基础的时态知识, 要了解详细的内容,请查阅文献 1 - 7 1 2 1 时间的概念 2 1 1 时间粒度 时间粒度( g r a n u l a r i t y ) 是指描述时间数据的最小时间单位,表示时间点之 间离散化程度的大小。表示时间粒度的单位有很多,常用的有年、月、曰、时、 分、秒等。时间粒度越小,离散的时间点越多,描述的事件的变化信息越精细准 确,反之,描述的事件变化越粗糙。例如,描述国民生长总值的时间粒度可用年, 描述雇员工资信息可用日,描述航空飞行班次可用分,计算f 1 赛车的比赛成绩 必须使用到秒、毫秒,在科学研究中要精确到微妙甚至更小的时间粒度。在具体 实际应用中选择怎样的粒度,应该根据应用需要和系统的承受能力确定,不过, 不同的时间粒度也是可以进行相互转换的。 2 1 2 时间元素 时间元素( t i m ee l e m e n t s ) 是指表示时间属性的元素,它是时态信息系统正 确有效的表达记录的时间属性的基础。出于具体应用表达的需要,时间元素有多 种表示形式,有的是离散的时间点,有的是连续的时问区间,当然还有较为复杂 的情形集合形式。在此讨论最基本的两种时间单位:时间点和时间区间。 1 时间点 时间点( t i m ei n s t a n t 是基于离散点的时间元素,又称时刻( t i m ep o i n t ) 。这 种描述方法是把时间看成一个个离散的时间点,这些离散化的时间点的间隔大小 适度时,就可以准确的反映显示世界中事件发生及变化的状况。时间点是时阃轴 第2 章时态数据库基础知识 上的一点,它和时间粒度是密切相关的。例如2 0 0 3 年1 0 月1 臼是以“天”为粒 度的时间点,9 点2 1 分3 5 秒是精确到“秒”的时间点。 2 时间区间 时间区间( t i m ei n t e r v a l ) 是基于区间的时间元素,表示时间轴上的某一段, 段的两头端点分别为时间段的起始时间和终止时间。这就使得我们可以用两个时 间点,即一个时刻二元组来描述一个时间区间,如2 0 0 2 年1 月- 2 0 0 4 年3 月。 时间的区间表示方法根据两端时问点是否封闭可分为4 种,如图2 - 1 所示: 四种区间区问含义 图例 1 ) p i ,pjpis f s p 一一 2 ) 【p l ,p ) p j 量t p o 3 ) ( p f ,p 】p l ,p j 0 4 ) ( ,pj )a f ( 巩0 一一o p 1 岛:分剐衰示两个时间点, t 分别表示左右闭区间: ( ) :分布表示左右开区阿 图2 - i 四种时间区简的描述方法 在这四种时间区间的表示方式中,一般采用前端封闭,尾端开放的形式,主 要是考虑到对闯区间兼容对闯点的表示方式和时间区间的比较谓词的缘故。 2 1 3 时间元素之间的关系 前面提到,时间的表示可以分成两大类:基予时间点的表示和基于时间区间 的表示。由此可以把时态关系分成三大类,分别是时态区间之间、时态区闯与时 间点之问、时间点之间的时态关系。基于时间点的时间处理方法是将时间看成是 离散的,基于时间区间的处理方法是将时间看为是连续型的。可见,这两种办法 是截然不同的,但它们又是联系紧密的两种处理办法。 首先,时间点和时间区间是可以转化的。例如:在 n ,p , 中,令p l = p , 这时的时间区间可以理解为延续时间为0 的一段时间,即时间轴上的某个时间 第2 章时态数据库基础知识 点。同样,时间区问可以用时间点的集合表示,当确定了时间粒度的时候,每个 时间区间都是可以用时间点的集合来表示的。 1 a l l e n 的时态区间关系 a l l e n 在1 9 8 3 年发表的论文1 指出1 3 种时态区闻的关系及含义,如表2 - i 所示,表中的t l ,t 2 分别表示两个时态区间。他的这一工作为时态关系研究做出 了开创性的研究。 表2 - 1a l l e n l 3 种时态区间关系 b e f o r e ( t l ,t 2 ) t l 比t 2 早开始,同时t l 与c 2 之间没有相交。 a b e t ( t 1 ,国 t 1 比t 2 晚开始,同时t l 与t 2 之间没有相交。 t l 比t 2 晚开始,且早结束。即在时间轴上t l 的区间范围被 1 ) a i n g ( t l ,t 2 ) 包含在t 2 的区间范围内。 n 比1 2 早开始,且晚结束。即在时间轴上t l 的区问范围包 c o n t a i n sf t l ,t 2 ) 括了t 2 的区间范围。 o v e r l a p s ( t l ,t 2 ) t l 比1 2 早开始,且两个区间在时间轴上有相交。 o v e r l a p p e d - b y ( t l ,t 2 ) t l 比1 2 晚开始,且两个区间在时问轴上有相交。 t l 比t 2 早开始,且i l 与t 2 之间没有其它时态区间,即t 2 m e e t s ( t 1 ,1 2 ) 开始于1 1 的结束点。 t 1 比t 2 晚开始,且t 1 与t 2 之间没有其它时态区间,即1 1 m e t - b y ( t l ,t 2 ) 开始于2 的结束点。 s t a r t s ( t t ,t 2 ) t l 和1 2 有共同的起始点。但l l 比1 2 先结束。 s t a r t e d - b y ( 1 1 ,t 2 ) i l 和t 2 有共同的起始点,但t 2 比t l 先结束。 f i n i s h e s ( 1 1 ,t 2 ) l 和t 2 有共同的结束点但t 1 比1 2 晚开始。 f i a i s h e d - b y ( t 1 ,t 2 ) t l 和1 2 有共同的结束点,但1 2 比t l 晚开始。 娜( t l ,t 2 )t 1 和t 2 有共同的时间区闻,即t l 与t 2 在时间轴上重合。 2 时态区间与时间点之间的时态关系 时间点可以看作延续时间为0 的时间区间。a l l e n 提出的1 3 种时态关系是基 于时间区间的,在此基础上,我们可以绘出关于时态区间与时间点关系。 各种关系含义如表2 2 所示,表中的t 表示两个时态区间,p 表示时间点。 第2 章时态数据库基础知识 表2 - 2 时间区间与时间点的时态关系 b e f o r e 0 ,t )p 比t 早发生,即p 在t 的起始时间前发生。 a f t e r 0 ,t )p 比t 晚发生,即p 在t 的起始时间前发生。 m e e t so ,t ) 、s t a r t s ( p ,t ) p 与t 同时发生。 m e t - b y0 ,i ) 、f i n i s h e so ,t )p 与t 同时结束。 p 发生在t 的时间区间范围内,即在时间轴上p d u r i n g ( t l ,t 2 ) 比t 的起始时间晚,比t 的结束时间旱。 3 时间点之间的时态关系 时间点与点之间的时态关系相对而言比较简单,各种关系含义如表2 - 3 所示, 表中的p 、q 分别表示两个时间点。 表2 - 3 时间点间的时态关系 b e f o r e q )p 比q 早发生。 a f t e r q )p 比q 晚发生。 e q , , t t s 慨q ) p 与q 同时发生。 2 2 三种时间和两种时间变量 2 2 1 用户自定义时间 用户自定义时间是传统关系数据库中的一种定义时间的机制,允许用户把某 个元组靛属性值设为时间类型。这种时间一般取值为时间点,传统数据库里对它 的处理和对普通的字符串操作几乎没有差别。例如张清的出生日期为1 9 7 5 年2 月8 日,那么在数据库里,与张清相应的元组记录里的b i r t h d a y 属性的值就为 1 9 7 5 - 0 2 - 0 8 ( 不同的数据库表示方法可能不一样) 。一般来说,用户自定义时间 的值都是固定不变的。 时态数据库技术也支持用户自定义时间类型,不过在处理这些时间属性的时 候,系统不对它进行任何特殊处理,不需要专门的语言支持。户用自定义时间值 是完全应用依赖的,由用户和系统以常规的方式进行存取。 第2 章时态数据库基础知识 2 2 2 有效时间 有效时间( v a l i dt i m e ) 是指一个对象( 事件) 在现实世界中发生并保持为真 的那段时间。有效时间可以反应过去、现在和将来的时间,它的含义依赖于具体 应用,取值是否有效视具体应用场合而定,对应于实际应用的需要或现实世界变 化的历史,在数据库中涉及到数据约束问题。 有效时间可以是单一的时间点,单一的时间区间,或者是时间点的集合,时 间区间的有限集合,或者是整个时间域。和用户定义的时间不同,当查询语句被 检测到有时态语义的时候,有效时间是由数据库系统解释的,而且有效时间可以 被更新,其更新也是由用户来完成的。 2 2 3 事务时间 事务时间( t r a n s a c t i o nt i m e ) 是指对一个数据库对象进行操作的时间,它记 录着对数据库修改或更新的各种操作历史,对应于对象状态在数据库中变迁的历 史。如对象录入数据库的时间、修改的时间、删除的时间等等。事

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论