(计算机应用技术专业论文)信息系统动态查询多数据组织模型的研究.pdf_第1页
(计算机应用技术专业论文)信息系统动态查询多数据组织模型的研究.pdf_第2页
(计算机应用技术专业论文)信息系统动态查询多数据组织模型的研究.pdf_第3页
(计算机应用技术专业论文)信息系统动态查询多数据组织模型的研究.pdf_第4页
(计算机应用技术专业论文)信息系统动态查询多数据组织模型的研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)信息系统动态查询多数据组织模型的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 论文题目: 专业; 硕士生: 指导教师; 信息系统动态查询多数据组织模型的研究 计算机应用技 王颖锋( 签名) 方明( 签名) 摘要 企业的成功日益依赖恰当的人在恰当的时间及时地获得对企业决策至关重要的信 息,获得这样的信息直接依赖于数据库的性能。而数据库的性能与数据库结构有着直接 的关系,良好设计的数据库结构,可以提高数据库的性能。在管理系统的实际应用中, 用户的查询要求是灵活多样的,需要有合理的数据库结构来支持,才可以取得预期的结 果。单一的数据库结构无法满足节省存储空间,降低维护成本,减少维护代价,快速的 响应速度这样多方面的要求。只有多种数据库结构同时并存,才能真正兼顾这些要求。 论文建立了一个柔性数据库,o d s ( o p e r a t i o n a ld a t as t o r e ) 与数据仓库并行的数据库结 构,利用元数据来管理响应查询请求的存取策略。论文所做研究工作主要有以下几个方 面: 1 研究信息系统的组织结构。概述了国内外对组织结构的研究及存在的问题,指出 现存的组织结构尚不能充分满足灵活多样的查询所需要的性能。 2 设计构造了一个适用于查询系统的数据库体系化环境( 多数据组织模型) ,根据 各种查询类型的特点及其面向的对象建立起柔性数据库、o d s 和数据仓库并行的系统结 构,分别对其适用的查询类型进行了明确的定义和划分。对它们的界限和相互联系做出 了合理的划分和明确描述。对在不同的数据库或数据仓库上的数据处理和应用进行了明 确的定义和划分。 3 提出一个柔性数据库中物化视图【l 】的选择算法。设计了含有维护代价、存储空间 代价、查询代价三个参数的评估函数,并提出物化视图选择算法,以此作为选择物化视 图的依据。 4 设计支持动态查询的元数据组织和模型。当用户发起查询请求时,由元数据选择 存取路径,从并行的数据组织模型中选取一个最适合它的组织模型,以完成查询操作是 一个难点,也是一个重点。研究具体实现整个体系元数据与分支体系元数据的设计,以 便系统选择与用户发起的查询相适应的体系结构完成查询处理。 5 用面向对象思想完成对系统的建模与分析,采用c s 模式建立软件体系,利用 d e l p h i 技术,以s q l s e r v e r 为后台数据库,设计与实现了课程管理系统。并简要介绍了 系统的实现结果。 关键词:柔性数据库多数据组织模型元数据物化视图 论文类型:应用研究 i i 英文摘要 s u b j e e t :as i n d yo nm u l t i - d a t ao r g a n i z a t i o n a lm o d e lo fd y n a m i cq u e r yi ni n f o r m a t i o n s y s t e m s p e c i a l t y :c o m p u t e r a p p l i c a t i o nt e c h n i q u e n a m e :w a n gy i n g f e n g ( s i g n a t u r e ) l n s t n 咖f 蛐g m i n g ( s i g n a t 一“乏手坐争 a b s t r a c t t h es u c c e s so fac o m p a n yi n c r e a s i n g l yd e p e n d so nt i m e l ya v a i l a b l ei n f o r m a t i o nt ot h e r i g h tp e r s o na tt h er i g h tt i m ef o rc r u c i a l l ym a n a g e r i a ld e c i s i o n - m a k i n g a c h i e v i n gs u c h i n f o r m a t i o nd i r e c t l yd e p e n d so nt h ep e r f o r m a n c eo fd a t a b a s e b u tt h ep e r f o r m a n c eo f d a t a b a s ed i r e c t l yd e p e n d so nt h es t r u c t u r eo ft h ed a t a b a s e p e r f e c td e s i g no ft h es t r u c t u r eo f d a t a b a s ec a ni m p r o v et h ep e r f o r m a n c eo fd a t a b a s e i nt h e p r a c t i c a la p p l i c a t i o no f m a n a g e m e n ts y s t e m ,r e q u i r e m e n t so f t h eu s e r sa r ef l e x i b l ea n dd i v e r s es ot h a ti tn e e d sr a t i o n a l s t r u c t u r e so fd a t a b a s et os u p p o r tt h e mt og e te x p e c t e dr e s u l t s as i n g l es t r u c t u r eo fd a t a b a s e c a n n o tm e e ts u c hd i v e r s er e q u i r e m e n t sw h i c hd e m a n ds a v es p a c eo fs t o r a g e ,r e d u c ec o s t so f m a i n t e n a n c e ,a n dr a p i ds p e e dt oa p p l i c a t i o n s o n l yd i v e r s es t r u c t u r e so fd a t a b a s ee x i t i n g t o g e t h e rc a nm e e tt h e s er e q u i r e m e n t s t h ed i s s e r t a t i o nb u i l dt h es t r u c t u r e so fd a t a b a s ew h i c h i n c l u d e df l e x i b l ed a t a b a s e 、o d s ( o p e r a t i o n a ld a t as t o r e ) a n dw a r e h o u s et o g e t h e r , w h i c hu s e d m e t a d a t u mt om a n a g ea n da n s w e rt h ea p p l i c a t i o n so fq u r i e s t h ed i s s e r t a t i o nc a r r i e dm a i n l y f o c u so nf o l l o w i n ga s p e c t s : 1 t h eo r g a n i z a t i o n a ls t r u c t u r e so f i n f o r m a t i o ns y s t e m o v e r v i e w e dd o m e s t i ca n do v e r s e - a sr e s e a r c h e so no r g a n i z a t i o n a ls t r u c t u r e sa n de x i s t i n gp r o b l e m s e x i s t i n g o r g a n i z a t i o n a l s t r u c t u r e ss t i l lc a n n o tf u l l ym e e tt h ep e r f o r m a n c eo ff l e x i b l ea n dd i v e r s ea p p l i c a t i o n so f q u e r i e sp o i n t e d 2 d e s i g n e da n dc o n s t r u c t e dad a t a b a s es y s t e m i ce n v i r o m e n to fq u e r ys y s t e m ( m u l t i - d a t a o r g a n i z a t i o n a lm o d e l ) a c c o r d i n g t oc h a r a c t e r so ft y p e so f q u e r i e sa n do b j e c t sw h i c h a r ef a c e d t ot h e m ,b u i l tp a r a l l e ls y s t e m i cs t r u c t u r e so ff l e x i b l ed a t a b a s e 、o d sa n dw a r e h o u s ee x i s t e d t o g e t h e r c l e a r l yd e f i n e da n dc l a s s e da p p l i c a b l eq u e r yt y p e so ff l e x i b l ed a t a b a s e 、o d sa n d w a r e h o u s e a n dg a v er e a s o n a b l ec l a s s i f i c a t i o na n dc l e a rd e s e r i p t i o nt ot h e i rb o u n d a r i e sa n d m u t u a lc o n n e c t i o n g a v ec l e a rd e f i n i t i o na n dc l a s s i f i c a t i o nt od a t ap r o c e s s i n ga n da p p l i c a t i o n i nd i f i e r e n td a t a b a s eo rw a r e h o u s e 3 c o n d u c t e das t u d yo nas e l e c t i v ea r i t h m e t i co fm a t e r i a lv i e w si nf l e x i b l ed a t a b a s e d e s i g n e daf u n c t i o nw h i c hi n c l u d e dt h r e ep a r a m e t e r s :m a i n t e n a n c ec o s t s ,s t o r a g es p a c e , q u e r i e s p r i c e a n dp r o v i d e da l la l g o r i t h ma sb a s i so f s e l e c t i n gm a t e r i a lv i e w s 4 d e s i g n e da no r g a n i z a t i o na n dm o d e lo fm e t a d a t u mt os u p p o r td y n a m i cq u e r i e s i ti sa 1 1 1 英文摘要 d i f f i c u l t ya n da ne m p h a s i s t o c o m p l e t eq u e r yo p e r a t i o n sw h e nu s e r s i n i t i a t e q u e r i e s , m e t e d a t u ms e l e c ta na c c e s sp a t h :s e l e c t i n ga no r g a n i z a t i o n a lm o d e l ,w h i c hi sb e s ts u i t et o h a n d l ei t p a p e rr e s e a r c h e dh o wt oc o n c r e t e l yi m p t e t et h ed e s i g no ft h em e t a d a t aw h i c h b e l o n g e dt oe n t i r es y s t e ma n dp r o c e s s e so f q u e r i e s 5 c o m p l e t e dt h em o d e l i n ga n da n a l y s i so fs y s t e mb a s e do nt h eo b j e c t o r i e n t e dt h o u g h t s i m p l yi n t r o d u c e dt h ea c h i e v e dr e s u l t s ,w h i c hc a n l ef r o mt h es y s t e m t o o kc se n v i r o n m e n t r e a l i z a t i o nt e c h n o l o g yt ob u i l ds o f t e ns y s t e m u s e dd e l p h it e c h n o l o g y , t o o ks q l s e r v e ra s b a c k e n dt ob u i l dt h em a n a g es y s t e mo f c u r r i c u l u m ,a l s os i l m p l yi n t r o d u c e dt h ea c h i e v e dr e s u l t s o fs y s t e m k e y w o r d s :f l e x i b l ed a t a b a s e ,m u l t i - d a t ao r g a n i z a t i o n a lm o d e l ,m e t a d a t a ,m a t e r i a l v i e w t h e s i st y p e :a p p l i c a t i o nr e s e a r c h 学位论文创新性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成 果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他 人已经发表或撰写过的研究成果:也不包含为获得西安石油大学或其它教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做 了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名:监同期:2 0 0 7 工f 学位论文使用授权的说明 本人完全了解西安石油大学有关保留和使用学位论文的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属西安石油大学。学校享有以任何方法发表、复制、 公开阅览、借阅以及申请专利等权利。本人离校后发表或使用学位论文或与该论文直接 相关的学术论文或成果时,署名单位仍然为西安石油大学。 论文作者签名: 导师签名: 日期:猡口7 要 日期:盟! f盘盟 第一章绪论 第一章绪论 查询工作的比重在整个企业信息系统的比重较大,查询的响应速度依赖于数据库的 性能,而数据库的性能是通过数据库结构来体现的。设计出一个结构合理的数据环境是 至关重要的,它直接影响了查询的响应速度、系统的维护代价、存储空间。各种单一的 数据组织模型,无法适应灵活多样的查询,需要研究一种合理的多数据组织模型,因为 在动态的环境下响应用户的各种灵活多样的查询,依赖于数据库结构的性能。本章将从 引入多数据组织模型的必要性进行论述,并介绍一下国内外的研究现状、存在的不足。 1 1 问题的提出 1 1 1 问题的提出 与数据具体的处理过程相关的许多因素在数据库的逻辑设计和物理设计阶段就必须 考虑。例如,为了提高数据的处理速度和减少存储空间,必须对数据规范化处理,消除 数据冗余;为了完成某些具体的处理过程,假如处理涉及两个以上的表连接,必须建立 临时表来进行连接,必须要加入一些中间表和临时字段等等。逻辑设计和物理设计的主 要目的,就是要使设计出来的数据库能够满足企业的数据处理需求并且具有较高的效率, 从这个角度来看,这是一种面向过程的方法。 虽然用传统的方法设计出来的数据库主要是满足数据处理的需要,但人们期望用户 所必需的一些数据分析的工作,如复杂报表,综合查询,决策分析等等,也能在这种数 据库的基础上完成,结果反而降低了数据库的性能。一方面使得程序编写复杂,执行效 率非常低,为了完成一个复杂查询,要编写大量s q l 语句才能完成,需要连接表的数量 也很多,执行时间也慢得惊人;另一方面需要在数据库引入了许多导出表或视图,不同 的设计者的创建风格不同,缺乏规范性,这些因素导致数据处理的负担大,程序的可读 性差,造成了日后的升级维护困难,有时甚至会造成数据的不一致。考虑到以上的种种 弊端,将复杂灵活的查询和决策支持从数据库环境中分离出来,由数据仓库来完成这些操 作。数据仓库弥补了原有数据库的缺点,将原来以单一数据库为中心的数据环境发展为 一种新环境:体系化环境1 2 ,【3 1 。数据仓库和数据库之间是一种相互补充的关系,数据仓 库要建立的是一个较全面和完善的信息应用环境,用于支持高层决策分析,而事务处理 数据库在企业的信息环境中承担的是日常操作性的任务。然而一个存在着数据库和数据 仓库的体系化环境还是不能完全胜任复杂多变的查询,通过下一节的分析就可以看出。 1 1 2 管理信息系统中的查询类型分析 查询工作是管理信息系统中比重很大的工作。由于数据库和数据仓库技术的普及与 推广,使得用户的查询类型日益增多。从最初的基于日常处理的简单查询和统计到现在 的以决策分析为主的复杂查询和决策支持的分析处理,到即时o l a p 和企业级0 u p , 划分是越来越详尽。划分的方法不同,其实现的体系结构也就相应的不同。一般来说, 信息系统中的查询可分为: 西安石油大学硕士学位论文 ( 1 ) 根据查询用户可分为:1 ) 面向业务人员的查询主要是基于传统数据库系统 和事务处理系统。例如,商品出入库记录查询、商品价格查询。2 ) 面向中高层管理人员 的查询主要是基于数据仓库系统和统计分析处理系统。例如,企业的总经理对企业 的某年度经济效益与去年统计经济效益的比较分析属于高层管理人员的查询。例如,部 门经理对商品出入库信息的查询属于中层管理人员的查询。 ( 2 ) 根据查询内容可分为:业务数据信息查询和统计分析数据查询。例如,供应商 信息查询属于业务数据信息查询。各种商品的销售额查询属于统计数据查询。各种商品 销售涨浮的查询属于分析数据查询。 ( 3 ) 根据查询方式可分为:简单查询、组合查询、模糊查询、启发式查询等。简单 查询即单表查询是指仅涉及一个表的查询,是一种最简单的查询操作。例如,在商品管 理系统中只查询单一商品的价格,只需要查询商品基本表。组合查询又名组合条件查询, 是把几个条件组合在一起进行查询。例如,把供应商和商品名称组合在一起,查询某个 供应商提供某种商品的数量属于组合条件查询。当销售商忘记供应商的具体姓名,只记 得供应商的姓,输入供应商的姓,就可以查询所有该姓的供应商信息,属于模糊查询中 的前匹配查询。查询请求者受到某种信息启发而进行的一些即席的查询处理称为启发式 查询。当用户查询某个学生的课程表的时候,想到查询某个老师的课程表,查询某个老 师的课程表时想到查询某个专业的课程信息属于启发式查询。 ( 4 ) 根据查询形式可分为:固定查询、动态查询、例化查询和非例化查询等。固定 查询就是要检索的字段和查询条件是在程序设计期间就写好了的,当程序运行时,按给 定的查询条件返回指定检索字段的查询结果集。这种查询方式已经很少使用。动态查询 就是要检索的字段或查询的条件在程序运行期间是动态变化的,通过适当的定制,用户 可以处理不同检索字段或查询条件的查询结果集,不仅提高了程序的效率,更提高了程 序的灵活性。例化查询指那些重复进行的查询。例如,商品管理信息系统中商品日库存 信息查询就是一个反复的查询。非例化查询是指那些不需要重复进行的查询。例如,课 程管理系统中的教学计划查询就是一个非例化查询。 上面不同的查询是基于不同的数据组织形式的。面向业务人员的查询是基于数据库 的。业务数据信息查询是基于数据库的。统计分析数据查询可以基于数据库、数据仓库、 多维数据库。简单查询、组合查询、模糊查询可以基于数据库、数据仓库、多维数据库。 而启发式查询则是跨越数据仓库的各个不同层次和基础库。面向中高层管理人员的查询 是基于数据仓库和多维数据库或者传统业务数据库。固定查询和动态查询可以基于数据 库、数据仓库、多维数据库的任何一种。例化查询基于部门数据仓库。因此,对企业管 理越来越复杂的查询,需要将支持不同查询的数据重新组织成新的数据组织体系结构。 1 1 3 多数据组织模型提出的意义 在管理信息系统中,查询工作是很重要的。公司的成功依赖于恰当的人在恰当的时 间及时地获得对企业决策至关重要的信息( 内部和外部的) ,获得这样恰当的时间恰当 2 第一章绪论 的地点直接依赖于数据库的性能【2 】。在实际工作中,正如上面所分析的,用户的请求是 灵活多样的,各种各样的查询请求有着各自的特点,需要一种与之相适应的体系结构, 才能得到及时响应,来为企业的决策服务,否则将产生误导,给企业造成严重的损失。 单一的体系结构是无法支持各种特点不同的查询请求的。把它们放在一个体系结构下运 行,将与期望背道而驰,因为一个体系结构由其特点决定有一个适用范围。例如,数据 库是面向事务处理为主的o l t p ,它构造的时候强调的是非冗余,规范性( 例如,严格 按照第三范式) ,数据具有分散性的特点不能满足d s s 3 1 的要求,d s s 支持为了达到快速 的响应速度,为企业把握商机,总是以适度冗余( 避免了表的连接操作,减少了表的连 接时间,在一个表中添加了一定的字段) 来提高查询速度,这与关系数据库的设计相悖。 数据库存储的是细节数据,对决策分析处理的支持方面远不如数据仓库,因为决策支持 需要的是综合数据,如果使用数据库就要反复抽取,造成蜘蛛网现象。数据仓库存储的 是历史数据,对日常的实时查询、修改等也显得束手无策。 论文研究充分结合了实际应用特点,制定出优良化策略。创建了一个与所有相关数 据相连接的存储体系,实际上是一个体系化环境( 由多个数据库和多级数据仓库组成) 。 研究针对用户需求提出切实可行的方案,解决存储模型框架下的数据表示与存贮、持续 查询处理等关键技术问题。设计了元数据对用户的查询请求予以引导,使系统达到了选 择合理的执行策略,高效率查询的目的。符合用户的查询要求,减少了查询处理的代价, 减低了维护成本、节省了存储空间,提高了软件的可靠性( 减低了s q l 语句的复杂程度) 并且有辅助应用分析的性能,为企业决策者能够透彻分析信息动态,及时决策提供了有 效的手段,是对动态查询策略的一个有益探讨,在实际应用中也将取得良好的收益。虽 然此系统以课程管理信息系统为应用背景,但却有普遍适用性,该多数据组织模型可以 用来指导其它的查询系统建设。 1 2 f d s 与o d s 的定义 1 2 1 f d s 的定义 f l e x i b l ed a t as y s t e m 的缩写为f d s ,其中文意思是柔性数据库系统。所谓柔性是指该 系统结构能够很好地适应动态环境下无法预知的只读查询。在柔性数据库系统中一个以 交易为中心的数据库结构和几个只读数据结构并行。当一个查询到来的时候,被指派一 个最适合处理它的只读结构。这里的只读数据结构的特例是物化视图。 1 2 2 0 d s 的定义 o d s 是操作数据存储的英文缩写。其英文全名为( o p e r a t i o n a ld a t as t o r e ) 是用于支持 企业日常的全局应用的数据集合。保存在o d s 的数据具有四个基本特点:面向主题的、 集成的、可变的、数据是当前或接近当前的。 1 - 3 国内外研究现状 随着企业信息化的建设和信息系统的广泛推广和应用,国内外学者对企业数据信息 如何组织以支持企业现代化管理,特别是支持企业及时获取有效信息和决策支持方面都 西安石油大学硕士学位论文 有了广泛和深入的研究。并提出了有关的模型、方法和组织结构。 1 3 1 国内研究现状 国内对多数据组织模型的研究比较有代表性的有: ( 1 ) 操作型体系和分析型数据体系并存的体系结构 在这样的体系结构中业务查询和分析处理分别交给业务数据库和数据仓库处理。操 作型数据体系和分析型数据体系是相互独立的。它们建立于底层数据库之上。在这样的 体系结构中操作型数据体系和底层数据库双向传递数据。通过底层数据库把操作型体系 和分析型数据体系联系起来,使系统成为一个统一的整体。操作型体系和分析型数据体 系并存的体系结构解决了数据库系统在分析性能上的缺点,把统计分析任务交给数据仓 库。操作型和分析数据体系并存的体系结构存在的不足就是没有考虑企业级o l t p 和即 时o l a p 。因而没有在该体系结构中存在相应的分支体系解决企业级o l t p 和即时 0 l a p 。 ( 2 ) d b o d s d w 体系结构 该结构首先在w h i n t o o n 和c l a u d i ai m h o f f 的企业信息工厂( c o r p o r a t ei n f o r m a t i o n f a c t o r y , c i f ) h 】理论中提出,把d b o d s d w 分为两类。一类把o d s 当作主要的数据存 储区。另一类把0 d s 和数据库同时作为数据存储区。 1 ) 一般的d b o d s d w 体系结构【4 】,【5 】,【q 在o d s 中操作型环境和分析型环境同时并存,两者通过一个动态切换开关实现切换。 o d s 处于操作型环境时,进行企业级o l a p 操作;o d s 处于分析型环境时,进行即时 o l a p 操作。在这种体系结构中,o d s 的数据来源于事务数据库。事务数据库中的数据 经过清洗、转换和加载进入o d s 中。d w 中的数据来自o d s 。o d s 是数据库通向数据 仓库的唯一桥梁,是主要的数据存储区。 2 ) 特殊的d b o d s d w 体系结构【5 】 o d s 不作为主要存储区,e t l 部件分为o d s 和d w 两部分,o d s 与业务数据库( d b ) 有双向的映射。o d s 主要应用于商效或实时的前台( 如操作型c r m 系统) o l a p 查询,而 d w 集中于数据挖掘和长期0 l a p 决策分析。o d s 不是d b 到d w 唯一的通路,o d s 到d w 和d b 的数据往来可根据系统具体实施的情况来配制。 无论一般的d b o d s d w 体系结构或特殊的d b o d s d w 体系结构,为了保持数据 上的一致,都需要定制具体的程序来完成,增加了开发的难度。 1 3 2 国外研究现状 对多数据组织模型的研究,国外也进行了许多研究工作,其中比较有代表性的是以 下三个: 文献7 和8 提到了一种数据仓库解决方案。该方案建立了两个子数据库结构,一个 数据库结构用来处理日常事务,另一个数据库结构用来处理以决策为中心的查询。该设 计假定可以预测以决策为中心的例行查询,并为有效处理该类型查询而事先建立起物化 4 第一章绪论 视图集。 文献9 ,1 0 提到了具体应用物化视图解决方案。该体系结构也是一分为二的。一个 子体系结构用来处理只读存取。而另外一个予体系以当今的网络应用为基础,是以事务为 中一i i , 的结构。出于安全和性能原因,这些应用通常包含一个生产数据库的物化视图集合, 用以作为网络存取的数据源。为只读存取目的,复制交易数据库的某些部分,允许用户 以网络应用为基础的请求刷新大量的数据而不影响事务系统【“】。 文献1 2 提出了柔性数据库。在系统中,以事务为中心的数据库结构与可以选择的几 个只读结构并存。当系统响应一个复杂查询时,该查询被指定一个最适合处理它的只读 结构。以事务为中心的数据库可以用e _ r 模型和规范化的传统数据库。以事务为中心 的数据库首先存在,并被补充以用来处理大范围查询的只读健壮结构。部分生产数据库 的物化视图是可选数据结构的特例。 1 4 存在的问题 国内外对于与动态查询方法相适应的数据组织模型研究还存在不完善的地方,主要 表现在: ( 1 ) 研究多以空间代价换取时间代价。没有从查询速度、查询代价、维护代价、存 储空间来综合考虑,往往只注重了查询速度( 数据库性能) 。例如,为了追求查询速度, 把视图全部物化,就是以空间代价换取时间代价。 ( 2 ) 对各分体系结构的交互研究得不够充分,没有给出具体的实现方法。例如,文 献1 3 提出的d b o d s d w - d m 结构没有对各个分支体系结构如何交互进行研究。 ( 3 ) 对查询类型的考虑还不够充分,没有涵盖所有可能的查询情况。如传统的 d b _ d w 体系结构,不能涵盖企业所有的数据处理要求。不能满足企业级o l t p 和即时 0 l a p 的请求。 ( 4 ) 各个分体系设计不够合理,存在大量的数据冗余。在d b - o d s - d w 中,o d s 的负担大,如果实时性要求不断增加,系统的反应速度将下降。实际的业务数据系统复 杂而庞大,造成构造o d s 的难度和复杂度。例如,文献4 ,5 ,6 提出的一般d b o d s d w 中,o d s 作为主要的数据存储区,使o d s 的负担很重。 1 5 解决办法 把多数据组织模型分为三层:f d s o d s - d w ,明确划分三者的界限和相互关系。f d s 是一个一分为三的数据库结构,首先是一个基本的业务数据库,然后是把日常查询统计 涉及的关联表以物化视图的形式有选择的存放于柔性数据库的一个分支,把例行分析处 理所涉及的事实表和维表用物化视图选择算法从数据仓库中有选择的分离出来,以物化 视图的形式存放在柔性数据库的另一个分支。用物化视图选择算法解决了查询代价、维 护代价、存储代价的矛盾问题,选出总代价最少的方案,以物化视图的形式提高了查询 速度。 1 6 论文的组织结构 西安石油大学硕士学位论文 论文一共分为四个部分: 第一部分即为论文的第一章,简要介绍了o d s 和f d s 的概念,介绍了问题提出的 意义和各种查询类型,总结了国内外对多数据组织模型的研究现状,分析了存在的问题, 并提出可行的解决方案。 第二部分是动态查询多数据组织模型的分析与设计,分别在第二章、第三章、第四 章进行了具体阐述。第二章介绍了多数据组织模型的结构及其特点和原理。第三章提出 了物化视图的选择算法。第四章对元数据和总的查询算法进行了详细设计,引导用户的 查询,选择与之相适应的分体系结构进行处理,并给出了查询实例。 第三部分是课程管理系统的设计与实现,即论文的第五章。在这一章中,结合第二 部分给出的动态查询多数据组织模型,介绍课程管理系统具体设计方案和实施方案。对 其中的关键环节和关键技术进行了说明。 第四部分是结论,对应论文的第六章。这一章是对全文的总结及展望。总结了本系 统完成的工作,并对以后的工作提出展望。 6 第二章基于动态查询的多数据组织模型的建设 第二章基于动态查询的多数据组织模型的建设 传统事务型数据库是无法满足动态查询需要的,需要采用数据仓库技术对一些数据, 特别是历史数据和统计分析数据进行重新组织。论文中的多数据组织模型由柔性数据库、 o d s 和数据仓库组成。要建设这样的一个企业完整数据环境,不仅要求建立起各级数据 库和数据仓库,还要求对各数据库之间、各级数据仓库之间及数据库与数据仓库之间的 界限和相互联系做出合理划分和明确描述,对不同的数据库或数据仓库上的数据处理和 应用要进行明确的定义和划分。本章将对以上问题做深入研究。 2 1 柔性数据库系统的组织结构 2 1 1 引入柔性数据库系统的必要性 柔性数据库系统包含了传统的数据库,并存在着多个只读数据结构分支,正是由于 只读数据结构分支的存在,柔性数据库解决了扫描时间长的问题。数据仓库中存在着物 化视图和虚视图,这样完成一个查询或者分析任务就会花费很长的时间。如果以适当的 算法将例化分析涉及的物化视图从数据仓库中分离出来,就可以减少数据仓库的存储空 间从而加快查询和分析的速度。同样传统数据库中存在大量的表,完成查询和分析任务 需要花费的时间也是很长的,如果用适当的算法将例化查询涉及的基本表从数据库中分 离出来。也可以减少数据库的存储空间从而加快查询和分析的速度。柔性数据库解决了 动态环境下不确定查询的处理问题。 2 1 2 柔性数据库系统的组织结构 ( 1 ) 柔性数据库系统的组织结构 柔性数据库系统是事务处理数据库与几个只读数据库结构的并行。这些只读数据结 构的特例就是物化视图。在课程管理系统中具体形式表现为一个事务处理数据库、一个 来自事务处理数据库的物化视图集合和一个来自数据仓库的物化视图集合。这些物化视 图集合是根据带参数的评估模型,用物化视图选择算法选择出来的。其中来自事务数据 库的物化视图集合是一些固定查询的预连接( 自然连接) ,这种预连接的表来自同一个部 门的基本表。另一部分物化视图集合来自数据仓库中的事实表和维表,这种表来源不同 于前者之处在于它是经过抽取得来的。包含的字段为特定的观察角度服务。 ( 2 ) 柔性数据库环境的特点 1 ) 结构是一分为三,事务数据库、来自事务数据库的物化视图、来自数据仓库的物 化视图。包含了事务处理类型和分析处理类型。决策支持系统和o l a p 应用通常包括在 大型数据库f v l d b ) i - 一的复杂查询,重复计算多,利用物化视图避免了中间结果的反复计 算。 2 ) 数据库的大小以及查询的复杂性是导致响应时间延迟的主要因素。人们通常借助 数据索引来提高速度。 3 ) 适应的查询灵活多样,不要求固定的查询和查询集。 西安石油大学硕士学位论文 4 ) 柔性数据库中既有读操作也有写操作,但更侧重于只读操作。 5 ) 事务数据库中基本表的变化,最终引起物化视图的变化。只不过来自事务数据 库的物化视图的变化映射机制直接发生变化。而来自数据仓库的物化视图要先经过o d s 和d b 的双向映射机制变化后,才能得1 1 1 届1 新。在时间上来自数据仓库的物化视图比来 自数据库的物化视图刷新慢。 2 2 数据仓库的组织结构 2 2 1 数据仓库的组织结构 数据仓库的数据量是不断扩充的,随着时间的变化而变化的。数据仓库的数据来源 之一是o l t p 数据库,数据仓库必须不断捕捉o l t p 数据库中变化的数据,并追1 1 1 1 1 1 数 据仓库中,对于超过存储期限的过期数据,也要及时删除。这些数据要随着时间的变化 不断地进行重新综合。这使得数据仓库中的数据类型多样化。 在数据仓库中的数据分为4 个级别:早期细节级、当前细节级、轻度综合级和高度 综合级。分别与数据库体系化环境中的4 个层次:操作型环境、全局级数据仓库、部门 级的局部仓库和个人级的数据仓库相对应。在这个体系化环境中,操作型环境存放的是 一些细节的操作型数据,服务于高性能的事务处理。全局级数据仓库中除了存放细节数 据还包含大量导出数据。部门级的局部仓库中一般仅包含导出数据。 多数据组织模型的数据组织结构将数据仓库的分析性数据从事务处理的数据库中分 离出来,确立系统的数据。它由事务处理数据、全局数据、部门级数据和个人级数据四 种类型的数据组成。这些数据组织结构及相互关系如图2 1 所示: ( 1 ) 基础数据层:该层是原始数据库,用于日常事务处理,构成数据仓库的数据源。 ( 2 ) 历史详细数据层:在课程管理系统中存储了大量的历史信息。可以用来对历史 数据的分析处理。在课程管理系统中,如:计算机学院2 0 0 3 年上学期软件0 3 0 2 班课程 设置信息,在该学期结束时候,教务处将相关信息保留( 存档数据) 供以后查询。几年 后可以调出,进行计算机学院软件专业课程结构变化分析。 ( 3 ) 全局数据仓库存储的是从操作型数据环境集成而来的,是按照面向主题组织的 历史的,细节的和适度综合了的数据,它一般独立于任何应用逻辑,负责为其它各级数 据仓库、多维数据库提供集成的、一致的数据;部门数据仓库、多维数据库按照部门或 业务领域分析需求从全局数据仓库抽取数据,数据组织一般与分析应用逻辑结合起来, 有利于提高分析效率。它主要用来支持企业中一个或几个相关部门的业务分析、控制和 决策:个人数据仓库按照特殊的启发式分析需求,从全局数据仓库、部门数据仓库临时 抽取数据,数据按分析的特定需要进行组织,以提高分析效率。它砸向的是企业中的高 层管理人员,支持企业中进行战略决策所需的复杂分析。 ( 4 ) 归纳总结数据层( 部门级d w 和个人级d w ) :该层是一个综合数据层。各业 务部门可根据业务需求或其它约束条件,在全局级d w 的基础上,抽取适合自己所用的 数据并进行综合处理后存入部门级数据仓库,同时生成相应元数据。其数据是全局级数 第二章基于动态查询的多数据组织模型的建设 图2 - 1 课程管理系统数据仓厍组织结构图 据仓库的轻度汇总数据,面向各部门管理者支持决策。也可按管理信息系统的决策主题, 在部门级或全局级的基础上抽取决策分析所用的数据,满足高级决策分析的需要( 个人 级决策) 。 四层化的数据仓库体系结构可以较好地满足联机事务处理( o l l 甲) 、联机分析处理 ( o l a p ) 和决策支持( d s s ) 等方面的要求。 2 2 2 数据仓库环境的特点 数据仓库环境的特点1 1 4 】如下: ( 1 ) 分析应用是受管理者、决策者统一支配的,事先很难确切地清楚数据处理的需 求,其软件的生命周期与s d l c ( s y s t e m sd e v e l o p m e n tl i f ec y c l e ) 完全不同。 ( 2 ) 系统对性能的要求相对宽松,用户对系统的访问低可能性或适度可能性,但每 次访问需处理的数据量大,占用硬件的时间长,信息的表现形式多样,要求高。 ( 3 ) 存储的数据除全企业的历史的、细节性结构化数据外,还存有大量的导出数据, 非结构化和来自于企业外部的数据;数据记录含有时间基,是不同时点的数据库快照的 集合;数据保存时间长,数据量非常庞大;数据组织是面向主题的,其存储结构是动态 的,一般独立于任何应用逻辑,但在明确了具体分析处理后,组织部门级或个人级数据 仓库时,与应用逻辑相结合;数据处理多采用启发式运行,常根据分析处理的需要 9 西安石油大学硕士学位论文 临时从全局数据仓库中按特定的结构要求组织数据。 ( 4 ) 一个时刻操作一个数据集合,操作主要是查询操作,一般不进行数据更新。 ( 5 ) 所需的支持技术相对简单,但对查询能力的要求较操作型数据环境中的d b 要 高。 2 3 0 d s 的数据组织结构 2 3 1 引入o d s 的必要性 o d s 的引入降低数据仓库转换接口的复杂度,在引入o d s 之前,数据仓库要解决 各应用的数据同步问题。o d s 同时也解决了当前数据和接近当前数据的查询分析问题。 例如,一个商场的市场经理可能经常要解决这样的问题:某某商品是否进货? 那他首先 要清楚该商品的存货是否充足,还要了解该商品的近期销售情况,还需要从商场的资金 的情况出发,比照其它商品的库存和销售情况,等等1 5 】。这样的问题如果用数据仓库解 决很浪费时间,并可能检索一些无关的数据,如果用数据库解决,由于数据库只是面向 单一部门的,实现这样的跨部门查询可能会无法得到正确的数据信息。 2 3 2 0 d s 的数据组织结构 o d s 是介于数据库和数据仓库之间的中间层。它能够完成即时o l a p 和企业级的 o l t p 是由它的数据组织特点决定的。o d s 存储的是全局一致的、面向主题的、当前的 或者接近当前的数据。把属于操作型的处理,但不适合在操作型数据库中进行的操作和 属于分析型的处理,但不适合在数据仓库中进行的操作,单独规划了一个既包含操作型 环境又包含分析型环境的o d s 环境。中间通过一个动态置换开关,在操作型环境和分析 型环境间切换。在o d s 中的数据是按照主题进行组织的【”j 。o d s 系统采用实视图和实 表作为数据的基本组织方式。实视图是指根据某种视图定义,将来自不同数据源的数据 预先经过转换、过滤和集成等操作,使该视图最终含有大量数据,并存储在数据仓库的 一张表中。实视图在o d s 中是作为基表存在的,从广义上说,o d s 中的数据都可以看 作是以实视图的方式存储的。采用实视图作为o d s 中数据存储的基本方式,有利于提高 o d s 的查询性能。实表是整合和集成后业务数据存储方式。 o d s 系统中存在两种形式的实视图,一种实视图是作为o d s 中的基表而存在的,其 数据来源于操作数据库d b ,经过e t l 的抽取、转换、加载后,最终存放在数据仓库中; 另外一种是在这些基表、实视图的基础上,为提高系统查询性能而生成的一些导出实视 图。例如,不同综合级别粒度的实视图和数据分割实视图。 2 3 3 0 d s 数据环境的特点 ( 1 ) o d s 的数据组织是面向主题的、集成化的,此特点是区别于操作型数据环境 的集中体现。存储的是企业当前或接近当前的数据。是部门级的细节的数据,可以进行 联机修改,此特点是区别分析型数据环境的集中体现。 ( 2 ) 数据量相对来说比较少,和数据仓库相比

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论