(计算机应用技术专业论文)基于数据仓库的aspnet报表系统的研究与构建.pdf_第1页
(计算机应用技术专业论文)基于数据仓库的aspnet报表系统的研究与构建.pdf_第2页
(计算机应用技术专业论文)基于数据仓库的aspnet报表系统的研究与构建.pdf_第3页
(计算机应用技术专业论文)基于数据仓库的aspnet报表系统的研究与构建.pdf_第4页
(计算机应用技术专业论文)基于数据仓库的aspnet报表系统的研究与构建.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)基于数据仓库的aspnet报表系统的研究与构建.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 随着企业或者组织对于信息系统应用水平的提高,企业对于信息系统的关 注重点逐渐从对具体业务过程的运转提供支持转到了寻求对企业运转决策的支 持上。数据仓库和o l a p 应运而生。报表是批量数据和信息的一种表现形式,是 企业或组织活动过程和结果的展示。企业或组织内部之间业务数据信息的交换 通常以报表为载体。从o l a p 环境下面对企业用户提供报表服务则是o l a p 系统 的必备功能之一。 m i c r o s o f ts q ls e r v e r 分析服务( a n a l y s i ss e r v i c e ) 是微软公司推出的 数据仓库工具,a s p n e t 则是该公司推出了基于i i sw e b 服务器的w e b 开发框架。 本文主要以a n a l y s i ss e r v i c e 和a s p n e t 技术为基础,结合人行武汉分行经 济金融预测预警系统项目背景,探讨了在基于数据仓库的a s p n e t 报表系统 的构建的方法和手段。 本文的主要内容包括:首先对数据仓库的定义、特点、建模方法以及构建 策略等方面进行了简要的讨论;其次研究了w e b 环境下构建报表的基本方法和 手段,同时对在a s p n e t 环境下表格数据和图像数据的展现技术做了讨论;最 后,通过对人行武汉分行经济金融预测预警系统系统报表子系统的讨论, 给出具体的应用实例。同时对该系统的数据仓库数据导入和数据导出的问题, 进行了分析讨论并给出具体的解决方案。 关键词:数据仓库联机分析处理w e b 报表a s p n e t 分析服务 a b s t r a c t w i t ht h el e v e l i n gu po ft h ea p p l i c a t i o no ft h ei ts y s t e m ,t h ef o c u sw h e n e n t e r p r i s eo ro r g a n i z a t i o ni m p l e m e n ti tt oi t s e l fh a sb e e ng r a d u a l l ys h i f tt os e e k i n g t h ei n f o r m a t i o nt h a th e l pt om a k et h ec o r r e c td e c i s i o n sa m o n gt h eb u s i n e s sr u n n i n g p r o c e s s a n dt h e nd a t aw a r e h o u s ea n do l a pt e c h n o l o g ye m e r g e s r e p o r t ,w h i c h i sk i n do fc a r r i e rf o rp r e s e n t a t i o no fb a t c hi n f o r m a t i o na n dd a t a ,i sg e n e r a l l yu s e dt o p r e s e n tt h em i d d l eo rf i n a lr e s u l t st h a tp r o d u c e dd u r i n gr u n n i n go ft h eb u s i n e s s t h e i n t e rc h a n g eo fi n f o r m a t i o na m o n gt h ed e p a r t m e n t so ft h ee n t e r p r i s eo ro r g a n i z a t i o n u s u a l l yu s er e p o r ta sac o m m u n i c a t i o nt 0 0 1 t h e r e f o r e ,r e p o r ts e r v i c ei sa ne s s e n t i a l f e a t u r ew h e na p p l y i n go l a pt e c h n o l o g yt oa ne n t e r p r i s eo ro r g a n i z a t i o n s q ls e r v e ra n a l y s i ss e r v i c ei sad a t aw a r e h o u s ea n do l a pt o o ls e tp r o d u c e d b ym i c r o s o f ta n da s p n e ti saw e ba p p l i c a t i o nd e v e l o p m e n tf r a m e w o r kb a s e do n i l sw e bs e r v e rt h a ti sa l s oap r o d u c to ft h i sc o m p a n y c o m b i n e dw i t ht h ep r o j e c to f e c o n o m ya n df i n a n c i a lf o r e c a s ta n df o r e w a r n i n gs y s t e mo fw uh a r tb r a n c ho fp b c ( p e o p l e sb a n ko fc h i n a ) ,t h et h e s i sm a i n l yd i s c u s st h em e t h o d st h a tc a nb eu s e di n b u i l d i n ga s p n e tr e p o r ts y s t e mi nt h ed a t aw a r e h o u s ee n v i r o n m e n tb a s e do nt h e m i c r o s o f ta n a l y s i ss e r v e ra n da s p n e tt e c h n o l o g y t h ep a p e rf i r s t l ym a k e sab r i e fi n t r o d u c t i o nt ot h ed a t aw a r e h o u s et h e o r y , w h i c h i n c l u d e st h ed e f i n i t i o no fd a t aw a r eh o u s e ,t h em o d e lm e t h o dw h e nc o n s t r u c tad a t a w a r es y s t e me t c t h e ni td i s c u s e si nd e t a i li nt h em e t h o d st h a tc o u l db eu s e di n b u i l d i n gar e p o r ts y s t e mi nw e be n v i r o n m e n t ,a n dt h ep r e s e n t a t i o nt e c h n o l o g i e so f t a b u l a ra n dc h a r td a t ai nt h ea s p n e ta r eg i v e n f i n a l l y , i tp r e s e n t sa na p p l i c a t i o no f t h eq u e s t i o n e dm e t h o d t h r o u g hd e t a i l e dd i s c u s s i o no fr e a l i z a t i o no ft h er e p o r t s u b - s y s t e mo ft h ee c o n o m ya n df i n a n c i a lf o r e c a s ta n df o r e w a r n i n gs y s t e mo f w u h a nb r a n c ho fp b c a l s o ,i tg i v e sas o l u t i o nt oq u e s t i o no ff a c td a t ai m p o r ta n d e x p o r t k e yw o r d s :d a t aw a r e h o u s e ,o l a p , w e br e p o r t ,a s e n e t , a n a l y s i ss e r v i c e s l l 此页若属实请申请人及导师签名。 独创性声明 y8 6 0 8 4 2 本人声明,所呈交的论文是我个人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果, i ! 玉:不包含为获得武汉理工大学或其它教育机构的学位或证书面使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了谢意。 研究生签当: 关于论文使用授权的说明 日期一翌6 :幺 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅; 学校可以公布论文的全部内容,可以采用影印、缩印或其他复制 手段保存论文。 ( 保密的论文在解密后应遵守此规定) 注:请将此声明装订在论文的目录前。 日期 武汉理工大学硕士学位论文 1 1 课题背景 第1 章绪论 随着数据仓库的日益成熟和广泛的应用,人们对数据仓库的认识也进入了 一个新的阶段:人们不仅仅是要从数据仓库中得到一些关于历史信息的对比, 而且要得到对于当前正在运转的业务具有决策参考价值的信息。数据仓库由于 可以集成组织或者企业方方面面的信息,而且能够提供非常方便的对与历史信 息的查询和在线分析,受到了人们的青睐。但另一方面,数据仓库的分析结果 的有效表达和输出直接影响着人们应用数据仓库的水平。 企业或组织在业务运转中最常用的信息表达方式就是报表。报表用表格或 图表的形式清晰的表达了企业在运转中或者一段时间的运营结果以及分析数 据。当前i n t e r n e t 的发展,使褥人们能够非常方便地在远程得到信息成为可能。 很自然的,在w e b 环境下展现数据仓库在线分析的结果成为一个追切需要 解决的问题。 1 2 国内外的研究现状 各大数据仓库厂商在推出其数据仓库和o l a p 工具时,一般都带有其数 据展现部分的工具,如m i c r o s o f t 公司在推出其分析服务工具的同时,也推出了 p i v o t t a b l e 服务,该服务提供了对数据分析服务的访问接口,它和o f f i c eo w c 控件相结合,实现了在曲和b s 模式下对数据分析接口的很方便的显示。但是 它具有如下缺点:1 安全性差,它将数据仓库的访问的用户名和密码都放在了设 置o w c 的a c t i v e x 控件中,这样显得安全性极差。任何人只要能够访问到该页 面,那么就能够查看该页面的源代码,从而找到数据仓库的入口。这是非常危 险的,非常容易受到攻击。2 它需要在i i s 中安装数据仓库自带的i s a p i 程序, 该程序将数据从数据仓库中提取出来,转换成h t t p 请求,然后转给含有o w c a c t i v e x 控件的页面在客户端显示。如此一来,就非常依赖数据仓库自带的i s a p i 程序,依赖程度高,缺乏灵活性,当客户有进一步的定制需求时,就无能为力 了。 武汉理工大学硕士学位论文 1 3 本文所做的工作和本文的结构 本文在实际项目人行武汉分行经济金融预测预警系统( 以下简称预警 预测系统) 的基础上,对这一课题做了一些研究。本文在详细的研究了数据仓 库的建立的步骤和方法之后,选择微软公司的s q l s e r v e r2 0 0 0a n a l y z es e r v e r 作 为数据仓库工具,然后依此为基础,探索了在w e b 环境下的展现其分析结果报 表的方法和手段。本文探讨了在当前在w e b 环境下构建报表的现有方案以及他 们的技术原理之后,针对数据仓库的实际应用需求和状况,提出一种报表方案, 就是在a s e n e t 项目中提取数据仓库中分析的结果,生成中间格式文件,然后 由客户浏览器端显示,其中最重要的一点,就是在该中间格式文件可以作为数 据分析预测的源数据再一次的很方便的进入数据仓库中;最后预警预测系统 中实现了这种方案,验证了效果。 本文由以下几个部分构成: 第一章:绪论部分。也就是本章。该部分阐述了本课题研究的意义,以及本 课题国内外的进展情况以及本文在该课题上所做的工作,并介绍本文的组织结 构。 第二章:数据仓库理论部分。该部分简要地探讨了本文研究的基础理论 数据仓库理论,包括了从数据仓库的产生,定义到其建模的基本方法和理论。 第三章:报表部分系统。该部分研究了报表的定义,以及报表技术在现阶段 的发展阶段,着重研究了在w e b 环境下展现报表的技术方法和理论。并介绍了 相关基于a s p n e t 的技术方案。 第四章:应用实例。该部分研究了一个基于数据仓库的实际的应用系统,详 细地介绍了该系统数据仓库部分的建模以及分析结果的报表展现,验证了第三 章所提出的报表解决方案。 第五章:总结和展望。该部分就本文所完成的内容作了总结,并在指出本 文研究的不足,指出今后的研究方向。 最后包括了参考文献和致谢。 2 武汉理工大学硕士学位论文 第2 章数据仓库理论概述 2 1 数据仓库的产生及定义 2 1 1 数据仓库的产生 应用需求从来都是技术发展的原动力。比如数据库技术的发展。数据库技 术经历了从文件数据库,网状数据库,层次数据库和关系数据库等阶段。纵观 数据库技术的发展历程,可以看出,每一个新技术的出现都是为了满足人们对 于更快和更好地存储和管理数据的需求。但是人们为什么存储和管理数据? 当 前的企业或者组织普遍都结合自己的业务规则,建立起了适合自己实际情况的 业务处理系统,即o l t p ( o nl i n et r a n s a c t i o np r o c e s s ) 系统。随着时间的增长,人 们对于企业过去营运产生的数据大都是转储在磁带库中,以备需要的时候查询。 但是什么时候需要呢? 或许这些数据在经过了规定了时间之后,就会被丢弃掉。 随着技术的发展,有实力的企业开始思索这些历史数据的价值。他们需要 从这些数据中找出一些信息,这些信息能够帮助他们认识客户的潜在的需求、 认识一些数据的规律等。于是数据仓库技术营运而生。实际上,企业在建立自 己的o l t p 系统的时候,大多都有一个查询的模块。这个模块的功能是提供一些 简单的汇总信息、a b c 分类信息以及各类指标的排行信息。而这个模块所实现 的功能就是大多数企业建立o l t p 的重要原因之一。因为它能够提供统计分析功 能,它所提供的数据能够反映出当前业务运转的状态,是企业能够根据它对企 业的运转的某个方面做出评判,提供了决策的依据。这正是数据仓库出现的最 大原因。数据仓库能够作为d s s ( d e c i s i o ns u p p o r ts y s t e m ) 的一部分,为企业 决策提供信息,以应对企业的激烈竞争的外部环境,提高反映速度和决策的准 确性。比如商业企业的信息系统。拿全球闻名的商业零售企业沃尔玛为例,这 个企业极其重视信息系统的建设,它通过在欧洲零售商店销售数据的分析,找 到了一条规律:8 0 买了啤酒的消费者都买了尿布。于是人们试着在调整啤酒和 尿布的摆放位置,使两者摆放在一起;之后他们观察了销售数据,发现两者的 销售量比平时都高出了1 0 左右1 1 j 。 3 武汉理工大学硕士学位论文 另外,这也说明企业过去存放在磁带库中的数据蕴含着巨大价值。但是直 接通过o l t p 系统进行分析查询存在着如下不足: 1 。o l t p 系统关注的保证业务能够快速完整的进行,查询分析不是其关注 的焦点。如果要在现有的o u t 系统上进行查询分析,就影响了o l t p 系统的运行。因为查询分析需要大量的提取历史数据,而o l t p 系统则 是保证如何将当前的信息可靠而快速的保存到数据库中; 2 业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还 有大量的历史数据处于脱机状态,形同虚设; 3 业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式 并不适合非计算机专业人员进行业务上的分析和统计。 针对以上问题,人们专门为业务的统计分析建立一个数据中心,它的数据 可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到; 它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可以满足 决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。如果 需要给数据仓库一个定义的话,那么可以把它看作一个作为决策支持系统和联 机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从 数据库中获取信息。 2 1 2 数据仓库的定义 数据仓库( d a t aw a r e h o u s e ) 是近年来兴起的一种新的数据库应用。随着数据 库技术的应用和发展,人们尝试对数据库中的数据进行再加工,形成一个综合 的面向分析的环境,以更好的支撑决策分析。在此过程的发展和完善中,形成 了支持决策的、特殊的数据存储即数据仓库( d a t aw a r e h o u s e ,d w ) 。典型的数据 仓库应该是一个主题数据库,支持用户从巨大的运营数据存储中发现信息,支 持对业务趋势进行跟踪和实现业务的预测和计划【2 1 。更为广泛接受的数据仓库定 义是b i l li n m o n 在1 9 9 1 年出版的“b u i l d i n gt h ed a t aw a r e h o u s e ”一书中所提到 的:数据仓库是一个面向主题的,集成的,非易失的,随时间变化的用来支持 管理人员决策的数据集合【3 l 。 该定义给出了数据仓库的主要特点: 1 ) 面向主题 4 武汉理工大学硕士学位论文 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、 归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领 域所涉及的分析对象,是针对某一决策问题而设置的。面向主题的数据组织方 式,就是在较高层次上对分析对象的数据的一个完整的、统一的、一致的描述, 能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的 联系。 目前,数据仓库的实现主要是基于关系数据库,每个主题由一组关系表或 逻辑视图实现。这些表和视图的内容与原来各个运行系统数据源的数据本质上 是一致的,但为了方便支持分析数据处理,对数据结构进行了重组,其中还可 能会增加一些数据冗余。 2 ) 集成的数据 数据仓库中存贮的数据是从原来分散的各个子系统中提取出来的,但并不 是原有数据的简单拷贝,而是经过统一、综合。其一,数据仓库的数据不能自 接从原有数据库系统中得到。原有数据库系统记录的是每一项业务处理的流水 帐,这些数据不适合于分析处理,在进入数据仓库之前必须经过综合、计算, 抛弃分析处理不需要的数据项,增加一些可能涉及的外部数据。其二,数据仓 库每一个主题所对应的源数据在原分散数据库中有许多重复或不一致的地方, 必须将这些数据转换成全局统一的定义,消除不一致和错误的地方,以保证数 据的质量。否则,对不准确,甚至不正确的数据分析得出的结果将不能用于指 导企业作出科学的决策。 对源数据的集成是数据仓库建设中最关键,也是最复杂的一步。 3 1 数据不可更新 从数据的使用方式上看,数据仓库的数据不可更新,这是指当数据被存放 到数据仓库中以后,最终用户只能通过分析工具进行查询、分析,而不能修改 其中存贮的数据,也就是说,数据仓库的数据对最终用户而言是只读的。由于 数据仓库的查询数据量往往很大,所以对数据查询、查询界面的友好和数据的 表示提出了很高提出了更高的要求,因为对数据仓库进行查询分析的用户多是 企业的高层领导,他们是所在业务领域的专家,但对计算机却不一定熟悉。 从数据的内容上看,数据仓库存贮的是企业当前的和历史的数据,在一定 的时间间隔以后,当前的数据需要按一定的方法转换成历史数据,年代久远的、 查询率低的数据的需要从数据仓库脱离到廉价慢速设备( 如磁带1 上,对分析处理 武汉理工大学硕士学位论文 不再有用的数据需要从数据仓库中删除。但这些动作是由系统管理员来做,或 制定规则由系统自动完成。因此,也可以说数据仓库在一定时间间隔内是稳定 的。 虢数摄照对鲻不凝燮健 数弦仓库数据的不可爨新是针对成羽两害,即用户进行分析娥理时不对数 掇进行爨新操作,假不是说,数据从进入数据仓库以后就永远不变。数据仓库 巾鹃数攒隧时闻变像露定麓壹l 煞被更薮,褥隔段阉定救时闽阕骚震,运终数据 艨系统中产生的数攒被抽取、转换以詹集成到数据仓库中,丽数攒的过去舨本 仍拔僳餐在数据仓艨巾,魏鲻“快照影像”,每隰一周、一麓躐适警熬闻隔载照 一张像:淹麓对翔的黛耗,数镶以更离的综合层次被不断综合,娃邋廒趋势分帮予 的要求:当数据超过数据仓库的存储期限,或对分析不在有用时,这蟪数据将从 数据仓库审剿去。 数糕仓库的结稳待惠、维护信惠被保存在数据仓瘁豹元数据中,数据仓露 维护工捧斑系统根搬元数掇中靛定义蠡溯进符,或由系统管理爨定期维护,雳 户不必关一办数蠢仓霖懿麓被蠢耨翡缁节。 5 1 使用数据仓库 建立数据仓库并不是骤取代原有的遮作数据库系统,建立数据会库的耳的 怒为了将衾韭多年泉蠢经敢熬瑙靛数据按一个绫一、一致鹣金鼗缀视图缝缓、 存贮,对这些数据谶杼分析,从中得如商哭企般经营好坏、客户满求、对手愤 凝、塔露发震趋势等蠢懑缮惑,蘩鼙金濂及辩、准确这荛撩梳会,虢求在激烈 的竞争中获得更大的利益。 2 2 数撼仓库的数据组织 数掇仓疼蕊攥露对象爨数据,宅麴嚣戆楚将各耱源鼗援援攒爨黉翡层次缝 织起来,为分析活动掇供最方便的物理撼础。 2 ,2 。1 数据仓库的数据缝织结构 数援会库中盼数据分鸯燃个缀剐:擎期镪节级、当前缨节缎、轻度综合缀、 离度综合缀。源数捺经避综会看,首先瀵入警魏细节缓,并裰撼熬体需要进行 6 武汉理工大学硕士学位论文 进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期 细节级。由此可见,数据仓库中存在着不同的综合级别,这种级别谓之为“粒 度”。粒度越大,表示细节程度越低,综合程度越高。仓库中存在着小同的综合 级别,一般称之为“粒度”。粒度越大,表示细节程度越低,综合程度越高。总 的来说,数据仓库的这种组织方式的核心思想是在系统中保留最有可能被用户 使用的数据,而用户很少使用的数据则备份出系统。 图2 1 数据仓霹数据豹缎织结构 高度综合级 轻度综合级 当前细节级 旱麓绡节缀 在鼗豢仓疼孛,处毽摄取帮综合爱豹数撵还毽菇津霉重要静元数摇 ( m e t a d a t a ) ,它描述的是提取和综合后的数据的组织方式。元数据魑“关于数据 蛉数据”。凌数据仓疼环境下,主要露舞耪元数摆:一是轰了扶操终燧丽壤舄数据 仓库转化而建立的元数据,包含了所有源数据项名、属性殿其在数据仓库中的 转化趣则;二是在数据佥瘁审是用来和终端用户蛇多维袁波模型靛蠖上具之闻 建立映射,此种元数据称之为d s s 元数据,常用来搿发更先进的决策支持工具。 图2 1 为一个典型的数据仓库的数据缝织结梅。 2 2 2 粒度与分割 粒度和分割是数据仓库中两个麓要的概念鸭它们是数据仓库模型设计时重 要考虑静越蘧。 7 武汉理t 大学硕士学位论文 ( 1 ) 粒度 在数据仓库环境中粒度之所以是重要的设计问题,是因为它会深刻地影响 存放在数据仓库中的数据量的大小以及数据仓库所能回答的查询类型a 粒度可 以使众多用户从不同的角度观察数据:可以对数据进行一致性协调:还具有灵活 性,用户还可以更改他们观察数据的角度:可以使整个企业的数据足够详细地 为满足不同需要而进行重构,最重要的是可以容纳将来未知的需求。数据仓库 粒度可以分为两种形式,第一种粒度指的是数据仓库中的数据单元的细节程度 或综合程度的级别。细节程度越高,粒度级就越低:反之则细节程度越低,粒 度级就越高。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作 用是决策支持系统( d s s ) 分析,因而绝大多数查询都基于一定程度的综合数据之 上,只有极少查询涉及到细节。所以应该将大粒度数据存储于快速设备上( 如 磁盘) ,小粒度数据存储于低速设备上( 如磁带) 。还有一种粒度形式,即样本 数据库。它根据给定的采样率从细节数据库中抽取出一个子集。这样样本数据 库中的粒度就不是根据综合程度的不同来划分的,而是根据采样率的高低来划 分的,采样粒度不同的样本数据库可以具有相同的数据综合程度。 本文后续章节中所提到的粒度,若不做特别说明,通常指综合程度。粒度 的选择一般根据用户的需求来确定。 ( 2 ) 分割 数据分割是数据仓库中又一个重要的概念。由于数据仓库中的数据量极大, 这必然导致在使用上的很多问题,尤其是效率问题。分割的目的就在于提高效 率和速度。它是将数据分散到独立的物理单元中去,以便能分别独立处理。数 据分割没有固定的标准,分割的方法和粒度一样应该根据实际情况来确定。有 许多数据分割的标准可供参考:如日期、地理、业务范围等等,也可以进行组合。 一般来说,分割标准总应包括日期项。 2 2 3 数据仓库的数据物理组织形式 通常,数据仓库中的物理数据组织形式有如下几种【5 1 : ( 1 ) 1 简单堆积文件 它将每日从数据库中提取并加上的数据逐天积累并存储起来。 ( 2 ) 轮转综合文件 武汉理_ 大学硕士学位论文 数据存储单位被分为日、周、月、年等几个级别。在一个星期的七天中, 数据被逐一记录在每日数据集中,然后,七天的数据被综合并记录在周数据集 中;接下去的几个星期,日数据集重新记录新数据。同理,周数据集达到七个 后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷, 数据量较简单堆积结构大大减少。当然,它是以损失数据细节为代价的,越久 远的数据,细节损失越多。 ( 3 ) 篱晓壹袋文箨 它类似于简单堆积文件,但也是间隔一定时间的数据库快照,比如每隔一 星麓或一个秀终一次。 ( 4 ) 连续文件 姣照嚣令或受多夔嫠攀壹接文转裁玺蔽一秘连续文热。当然,连续文馋也 可以通过搬一个快照追加刹一个以前生成的连续文件上来创建。 对于务辩文馋结棱的爨终实联,在关系数摆麾孛仍然要依靠“表”这耱最 基本的结构,并凰在一个数据仓库体系结构中,不同主题下的表域相同燕题下 蛇不同懿液可以采弱不露驰数据缎织形式。 2 2 4 数据仓库的数据追加 数据的组织结构和数搌组织形式解决的是数据仓库的存储阉题心数据追加 楚从数据撵角度提出的,它解决的是在数据仓库初始数据转载焉如镩再次向数 据仓库输入数据的问题。数据追加实际上只增加在上次数据输入后数据艨中变 能了酶数掇,要竞成数据遣加的工作,最关键的麓“捕获”数据交纯,弗把它 们的变化记录下来。 ( 1 ) 时标法 最早提出“时标法”的思想是为数据记录增加一个时间标记。当数据在上 次数器导入完癜露发生了变诧,羯修改这祭记录豹薅阂橼记。毽是,在辩闻数 据库系统中,通常没有专门的时间标记,因此,时标法缀然简单,但很难得到 戏震。 ( 2 ) 前后映像比较法 将上次菰嚣究数据逡艇茌务瓣数蕹露抉照记滚下来,然盂将葵窥要虢嚣瑟 的数据追加任务前的数据库快照矬 行比较,比较遮两次快照的不同,来生成追 9 武汉理工大学硕士学位论文 加的内容。这种方法简单,但是如果数据库的数据量很大,进行这样全数据库 的比较将会耗费大量的系统资源和时间,所以也很难得到应用。 ( 3 ) d e l t a 方法 数据的变化是有数据库应用程序引发的,因此数据库应用程序应当知道它 修改了哪些数据,应用程序可以将它执行成功的修改操作记录下来,形成d e l t a 文件作为追加的内容。数据库的应用程序主要是为了完成事务处理而设计的, 要使所有的应用程序d e l t a 文件的功能在实际的工程应用中很难,因此,这种 方法也没有得到实用。 ( 4 ) 日志文件法 各个应用程序都是通过同数据库服务器进程通信来实现其数据访问功能, 最终数据的访问和处理工作是由数据库服务器来承担,因此数据库服务器能够 感知数据的变化。日志文件是数据库系统的固有机制,不会影响o l t p 的性能。 如果数据库开启了系统日志,数据库服务器将会把它所执行的所有操作详细地 记录下来。我们可以通过分析数据库日志来获取数据变化的情况。同时,它还 具有d e l t a 文件的优越性质,提取数据只要局限日志文件即可,而且不用扫描 整个数据库。当然,原来日志文件的格式是依据数据库系统的要求而确定的, 它包含的数据对于数据仓库而言,可能有许多冗余。比如,对一个记录的多次 更新,日志文件将全部变化过程都记录下来;而对于数据仓库,只需要最终结 果。但相比较而言,通过分析日志文件可以减少工作量。虽然日志文件法需要 对日志本身进行比较复杂的分析,但是由于它能够极大程度地减少工作量,日 志文件不失为最可行的一种选择。 2 2 5 数据仓库中数据清理 数据仓库系统中的数据也具有自身的生命周期,数据仓库系统并不是总装 载数据而不清除数据的系统。它的数据清理和普通系统的数据清理的含义有所 区别。在普通的系统中,数据清理意味着将数据清除,而数据仓库系统是从细 化级别的数据逐渐上升为高度综合级的数据,直到数据已经不再具有任何意义 时被清除的过程。数据仓库数据清理的过程如下: 数据从操作型环境进入分析型环境; 数据从细节数据逐渐转换为综合数据; 1 0 武汉理工大学硕士学位论文 数据从高速磁盘中转移到低速存储介质上; 数据失去实际意义,最终被清除。 2 3 数据仓库的体系结构 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、o l a p 服 务器以及前端工具应用四个部分。如图2 2 所示。 li i 图2 2 数据仓库系统的系统结构 数据源;是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业 内部信息和外部信息。内部信息包括存放于企业操作型数据库中( 通常存放在 r d b m s 中1 的各种业务数据和办公自动化( o a 系统包含的各类文档数据。外部 信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及 各类文档等。 数掘的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的基 础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确 定数据仓库的物理存储结构,同时组织存储数据仓库元数据( 具体包括数据仓库 的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信 息1 。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数 据仓库( 通常称为“数据集市”,d a t am a r t ) 。数据仓库的管理包括数据的安全、 1 l 武汉理工大学硕士学位论文 归档、备份、维护、恢复等上作。这些功能与目前的d b m s 基本一致。 o l a p 服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持 用户多角度、多层次的分析,发现数据趋势。其具体实现可以有三种形式: r o k 杼,m o l a p 和h o u 心。r o l a p 基本数据和聚合数据均存放在r d b m s 之中, m o l a p 则将基本数据和聚合数据均存放于多维数据库中;h o l a p 是 r o l a p 与m o l a p 的综合,基本数据存放于r d b m s 之中,聚合数据存放于多 维数据库中。 前端上具与应用:前端工具主要包括各种数据分析工具、报表工具、查询 工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据 分析上具主要针对o l a p 服务器,报表工具、数据挖掘工具既针对数据仓库, 同时也针对o l 服务器。 2 4 数据仓库的建模方法 2 4 1 实体关系模型 实体关系建模m 饵m i t yr e l a t i o n s h i pm o d e l i n g ) 通过两个概念( “实体”和“关 系”) 构造特定的数据模型。实体关系模型是一种抽象的工具,能够简化企业中 复杂的数据关系,并把它用规范的方式表示出来,使其易于理解。 ( 1 ) 实体 一个实体表示一个现实和抽象的事物的集合,这些事物必须具有相同的属 性。一个集合的某个特定的元素称为这个实体的一个“实例”。 ( 2 ) 属性 属性表示一类现实或抽象的事物的特征或者性质。属性和具体的实体相联 系。 ( 3 ) 关系 关系连接多个实体,描述相关实体的相互作用关系。 ( 4 ) 范式 范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到 第五范式进行无损分解,这个过程也称为规范化。在数据仓库的模型设计中目 前一般采用第三范式,它有非常严格的数学定义。 1 2 武汉理工大学硕士学位论文 根据数据仓库的测试标准t p c d 规范,在数据仓库系统中,对数据库引擎 最大的挑战主要是这样几种操作:多表连接、表的累计、数据排序、大量数据的 扫描。下面列出了一些d b m s 在实际系统中针对这些困难所采用的折衷处理办 法: ( 1 ) 如何避免多表连接:在设计模型时对表进行合并,即所谓的预连接 ( 1 r e j o i n ) 。当数据规模小时,也可以采用星型模式,这样能提高系统速度,但 增加了数据冗余量。 ( 2 ) 如何避免表的累计:在模型中增加有关小计数据( s u m m a r i z e dd a t a ) 的项。 这样也增加了数据冗余,而且如果某项问题不在预建的累计项内,需临时调整。 ( 3 ) 如何避免数据排序:对数据预先排序。但随着数据仓库系统的运行,不断 有新的数据加入,数据库管理员的工作将大大增加。大量的时间将用于对系统 的整理,系统的可用性随之降低。 ( 4 ) 如何避免大表扫描:通过使用大量的索引,可以避免对大量数据进行扫描。 但这也将增加系统的复杂程度,降低系统进行动态查询的能力。 这些措施大都属于去规范处理。去规范化处理虽然是提高系统性能的一种 有效手段,但是由于中央数据仓库的数据模型反映了整个企业的业务运行规律, 在中央数据仓库中进行去规范处理容易影响整个系统。所以,比较好的办法是 选择问题较集中的部门数据集市实施这种措施。这样既能有效地改善系统性能 又不至于影响整个系统。在国外一些成功的大型企业级数据仓库案例中,基本 上都是采用这种方法。 2 4 2 维度建模 维度建模是经常应用于数据仓库的一种逻辑设计技术的名称。该技术试图 采用某种直观的标准框架结构来表现数据,并且允许进行高性能存取。每个维 度模型都由具有复合键的某个表( 被称作事实表) 和一系列小型表( 被称作维度表) 组成。每个维表都有一个主键,它对应着事实表中复合键的某个组成部分。由 于事实表有一个由两个或者多个外键所组成的主键,所以它通常表示一种多对 多关系。事实表中还包含一个或多个事实。这些事实分为可累加事实、半累加 事实和不可累加事实三种。可累加事实,如数字、货币等,非常重要,因为在 数据仓库应用中几乎不会抽取事实表中的某一条记录,丽是一次抽取上万条记 武汉理工大学硕士学位论文 录,然后返回这些记录事实累加值。半累加事实是指只能沿着一定些维度可累 加的事实。不可累加事实是指不能用于累加,只能用于计数的事实。虽然理论 上可以存在文本性的事实,但应该尽量把它们放入维表中。这样即可保证减少 事实表所占空间,也可使维度模型更合理。 维度模型中的维表通常包含商务过程的文本描述。它通常可以包含更多的 列( 属性) ,和少的行( 记录) 。维表的属性是用作数据仓库查询的主要约束。它们 是确保数据仓库可理解和有用的关键。数据仓库的能力自接与维表的质量和深 度成比例。 维度建模与实体关系建模不同。实体关系建模创建一个复杂的模型来描述 所有的商务过程。它的目标之一是减少冗余。而维度建模创建多个模型来强调 离散的商务过程。维度建模中事实表和维表里的数据冗余可以容忍,而且为了 达到提高查询效率的目的,有时必须包含大量冗余数据。符合第三范式的实体 关系模型数据冗余较小,但对于分析类的查询反应较慢。而多维模型数据量冗 余较大,但是对于特定查询反应很快吼 数据仓库维度建模的方法包括下列步骤f 9 】: ( 1 ) 分析商务过程,确定分析主题。了解用户的商务流程,根据用户的需 求确定需要在数据仓库系统中分析的主题 ( 2 ) 根据分析主题建立数据集市。建立数据集市的过程又包括: a 、确定分析主题的粒度。根据分析主题确定一个事实表中的一条记录确 切代表什么,事实表的事实是什么等级。确定粒度是维度建模后继工作 开展的基础: b 、确定应用于事实表的维度。确定的维度将回答这样的问题,“业务人 员将怎样描述从业务过程中得到的数据”; c 、确定事实表的事实。通过回答下面的问题可以确定事实,“什么是你 需要来度量的”。使用的事实必须和该事实表的粒度一致。不同粒度等 级的事实不能共存于一张事实表中。 ( 3 ) 建立总线结构的数据仓库。因为一次建立一个大型的数据仓库太复杂, 因此是个长期的过程,为了保证最后数据仓库的成功,数据仓库的建设应采用 结构化的、增量的方法。该方法就是数据仓库总线结构。通过定义标准的不同 数据仓库定义总线接口,单独的数据集市可以在不同的时候由不同的部门实施, 然后按总线接口标准集成到一起组成数据仓库。实施总线结构数据仓库的关键 1 4 武汉理工大学硕士学位论文 是建立一致维,即在所有数据集市中共同都拥有的维度,其结构应一致。 2 4 2 其他数据仓库建模方法研究介绍 维度建模方法在数据仓库项目实施中虽然有着广泛的应用,但该方法本身 存在着如下缺点: a 、用户需求分析具有非常高的不确定性,分析主题经常改变,这就造成设 计的不稳定性: b 、如果设计者没有理解数据之间的潜在关系将导致不正确的设计; c 、不恰当的数据聚合将导致信息丢失,这会限制数据的分析方式; d 、该方法没有模型设计好坏的评价标准,是经验性的,没有理论支持。 在一些大学研究机构中,特别是一些欧洲的大学,提出了新的数据仓库建 模方法。u n i v e r s i t y o f m e l b o u r n e ,a u s t r a l i a 的d a n i l e l m o o d 提出了基于企业数 据模型来设计中央数据仓库,再到数据集市模型的方法。a a l b o r gu n i v e r s i t y , d e n m a r k 的n e c t a r i a 等人提出了s t a r e r 模型,它结合了很成熟的传统数据库设 计中的e r 方法和星型模型方法。s t a r e r 是概念模型设计方法,它可以精确的反 映用户需求,并且模型具有可扩展性。f r e eu n i v e r s i t yo fb o z e n b o l z a n o i t a l y 的 e n r i c of r a n c o n i 等人提出了基于多维聚集实体的概念的扩展e r 模型数据仓库建 模方法。该模型有一个清晰的模型理论语义,该语义是基于对标准e r 模型 的扩展。 2 5 数据仓库系统建设的方法 企业数据仓库的建设通常按照快速原型法予以实施,主要包括:确定范围、 环境评估、分析、设计、开发、测试和运行等几个阶段【1 0 l 。同时企业数据仓库 又是一个在原型的基础上进行不断迭代的过程。 1 、确定范围 确定范围的主要任务包括了解方向性分析处理需求,确定信息需求,确定 数据覆盖范围。方向性需求包括:决策类型、决策者感兴趣的问题f 或对象1 等。 在确定范围时应该重视的因素是必须用户驱动和数据驱动相结合,同时可以借 鉴国内外已有的成功经验。 武汉理工大学硕士学位论文 2 、环境评估 环境评估是对企业数据仓库系统建设的硬件环境和软件环境进行选型和准 备。 在硬件平台选择中需要选择与数据仓库系统规模相适应的核心服务器,同 时数据仓库系统平台与业务处理平台应该相分离。 软件平台的选择主要包括数据仓库引擎、o l a p 引擎、前端分析展现工具的 选择。产品进行测试是软件选型的一种有效方法。通过测试,各个企业可以了 解各种产品的性能、功能和价格,然后根据自身的需求和数据状况选择相应价 格的产品。 3 、分析 分析阶段主要包括两个方面的任务,分别是深入了解数据源和分析数据仓 库系统所包含的主题域及其相互之间的关系。分析阶段必须坚持用户参与,并 且与原有系统开发或维护人员进行深入的沟通。 4 、设计 数据仓库设计的主要任务包括与操作型系统接口的设计和数据仓库本身的 设计两个部分的内容。其中与操作型系统接口的设计主要是指数据抽取、清理、 转换和刷新策略的设计。从多个不同的数据源中抽取数据,需要解决数据的不 一致性,保证数据的质量。 数据仓库本身的设计包括数据仓库逻辑数据模型的设计、数据仓库物理数 据模型的设计。由于目前数据仓库产品尚未形成一套统一的标准,因此在数据 仓库设计阶段必须要有数据仓库专家和数据仓库系统产品提供商的参与。 5 、开发 开发阶段所要完成的主要内容包括数据仓库建模、数据抽取和加载模块、 数据访问模块以及开发实际应用模块。实际应用的开发通常都是从急需的业务 开始进行,应该重视的因素包括必须有行业专家的参与,同时必须有数据仓库 专家的参与。 6 、测试 测试是保证系统可靠性的重要手段。数据仓库测试与一般软件系统测试不 同的是数据仓库的测试不仅包括对软件系统的测试,同时包括对数据的测试。 在测试阶段必须保证测试的充分性,同时注意测试数据的覆盖范围。 7 、运行 1 6 武汉理工大学硕士学位论文 系统运行主要包括用户培训、数据加载、数据访问及应用等。在数据仓库 系统的运行过程中,不断收集用户新的需求。 数据仓库系统的建设不可能一蹴而就的,它是一个不断建立、完善、健全 的过程。这个过程是随着业务量、业务范围和客户的不断发展而发展的,其成 长的速度非常之快,同时随着业务的发展,数据仓库的价值也将随之增长。 2 6 本章小结 本章简要粗略的介绍了数据仓库中的基本概念,数据仓库体系的基本组成、 数据仓库的建模方法和实际数据仓库建设的策

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论