(通信与信息系统专业论文)数据仓库在自来水企业管理中的应用研究.pdf_第1页
(通信与信息系统专业论文)数据仓库在自来水企业管理中的应用研究.pdf_第2页
(通信与信息系统专业论文)数据仓库在自来水企业管理中的应用研究.pdf_第3页
(通信与信息系统专业论文)数据仓库在自来水企业管理中的应用研究.pdf_第4页
(通信与信息系统专业论文)数据仓库在自来水企业管理中的应用研究.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(通信与信息系统专业论文)数据仓库在自来水企业管理中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着我国自来水行业信息基础设施的不断完善,信息资源的开发利用得到 了很大的重视。企业已经为决策和控制积累了大量宝贵的数据,使得数据库技 术得以迅速发展,数据库管理系统得以广泛应用。但是,数据量越来越大,如 此大量的数据给数据的处理带来了很大困难。如何对信息进行科学的分析处理、 及时为决策者提供决策支持成为自来水行业当务之急。 数据仓库是应用驱动的,这就意味着,对不同的应用领域,应该度身定制 自己的数据仓库方案。在自来水企业中,可以将数据仓库技术应用于业务数据 的处理中,从中提取到大量的有用信息,有效地为决策提供支持。 本文首先就自来水行业数据仓库的研究目的意义和当前研究热点进行了综 述,并全面介绍了数据仓库、联机分析处理的基本概念以及数据仓库系统的框 架。 其次,论文对自来水企业的需求进行了详细的分析,然后根据需求对系统 的功能进行了设计。 随后,论文重点介绍了系统模型设计,它主要包括以下几个方面:概念模 型设计,逻辑模型设计和物理模型设计。其中概念模型设计的主要任务是确定 自来水企业数据仓库的主题。在逻辑模型设计过程中,论文以自来水企业为背 景,介绍了维度建模的基本概念以及具体设计步骤,并按照数据仓库的设计方 法,对维表和事实表进行了设计,构建了星型幸雪花型相结合的自来水企业数 据仓库模型。而物理模型设计则是概念模型的具体实现。 最后,论文阐述了怎样在实际应用中进行数据提取、数据清洗和转换、数 据加载等工作。并从项目实践中得出了适合其特点的数据仓库方案,给出了数 据展现部分的详细实现,对联机分析处理技术在自柬水企业管理中的实际应用 进行了分析研究。 关键词:数据仓库,自来水,联机分析处理,数据挖掘 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fb a s i ci n f o r m a t i o nf a c i l i t i e so fc h i n e s ew a t e r s u p p l yi n d u s t r y , t h ed e v e l o p m e n to fi n f o r m a t i o nr e s o u r c ea t t r a c t sm o r ea n dm o r e a t t e n t i o n s al a r g en u m b e ro fv a l u a b l ed a t ai sa c c u m u l a t e df o rd e c i s i o n m a k i n ga n d c o n t r o l l i n g , w h i c hm a d er a p i dd e v e l o p m e n tf o rd a t a b a s et e c h n o l o g y a n dt h e d a t a b a s em a n a g e m e n ts y s t e mh a sb e i n gw i d e l yu s e d h o w e v e r m o r ea n d m o r ed a t a h a v ec a u s e dg r e a td i f f i c u l t yt ot h ed a t ap r o c e s s i n g h o wt od e a lw i t hl a r g eq u a n t i t yo f i n f o r m a t i o nt od os c i e n t i f i ca n a l y s i sp r o c e s s i n g , a n dp r o v i d ed e c i s i o ns u p p o r t sf o r d e c i s i o nm a k e rt i m e l yb e c o m ean e ws u b j e c tt ow a t e rs u p p l yi n d u s t r y d a t aw a r e h o u s ei st h ea p p l i c a t i o n - d r i v e n ,w h i c hm e a n st h a t ,o i ls p e c i f i ca r e a so f a p p l i c a t i o n ,i ts h o u l dc u s t o m i z et h e i ro w nd a t aw a r e h o u s ep r o g r a m i nt h ew a t e r s u p p l ye n t e r p r i s e s ,w eu s ed a t aw a r e h o u s et e c h n o l o g yi nb u s i n e s sd a t ap r o c e s s i n g , a n df r o mi tw ee x t r a c tal o to fu s e f u li n f o r m a t i o nf o re f f e c t i v ed e c i s i o n - m a k i n g s u p p o r t a tf i r s t ,t h i sp a p e rp r e s e n t st h er e s e a r c hp u r p o s e ,s i g n i f i c a n c ea n dt h ec u r r e n t r e s e a r c ho fd w m e a n w h i l ei ti n t r o d u c e st h eb a s i cc o n c e p t so fd a t aw a r e h o u s ea n d o l a fa n dt h ef r a m eo fs y s t e m i na d d i t i o n ,t h ep a p e rg i v e sad e t a i la n a l y s i so ft h en e e d so fw a t e rs u p p l y e n t e r p r i s e s , b a s e d0 1 1w h i c h t h ef u n c t i o no ft h es y s t e mw a s d e s i g n e d 。 s e c o n d l y , t h ep a p e rf o c u s e so nt h ed e s i g no ft h es y s t e mm o d u l e ,w h i c hi sm a i n l y c o m p o s e do ft h ef o l l o w i n ga r e a s ;c o u c e p tm o d e ld e s i g n ,l o g i cm o d e ld e s i g na n d p h y s i c a lm o d e ld e s i g n t h em a i nt a s ko fc o n c e p tm o d e ld e s i g ni st od e t e r m i n et h e s u b j e c to fw a t e re n t e r p r i s ed a t aw a r e h o u s e i nt h ep r o c e s so fd e s i g n i n gl o g i cm o d e l , t h ep a p e ri n t r o d u c e st h eb a s i cc o n c e p ta n dt h ed e t a i ls t e p so fd i m e n s i o n a ld a t a m o d e l i n gi nt h eb a c k g r o u n do fw a t e rs u p p l ye n t e r p r i s e s a c c o r d i n gt ot h em e t h o do f d e s i g nd a t aw a r e h o u s ew e e s t a b l i s haw a t e ri n d u s t r yd a t aw a r e h o u s em o d e lc o m b i n e d s t a rw i t ht h es n o w f l a k es c h e m aw h i c hi sc h a r a c t e r i z e db yf a c tt a b l e sa n dd i m e n s i o n t a b l e s p h y s i c a lm o d e ld e s i g n i n gi st h er e a l i z a t i o no ft h ec o n c e p tm o d e l a tl a s t ,w ed i s c u s st h ep r a c t i c a la p p l i c a t i o no fe t l t h ed a t aw a r e h o u s ep l a n i i w h i c hs u i t a b l ef o rt h ec h a r a c t e r i s t i c sc o m ef r o mt h ep r a c t i c eo fp r o j e c t ad e t m l e d i m p l e m e n t a t i o no fd a t ae x h i b i t i o ni sg i v e n a n dt h ep r a c t i c a la p p l i c a t i o n so fo i a p t e c h n o l o g yi nt h em a n a g e m e n to fw a t e rs u p p l ye n t e r p r i s e sh a v eb na n a l y z e d k e yw o r d s :d a t aw a r e h o u s e ,w a t e rs u p p l y ,0 l 皑d a t am i n i n g i l l 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文串作了明确的说明并表示了谢意。 弛慨粤删 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阕;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 钵芍各学嘛一 武汉理工大学硕士学位论文 第1 章绪论 近几年来,随着经济体制改革不断深人,企业为适应面向社会服务的要求 和企业自身发展,不断加强企业的管理。自来水企业作为一类特殊的企业,由 于其产品的单一性和社会性,使得管理创新的作用显得更为重要。因此,作为 国民经济基础行业的自来水企业,需要利用现代信息科技技术来加强自来水公 司生产经营管理,通过数据仓库技术在自来水企业管理中的应用,来发现和解 决在生产经营过程中出现的情况和问题,为决策者和生产经营管理者提供依据 1 1 l 。 1 1 数据仓库技术研究现状 随着计算机技术的飞速发展和在我国的广泛应用,传统的事务处理系统 ( o l t p ,o n l i n et r a n s a c t i o np r o c e s s i n g ) 已经比较成熟,它大大方便了企业日 常的事务处理工作,并保存了大量的业务数据。在企业的日常事务处理信息化 以后,数据分析和决策支持应用的发展成为必然。如何有效组织企业数据以更 好地支持决策分析应用,是近年来数据处理研究的一项主要内容。 国外企业从2 0 世纪6 0 年代就开始建立和使用操作型的数据库系统,并且 完全依赖它们。企业成长壮大以后,各种商业处理工作就需要数以百计的计算 机应用系统支持。这些应用系统工作起来很有效。它们提供在线信息,向终端 机提供各种各样的报告,并使生意运行起来。2 0 世纪9 0 年代,商业活动变得越 来越复杂,集团公司向全球扩展,竞争愈来愈激烈,商业经理们渴望得到更多 的信息来提高竞争力。计算机系统确实提供了大量的信息来支持每天的工作, 但是与这些信息不同,经理们需要的是可以用来进行战略决策的现成的信息。 那些操作型系统虽然重要,但是并不能提供具有战略意义的信息。因此数据仓 库的概念应运而生。 另外,信息处理技术的发展,使得各类数据、信息急剧增长,给数据的传 输、存储带来了许多新的问题,特别是出于各类不同事务产生大量不同类型的 数据,这些数据分别被各个时期建立的i 牟多应用系统所使用。人们希望能够看 到所有数据和信息的综合情况,而这些数据和信息育许多不能被统一描述,不 武汉理工大学硕士学位论文 能被现有应用系统综合使用。针对这一问题,人们设想专门为业务的统计分析 建立一个数据中心,它的数据来自联机的事务处理系统、异构的外部数据源、 脱机的历史业务数据等,这个数据中心就叫做数据仓库( d a t aw a r e h o u s e ,简称 d w ) 。数据仓库技术,建立了一种体系化的数据存储环境,将分析决策所需要 的大量数据从传统的操作型环境中分离出来,使分散、不一致的操作数据转换 成集成、统一的信息。企业内不同单位、不同角色的成员都可以在此单一的环 境之下,通过运用其中的数据与信息,发现新的问题,并产生用于决策的新的 分析方法。 近年来,数据仓库技术得到广泛关注,各大软件公司纷纷推出了自己的数 据仓库解决方案。国内外许多公司成功建立了自己的数据仓库,并从中获取巨 大收益。1 9 9 6 年i d c 公司对6 2 家实现数据仓库的欧美企业调查显示,数据仓库 系统前3 年投资回报率平均为4 0 ,其中9 0 的企业投资回报率超过4 0 ,5 0 的企业超过1 6 0 ,2 5 的企业超过6 0 0 。世界最大的数据仓库提供商n c r 公 司宣布,2 0 0 1 年第一季度公司营业额上升1 0 ,达1 3 8 亿美元,其中数据仓库 部分增长2 l 。所有这些均表明数据仓库技术是当前企业构建决策支持系统的 最佳选择方案。 1 2 自来水企业信息化管理的现状 自来水企业由于其特殊性,长期以来政府对其干预太多。企业缺乏竞争性, 管理粗放,效率低下,竞争力弱。随着国有企业改革的不断深入和w t o 的加入, 供水垄断经营格局的打破,使供水企业加强管理、建立现代企业制度的任务更 加紧迫1 2 j 。 我国城市供水企业从9 0 年代初期就不同程度地歼始致力于管理信息系统的 建设,在长期的探索、开发和应用过程中,积累了丰富的建设经验,企业信息 化的水平不断提高。特别是近几年来,“数字供水”的出现,对自来水企业信息 化的要求越来越高。自来水企业已广泛认识到信息资源的价值,投入大量资金 建设信息系统,并积累了大量的业务数据,然而却很难从这些数据海洋中提取 有价值的信息为决策服务。因此企业认识到,信息系统的真工f 价值在于能帮助 他们制定改进管理过程的决策,而不仅仅是实现自动化1 2 j 。 因此,需要全面采集自来水企业各个业务环节的信息数据,建立与自来水 2 武汉理工大学硕士学位论文 公司相适应的数据仓库,从而实现企业运营信息的集中存储,形成一个信息共 享体。并通过对数据仓库中的信息的分析和数据挖掘,实现宏观决策和计划指 导。 1 3 目前存在的问题 然而,数据仓库技术在企业管理中的应用还不是很充分,其现状可归纳为 以下几点: ( 1 ) 自来水信息化建设只完成了传统的业务流程管理,还远没有实现信息 化带动企业现代化的目的。虽然建设了基础数据库、积累了大量数据但是尚不 注重数据的整理和挖掘。 ( 2 ) 数据积累不充分。实现在线分析处理的前提是要有大量的数据,特别 是历史数据。但目前我国除了银行、电信等少数行业以外,数据积累都不够充 分。虽然近几年我国的数据库建设有了很大的发展,但与发达国家相比,差距 不但没有缩小,反而有进一步拉大的趋势。目前,国外数据库的规模越来越大, 例如,世界专利数据库有2 0 0 0 多万条记录,容量达到几十个g 字节,由此可见, 数据积累不足影响了数据仓库应用的普及。在自来水行业也存在着同样的问题。 ( 3 ) 自来水行业的管理规范、流程不统一,信息的统计汇总主要以报表方 式传递,信息的层层报送,经过了中蒯层加工处理,缺乏真实性,总公司无法 准确地了解各下属单位的真实运营状况和信息,无法为科学合理的管理决策提 供真实可靠的数据信息。 ( 4 ) 自来水行业业务复杂,系统众多,数据量庞大,缺少一个规范的自来 水信息统一管理平台。一些子系统各自为政,信息的处理只局限于本部门,不 能在整个公司进行很好的共享,信息孤岛现象严重。分散于“信息孤岛”的数 据信息缺乏全局性的数据标准,无法满足企业信息查询和决策分析的需求。信 息汇总的渠道和时问的差异,造成了决策分析的数据口径不一致的现象。数据 采集和综合系统的缺失,使企业综合性、全局性的分析查询难以实现。 1 4 本文的主要研究内容 ( 1 ) 通过数据仓库技术理论的探讨和自来水企业需求的分析,对自来水企 3 武汉理工大学硕士学位论文 业数据仓库系统的功能进行设计。 ( 2 ) 自来水数据仓库系统主题的确定。主题是一个抽象的概念,是在较高 层次上将数据综合、归类并进行分析利用。 ( 3 ) 对于如何给数据仓库建模进行深入研究,对如何给数据仓库建模的相 关问题进行讨论,包括事实表、维表的建立等。结合自来水数据仓库的特点, 提出一种适合于自来水企业的数据仓库模型。 ( 4 ) 将各地方的业务系统上的数据抽取、转换、装载到数据仓库。现有业 务数据源很多,保证数据的一致性,真正理解数据的业务含义,跨越多平台、 多系统整合数据,最大可能提高数据的质量,迎合业务需求不断变化的特性。 ( 5 ) 在建立好的数据仓库平台基础上进行强有力的数据分析得到统计报表 和统计图表,从而支持自来水公司的决策。 根据自来水行业信息化建设规划的要求,结合建设全新的集中数据仓库业 务平台的目标,本着高起点、统一全面规划、便于日常维护,又要为将来的扩 展与新技术的融合打下基础的原则进行。在设计过程中,系统应适应新技术发 展的潮流,采用目前业界先进的技术架构和技术解决方案,既保证系统的先进 性,也要兼顾技术上的成熟性。设计方案不但要保证理论上可行,更重要的是 实际上可用。要充分考虑到应用系统的具体情况,最大限度地满足需求。 4 武汉理工大学硕士学位论文 第2 章基本理论及系统框架 2 1 数据仓库技术 2 0 多年前,查询不到数据是因为数据太少。而今天查询不到数据是因为数 据太多。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心, 它的数据来源可以是联机的事务处理系统,也可以是异构的外部数据源或者脱 机的历史业务数据等,这个数据中心是一个联机的系统,是专门为分析统计和 决策支持应用服务的,这个数据中心就是数据仓库。 数据仓库创始人w h i l l m o r l 是这样定义数据仓库的:数据仓库是面向主题 的、集成的、时变的、非易失的数据集合,用以支持管理决策f 3 j 。 因此根据数据仓库概念的含义,数据仓库的特征可以概括为以下四点: ( 1 ) 面向主题的( s u b j e c to r i e n t e d ) :数据仓库围绕一些主题,主题是一个 在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域。数据 仓库关注于决策者的数据建模与分析,而不是集中于组织机构的日常操作和事 务处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简明视图【4 j 。 ( 2 ) 集成的( i n t e g r a t e d ) :通常构造数据仓库是将多个异种数据源,如关 系数据库、一般文件和联机事务处理纪录,集成在一起。使用数据清理和数据 集成技术,确保命名约定、编码结构、属性度量等的一致性。 ( 3 ) 时变的( t i m e v a r i a n t ) :数据存储从历史的角度提供信息。数据仓库中 的关键结构隐式或显式地包含时间元素。数据仓库的时变性体现在: 数据仓库随时问变化不断增加新的数据内容; 数据仓库随时问变化不断删去旧的数据内容; 数据仓库的数据要随着时间的变化不断地进行重新组合。 数据仓库的数据不可更新是针对应用而言,即用户进行分析处理时不对数 据进行更新操作,但不是说,数据从进入数据仓库以后就永远不变。数掘仓库 中的数据随时i b j 变化而定期地被更新,每隔一段固定的时间i 日j 隔后,运作数据 库系统中产生的数据被抽取、转换以后集成到数据仓库中,而数据的过去版本 仍被保留在数据仓库中。随着时自j 的变化,数据以更高的综合层次被不断综合, 以适应趋势分析的要求。当数据超过数据仓库的存储期限,或对分析不再有用 武汉理工大学硕士学位论文 时,这些数据将从数据仓库中删去1 5 j 。 ( 4 ) 非易失的( n o n v o l a t i l e ) :数据仓库总是物理地分离存放数据;这些数 据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢 复和并发控制机制。通常,它只需要进行两种数据操作:数据的初始化装入和 数据访问。 在数据仓库中,数据一旦被写入就不会变化了。数据仓库可以看成是一个 虚拟的只读数据库系统。数据仓库在数据存储方面是分批进行,定期为数据仓 库增加记录,但这些记录一旦加入,就不再从系统中删除。正是由于这个显著 的特点,使得数据仓库不需要在并发控制上投入过多的精力,因为所有的用户 只是以只读的方式访问数据仓库。 以上概述了数据仓库的4 个基本特征。数据仓库概念的产生是信息技术满 足这种需要的结果。数据仓库是一种随时间的延续能够潜在地对企业在全球市 场中的成功和稳定性做出越来越大的贡献的简单概念。 2 2 联机分析处理技术 传统的联机事务处理系统建立的基本目的是收集和输入数据,数据模型是 为数据更新设计的。而数据仓库环境建立的基本目的是提供信息,数据模型是 为查询设计的,数据库的优化是为了分析。传统数据库系统用的s q l 查询语言 对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分 析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决 策者提出的需求。e e c o d d 于1 9 9 3 年提出在线分析处理( o l a p :o n l i n ea n a l y s i s p r o c e s s i n g ) 正是满足这种需求的工具 6 1 。 o l a p 是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的 方式从多个维度、多种数据综合程度将系统的运营情况展现给使用者。o l a p 委 员会为o l a p 所下的定义是:联机分析处理( o l a p ) 是一种软件技术,它使分 析员、经理和主管人员能够通过快速的、一致的和交互式的访问束获取并理解 各种可能的信息视图的数据,这些信息由原始数据转换而成,用来反映个企 业实际的维度【7 j 。 o l a p 的目标是满足决策支持或者满足在多维环境下特定的查询和报表需 求,它的技术核心是“维”这个概念嗍。维:是人们观察数掘的特定角度,是考 6 武汉理工大学硕士学位论文 虑问题时的一类属性,属性集合构成一个维( 如时间维、地理维等) 。维的层次: 人们观察数据细致程度不同造成的。比如时间维,可以细分为日一周一月一年 四个层次作为其单位刻度。 o l a f 是一种数据分析技术,其功能特征是: ( 1 ) 快速性 用户对o l a p 的快速反应能力有很高的要求。一般要求系统应能在5 秒内 对用户的大部分分析要求做出反应。如果终端用户在3 0 秒内没有得到系统响应 就会变得不耐烦,因而可能失去分析主线索,影响分析质量。对于大量的数据 分析要达到这个速度并不容易,因此就更需要一些技术上的支持,如专门的数 据存储格式、大量的事先运算、特别的硬件设计等1 9 】。 ( 2 ) 可分析性 o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要 事先编程,但并不意味着系统己定义好了所有的应用。用户无需编程就可以定 义新的专门计算,将其作为分析的一部分,并以用户理想的方式给出报告。 ( 3 ) 多维性 多维性是o l a p 的关键属性,是o l a p 的灵魂。系统必须能够提供对数据 分析的多维视图和分析,包括对层次维和多重层次维的完全支持。 ( 4 ) 信息性 不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时获得信息, 并且管理大容量信息。这里有许多因素需要考虑,如数据的可复制性、可利用 的磁盘空间、o l a p 产品的性能及与数据仓库的结合度等。 ( 5 ) 共享性 在大量用户间实现潜在地共享秘密数据所必需的安全性需求。 2 3 数据仓库设计和数据库设计的区别 数据仓库中的数据具有面向主题、数据集成、不易更新、随时问变化的特 点,这些特点是数据库系统没有的,因此数据仓库的设计将有别于数据库系统 的设计,其区别如表2 - 1 所示。 ( 1 ) 面向的需求不同。数据库系统是面向具体应用而设计的,在进行数掘 库系统的设计时,系统的需求已经比较明确。数据仓库系统的需求通常不明确, 武汉理工大学硕士学位论文 其项目往往需要开发人员完成一个初步的系统,然后向用户展示系统的功能, 让用户对数据仓库系统有比较清晰的认识后,用户才能提出比较准确的需求。 随着用户新需求的产生,数据仓库系统也需要不断地发展完善。 ( 2 ) 系统的设计目标不同。数据库系统的设计是为了进行o l t p 事务处理, 因而进行事务处理的并发性、安全性是系统的主要目标。而数据仓库的目标是 为企业提供一个数据一致的分析环境,进而在数据仓库的基础上建立决策支持 系统。 表2 - 1 数据仓库和数据库目标的差异 数据库数据仓库 如何同操作人员进行交互获得数据如何对数据按照主题进行组织 如何将获取的数据按照 如何保证进行数据仓库系统 o l t p 的需求合理的存放数据的一致性 如何对数据进行合理的存储 如何对数据颗粒进行合理划分 优化o l t p 性能 如何保证事务处理的安全性如何优化存储方式使得o l a p 性能优化 ( 3 ) 面向的处理类型不同。数据库系统采用的设计方式是面向操作型应用 的,通常是针对具体的应用出发来进行设计。而数据仓库系统的设计是面向分 析的,它的开发通常从最基础的主题开始,不断的发展新主题,完善已有的主 题,最终建立一个面向主题的分析数据环境。 ( 4 ) 数据源不同。操作型系统的数据来源主要是业务操作员的输入,因此 数据库系统的设计就是要描述如何通过操作人员交互获取数据、如何将获取的 数据按照o l t p 的需求合理的存放、如何使得o l t p 的性能能够更加优化、如何 保证事务处理的安全性等等。数据仓库系统的数据来源于业务系统,主要解决 如何对数据按照主题进行组织、如何保证进入数据仓库的数据的一致性、如何 对数据粒度进行合理划分、如何优化存储方式使得o l a p 的性能得到优化等问 题【。 ( 5 ) 系统设计方法不同。由于系统的目标和需要解决的问题不同,必然导 致适用的设计方法不同。数据仓库可以采用“数据驱动”的设计方法。数据驱 动就是了解原有系统已经存在的数据和已经完成的工作,同时了解企业需要的 8 武汉理工大学硕士学位论文 数据和要求,然后在以前所取得的工作成果的基础上进行系统的建设。数据驱 动的优点是可以通过了解原有数据库系统中的数据和需要建设的数据仓库主题 中数据的共性,最大程度的利用现有系统,减少系统建设的工作量。 自来水行业有大量的用水数据和历史数据,各种个性化报表多如牛毛,通 过通常的查询算法来得到各种报表和统计需要占用大量的服务器资源,如果几 个用户同时出报表的时候,将使得正常的缴费交易比平时要慢几十倍。为了避 免这种现象的出现,需采用数据仓库技术,在c p u 空闲的时间,系统将平时要 用的查询按照维度实例化,存放在数据仓库系统中,这样如何复杂的报表也不 会影响到交易效率,在实时响应和效率之间寻求一个良好的平衡点。 2 4 数据仓库系统框架 数据仓库作为一个系统,它是多种技术的综合体,它由数据源、数据准备 ( 抽取、转换和装载) 、数据存储和数据仓库工具( 联机分析处理、数据挖掘、 报表) 几部分组成1 1 1 j ,其结构如图厶1 所示。 厂 一数据获取- 数据输出呻 数据源 数据仓库的应用 f 习统计分析及数据 l 、 抽 取 挖掘神经网络 、 a 习a在线分析o l a p 清 l 数据仓库i 弓 洗 v lj 多维扩展 、 加 1 ) ; 有的系统因为开发时问比较早,存储在它里面的数据可能已经不在满足现 在实际需求,成为错误数据。例如,在老的历史数据中,存在一个计量点对应 多个有功表的情况,这是不符合实际需求的,但是,又必须要使用这些老的历 史数据,这就要求对这些存在错误的历史数据进行清洗、整理,以符合实际需 求。在某些情况下,为了保证输入数据的正确性,需要个简单的算法。在复 杂情况下,需要调用人工智能的一些子程序把输入数据清理为可接受的输出形 式。下面列出了一段代码,处理水表口径。 c a s el o w e r ( r t r i m ( c a l i b c r d ) ) w h e n 。3 t h e n 0 0 0 0 0 0 0 0 1 5 w h e n1 4 t h e n 0 0 ( ) c l o ( 0 0 15 f 武汉理工大学硕士学位论文 w h e n 1 0 t h e n 0 ( ) 0 0 【) 0 0 0 1 5 w h e n 1 3 t h e n o c l o d 0 0 0 0 1 5 w h e n 1 5 t h e n 0 o o 0 0 0 1 5 w h e n 2 0 t h e n 0 0 0 0 d c - 0 0 2 0 f w h e n 2 5 t h e n 0 ( ) 0 0 0 0 0 0 2 5 w h e n - 2 6 t h e n 0 0 0 0 0 0 0 0 2 5 t w h e n 4 0 t h e n | 0 0 c 0 0 0 0 0 4 0 1 w h e n 1 1 3 t h e nt 0 0 c 0 d 0 0 1 0 0 w h e n 2 8 6 t h e n o 【) 0 0 0 0 0 1 0 0 。 w h e n 3 2 0 t h e n 0 0 0 0 0 0 0 1 附 e l s e o ( ) 0 0 0 0 0 0 0 0 e n da sc a l i b e r i d 5 1 3 数据装载 数据装载的工作程序由两个不同的任务组成。当你结束了设计和建设数据 仓库的工作后,就必须要将数据装载到数据仓库中。最初的装载工作需要花费 很长的时间。当数据仓库开始工作后,你需要继续提取源数据的变动,将这些 数据变动按照数据仓库的要求进行转换后,存入正在工作的数据仓库中。 豳刮 划 臣吲 毒 咧 数据仓库 图5 1 数据装载 根据自来水公司业务数据的实际情况,加载周期要综合考虑业务分析需求, 对不同业务系统的数据采用不同的加载周期,如图5 - 1 所示。有些数据进行每天 日日日固。 武汉理工大学硕士学位论文 更新,有的数据每年才更新一次,但无论哪种装载周期都必须保持同一时间业 务数据的完整性。 在本课题中,数据加载时首先从中问数据文件服务器上获取数据源文件, 然后通过数据加载工具加载到服务器完成数据加载。数据源经过加载进入数据 库后,经过一系列数据转换步骤后最终完成到汇总层的数据加载。以下为一段 数据加载的代码,它将客户号从第四位开始的连续三位数字( 表示客户所在的 区域编号) 加载到a r e a 表中。 i n s e r ti n t oa r e a ( i d , o f a g e n t , n a m e , r e m a r k ) s e l e c ts u b s t r i n g ( i d ,3 ,3 ) , d 2 , , f r o mf l c u s tp _ 0 2g r o u pb ys u b s t r i n g ( i d , 3 ,3 ) ; 5 2 数据存储的实现 数据存储可以通过p o w e r b u i l d e r 8 0 中的数据管道来完成。由于企业原有数 据库信息管理系统中包含大量的历史数据,因此本设计采用数据管道来进行数 据的存储,这样做有如下好处: 1 ) 在存储加载之前对数据进行了转换和清洗,保证了原有数据录入的准确 性。 2 ) 降低了人工录入的工作量。节省了时日j ,加快了系统的开发进程。 在p o w e r b u i l d e r 8 0 中有两种使用数据管道的方法:一种是在p o w e r b u i l d e r 8 0 开发环境中用d a t ap i p e l i n e 画板实现数据的存储,另一种是在应用程序中通过定 义d a t ap i p e l i n e 对象实现数据的存储。本设计在开发系统过程中采用了在 p o w e r b u i l d e r 8 0 开发环境中用d a t ap i p e l i n e 画板实现数掘的转移。具体步骤如 下: 武汉理工大学硕士学位论文 所示。 ( 1 ) 单击n e w 按钮,打开n e w 对话框,选择d a t a b a s e 标签页,如图5 2 图5 2 新建数据管道 ( 2 ) 在d a t a b a s e 标签页中选择d a t ap i p e l i n e 图标,并单击o k 按钮。 图5 - 3 数掘源选择 武汉理i 大学硕士学位论文 ( 3 ) 在打开的n e wd a t ap i p e l i n e 对话框中选择数据源的方式并指定源数据 库和目标数据库。如图5 - 3 所示。 ( 4 ) 从源数据库中选择要转移的表和字段。如图5 - 4 所示。 图5 4 表的转移 ( 5 ) 设置该对象的属性,需要在d a t ap i p e l i n e 画板中定义的属性有: 源表:说明从哪个表中检索提取数据; 目标表:说明数据要拷贝到哪个表; 管道操作:说明对目标表的更新方式,包括g r e a t e ,r e p l a c e ,r e f r e s h ,u p d a t e ; 事物提交方式:说明事物如何提交; 错误数:说明在管道操作过程中出现多少个错误则停止管道操作;扩展属 性是否转移。 ( 6 ) 以上属性设置好后,单击e x e c u t e 按钮执行管道操作完成数据的传送。 通过数据管道能够十分方便的把原有数据库中的数据转移到新系统中,保证了 数据存储的准确性,为数据仓库系统的顺利运行奠定了坚实的基础。 5 3 数据输出的实现 自来水企业的数据仓库系统的输出,主要以综合查询、统计报表、统计图 表的形式展现。既提供数字报表展示,还提供强大的图形展示功能。从而为决 武汉理工大学硕士学位论文 策者提供直观、快捷、方便的信息支持。 5 3 1 综合查询功能的实现 当用户在进入综合查询功能之前,可以对数据进行检索查询,其界面如图 5 - 5 所示。数据检索查询界面由下拉列表框、输入框、按键组成。其中字段下拉 列表框要求能够自动列出列表数据窗口的所有字段名。操作下拉列表框要列出 常见的几种操作符号,并且用中文表示。在用户选择了逻辑条件输入框后能够 自动增加一行检索条件。在用户点确定按键以后,便能够按要求检索出所有满 足条件的记录。 图5 - 5 数据检索查询界面 数据检索查询的实现方法: ( 1 ) 利用消息( m e s s a g e ) 解决各模块之阳j 参数的传递。o p e n w i t h p a r m o 函数 打开通用查询窗口,并用用户对象中的变量传递通用查询模块需要的参数。 ( 2 ) 利用自定义用户事件初始化查询数据列信息。根据传递来的目标数据 窗口构造各数据列的基本信息。 ( 3 ) 定义用户函数设置各种属性的查询字段,通过传递参数的方式使本方 法具有通用性。 ( 4 ) 用户灵活实现各种组合条件的输入。通过校验后把组合条件转换成用 于过滤数据的字符串,对目标数据窗口中的数据进行过滤。 对于检索出来的数据,双击便可得到如图5 - 6 所示的综合查询功能界面。综 合查询功能满足了自来水公司各级主管对全公司的自来水生产量、客户用水、 客户缴费、客户欠费等全局数据的综合查询。 武汉理工大学硕士学位论文 图5 6 综合查询界面 要实现综合查询功能需要定义函数w fr e t r i e v e 0 ,其部分源程序脚本如下所 d e c i d ecm e t e m oa - i l 葛o r f o r s e l e c tm e t e r n of r o mb se n t r u s to u s ti n f o w h e r e l t r i m ( r t r i m ( a c c o u n t n o ) ) = :i s a c c o u n tu s i n gs q l c a ; i f ( u f _ _ i s e m p t y ( i s _ _ m e t e m o ) ) t h e n l sm = e l s e l sh i = i sm e t e r n o e n d i f i f ( u fi s e r e p t y ( i sc u s t i d ) ) t h e n l sc = e l s e i sc = i sc u s t i d 4 0 武汉理工大学硕士学位论文 e n d i f c h o o s ec a s ea ii n d e x c a s e l d w _ m e t e r n o s c t t r a n s o b j c c t ( s q l c a ) d w _ m e t e m o r e t r i e v e ( i sm e t e m o ) c a s e 2 查询水表基本资料 查询用户基本资料 d w _ c u s t s c t t r a n s o b j e c t ( s q l c a ) d w _ c u s t r e t r i e v e ( i se u s t i m c a s e3查询当月用水情况 i fi nw a t e n k s em o n t h = lt h e n,臌资料号 d ww a t e m s em o n t h d a t a o b j e e t = d wt m sm o n t hm e t e rr e a d i n g d w _ w a t e m s e _ m o n t h s e t t r a n s o b j e c t ( s q i e a ) d ww a t e m s e _ m o n t h r e t r i e v e ( i s _ m e t e m o ) e n d i f i f i nw a t e l - n s em o n t h = 2t h e n 按用户号 d ww a t e m s e m_month d a t a o b j e c t = d wt m sm o n t he t e r r e a d i n g b y c u s t i d d ww a t e m s e _ m o n t h s e t t r a n s o b j e c t ( s q l c a ) d ww a t e r u s e _ m o n t h r e t r i e v e ( i s _ e u s t i m e n d i f c a s e 4查询历史用水情况 d ww a t e m s e _ y e a r s e t t r a n s o b j e c t ( s q l c a ) d ww a t e m s e _ y c a r r e t r i e v e ( i s _ m e t e m o ,i s _ b e f o r e _ d a t e ) c a s e5 查询欠费情况 d w _ q f s e t t r a n s o b j e c t ( s q l c a ) d w _ q l r e t r i e v e ( 1 s - c ,) c a s e6历史销账 d w _ a d d s c t t r a n s o b j e c t ( s q l c a ) d w _ a d d r e t r i e v e ( i sc u s t i m c a s e7h 缴费历曼 d wh i sm o n e y s e t t r a n s o b j e c t ( s q l c a ) d wh i sm o n e y r e t r i e v e ( i s _ c ,。) c a s e8 f 水轰异动 d wm o d i f y s e t t r a n s o b j e e t ( s q l c a ) d wm o d i f y r e t r i e v e ( i s m e t e m o ) e n dc h o o s e r e t u m 4 1 武汉理工大学硕士学位论文 5 3 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论