(电气工程专业论文)基于数据仓库技术的智能建筑信息集成应用研究.pdf_第1页
(电气工程专业论文)基于数据仓库技术的智能建筑信息集成应用研究.pdf_第2页
(电气工程专业论文)基于数据仓库技术的智能建筑信息集成应用研究.pdf_第3页
(电气工程专业论文)基于数据仓库技术的智能建筑信息集成应用研究.pdf_第4页
(电气工程专业论文)基于数据仓库技术的智能建筑信息集成应用研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(电气工程专业论文)基于数据仓库技术的智能建筑信息集成应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆大学硕士学位论文 中文摘要 摘要 智能建筑是建筑、计算机以及信息技术有机结合的产物。智能建筑的必要条 件是建筑智能化,建筑智能化系统设计的核心是系统集成。智能建筑系统集成的 主要目标就是实现信息集成。由于各智能化子系统数据库是异构的、分散的,并 出现了大量的信息孤岛,而数据仓库可以从异构的数据库系统中使用统一的全局 模式来描述数据,并将这些数据集成在数据仓库中,用户可通过数据仓库提供的 统一的数据接口进行访问、统计分析等。因此,数据仓库技术是解决智能建筑信 息集成的有效方案。论文对智能建筑系统集成相关技术进行了深入的分析,采用 子系统平等集成方式构建了基于数据仓库技术的智能建筑集成管理系统,实现了 各子系统信息的集成。 论文阐述了作者构建智能建筑集成管理系统的设计思想、信息集成的方案和 实现手段。主要内容包括:对当前智能建筑系统集成方式和集成技术进行了深 入的分析,详细阐述了基于数据仓库技术的智能建筑系统集成的现实意义;详 细介绍了数据仓库的基本概念,对相关技术进行了深入的研究,为数据仓库的设 计和实现智能建筑的信息集成奠定了理论基础;在分析系统集成特点的基础上, 构建了某医院综合楼基于数据仓库技术的智能建筑集成管理系统及其软件架构, 该系统采用子系统平等方式集成;以某医院综合楼智能建筑集成的信息为例, 制定了信息集成规则,设计了信息集成方案,对中央数据库( 数据仓库) 进行了 设计,包括主题分析、逻辑模型设计、物理模型设计等;对需要集成的信息进 行抽取、转换后存储于中央数据库中,在数据的更新过程中,对实时数据采用触 发器方法实现更新,对一般数据采用复制、链接服务器、创建d t s 数据包等方式 定时更新;采用m i c r o s o f is q ls e r v e r 2 0 0 0 创建中央数据库,架构了o l a p 多维 数据集,实现了数据的多维分析和查询,并采用j s p 技术实现了基于w e b 的数据 展现。 关键词:智能建筑,数据仓库,智能建筑集成管理系统( i b m s ) ,信息集成, 联机分析处理( 0 u 心) 重庆大学硕士学位论文英文摘要 a b s t r a c t t h ei n t e l l i g e n tb u i l d i n gi st h er , r o , t u e t i o nc o m b i n e do fa r c h i t e c t u r e ,c o m p u t e r s c i e n c ea n di n f o r m a t i o nt e c h n o l o g y 1 1 1 en e c e s s a r yc o n d i t i o no ft h a ti st om a k et h e b u i l d i n gi n t e l l e c t u a l i z a t i o n , w h i l et h ec 哦o fd e s i g n i n ga l li n t e l l e c t u a l i z e ds y s t e mf o r t h eb u i l d i n gi s s y s t e m a t i ci n t e g r a t i o n t h em a j o rp u r p o s eo fi n t e l l i g e n tb u i l d i n g s y s t e m a t i ci n t e g r a t i o ni st or e a l i z et h ei n t e g r a t i o no fi n f o r m a t i o n n 地d a t ab a s eo fe a c h i n t e l l e c t u a l i z e ds u b s y s t e mi sh e t e r o g e n e o u sa n dd i s p e r s e d , a n dt h e r ea l eal o to f i s o l a t e a i n f o r m a t i o ni s l a n d s d a t aw a r e h o u s ec a nu s eau n i f o r mg l o b a lm o d et od e s c r i b et h ed a t a i nah e t e r o g e n e o u sd a t ab a s ea n di n t e g r a t et h e s ed a t ai n t ot h ed a t aw a r c h o t t s c 1 1 1 eu s e 稿 ni m p l e m e n ta c c e s s i n ga n ds t a t i s t i c , a l l ya n a l y z i n gv i at h eu n i f o r md a t ai n t e r f a c e s o t h et e c h n o l o g yo f d a t aw a r e h o u s eb e c o m e st h ee f f e c t i v es c h e m et os o l v et h ep r o b l e mo f i n f o r m a t i o ni n t e g r a t i o no ft h ei n t e l l i g e n tb u i l d i n g n et h e s i s d e e p l ya n a l y z e s t h e r e l e v a n tt e c h n o l o g i e so fi n t e l l i g e n tb u i l d i n gs y s t e m a t i ci n t e g r a t i o n , c o n s l l u c t st h e i n t e g r a t e di n t e l l i g e n tb u i l d i n gm a n a g e m e n ts y s t e mw h i c hi s b a s e do nt h ed a t a w a r e h o u s et e c h n o l o g ya n dw h o s e i n t e 掣 a t i o nm e , s n si se q u a ls u b s y s t e mi n t e g r a t i o n ,a n d r e a l i z e st h ei n f o r m a t i o ni n t e g r a t i o no f e a c hs u b s y s t e m 1 1 1 et h e s i se x p a t i a t e so nt h ed e s i g ni d e ao fc o n s t r u c t i n ga l li n t e g r a t e db u i l d i n g m a n a g e m e n ts y s t e m , t h es c h e m ea n di m p l e m e n to fi n f o r m a t i o ni n t e g r a t i o n t h e r e s e a r c hc o n t e n ti n c l u d e s :mw a yo fc u r r e n ti n t e l l i g e n tb u i l d i n gs y s t e m si n t e g r a t e d a n dt h ei n t e g r a t i o nt e e l m o l o g yi s , l e e v l y 翻a a l y z e d , a n c lt h er e a l i s t i cl n e a l l i n go ft h e i n t e l l i g e n tb u i l d i n gs y s t e m a t i ci n t e g r a t i o nb a s e do i lt h ed a t aw a r e h o u s et e c h n o l o g yi s d e m o n s t r a t e d ;t h ep r i m a r yc o n c e p t sa n dr e l e v a n tt e c h n o l o g i e so fd a t aw a r e h o u s e 撇 e x p o u n d e d ,a n dad e e pu n d e r s t a n d i n gi n t ot h ed a t aw a r e h o u s et e c h n o l o g yi so b t a i n e x l , w h i c hb u i l d sf i r mb a s i s f o rt h ed e s i g no fd a t aw a r e h o u s ea n dt h ei m p l e m e n to f i n f o r m a t i o ni n t e g r a t i o ni nt h ei m e l l i g e n tb u i l d i n g ;a i d e rd i s c u s s i n gt h ec h a r a c t e r i s t i c s o fs y s t e m a t i ci n t e g r a t i o n , t h ei n t e g r a t e di n t e l f i g e n tb u i l d i n gm a n a g e m e n ts y s t e mo fa c e r t a i nh o s p i t a lc o m p r e h e n s i v eb u i k t i n ga n di t ss o t h a r ef r a m e w o r k 眦c , o n s l i u c t e d n 坞s y s t e mi sb a s e do nt h ed a t aw a r e h o u s et e c h n o l o g ya n di t s i n t e g r a t i o nm e a n si s e q u a ls u b s y s t e mi n t e g r a t i o n ;廷) t h ed a t af o rc o m p r e h e n s i v eb u i l d i n gi n f o r m a t i o n i n t e g r a t i o ni s 扣m i 倒i nd e t a i l t h er u l eo fi n f o r m a t i o ni n t e g r a t i o ni se s t a b l i s h e da n d t h es c h e m eo fi n f o r m a t i o ni n t e g r a t i o ni sd e s i g n e d 1 1 艟e e n l r a ld a t ab a s ei sd e s i g n e d , i n c l u d i n gc o n c e p t u a ls u b j e aa n a l y s i s ,l o g i cm o d e ld e s i g na n dp h y s i c a lm o d e ld e s i g n ; 重庆大学硕士学位论文 英文摘要 t h ei n f o r m a t i o nw h i c hn e e d si m e g r a t i n gi se x t r a c t e da n dt r a n s f o r m e d , a n dt h e ns a v e d i nt h ec e n t r a ld a t ab a s e ( t h ed a t aw a r e h o u s e ) i nt h eu p d a t i n gp r o c e s so ft h ed a t ai nt h e d a t aw a r e h o u s e , t h er e a l - t i m ed a t ai su p d a t e db ym e a n so ft h et r i g g e r , a n dt h eg e n e r a l d a t ab ym e a n so fc o p y i n g ,l i n k i n gt h es e l v e f , c r e a 矗n gd t sp a c k a g ee t c u s i n g m i c r o s o f ts q ls e r v e r 2 0 0 0 ,t h ec e n u - a ld a t aw a r e h o u s ei sc r e a t e da n do l a p m u l t i - d i m e n s i o n a ld a t as e ti sc o n s t r u c t e d m u l t i - d i m e n s i o n a la n a l y s i sa n di n q u i r yo f d a t ai sr e a l i z e d , a n dd a t ae x h i b i t i o nb a s e do nw e bi si m p l e m e n t e dw i t hj s p p r o g r a m m i n g k e y w o r d s :i n t e l l i g e n tb u i l d i n g , d a t aw a r e h o u s e ,i n t e g r a t e db u i l d i n gm a n a g e m e n t s y s t e m ( i b m s ) , i n f o r m a t i o n i n t e g r a t i o n , o n - l i n e a n a l y t i c a l p r o c e s s i n g ( o l a p ) 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取 得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写过的研究成果,也不包含为获得重麽太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本 研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:争t 列薛 签字日期: 一) 年产月;一日 学位论文版权使用授权书 本学位论文作者完全了解重鏖太堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许 论文被查阅和借阅。本人授权重废太堂可以将学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段 保存、汇编学位论文。 保密() ,在年解密后适用本授权书。 本学位论文属于 不保密( ) 。 ( 请只在上述一个括号内打“”) 学位论文作者签名:h f 副存 导师签名:7 布谚够 签字日期:”7 年产月3 ”日签字日期:加刁年,月;臼日 重庆大学硕士学位论文1 绪论 1 绪论 1 1 论文研究目的和意义 智能建筑的发展始于2 0 世纪8 0 年代,其概念由美国人提出。由于计算机技 术、现代通信技术、自动控制技术和c r t 图形显示技术的迅猛发展,以及多学科 之间相互渗透与融合的日益增强,智能建筑,无论在工程建设领域还是在其相应 的学科学术理论研究方面都进入了一个难以料想的飞速发展时期。智能建筑的具 体内容和相应技术也在不断的发展,规模在不断扩大。特别是进入2 1 世纪后,随 着建筑智能化程度的不断提高,各智能化子系统( 以下简称子系统) 的设备在数量 和规模上都有了很大的增长。智能建筑中的各子系统,如楼宇自动化系统( b a s , b u i l d i n ga u t o m a t i o ns y s t e m ) 、通信自动化系统( c a s ,c o m m u n i c a t i o na u t o m a t i o n s y s t e m ) 和办公自动化系统( o a s ,o f f i c ea u t o m a t i o ns y a e m ) 等,已经具有一定程 度的智能化水平,能够满足某一应用领域的要求。但各子系统自成一体,成为制 约智能建筑发展的一大瓶颈。 智能建筑发展初期,子系统较少,且各子系统规模小、控制对象少而简单, 各子系统间彼此相对独立,人工完成信息的传递、设备的维护和管理。如今,在 建筑中应用的子系统繁多,产品供应商也各不相同,如何把各个子系统集成在一 起,简化管理,提高运行效率,节约能源,增强住户的舒适性是目前智能建筑研 究的重要课题,随着社会的发展,建筑智能化系统集成成了研究的热点。 建筑智能化系统集成包括三个层次的含义:功能集成,技术集成,信息集成。 系统集成实现的关键在于解决各关联子系统之间的互联和互操作性问题,它是一 个面向多厂商、多协议和不同应用的体系结构。智能建筑系统集成就是将智能建 筑中分离的设备、功能、信息通过计算机网络集成为一个相互关联的、统一协调 的系统,实现信息、资源的共享和任务的重组,创造一个安全、舒适、高效、便 利的工作环境和生活环境,以形成一个综合化的管理系统,即智能建筑集成管理 系统( i b m s ,i n t e g r a t e db u i l d i n gm a n a g e m e n ts y s t e m ) p o 在1 9 9 8 年北京智能建 筑技术研讨会上,明确提出了智能建筑系统集成的主要目标是信息集成。 系统集成是当前企业信息系统建设的重要方式。由于企业级都有自己的监控 网( i i i 丘锄e t ) ,如何有效利用原有系统资源,使企业内部的监控网( h 丘蛐e t ) 和 内部网( h t n m e t ) 统一成一个有机体且能兼容早期的事务处理系统已成为建筑智 能化领域中一个亟待解决的问题。因为数据仓库可以从各子系统中析取数据,使 用统一的模式描述数据,并将这些数据按分析主题存储于数据仓库中,用户可以 通过数据仓库提供的统一的数据接口进行访问、统计分析等,最终支持决策者的 重庆大学硕士学位论文i 绪论 决策过程。所以基于数据仓库建构i b m s 有利于原有建筑的智能化改造。 另外随着社会的发展,各子系统规模不断扩大,还有新子系统建立,加上智 能建筑用户的需求也在不断地提高,使得共享信息的内容和格式趋于多样化,共 享信息的来源也更加广泛。因此,被广泛用来存储数据的传统数据库很难满足要 求,这就促使了基于数据仓库建构i b m s 。 因此,为了将相互之间存在一定关联的各智能化子系统通过计算机网络集成 为一个相互关联的、统一协调的系统,实现信息资源的共享和管理、决策的目的, 创造一个安全、舒适、高效、便利、节能的工作环境和生活环境,我们采用数据 仓库技术的集成方案来实现建筑智能化系统集成。 1 2 国内外研究现状 1 2 1 集成方式发展现状 由于智能建筑中的各建筑智能化子系统是由不同厂家生产制造的,很难直接 互联、互操作,实现资源共享和任务的重组。因此,需要采用系统集成方式把这 些分离的设备、功能和信息集成为一个相互关联的、统一协调的系统。 常用的集成方式【3 j 有以下几种: 以接点方式进行集成 这种方式是早期系统集成的手段,现在应用较少。该方式是通过增加一个设 备子系统的输入输出接点或传感器,接入另一个设备子系统的输入输出接点进 行集成。 以串行通讯方式进行集成 由于系统集成的优点,吸引很多设备制造商将产品加以改进,使之具备集成 的功能。常见的方式是将现场控制器加以改造,增加串行通讯接口,使之可以与 其它子系统进行通讯。子系统之间的信息交换通过通讯协议的转换实现。 以建筑设备自动化系统( b a s ) 为平台进行集成 以b a s 为平台的集成方式相对于前两种集成方式来说是一个较大进步,系统 集成程度和功能明显得到提高。然而,以b a s 为平台进行集成的方式仍然存在明 显的缺点:1 ) b a s 是一个相对封闭的系统,缺少向上的开放能力:2 ) b a s 与其它 予系统的接口设备和接口软件局限于特定产品、特定型号,因此系统集成能力有 限,且维护、升级成本高;3 ) 一旦b a s 发生故障,失去正常工作能力,就不能管 理和监控其仍正常工作的其它子系统。因此,以b a s 为平台的系统集成方式不是 真正意义上的智能建筑系统集成。 基于子系统平等方式进行集成 基于子系统平等方式进行集成是一种较先进的解决方案。这种集成方式通过 2 重庆大学硕士学位论文1 绪论 建立信息管理网络,将各子系统视为低层网络( 下位机) ,即现场控制网络,并 都以平等方式集成。在信息管理网络,各子系统的实时数据通过开放的工业标准 接口( j t q o d b c 等) 转换成统一的格式存储在中央数据库中,信息管理网络通过 i b m s 系统调度程序对各子系统实现统一管理、监控及信息交换。基于子系统平等 方式进行系统集成模式时采用符合工业标准的软、硬件技术,接口标准、规范, 开放的系统结构易于扩展。此外,由于采用基于子系统平等方式进行系统集成, 系统通用性强、应用范围广,可适用于设备制造商各种不同子系统的集成,有利 于降低系统集成成本,加快项目进度。 1 2 2 集成技术分析 智能建筑系统集成主要是信息集成,即是各子系统异构数据库的集成,当前 的集成技术有: 加入转换接口 通常采用加入网关或网络控制器等专门的硬件设备1 4 1 ,实现相互集成。转换接 口集成方式功能较强,但实时性、扩展性、互操作性较差。当底层设备出现数量、 种类的变动,对于网关来说就相当于重构系统,这样升级、改变的成本相当高。 当现场设备有大量信息上传或远程监控操作频繁时,转换接口都将成为实时通信 的瓶颈。 动态数据交换( d d e ) 技术 当控制网络和信息网络之间具有中间系统或共享存储器工作站时,可以采用 d d e 方式1 5 l 实现= 者的集成,其实质是各应用程序通过共享内存来交换信息,中 间系统中的信息处理机既是控制网络的工作站,也是信息网络的工作站。d d e 方 式具有较强的实时性,传输速度较快,但是需要的内存较大,且传递信息是“静态” 的,当涉及到复杂的协议转换时,d d e 方式的软件费用较高。因此这种方式适合 配置简单的小系统,不适用于智能建筑的信息集成。 o p c 技术 用于过程控制的o l e ,是提供信息管理域应用软件与实时域层进行数据传输 的方法。o p c 提供应用软件访问过程控制设备数据的一致性方法 6 1 ,解决应用软 件与过程控制设备之间通信的标准问题。但是,此技术特别是在微机执行多任务 条件下如何进一步提高数据交换的兼容性、实时性与可靠性方面,仍然存在某些 不足、未知或知之甚少的领域。 数据仓库技术 系统集成就是要实现信息、资源的充分共享,并实现集中和便利的管理。由 于智能建筑各个子系统形成了多个异构的、分散的数据库系统,并出现了大量的信 息孤岛。数据仓库可以从异构的数据库系统中使用统一的全局模式来描述数据, 3 重庆大学硕士学位论文i 绪论 并将这些数据集成在数据仓库中,用户可以通过数据仓库提供的统一的数据接口 进行访问、统计分析等;在共享信息的同时,从反映各子系统状态的“海量”历 史数据中挖掘出新知识以满足管理活动的,如规划、协调、指挥、决策的需要。 基于数据仓库技术的智能建筑信息集成不仅仅是实现信息的跨系统访问,它实现 了智能建筑的智能化,能为管理者、信息分析者提供更有针对性的、更具战略性 的决策信息。 采用统一的协议标准 这种方式能够实现无缝集成,是控制网络和信息网络实现集成的最终解决方 案 s l 。当前多种总线标准并存,协议各异,短期内很难解决这一问题。 1 2 3 数据仓库技术研究现状 数据仓库这个说法最早出现于上世纪8 0 年代的美国,在出现之初受到了许多 数据库理论家们的质疑,认为数据仓库根本就不是什么新技术,甚至有数据库专 家认为数据仓库将是信息技术的倒退。但随着数据仓库技术的发展,从理论和实 践上否定了这样的质疑。在1 9 9 1 年,美国w m i 锄h m o n 博士出版了与数据仓库有 关的第一本书( b u i l d i n g t h ed a t a w a r e h o u s e 第一次给出了数据仓库的具体定义, 但当时并没有引起研究者们的注意。不过随着网络等技术的发展推动企业向全球 化和国际化方向发展,出现了分散平台的d b s 的数据与需要全局性集成数据的矛 盾。由于这个因素的影响,导致了一些大型的企业生产效益的下降、商业的销售 额下滑、银行的预测和分析人员因为信息滞后的原因而作出的决策实效等等。 为了解决上述矛盾,人们在实践中开始尝试和研究数据仓库系统有关概念和 相关技术。较早研究和使用数据仓库的公司是哈里斯公司,为了进一步提高工厂 的生产率和充分挖掘潜力,该公司研究和开发了一个集成的产量管理系统 ( i n t e g r a t e dy i e l dm a n a g e m e n t ,i y m ) ,i y m 由数据仓库和报警两部分组成,用这 个系统可以查处哪些因素影响产量,哪些因素对生产有利。随着数据仓库技术的 不断发展i b m 、o r a c l e 、s y b a s e 、c a 、n c r 、i n f o r m i x 、m i c r o s o f t 和s a s 等有实 力的公司相继通过收购或研发的途径推出了自己的数据仓库解决方案1 7 1 。 数据仓库技术到2 0 世纪9 0 年代中期在发达国家的许多行业中得到了应用。 据美国国际数据公司( i d c ) 调查,目前在美国超过4 0 的公司都建立了自己的数 据仓库,在经济发达国家大型企业都建立了自己的数据仓库,数据仓库的应用已 经遍及金融、保险、电信、税务、商业等行业和部门,使用数据仓库技术的投资 回报率( r o d 平均超过4 0 0 ,平均回报时间为2 3 年嗍。 国外许多实例已经证实数据仓库是解决大型( 多平台) d b s 信息集成、处理 与预测的最好方案1 9 ,所以国内很多大学和研究机构已经从事数据仓库及其相关技 术的研究,目前,还处于起步阶段,没有理论框架或技术手段等方面的创新和超 4 重庆大学硕士学位论文1 绪论 越。就实际应用而言,国内数据仓库技术的应用主要集中在银行、证券、电信、 保险、电力、商业等大中型企业碍1 。文献 1 0 1 探讨了数据仓库技术在智能建筑领域 应用的必要性。数据仓库技术能够实现各分散子系统的高度集成,实现建筑真正 的智能化,但实际应用尚不多见,本文将研究它在智能建筑领域的应用 1 3 课题来源和论文研究所完成的主要工作 论文的研究工作以某医院综合楼的系统集成为例展开的。该综合楼是集病房、 医技、门诊为一体的多功能、现代化、智能化大楼,按照甲级智能化建筑标准, 对建筑物内的相关设备、办公自动化系统、通讯自动化系统等实施系统集成。 为了实现各关联子系统之间信息、资源的共享和任务的重组,创造一个安全、 舒适、高效、便利的工作环境和生活环境,以形成一个综合化的管理系统。我们 提出了基于数据仓库技术构建智能建筑集成管理系统( m m s ) 。这无论在学术上 还是工程应用方面都有着较大的价值和积极的意义。 本文主要完成以下几方面的工作: ( 1 ) 基于信息集成是智能建筑系统集成的核心这一观点,对当前的智能建筑系 统集成方式和集成技术进行了深入的分析,论述了实现基于数据仓库技术的智能 建筑系统集成的可行性和意义。 ( 2 ) 根据系统集成的特点,以某医院综合楼为例构建了基于数据仓库技术的智 能建筑集成管理系统及其软件架构,该系统采用子系统平等方式集成。 ( 3 ) 对某医院综合楼智能建筑集成信息作了详细分析,制定了信息集成的规 则,设计了信息集成方案,对中央数据库( 数据仓库) 进行了设计,包括主题分 析、逻辑模型设计、物理模型设计等。 ( 4 ) 对需要集成的信息进行抽取、转换后存储于中央数据库中,在数据的更新 过程中,对实时数据采用触发器方法实现更新,对一般数据采用复制、链接服务 器、创建d t s 数据包等方式定时更新。 ( 5 ) 采用m i c r o s o f ts q ls e r w r 2 0 0 0 创建中央数据库,架构了o l a p 多维数据 集,实现了数据的多维分析和查询,并采用j s p 技术实现了基于w e b 的数据展现。 5 重庆大学硕士学位论文2 数据仓库技术 2 数据仓库技术 2 1 数据仓库概述 2 1 1 数据仓库的概念 数据仓库的创始人w h i n m o n 曾对数据仓库作了这样的描述【1 1 j :“数据仓库 是9 0 年代信息技术构架的新焦点,它提供集成化的和历史化的数据;它集成种类 不同的应用系统;数据仓库从事物发展和历史的角度来组织和存储数据,以供信 息化和分析处理之用。”由于 d m o n 本人在数据仓库发展中的作用,他的上述描 述在技术性的文献中不断被引用。i n m o n 对数据仓库的定义【1 1 】是:数据仓库是面 向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决 策制定过程。 数据仓库具有如下四个基本特征【2 】0 1 1 1 2 1 : ( 1 ) 面向主题的 主题是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类 并进行分析利用的抽象;在逻辑意义上它是对应企业中某一宏观分析领域所涉及 的分析对象。主题可以使数据组织独立于数据的处理逻辑,面向主题的数据组织 方式是根据分析要求将数据组织成一个完备的分析领域,即主题域【1 3 1 。这样组织 的数据更有利于分析时的提取。 ( 2 ) 集成的 这个特性是数据仓库的所有特性中最重要的。数据仓库的数据是从分散、异 构的数据库数据中经过抽取、转换、包装统一起来的。另一方面,在数据仓库中 需要将细节数据按应用需求合并为综合数据以适应快速大规模的查询需要,这一 过程也称为集成。 ( 3 ) 稳定的 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查 询,一般情况下并不进行修改操作,一旦某个数据进入数据仓库后,一般情况下 将被长期保留,也就是数据仓库中一般有大量的查询操作,而很少有数据修改, 只需加载、刷新。这样,数据仓库中的数据就反映了系统的某一历史时刻的数据 操作状态。因此,数据仓库中的数据具有相对稳定性,是阶段性更新的。 ( 4 ) 随时间不断变化的 数据仓库的数据随时间变化不断增加新的数据内容,并删去旧的数据内容: 数据仓库中含有大量的与时间有关的综合数据,因此时问是数据仓库数据的一个 基本属生。 6 重庆大学硕士学位论文 2 数据仓库技术 数据仓库不同于传统的数据库( 事务数据库) 。在很多方面,两者有着根本的 区别: ( 1 ) 内容不同:事务数据库存放的内容主要是事务处理数据,而数据仓库存放 的内容是决策支持信息。 ( 2 ) 规模不同:事务数据库的目标是保持较小规模,数据仓库却希望变得很大, 以便能包含大量的业务历史数据1 1 4 。传统事务处理每条事务运行的过程中可能只 涉及整个数据集合中的少数数据。而数据仓库系统每次决策处理所涉及的数据量 往往是数万甚至上百万的记录。 ( 3 ) 性能要求不同:传统的事务处理运行在一个固定的基础之上,强调对事务 的响应时间。通常只需数秒钟时间来完成一条事务的处理。展示一个可预测的访 问模式。与此相反,数据仓库中的分析处理通常会花费大量时间,在数据仓库中 系统的响应时间并不是最重要的。它展示了一个不可预测的访问模式。 ( 4 ) 应用领域不同:传统事务处理系统通常是前台系统。而数据仓库系统通常 是企业级的决策系统,面向企业的中高层决策者,对于大多数企业中的操作人员 是不可见的。 ( 5 ) 工具不同:事务数据库是典型结构化的,它仅能提供少数方法来输入或访 问所管理的数据。数据仓库是用户工具的载体,不同的工具可用于支持不同类型 的数据。这些工具的特点是能将从数据仓库中获得的数据转换表达成商业智能。 2 1 2 数据仓库的体系结构 数据仓库系统一般是由数据获取、数据仓库管理和查询分析工具三大部分组 成的。在数据仓库体系中,数据的流程从后台处理开始,经过中间的存储管理, 以前台的用户访问工具结束,其他如数据仓库管理工具、安全系统、元数据等则 贯穿整个流程,如图2 1 所示。 | 习| 3 i 业务系统j l 元数据l l 墼塑璧j 、。, 二)f c l i 外部数i叫簇h 怨h 琴卜 l 当前数据l l 塑壁j l 、 l 文档资料l i 3 l 历史数据l l 一 l 、一j 源数据库 数据仓库 图2 1 数据仓库的体系结构 f i g 2 1t h ea r c h i t e c t u r eo f d a t aw a r e h o u s e 7 重庆大学硕士学位论文 2 数据仓库技术 在数据仓库体系结构中,从源数据库获取数据,经过数据抽取、清洗、转换 和集成后装载到数据仓库中;中问的数据存储和管理部分,利用d b m s 的功能, 负责数据仓库的管理,包括数据存储组织、数据维护、数据分发等;查询分析工 具部分,面向决策用户,通过查询检索、多维分析和数据挖掘等工具实现提取信 息、分析数据和挖掘数据,以统一的、集成的和丰富的信息来支持决策。 2 2 元数据 数据仓库环境中一个重要的方面就是元数据【嘲。所谓元数据就是关于数据的 数据,元数据描述了数据仓库的数据和环境,并使得用户能够方便地使用数据仓 库中的数据进行各种分析,辅助决策。元数据之所以重要是由于与数据仓库相关 的开发生命周期是完全不同的,数据仓库是在一种启发式的、反复的开发生命周 期上运作的。为了使系统运行更加有效,数据仓库的用户应该能够对准确和实时 的元数据进行访问。没有一个好的元数据来运作的话,数据仓库应用人员的工作 将会非常困难。元数据已经渗透到数据仓库的各种活动中,数据源的性质由所获 取的定义来刻画,增加时间戳就需要有与元数据相关的时间信息,元数据还要为 数据仓库的数据操作提供线索。它的内容比传统的数据库中的数据字典更丰富, 更复杂。 典型数据仓库系统中的元数据【1 6 】包括: ( 1 ) 数据仓库的源数据( 记录系统) :包括现有的操作型数据、历史数据以及外 部数据; ( 2 ) 从数据源到数据仓库的映射:包括源数据及其内容,数据抽取、转换和重 载( e t l ) 规则和安全性等; ( 3 ) 数据模型信息:如仓库中的表名、关键字、属性、仓库模式、视图、维等; ( 4 ) 操作元数据:如抽取历史、访问模式、仓库使用统计和审计跟踪等; ( 5 ) 汇总用的算法:包括度量和维定义算法,数据粒度、聚集、汇总、预定义 的查询和报告。 2 3 数据仓库的数据组织 数据仓库的数据组织结构【2 】【1 7 】如图2 2 所示,由图可知在数据仓库中数据存在 着不同的细节级:早期细节级、当前细节级、轻度综合级、高度综合级。数据是 由操作型环境导入数据仓库的。相当数量的数据转换通常发生在由操作型级别向 数据仓库级别传输过程中。 源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综 合从而进入轻度综合级,然后进入高度综合级;一旦数据过期,就由当前细节级 3 重庆大学硕士学位论文2 数据仓库技术 图2 2 数据仓库的数据组织结构 f j g 2 2d a t ao r g a n i z a t i o ns t r u c t u r eo f d a t aw a r e h o u s e 级 进入早期细节级。从中可以看出,数据仓库中存在着不同的综合级别,我们一般 称之为“粒度”。粒度越高,表示细化程度越低,综合程度越高【2 】【瑚。级别的划分 是根据粒度进行的。在数据仓库中,同时存在多重粒度是必不可少的。 在数据仓库中有多种数据组织形式,常见的数据组织形式【1 9 】有: ( 1 ) 简单堆积文件:将每日从数据库中提取、加工后的数据逐天积累存储于数 据仓库中; ( 2 ) 轮转综合文件:数据存储单位分日、周、月、年等几个级别,分别按存储 单位进行聚集综合; ( 3 ) 简化直接文件:按一定时间对数据库进行采样所得数据进行存储: ( 4 ) 连续文件:比较两个连续的简化直接文件而生成的新文件。 2 4 数据仓库的数据模型 数据模型是对现实世界进行抽象的工具。根据数据模型的抽象程度不同,数 据仓库的数据模型可分为三级,即概念模型、逻辑模型和物理模型刚f 2 l 】 概念模型是主观与客观之间的桥梁,它是用于我们为一定的目标设计系统、 收集信息而服务的一个概念性的工具。具体到计算机系统来说,概念模型是客观 世界到机器世界的一个中间层次。人们首先将现实世界抽象为信息世界,然后将 信息世界转化为机器世界,信息世界中的这一信息结构,即是我们所说的概念模 型。在数据仓库中常用多维数据模型阎圆刚瞄1 来表示主题与主题之间的联系。 概念模型设计也就是通常所说的主题分析,在与用户交流的过程中,确定数 据仓库所需要访问的信息,这些信息包括当前、将来以及与历史相关的数据。在 9 重庆大学硕士学位论文 2 数据仓库技术 需求分析阶段确定操作型数据、数据源以及一些附加数据,设计容易理解的数据 模型,有效地完成查询和数据间的映射。 数据仓库系统的逻辑模型描述了数据仓库中主题的逻辑实现,同样数据仓库 的逻辑模型可用关系模型来表示,它描述了每个主题所对应表的关系模式的定义。 常用的数据仓库逻辑建模有星型模式( s t a r - - s c h e m a ) ,星型模式是一种多维的 数据关系,它由一个事实表( f a c t t a b l e ) 和一组维表( d i m e n s i o n t a b l e ) 组成。每个维 表都有一个维作为主键,所有这些维则组合成事实表的主键,即事实表主键的每 个元素都是维表的外键。事实表的非主属性称为事实,它们一般都是数值或其他 可以进行计算的数据。星型模式的结构如图2 3 a 所示。 在数据仓库的逻辑模型中除星型模式外,还有多表连接的标准结构模式 ( n o r m a ls c h e m a ) ,聚合表的结构模式( a g g r e g a t e dt a b l es c h e m a ) ,雪片模式( s n o w r a k es c h e m a ) 以及多星型模式( m u l t i p l es t a r ss c h e m a ) 。各种模式的结构分别如图 2 1 3 b e 所示。 d 、s n o wf l a k es c h e m a e 、 圈2 3 数据仓库的数据模式 f i g 2 3d a t as c h e m ao f d a t aw a r e h o u s e 数据仓库的逻辑模型最终将转化为数据库的物理模型。物理模型设计的任务 就是将逻辑模型转变为实际的数据库存储。物理模型设计包括下列内容:各种实 体表的具体化、确定表的数据结构类型、确定数据库的索引策略、进行数据仓库 数据量的估计等。 2 5 数据抽取、转换和装载 数据仓库中的数据不是简单的传统数据库中的数据堆积,也不是简单地选择 一个工具下载数据的过程,它是一个复杂的容纳数据集成的系统工程。虽然数据 1 0 一 - i i - 重庆大学硕士学位论文2 数据仓库技术 仓库不同于传统的数据库,但是其数据仍然由传统数据库中的数据组成,因此研 究如何从现有数据库中有效地将数据引导至数据仓库的方法和策略就显得非常必 要 2 6 1 1 2 7 1 。 2 5 1 数据抽取 数据抽取是指用手动、半自动或自动的方法从相关信息源中抽取有关的数据 并集成到数据仓库中。数据抽取在数据仓库中起着重要的作用。为了有效控制数 据仓库的规模,数据仓库只装载对分析处理有用的数据,在完成数据初始装载后, 数据抽取只关心与数据仓库应用有关的数据的变化,其它数据则不予考虑田】。 2 5 2 数据转换 数据仓库实现过程中,数据变换是不可缺少的。因此,我们有必要讨论一下 数据的变换过程中遇到的问题及实现方法。当数据从业务系统或其他数据源【2 9 】取 出后,应该经过变换或“清洗”,才能将它加载到数据仓库中。数据变换目的有 两个:改进数据仓库中数据的质量和提高数据的可用性。数据变换包括简单变换、 清洁、集成和聚集等。需要注意的是在多数数据仓库实现中,要求进行所有类型 的数据变换,因此不要忽略数据变换的完整性控制。 2 5 3 数据装载 数据仓库结构信息的开发可以使数据仓库成为具有无限价值的、可使用的无 形商业资产,从而使决策者从中提取指导性的数据模式和信息,并做出相应的决 策。这些操作都与数据仓库中的数据密切相关,同时数据仓库中大量的数据来源 于传统数据库,相近的事件和相关的数据总是需要周期性地加入到仓库平台中从 而丰富和反映当前事件的变化,因此仓库数据的构成与具体加载策略密切相关。 一般来说具体需要考虑以下5 种不同类别的数据: ( 1 ) 历史事件;历史数据是数据仓库的核心,它来源于传统数据库,通常构成 最原始的数据。 ( 2 ) 历史事件引用的主实体:离开了事件引用主实体数据的支持,数据仓库将 变得毫无用处。正如没有相关客户和产品实体数据的支撑,就无法对发票数据进 行分析,也就无法从这些主实体中派生出有意义的查询结果一样。只有明确指定 某月份、某个区域、某个产品时,发票上的销售金额才一有实际意义。 ( 3 ) 元数据:有关数据的数据就是元数据,元数据包含了描述数据仓库的所有 信息特征。 ( 4 ) 外部数据:许多数据仓库利用外部服务的数据,这些数据通常包含一些层 次上的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论