




已阅读5页,还剩85页未读, 继续免费阅读
(电机与电器专业论文)基于数据仓库管理的虚拟仪器技术.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华南理工大学工学硕士学位论文 abs t ract i n t h i s p a p e r , a t e c h n o l o g y c o n c e p t i o n o f t h e v i r t u a l i n s t r u m e n t s y s t e m m a n a g e d b y d a t a wa r e h o u s e i s p r e s e n t e d . t h e t e c h n o l o g y o f d a t a w a r e h o u s e i s p r e s e n t e d i s a p p l i e d t o t h e v i r t u a l i n s t r u m e n t f i e l d , a n d t a k e s t h e p l a c e o f t r a d i t i o n a l d o c u m e n t a r y s y s t e m a n d d a t a b a s e s y s t e m. s o w i t h t h e d e v e l o p m e n t o f c o m p u t e r t e c h n o l o g y , v i r t u a l i n s t r u m e n t s y s t e m i s b e c o m i n g p e r f e c t g r a d u a l l y . t h i s p a p e r i s t h e p r e c e d i n g s u b j e c t h a v i n g f e a t u r e s o f i n t e r c r o s s a n d n o v e l t y , w h i c h i n c l u d e s t h e t h e o r i e s a b o u t t h e a t s ( t h e a u t o m a t e d t e s t s y s t e m ) f i e l d , t h e t e c h n o l o g y o f mi c r o - p c a n d n e t w o r k , r e mo t e c o n t r o l , d a t a b a s e , a n d s o o n ; t h e f u n c t i o n s a r e c a r r i e d o u t o f t h e v i r t u a l i n s t r u m e n t m a n a g e d b y d a t a wa r e h o u s e , d a t a c o n v e r s i o n a n d d a t a c h e c k o u t , d a t a m e m o r y a n d m a n a g e r , m u l t i - d i m e n s i o n d a t a b a s e . t h i s p a p e r d i s c u s s e s t h e p o s s i b i l i t y a n d n e c e s s i t y o f d e s i g n i n g t h e v i r t u a l i n s t r u m e n t s y s t e m m a n a g e d b y d a t a wa r e h o u s e b y t h e n u m b e r s , a n d h o w t o e x p l o d e r a n d r e a l i z e w h o l e s y s t e m . f o r v i r t u a l i n s t r u m e n t s y s t e m m a n a g e d b y d a t a i p u t i t f u n c t i o n u p a p i l o t s t u d y a n d d i s c u s s i o n . d e s i g n i n g i d e a s a n d k e y p o i n t s wa r e h o u s e , o f s y s t e m mo d u l e s a r e d i s c u s s e d i n d e t a i l s o n t h em ai n p a r t s o f t h i s t h e s i s , w h i c h i n c l u d e s d a t a wa r e h o u s e f r a me a n d i t s f u n c t i o n , d a t aconver s i ona n d d a t a c h e c k o u t , d a t a me mo r y c r e a t i o n a n d m a n a g e r , m u l t i - d i m e n s i o n d a t a b a s e , d a t a a n a l y s i s f o r c l i e n t . t h e m ai n a n d i m p l e m e n t o f l a t e s t t e c h n o l o g y a r e a s f o l l o w i n g s : 1 . a o f t h e d a t a wa r e h o u s e m a n a g e r i s f i r s t l y p r e s e n t e d , w h i c h i s a p p l i e d t o c o n c e p t i o n t h e v i r t u a l i n s t r u m e n t s y s t e m, t h e n t h e v i r t u a l i n s t r u m e n t s y s t e m ma n a g e d b y d a t a wa r e h o u s e i s d i s c u s s e d ; 2 . d a t a w a r e h o u s e a n d i t s m a i n t e c h n o l o g y a r e a p p l i e d ; 3 . d a t a wa r e h o u s e t e c h n o l o g y i s a p p l i e d t o c o n s t r u c t t h i s s y s t e m a n d p r o v i d e t h e o r y b a s i s f o r d a t a c o n v e r s i o n a n d d a t a c h e c k o u t , d a t a m e m o r y a n d m a n a g e r , m u l t i - d i m e n s i o n d a t a b a s e , d a t a a n a l y s i s f o r c l i e n t . 4 1 a p p l y mu l t i - d i m e n s i o n t o t h i s s y s t e m a n d c a r r y o u t o l a p ( o n l i n e a n a l y s i s p r o c e s s i o n ) , a n d t h e s y s t e m f l e x i b i l i t y i s i n c r e a s i n g f o r c l i e n t t o c a r r y o u t m u l t i - d i m e n s i o n d i r e c t l y , f o r e x a m p l e s l i c e , d i c e , c i r c u m r o t a t i o n , d r i l l i n g , a n d s o o n . a n d c l i e n t c o u l d c a r r y o u t m u l t i - a n g l e a n d m u l t i - d i m e n s i o n s y s t e m - a n a l y s i s o f d a t a . 5 . e x c e 1 t o o l a n d p i v o t t a b l e s e r v i c e ( m e c h a n i s m o f c l i e n t p o r t abs tract c u s h i o n ) , a r e a p p l i e d t o p r o v i d e d a t a v i s i t a t i o n , q u e r y a n d i s s u a n c e i n c l i e n t p o r t . ke y w o r d s : d a t a wa r e h o u s e ; mu l t i - d i m e n s i o n d a t a b a s e ; d a t a c o n v e r s i o n ; o l a p ( o n l i n e a n a l y s i s p r o c e s s i o n ) m 华南理工大学 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进 行研究所取得的研究成果。 除了文中特别加以标注引用的内容外, 本论文不包含任何其他个人或集体己经发表或撰写的成果作品。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本人完全意识到本声明的法律后果由本人承担。 作 者 签 名 : 水 存if + z 日期: 加 、 年了 月午 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅。本人授权华南理工大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在 _年解密后适用本授权书。 本学位论文属于 不保密 口。 ( 请在以上相应方框内打 “4 ) 作 者 签 名: 水 ilk f , 导师签名: 日 期:z n 3 年 6 月今 日 日 期: z 4 , 0 3 年月弃日 汰丫. 二 够 第一章绪论 第一章 绪论 计算机技术的飞速发展,数据通信、网络工程和信息管理等系统性能的巨大 改进,催生了将自动测试技术、计算机技术和通信技术结合起来的产物一一虚拟 仪器的应用与发展。与普通仪器相比,虚拟仪器具有高速数据采集和存储功能, 具有可以方便地提供数据存储的格式、数据查询方法和数据浏览方法等技术性能 特点。尤其是近年来,计算机网络技术、总线技术与数据库技术的发展应用,拓 展了虚拟仪器测试系统的应用范围。虚拟仪器测试系统的广泛应用,己经使得企 业、尤其是大型企业,在使用虚拟仪器的自动化生产测试过程中,采集并存储了 大量的传感数据,包括点、曲线、图形等。然而,随着时代的前进,企业对自动 化生产己不再满足于这种简单地事务驱动的、面向应用的测试和数据操作,而是 希望利用现有的数据,进行推理分析,为生产优化和决策服务。有鉴于此,我们 尝试把数据仓库的概念引入到测试技术中,建立基于数据仓库技术的虚拟仪器系 统,作一个初步的探讨。 1 . 1 虚拟仪器发展的简述 1 . 1 . 1 虚拟仪器的概念 所谓虚拟仪器 ( v i s u a l i n s t r u m e n t , 简称 v d,就是在以通用计算机为核心 的硬件平台上,由用户设计定义、具有虚拟面板、测试功能由测试软件实现的一 种计算机测试系统t, 0 2 0 世纪8 0 年代末美国研制了虚拟仪器, 虚拟仪器的发展标 志着自动测试与电子测试领域技术发展的一个崭新方向。 . 1 . 1 . 1 虚拟仪器的系统构成 虚拟仪器系统基本框图见图 1 - 1 , 虚拟仪器主要由以下三部分组成: 1 )数据输入部分一一进行信号调理,并将输入的被测模拟信号转换成数字 信号, 以便于处理。 2 )数据输出部分一一将量化的数据转换成模拟信号并进行必要的信号调理。 3 )数据处理部分一一按测试要求对输入信号进行各种分析和处理山 。 华南理工大学工学硕士学位论文 插卡式d a q g p i b 仪器 v x i 仪器 r s 一2 3 2 网络传输 硬复制 文件i / 0 图形用户接口 图 1 - 1虚拟仪器的内部功能划分 f i g l 一 1 s t r u c t u r e o f v i r t u a l i n s t r u m e n t s y s t e m 1 . 1 . 1 . 2 虚拟仪器的硬件系统 随着微机的发展和采用总线方式的不同,虚拟仪器可分为五种类型: 第一类:p c总线式虚拟仪器系统 在以p c 机为基础的虚拟仪器中,插入式数据采集卡 ( d a q )是虚拟仪器系统 中最常用的接口形式之一,其功能是将现场数据采集到计算机,或将计算机数据 输出给受控对象。当前最新的插入式数据采集卡具有兆赫级的采样速度,精度高 达 2 4 位,能保证仪器级的性能、精度与可靠性。目前,d a q 技术主要应用于高采 样速率及直接控制方面。 这种方式借助于插入计算机内的数据采集卡和专用的软件,如 l a b v i e w ,相 结合 ( 注:美国n i 公司的l a b v i e w 是图形化编程工具, 它可以通过各种控件,自 己组建各种仪器) ,它充分利用了计算机的总线、机箱、电源及软件的便利。 但是 受p c 机机箱和总线限制, 且有电源功率不足、 机箱内部的噪声电平较高、 插槽数 目也不多、插槽尺寸比较小、机箱内无屏蔽等缺点,不利于组建大型测试系统。 另外,i s a 总线的虚拟仪器己经被淘汰,p c i 总线的虚拟仪器价格比较昂贵。 第二类:并行口式虚拟仪器 最新发展的一系列可连接到计算机并行口的测试装置,是把仪器硬件集成在 一个采集盒内。仪器软件装在计算机上,通常可以完成各种测试仪器的功能,如 数字存储示波器、频谱分析仪、逻辑分析仪、任意波形示波器、频率计、数字万 用表、功率计、程控稳压电源、数据记录仪、数据采集器。如美国 l i n k公司的 d s o - 2 x x x 系列虚拟仪器就属此类。它最大的好处就是即可以与笔记本电脑连接, 也可以与p c 台式机相连, 并且方便野外作业, 价格低廉, 用途广泛, 但只适用于 研发和教学实验。 第三类:g p 工 b 总线方式虚拟仪器系统 g p i b 技术是出现在工 e e e 4 8 8 标准的虚拟仪器早期的发展阶段, 它的出现使电 子测量独立的单台手工操作向大规模自动测试发展。 标准状况下, 一块 g p i b 接口 第一章绪论 可以连接 1 4 台g p i b 仪器,构成一个较为复杂的虚拟仪器系统。通过g p 工 b 接口, 可以方便地将p c 机与仪器硬件相连接, 以实现相互间的通信, 其 1 m b p s 的通 信速率能满足绝大多数的应用场合,可用计算机实现对仪器的操作和控制,形成 大型自动测量系统。 第四类:v x i 总线方式虚拟仪器系统 v x i 总线是一种高速计算机总线v me总线在v i 领域的扩展, 具有稳定的电 源、强有力的冷却能力和严格的r f i / e mi 屏蔽。由于它的标准开放、结构紧凑、 数据吞吐能力强、定时和同步精确。基于 v x i 总线平台技术的自动测试仪器系统 是虚拟仪器技术中最引人注目的应用。v x i ( v m e b u s e x t e n s i o n f o r i n s t r u m e n t ) 总线技术平台在v m e 总线技术的基础上,从电磁干扰 ( e m i ) 、冷却通风、功率耗 散等方面考虑,增大了模块的间距及模块间的通信规程、配置、存储器定位和指 令等,为模块式电子仪器提供了一个开放式结构,成为模块式测试系统的关键支 撑技术。另外,v x i总线还提供了在机架层叠式的测试系统中不可能存在的、具 有触发和同步能力的3 2 位高速计算机总线。 运用v x i 技术可以方便地实现多功能、 多参数的自动测试,为实现虚拟仪器技术提供了一个较好的硬件平台,代表着今 后仪器系统的发展方向,并且具有模块可重复利用、众多仪器厂家支持等优点, 可以广泛利用,尤其是组建大、中规模测量系统,但是造价高。 第五类:p x i 总线方式虚拟仪器系统 p x i 总线方式是p c i 总线内核技术增加了多板同步触发总线的技术规范和要 求生成的。p x i 具有高度扩展性,具有 8个扩展槽,而台式 p c i 系统只有 3 -4 个扩展槽。通过使用p c i - p c i 桥接器可以扩展到2 5 6 个扩展槽 川 。 按技术特点分,虚拟仪器的发展过程有两条路线: 1 )适合大型高精度集成系统的总线方式:g p i b 一 一 卜 v s i 一 一 * p x i总线 方 式。 其中g p i b于 1 9 7 8 年间世,v x i 于 1 9 8 7 年问世,p x i 于 1 9 9 7 年问世。 2 )用于普及型的廉价系统:p c插卡 一 - 卜 并口式- 一 卜 串口u s b方式。 p c插卡式于 8 0 年代初问世,并行口方式于 1 9 9 5年问世,串口u s b于 1 9 9 9 年问世 。 1 . 1 . 1 . 3 虚拟仪器的软件构成 一个虚拟仪器系统的基本硬件确定以后,就可通过不同的软件实现不同的测 试功能。软件是虚拟仪器系统的灵魂。没有一个优秀的控制分析软件,很难想象 可以构成一台理想的虚拟仪器系统。以v x i 虚拟仪器系统为例,其软件结构见图 1 - 2 所示 , , 。 华南理工大学工学硕士学位论文 仪器驱动接口 阅 一 - -仪 器 接口 应用软件开发环境 v x i 其他 g p i b 峨 一 - - -通 信 接 口 图1 - 2 v x i 虚拟仪器系统软件结构框架 f i g l - 2 s o f t w a r e s t r u c t u r e o f v x i v i r t u a l i n s t r u m e n t 可以看到, v x i 虚拟仪器系统至少需要仪器、 通信和驱动程序三种接口软件。 其中仪器接口为仪器与计算机之间的通信协议和方法。通信接口按标准方式将仪 器连接起来,它是仪器与仪器驱动程序之间的通信接口,实际上就是v x i 系统的 工 / 0 接口软件。仪器驱动程序接口将通信接口与开发环境 ( a d e )连接起来“ , 。 1 . 2 网络化虚拟仪器 1 . 2 . 1 网络化虚拟仪器的概念 网络化虚拟仪器实质就是具有网络功能的虚拟仪器,是在虚拟仪器和网络的 基础上综合发展起来的, 这就如同具有网络功能的p c 机。 网络化虚拟仪器的出现 至少是以下三个因素共同作用的结果: 1 ) 虚拟仪器技术的普及和成熟,以及应用范围的一步拓宽, 特点和优势日益 显示出来,为大众所认可; 2 )随着 p c 机的迅速发展及仪器硬件 ( 如 i / 0 , g p i b 等)发展向着网络化标 准靠拢,使得将网络技术引入测试领域成为可能; 3 )以i n t e r n e t 为代表的网络技术的出现及其与高新技术的相互结合,为测 试与仪器仪表技术带来了前所未有的发展空间和机遇。 网络化虚拟仪器 ( 虚拟仪器的网络化) , 其一般特征是指将计算机、昂贵的外 部硬件设备、被测试节点以及数据库等丰富软件资源纳入网络进行资源共享,共 同完成测试任务: 实现了对现场的基于 i n t e r n e t 的异地或远程测试与控制、 数据 分析、在线故障诊断和现场监测的功能。网络化虚拟仪器的出现,人们可以从任 何分散的测试节点、在任意时刻获取到测量信息 ( 数据)的愿望成为现实(6j 。 1 . 2 . 2 网络化虚拟仪器的构成 与以p c 机为核心的虚拟仪器相比, 它将传统仪器由单台计算机实现的测试三 华南理工大学工学硕士学位论文 统的控制、操作和计划。当然,数据仓库可以直接建立在我们的本地 p c机上, 使 有限的资源得到充分应用, 也可通过局域网为了不同目的而在不同部门共享资源。 1 . 4 研究内容和方法 从以上实际出发,结合虚拟仪器高速数据采集和存储功能等特点,本人在导 师的指导下,尝试把数据仓库的概念引入到测试技术中作一个初步的探讨,建立 基于数据仓库技术的虚拟仪器系统。 从体系结构上分析,数据仓库系统由三部分组成:数据仓库、数据仓库管理 系统和数据仓库工具。数据仓库是整个系统的核心。本课题将实现在虚拟仪器基 础上建立数据仓库,包括以下几个内容: 1 )数据源分析 从数据源中抽取数据,对数据进行检验和整理、重新组织和 加工,并加载到目标数据库中。 2 )数据管理模块 管理和访问数据仓库中的数据 3 )管理模块 对数据仓库进行监控和管理,包括资源使用管理、用户提供有 关源数据和目标数据本身信息等 4 )数据访问模块 为企业和用户提供一般访问 ( 查询、汇总、统计)及深入分析 工具。 5 ) o l a p 服务器 用来支持多维数据结构,为数据访问模块提供多维视图服务 6 )数据传递模块 向其他数据仓库和外部系统分配数据。 1 . 5 本课题的意义 前面两个师兄都搞的是虚拟仪器,许东芹研究的是 “ 基于虚拟仪器的计算机 测试系统集成环境的研究和实现” , 王承研究的是“ 基于网络化虚拟仪器技术的自 动化测试系统平台的组建和实现” , 他们都没有涉及虚拟仪器数据库管理技术。目 前我进行的工作是在两位师兄研究的基础上进行再研究,弥补了他们在这方面的 不足。 本硕士论文的研究课题是“ 基于数据仓库管理的虚拟仪器技术” , 其主要研究 对象是数据管理系统的框架研究与开发。 本文从软件、硬件的角度,系统论述了基于虚拟仪器测试技术组建数据仓库 可能性、必要性以及如何进行整体系统的开发与实现。全文紧紧围绕这一中心展 开论述,首先提出了数据仓库概念及其相关技术,并将这一新技术引入虚拟仪器 测试系统,从而构架了基于数据仓库管理的虚拟仪器测试系统平台:接着对数据 仓库系统概念及其关键技术进行了详细介绍:在论文的主题部分第三章,重点阐 第一章绪论 述了基于数据仓库管理的虚拟仪器系统的整体设计目标、设计思想以及系统设计 框架和实施策略、解决方案;第四章详细介绍并设计了数据仓库实现的几个关键 模块,即数据仓库设计、数据转换和数据校验功能模块设计、数据存储与管理设 计、以及多为数据库设计、客户端数据分析设计。本文对基于数据仓库的虚拟仪 器技术做了一个初步的尝试与探讨, 其中主要的创新与新技术运用有:1 、 首先提 出了数据仓库管理的新概念,并将其应用到虚拟仪器测试技术中,从而提出了基 于数据仓库管理的虚拟仪器技术的概念:2 .数据仓库关键技术的应用;3 、应用 数据仓库概念技术构造本系统,为系统数据仓库设计、数据转换和数据校验功能 模块、数据存储与管理模块、以及多为数据库设计、客户端数据分析模块的设计 与实现奠定了理论基础;4 、多维数据库技术在本系统中的应用,实现了 o l a p ( 联机分析处理) , 用户也可以用直观的多维分析方法,如切片、切块、 旋转、钻 取等,对数据多角度、多层次地统计分析,使系统应用更具有灵活性;5 、利用 mi c r o s o f t 提供的e x c e l 和客户方缓存的机制p i v o t t a b l e s e r v i c e ,进行客户端多维 数据的访问、查询、发布。 不断革新的计算机技术,从各个方面影响着测试技术的革新。目前,数据仓 库技术己经在一些商业领域取得了有效的应用, 如安全系统保障系统、 银行系统、 税务系统、保险系统、财政和零售业等领域。在工业、企业自动化测试系统中, 随着虚拟仪器、局域网 ( 网络化虚拟仪器)的广泛应用,每天都会在测试系统中 产生和积累大量的数据。我们在测试系统中引入数据仓库的主要目的,是要找出 隐藏在操作环境中的关于产品性能或系统运行可进行优化的模式、趋势和联系, 为产品或系统决策提供依据。数据仓库技术、虚拟仪器技术得益于现代计算机技 术的进步,数据仓库技术及其管理概念的引入将为虚拟仪器技术的发展带来新的 活力和好处。 目前国内关于这类测试系统平台的开发尚属空白,还未发现系统介绍基于数 据仓库管理的虚拟仪器技术的自动测试系统平台的开发与构架的参考书,而各种 期刊,杂志涉及的多为虚拟仪器测试系统的设计开发及在测试领域中的应用:而 在测试系统数据管理方面则侧重于文件系统、数据库编程及网络通信、资源共享 方面的编程。因此我们的工作是探索性的,没有实际操作使用基于数据仓库管理 的虚拟仪器的测试系统平台的感性认识,只能从中去分析、体会这种系统平台应 该具有的功能,根据理解去设计开发.本论文的工作具有开创性意义,它的实现 使自动测试系统迈上了一个新台阶,无论是理论还是实际,对自动测试系统的应 用、管理的开发都具有普遍的指导意义。 华南理工大学工学硕士学位论文 第二章 数据仓库及其系统结构 2 . 1 数据仓库技术及其定义 当前的数据处理可以大致分为两大类:操作型处理和分析型处理。操作型处 理也叫事务处理,是指对数据联机的日常操作,通常是对一个或一组记录的查询 和修改,主要是为企业的特定应用服务的,人们关心的是响应时间、数据的安全 性和完整性。分析型应用侧重于决策分析,经常要访问大量的历史数据, 建立以 数据库为中心的事务处理环境和以数据仓库为中心的分析处理环境, 从以单一数 据库为中心的数据环境发展为数据库体系环境, 划清了操作型处理和分析型处理 的界限,满足了数据处理多样性的要求川 。 8 0年代初,w . h . i n m o n在 “ 记录系统户 、 “ 原始数据” 、和 “ 决策支持系统” 等专项研究报告中提出了数据仓库的概念,并给出了基本框架描述,认为数据仓 库是9 0 年代信息技术 ( i t ) 体系结构中的一个重要组成部分, 是数据库发展的重 点。按照w. h .i n m o n的描述,可以从以下三方面来认识数据仓库技术“: 1 ) 数据仓库存储面向管理应用与综合分析的集成化综合性信息, 能从历史的 角度描述系统结构和状态的变化,采用的是能够反映时间维特征的数据结构。 2 ) 数据仓库把传统的 面向 业务 ( o p e r a t i o n a l ) 的 数据库或外界数据库作为数 据源,经过提炼、加工、汇总和归一化整理 ( c o n s o l i d a t i o n ), 生成符合数据应用 语义规范要求的数据集合。 3 )数据仓库能够支持多种复杂的数据应用和综合性管理决策分析。 到目前为止,有关数据仓库的定义仍没有统一的说法,除了w. h . i n m o n 的描 述外还有以下几种: 1 ) 数据仓库是面向主题的、 集成的、 稳定的、不同时间的数据集合, 用以支 持决策制定过程。 2 ) 数据仓库是一个不断发展的过程, 把多个异质的原始数据融合在一起, 用 以支持结构式即席查询、分析报告和决策支持。 3 )数据仓库是一种体系结构。 在以上的各种说法中都给出了这样一个观点,即数据仓库技术是一个企业决 策系统不可缺少的部分。 2 . 2 数据仓库的特征及数据组织 2 . 2 . 1 数据仓库的基本特征 数据仓库是一种新型的面向数据应用的数据管理技术,它以关系数据库管理 第二章 数据仓库系统及其系统结构 系统 ( r d b ms )为基础,从运作数据库中提取数据, 这些数据在进入数据仓库之 前需经过转化、综合、整理,从而使数据仓库能够提供集成化的、历史化的数据 管理功能,并支持综合性的数据分析,特别是战略分析。 根据前一节中对数据仓库概念的描述,很容易归纳出数据仓库的四个基本特 征: 1 )数据仓库是面向主题的 数据仓库中的数据是面向主题进行组织的。主题是数据归类的标准,每一个 主题基本对应一个宏观的分析领域。 例如: 保险公司的数据仓库的主题为:客户、 政策、保险金、索赔等。 传统数据库中的数据组织则完全不同,它的数据只是面向具体应用而组织在 一起的。主题的实现依然是基于关系数据库的,一个主题可以划分为多个表,这 些表通过公共码键统一联系起来,体现它们是属于一个主题的。主题的内容不会 一成不变,随着主题内容的丰富,主题所包含的表可能增加。 2 )数据仓库的数据是集成的 数据进入数据仓库之前,必须经过加工与集成,对不同的数据来源进行统一 数据结构和编码, 统一原始数据的所有矛盾之处, 如字段的同名异义、 异名同义、 单位不统一、字长不一致等。总之将原始数据结构做一个从面向应用到面向主题 的大转变。 3 )数据仓库的数据是不可更新的 数据仓库的数据主要提供企业决策分析之用,所涉及的数据操作主要是数据 查询,一般情况下并不进行修改操作,数据仓库的数据反映的是一段相当长时间 内的历史数据的内容,是不同时间的数据库快照的集合,以及基于这些快照进行 统计、综合和重组的导出数据,而不是联机分析的数据。数据库中进行联机处理 的数据经过集成输入到数据仓库中, 一旦数据仓库存放的历史数据超过存储期限, 这些数据将从前的数据仓库中删除。 4 )数据仓库的数据是随时间不断变化的 数据仓库随时间变化不断增加新的数据内容。 数据仓库随时间变化不断删除旧的数据内容。 数据仓库中包含大量的综合数据,这些综合数据中很多与时间有关,这些数 据要随着时间改变不断地进行新的综合, 。 2 . 2 . 2 数据仓库的数据组织结构 一个典型的数据仓库的数据组织结构如图2 -1 所示。 一、粒度 数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、 华南理工大学工学硕士学位论文 高度综合级。源数据经过综合后,首先进入当前细节级、并根据具体要求进行进 一步的综合, 从而进入轻度综合乃至高度综合级, 老化的数据将进入早期细节级。 从中可以看出, 数据仓库中存在着不同的综合级别, 被称之为“ 粒度” 。 粒度越大, 表示细节程度越低,综合程度也越高。级别的划分是根据粒度进行划分的。 a高 度 细 节 a轻 度 细 节 a当 前 细 节 a早 期 细 节 图2 -1 数据仓库的数据组织结构 f i g 2 - 1 d a t a f r a m e w o r k o f d a t a w a r e h o u s e 粒度是数据仓库的一个重要概念,它可以分为两种形式,第一种粒度是对数 据仓库中数据的综合程度高低的一个度量,它既影响数据仓库中数据量的多少, 也影响数据仓库所能回答询问的种类。 粒度越小, 细节程度越高, 综合程度越低, 回答询问的种类就越多,但同时也造成了数据仓库中数据的大量堆积。反之,粒 度的提高将会提高查询效率,但同时造成回答细节问题能力的下降。另一种形式 的粒度是样本数据库,其粒度级别是按采样率高低来划分的,采样粒度不同的样 本数据库可以有相同的综合级别,一般它是以一定的采样率从细节档案数据或轻 度综合数据中抽取的一个子集。样本数据库不是一般目的的数据库,它是根据一 定需求, 从源数据中获得一个抽样,因而不能回答一些细节问题。 抽样方法很多, 一般是随机抽取。利用样本数据库的概念,可以采集重要的数据来进行分析,既 可以提高分析效率,也可以抓住问题的主要方面。 二、分割 分割是数据仓库中的另一个重要概念,它是指将具有某种相关性的数据组织 在一起,分散存储在各自的物理单元中,以便能分别独立处理,以提高数据处理 效率。 数据分割后的数据单元称为分片。 数据分割的标准可根据实际情况来确定, 通常可选定日期、地域或业务领域等来进行分割,或者可以按多个分割标准的组 合来进行,但不论采用那种标准,都应根据实际情况而确定。经过分割的数据更 第二章 数据仓库系统及其系统结构 易于重构、索引、重组、恢复、监控和顺序扫描 2 , 。 2 . 2 . 3 数据仓库的数据组织形式 下面是数据仓库环境中常用的几种数据组织形式: 1 )简单堆积文件 它将每日由数据库中提取加工的数据,逐天积累地存储起来。 2 )轮转综合文件 数据存储分为日、周、月、年等几个级别。首先逐一记录 日数据,然后随着 天数的增多,相应地综合成周数据集、月数据集和年数据集。由此可见,轮转综 合结构简单明了,但它是以损失数据细节为代价的,越久远的数据,细节损失越 多。 3 )简化直接文件 类似于简单堆积文件,但它是间隔一定时间的数据库快照,或说是按一定的 时间间隔对数据库的采样。 4 )连续文件 通过比较两个简单直接文件的不同而生成。连续文件也可以和新的简单文件 一起生成新的连续文件。 如上所述, 对于各种文件结构的最终实现, 仍然要依靠关系数据库中的“ 表” 结构 2 . 2 .4 数据仓库的数据追加 如何定期向数据仓库中追加数据是一项十分重要的技术。 数据仓库中的数据 来源于 o l a p ( 联机事务处理) 数据库,向数据仓库的数据初装完成后,再向数据 仓库输入数据的过程为数据追加。要完成数据追加,必须能确切的感知究竟哪些 数据是在上一次追加之后新生成的,这项工作称为变化数据的捕捉。捕捉变化数 据常用的途径有: 1 )时标方法 如果数据中含有时标,对新插入或更新的数据记录,只需根据时标就可以判 断哪些数据是上次追加后变化了的。但许多数据库中的数据并不含有时标。 2 ) d e l t a文件 它是由应用生成的,记录了应用所改变的所有内容,利用 d e l t a 文件的效 率比较高, 序并不普遍 避免了扫描整个数据库。但同样的问题是生成 d e l t a文件的应用程 3 )前后映像文件的方法 在上次抽取数据库数据到数据仓库之后 即本次将抽取数据库数据之前,对 华南理工大学工学硕士学位论文 数据库分别一次快照,然后比较两幅快照的不同,从而确定实现数据仓库追加的 数据。这种方法需要占用大量资源,影响系统性能,无多大实际意义。 4 )日志文件 利用日志文件是目前最可取的技术。因为它是 d b( 数据库)的固有机制, 因此不会影响o l t p的性能。 同时它还有d e l t a文件的优点, 提取数据只限于日 志文件,而不用扫描整个数据库。当然,原来日志文件的格式是依据数据库应用 系统的要求而确定的,它包含的数据对于数据仓库而言可能有些冗余 。 。 2 . 2 . 5 数据仓库中的元数据 整个数据仓库的组织结构是由元数据来组织的,它不包含任何业务数据库中 的实际数据信息。元数据在数据仓库中扮演了重要的角色,它被用在以下几种用 途: 1 )描述那些数据在数据仓库中。 2 )定义要进入数据仓库中的数据和从数据仓库中产生的数据。 3 )记录根据业务事件发生而随之进行的数据抽取工作时间安排。 4 )记录并检测系统数据一致性的要求和执行情况。 5 )衡量数据质量。 数据仓库中的元数据大致包含以下内容: 1 )数据仓库的主题描述:主题名,主题的公共码键,有关描述信等。 2 ) 外部数据和非结构化数据的描述: 外部数据源名, 存储地点, 存储内容等。 3 )记录系统定义:主题名,属性名,数据源系统,源表名,源属性名。 4 )逻辑模型的定义:关系名,属性 i . - - - - 一属性 n . 5 )数据进入数据仓库的转换规则。 6 )数据的抽取历史。 7 )粒度的定义。 8 )数据分割的定义。 9 )广义索引:广义索引名,属性 1 i- - - - 一 属性 n ro)有关存储路径和结构的描述 目前,不同的数据仓库系统的元数据机制不尽相同,这对于利用数据仓库实 施超大规模的数据共享是一个障碍。国际上有关标准化组织正着手推进元数据的 标准化。 最近, 负责数据元素原则( d a t a e l e m e n t p r i n c i p l e ) 的i s o / i e c j t c i 第+ 四子委员会提出了一个关于元数据的分类、属性、定义、命名、标准化和注册 ( r e g i s t r a t i o n )的规则和指南 ( i s o n 1 1 1 7 9 ), 为元数据的标准化提供t可能 , , 。 2 . 3 数据库的基本体系结构 华南理工大学工学硕士学位论文 数据仓库管理系统、数据仓库工具三部分组成,如图2 -2 所示。 信息源 ( i n f o r . s o u r c e )为数据仓库提供源数据 ( s o u r c e d a t a ), 可以是异种或 异构数据库。这些信息源可以包括各种生产系统数据库、联机事务处理 ( o l t p ) 系统的操作型 ( o p e r a t i o n a l )数据、外部数据源等。 提取器 ( e x t r a c t o r )主要负责:翻译,把来自 信息源的影响数据仓库信息 的数据翻译成数据仓库的数据模式;监视信息源上数据的变化,当信息源发生 变化时, 进行数据传播,以便更新和扩充数据仓库; 数据的“ 清洁” ,保持数据 的一致性,减少数据仓库的数据重复。 集成器 ( i n t e g r a t o r ) 初次装载数据仓库、维护数据仓库视图。 元数据 ( me t a d a t a ) 关于数据的数据, 可以分为两种类型,一种是为了从操 作型数据环境向数据仓库环境而建立的元数据,它包括了所有源数据项及其在数 据仓库中的转换: 另一种是用来与终端用户的多维商业模型/ 前端工具之间建立映 射,此种元数据称为d s s元数据。 数据库系统由数据库、数据库管理系统、数据库工具组成。数据仓库与数据 库之间有一定的区别,如表 2 -l a 2 -1 数据库系统与数据仓库系统的比较 数据库系统 数据仓库系统 数据库:操作型数据,增、 删、改操作频繁 数据仓库:分析型数据,极 少更改操作 数据库管理系统: 功能强大、 面向o l t p应用 数据仓库管理系统:因极少 有更改操作,故功能简单 数据库工具:以查询为主数据仓库工具:以分析为主 2 . 3 . 2 数据仓库体系结构中的三个关键问题 在整个数据仓库系统中,有三个关键的环节,即源数据抽取和转换、在目 标 数据库中存储转换后的数据和为用户提供对目 标数据库的透明访问。与此相应, 在数据仓库的设计过程中必须注意三个关键的问题 l : 1 、数据仓库的目标数据:在许多情况下,使用传统的关系型数据库管系统 ( r d b ms ) 和企业熟悉的通用数据访问工具来建立数据仓库的目 标数据库。 2 、数据抽取和转换工具:提供对操作型数据进行收集、转换、和修订的功 能,并能自动把转换后的数据装载到数据仓库指定地数据库中。 3 、前端访问和分析工具:目前市场上常见的数据访问和分析工具主要有关 第二章数据仓库系统及其系统结构 系型查询( r e l a t i o n a l q u e r y ) z具、 关系型数据的多维视图( m u l t i - d i m e n s i o n a l v i e w s o f r e l a t i o n d a t a ) y具、d s s / e i s 软件包和客户/ 服务器t - 具等四类。 2 . 3 . 3 数据仓库管理系统 数据仓库管理系统由以下几部分组成川 : ( 1 )定义部件 用于定义和建立数据仓库系统,它包括: .设计和定义数据仓库的数据库 .定义数据来源 .确定从源系统向数据仓库复制数据时的清理与转换 ( 2 )数据获取部件 该部件把数据从源系统提取出来,依定义部件的规则,清理和交换数据进入 数据仓库,该工作由集成和传输程序来完成。 ( 3 )管理部件 它用于管理数据仓库的工作,包括: .对数据仓库中数据的维护 .把仓库数据送给分散的仓库服务器或用户d s s .对仓库数据的安全、归档、备份、恢复等管理工作 ( 4 )目 录部件 数据仓库的目录数据由三部分组成: .技术目录:由定义部件生成,是关于数据源、目标、清理规则 .业务目录:由仓库管理员生成,是关于仓库数据,从来源到当前值;预定 义的查询:报表细节;合法性要求等。 .信息引导器:使用户容易访问数据、目录和仓库数据。包括查询和引导功 能,利用固定查询或建立新的查询,生成暂时的或永久的仓库数据集合能力。该 部件是数据仓库使用能力的关键因素。 o d b ms部件 数据仓库的存储形式仍为关系数据库,因此需要利用d b m s 。由于数据仓库包 含大量数据,要求d b ms产品提供高速性能。 2 . 3 . 4 数据仓库工具集 由于数据仓库的数据量大,必须有一套功能很强的工具集来实现数据仓库提 供辅助决策信息。 各类分析工具与数据仓库的不同数据层连接,不同的用户可以从不同的数据 层次来提取不同类型的数据信息,数据仓库的工具可分为四个互不相关的大类: 华南理工大学工学硕士学位论文 ( 1 ) 分析工具: 帮助数据要求的确立, 识别信息获取层的主要数据来源和建立 数据模型,目前比较常用的数据仓库分析工具有一下几种 川 : o c a s e 工具: 计算机辅助软件工程 ( c a s e ) 工具用于数据/ 过程建模过程中。 .扫描仪:扫描数据库定义的语言拷贝代码和过程代码,从而确认数据的使 用情况 .数据纲目库:存放所有分析和设计阶段加载的元数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学走进田间课件
- 教案及教学课件
- 课件模板制作流程
- 儿童玩水画画课件
- 体育小知识课件
- 欢乐有秘方课件
- 课件有趣自我介绍
- 儿童小班玉米课件
- 广东护理伦理自考考试题及答案
- 2025年中国屏风帘布数据监测报告
- 1.1《土壤里面有什么》课件 2025-2026学年苏教版科学三年级上册
- 1.2我们都是社会的一员 课件- 2025-2026学年统编版道德与法治八年级上册
- 《智能投顾 大数据智能驱动投顾创新》读书笔记思维导图
- 职工自愿放弃社会保险协议
- SH/T 0356-1996燃料油
- 《小英雄雨来》阅读测试题附答案
- 危险品管理台帐
- 抗滑桩施工方案完整版
- 常用水利规范目录
- 高级财务管理(第三版)第02章-财务估价模型概览
- 人教版(新起点)英语六年级上Unit 1《In China》单元测试卷
评论
0/150
提交评论