




已阅读5页,还剩57页未读, 继续免费阅读
(计算机软件与理论专业论文)xmi的应用研究和元数据交换的实践.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 数据仓库系统是一个庞大和复杂的系统,对于实现这样个庞:弋复冀晌系 统,已经不是单单一个应用工具就能够完成的任务。现实的数据仓库系统一殷是 多个开发工具的共同应用的结果。这样同时产生的问题就是数据仓库系统因开发 工具元数据不同而难以实现上层的规则共享和数据交换。即随着数据仓库技术的 广泛应用,元数据的管理和交换问题日趋突现。 针对元数据的管理和交换阎题,o m g 提出了相应韵技术规范。x m | 技术是 o m g 组织提出的一种元数据交换的标准。c w m 技术是o m g 组织提出的数据仓库 元模型的规范。遵照规范,论文中详细阐述了c w m 的体系结构和x m i 文档的生成 规则等。同时,作为c 肼和潮i 的重要相关技术,论文也简要地介绍了元数据技 术和数据仓库技术。 在研究和理解c w m 和埘i 技术的基础上,论文开展了元数据应用与交换的研 究。首先结合数据仓库项目实例,将项目中的一个数据仓库主题的构建流程,遵 循c w m 元模型标准来进行设计:这样得到的是一种遵循标准的数据仓库设计方 法,因为遵循c w m 规范设计的数据仓库具有相同的元模型结构。然后,再根据 x m i 文档生成规则,实现眦模型到x m l 的转换程序:通过该转换程序能 够将模型元数据转换成适合交换的x m 格式。 关键词:元数据,元模型,数据仓库,u m l ,c w m ,x m i a b s t r a c t d a t aw a r e h o u s ei sah u g ea n dc o m p l e xs v s l e m f o rs u c hah u g ea n dc o m p l e x s y s t e m h a r d l yo n l yad e v e l o p i n gt o o icanc a r r yi to u t g e n e r a l l y , ad a t aw a r e h o u s e s y s t e mi sd e v e l o p e db ym a n yt o o l s b u tt h i sr e s u l t si nap r o b l e mt h a ti t i sd i m c u l tt o r e a l i z er u l e ss h a r ea n dd a t ae x c h a n g eb e c a u s ed i f f e r e n tt o o l sh a v ed i m r e n tm e t a d a t a b yt h eu s i n go ft h ed a t aw a r e h o u s e t h ep r o b l e mo fm e t a d a t am a n a g e m e n ta n d m e t a d a t ai n t e r c h a n g ei ss t a c k i n go u t i na l l u s i o nt os u c hm e t a d a t ap r o b l e m s o m gb r i n g sf o r w a r ds o m ec o r r e s p o n d i n g t e c h n i c a ls p e c i f i c a t i o n s 瑚i sam e t a d a t ai n t e r c h a n g es t a n d a r dp u tf o r w a r db yo m g a n dc w mi sad a t aw a r e h o u s em e t a - m o d e ic r i t e r i o nf r o m0 m gc o n f o r m i n gt ot h e s e s p e c i f i c a t i o n s 也et h e s i se x p o u n d st h ea r c h i t e c t u r eo fc w m a n dt h ex m i g e n e r a t i o n p r i n c i p l e s m e a r i w h i l e ,a st h ei m p o r t a n tc o r r e l a t i o nt e c h n o l o g i e s ,t h et h e s i sa l s o i n t r o d u c e st h et e c h n o l o g yo f m e t a d a t aa n dd a t aw a r e h o u s e o nt h eb a s i so fs t u d y i n ga n dc o m p r e h e n d i n gc w i v la n dx m it e c h n o l o g i e s t h e t h e s i ss t a r t st h er e s e a r c ho f m e t a d a t aa p p l i c a t i o na n dm e t a d a t ai n t e r c h a n g e f i r s t l y , b y c o m b i n i n gad a t aw a r e h o u s ep r o i c o tj n s t a n c e i tr e d e s i g n st h ep r o c e d u r eo f i m p l e m e n t i n ga 。w a r e h o u s et h e m eb yk e e p i n gt ot h ec w ms p e c i f i c a t i o n t h i sa c q u i r e s am e t h o do fd e s i g n i n gt h es t a n d a r dd a t aw a r e h o u s e ,b e c a u s ew a r e h o u s e sb a s e do n c w mh a x , e 出es a m em e t a m o d e l s e c o n d l y , b yf o l l o w i n gt h ex m ig e n e r a t i o n p r i n c i p l e s t h et h e s i sr e a l i z e sap r o g r a mt h a tc a nc o n v e r tu m lm o d e l si n t ox m i d o c u m e n t s t h u sb yr u n n i n gt h i sp r o g r a m i tc a nt r a n s f o i t nm e t a - m o d e ld a t ai n t ox m i f o r m a tw h i c hi sas t a n d a r di n t e r c h a n g ef o r m a t k e y w o r d s :m e t ad a t a ,m e t am o d e l ,d a t aw a r e h o u s e ,u m l ,c w m ,x m i 1 1 论文的背景 第一章绪论 传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处理、 批处理、决策分析等各种数据处理工作,但这些应用主要是联机事务处理作为主 流的。然而,应用在不断地进步。当联机事务处理系统应用到一定阶段后,企业 用户便发现单靠拥有联机事务处理已经不足以获得市场竞争的优势,他们需要对 其自身业务的运作以及整个市场相关行业的情况进行分析,而做出有利的次策。 这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。这种基于 业务数据的决策分析,即联机分析处理,具有非常重要的作用。而数据仓库正是 进行联机分析处理的基础。数据仓库的构建对于形成企业应用集成和企业的统一 视图等,对于对企业良好地明确企业自身的内部运作,企业发展状况和发展分析 等都具有极其重要的价值和意义。因此,在观阶段,一些大型的企业,比如金融 银行、保险公司和电信运营商等等类似的大型企业都需要或者正在构建各自的 数据仓库系统。一 但是,数据仓库系统是一个庞大和复杂的系统。对于实现这样一个庞大复杂 的系统,已经不是单单一个应用工具就能够完成的任务。可能在不同数据仓库分 析主题上、或不同的数据仓库构建阶段中、或者不同的实现项目组( 甚至同一项 目组内) 的不同构建阶段。实现数据仓库抽取和生成立方体的工具都可能是不相 同的。这些开发数据仓库的工具可能是不同的软件厂商提供的,不同工具的元数 据也就具有不同的语义和格式,元模型更是各不相同。这样,对现有数据仓库系 统进行升级改进时,对原开发工具结果的利用程度则依赖于对原开发工具元数据 的理解程度 现实数据仓库系统往往是一个个独立的数据集市,而要建立更高层 的统一数据仓库,则需要对各个数据集市进行集成,这就需要对各数据集市开发 工具的元数据速彳亍理解、管理和工具之间的元数据交换。 因此,数据仓库系统的元数据的管理和元数据交换已经成为非常迫切的需 求:良好的元数据管理和交换才能促进数据仓库的更有效利用和进行一步的升级 发展。 因此,为了实现元数据的交换,也蔫要对应用工具的元数据进行抽象和建模。 因为某一应用工具对其自身的元数据是已经经过抽象模型化的,也即是一科l 工具 自身的元模型,所以要支持不同工具的元模型就还需要对这些元模型进行抽象, 建立一种能够支持各种工具元模型的元元模型。m o f 正是o m g 组织提出的这 样的一种元元模型。基于m o f 模型,o m g 还定义出遵循该模型的元数据交换 格式,即x m i 规范。这样支持x m i 规范的应用工具之间就能够相互交换元数据。 遵循m o f 元数据标准,对数据仓库元数据进行建模o m g 提出了通用数据仓 库的元模型标准c w m ,这样遵循c w m 构建的数据仓唪便具有一个相同的元模 型规范,因而支持c w m 的数据仓库构建工具便能够相互交换结果元数据。 数据仓库元数据交换的需求和o m g 一系列相关标准的制定,i r 足阳此背景 下作者开展了对数据仓库元模型和元数据交换的研究。 丝室墅盘盘生题堑茳生盘童 互! ! 垂 i 2 论文的意义 论文对数据仓库的通用元模型( c w m j 、基于x m l 的元数据交换格式fx m ) 等主要理论知识和相关理论( 如m o f ) 等进行了研究,并在论文中详细阐述了 c w m 的基本结构,x m i 的生成原理等。然后,作者研究c w m 的实断:应用力法 遵循c w m 规范,对现实数据仓库的构建流程进行重新i 殳计:因为c w m 也是基 于u m l 标准的,c w m 中类规范都是通过u m l 表示出来的,所以作者再设计 出u m l 对象图到x m i 的转换程序,该程序具有通用性,即u m l 的对象图都可 以通过该转换程序,得到适于交换的标准x m i 格式文档。 1 。3 论文的主要工作 论文的目的是为了实现数据仓库的元数据交换。因此,主要的研究工作包括 下面几个部分: 理论研究:元模型标准m o f 、统一建模语言u m l 、通爿j 数据仓库7 t 模型 c w m 、元数据交换标准x v i i : 实践研究:c w m 中数据仓库构建过程的u m l 表示、u m l 对象图到x m i 的 转换实现。 完成上述工作内容的情况下,获得的主要成果是设计出基于c w m 的数据仓 库体系结构的数据仓库构建的u m l 模型,和该模型到x m i 的转换。这是数据 仓库之间交换元数据进行信息交换的基础。 1 4 论文的结构 因为本论文涉及到许多的最新技术,为了对本文的结果有一个清楚的认识 作者将其中重要的相关技术都做了简要的介绍,并组成如下论文结构: 第二章介绍了整麓论文的基础技术:元数据的基本概念。因为本文的主题 是通用数据仓库元模型和元数据交换的硎究,而这都是元数据知识的相关理论。 然后该章再简要介绍一下统一建模语言u m l ,因为研究对象c w m 的表示形式 都是用u m l 的。 第三章介绍了数据仓库基础知识和c w m 相关理论。此章节介缁了c w m 的 组成结构、特点、设计目标及其适用范围等。 第四章介绍了元数据交换格式标准x m i 技术。重点介绍了x m id t d 的设 计准则和x m ix m l 文档的生成原理等: 第五章则是本文的实践部分,在本章中描述出通用数据仓库元税掣中关于数 据转换部分的u m l 对象图形;然后设汁出u m l 对象图到x m i 的转换程序; 第六章是论文的总结,说明了个人工作和现存问题等。 韭盏坚盎盘生塑土竖主生盘主 亟:五 第二章元数据理论和统一建模语言 本论文的研究对象是通用数据仓库的元模型c w m 和元数据的交换格式 x m i ,这些都是关于元数据的理论,所以有必要简单介绍一下元数据的基本概念 和作用。 并且研究对象通用数据仓库元模型是用u m l 来表示出来的,所咀作 为基础,在本章节同时介绍了一下统一建模吾言u m l 。 2 1 元数据概述 2 1 1 元数据的定义 元数据,通常定义为描述数据的数据,旨在便利存取、管理、共享平处理大 量结构化和或非结构化的数据。在过去的几年里,元数据的概念在现实中大量 使用,如为了支持信息检索,或为了软件配置,或为了不同系统之间的数据交互。 对于不同应用领域,元数据有着不同的应用,但这些元数据的存在有两个共同点: 元数据对数据进行描述;元数据的存在是为了更有效地使用数据,元数据是关于 数据的结构数据。 2 1 2 元数据的作用 元数据的定义是“关于数据的数据”,比如传统数据库中的数据字典就是一 种元数据。近年来随着计算机技术应用的广泛化,元数据得到人们越来越多的 关注,这是由多方面的需求决定的。 首先是管理数据的需求。当系统数据量越来越大时检索、使用这些数据的 效率就会降低,通过存储关于系统和数据的内容、组织、特性等细节信息( 这些 即为元数据) 可以帮助有效地进行管理从而提高效率。 第二是系统分布、互通和重用的要求。目前信息系统一个共同的趋势就是信 息共享,要实现异构系统中的信息共享,就需要描述数据语义、软件开发过程的 元数据,而且这些元数据必须标准化,以充分实现分布、互通和重用。 第三是元数据重用、综合的需求。目前,很少有单一工具能满足大型商业应 用的需求,用户常常需要使用多种工具的组合,刁i 同工具之间的数据交换的途径 之一就是通过标准的元数据。 元数据是关于数据的数据,是对“业务数据”本身及其运行环境的刻画和定 义的数据,因此元数据具有上述重要的功能。而且现有企业不仅仅要处理好各 种应用数据,更需要着力从事的是如何建立和管理好自己的企业级的元数据信息 仓储使之成为连接各种应用的纽带和衍生新应用的源泉。本论文难避对企业数 据仓库的元模型( 也即元数据的建模) 和元数据的交换格式进行研究,以达到对 数据仓库的构建和利用上的高效和雨用,“w 2 2 3 元数据的分类 因为元数据有上述重要的作用元数据也得到广泛的应用。列于元数掂从 不同的角度来观察,可以划分为不同的类别。 1 按照与特定领域是否相关,元数据可以讣类为: 与特定领域相关的元数据:描述特定领域内数据在此特定领域内的公共 属性; 与特定领域无关的元数据:描述所有数据的公共属性: 与模型相关的元数据:描述信息和元信息建模过程的数据。该粪犁的元 数据又可分为两类: 横向模型关联元数据:综合现有的两个或多个信息模型,例如两个 不同数据库之间的交互、从多个数据源中提取数据时,就需要这种横向 模型元数据。当不同的信息模型之间要进行互通时,需要模型各个层的 关联描述,即横向模型关联元数据。 纵向模型关联元数据:模型信息层与元信息层之间的关联元数据。 不同的层可以采用不同的模型,上层是下层的结构描述,上下层之间的 对应关联,即纵向模型关联元数据。 其他元数据:例如系统硬件、软件描述系统配置描述等。 2 按照元数据的应用场合 数据元数据,又叫做信息系统元数据。信息系统使用元数据描述信息源, 以按照用户需求检索、存取和理解源信息。于是。元数据保证了在新的 应用环境中使用信息,支持了整个信息结构的演进。 过程元数据,又叫做软件结构元数据。是关于应用系统的信息,它帮勘 用户查找、评估、存取和管理其数据。大的软件结构中包括描述各个组 件接口、功能和依赖关系的元数据,这些元数据保证了软件组件的灵活 动态配置。 3 按照元数据的具体内容 内容( c o n t e n t ) :识别、定义、描述基本数据元素,包括数据单元、 合法值域等等。 结构( s t r u c t u r e ) :在相关范围内定义数据元素的逻辑概念集合。 表示( r e p r e s e n t a t i o n ) :拙述每一个幢域( 多为技术相关的) 的物 韭盎竖虫叁耋盟圭生匿生监圭釜豆 理表示,以及数据元素集合的物删f f 赌 女拗。 文法( c o n t e x t ) :提供摹础数据的睡系和i 罾隧评竹,它忽插了所有 与基础数据的收集、处理和使用相黄的信息,“w 2 2 4 元数据的标准化 现实中元数据已得到了广泛的应用,并发挥着重要的功能但在不同的场合 下,元数据有其自身的表示格式和语义。而元数据最大的价值,在于它能够在系 统所需的各种工具间起复制与协调的作用。比如以数据仓库目前的技术现j 犬而 言,需要各类工具的协同,包括:数据库发汁与建模工具、数据的抽取、确认、 变换和清洗工具、查询分析工具以及性能管理工具等等。为了使这些工具有效地 协同工作,它们就必须对跨越不同环境的元数据能够共享。随着很多大企业着手 构建第二代甚至第三代决策支持数据库,元数据以及由元数据所保证i 钓互操作性 就显得更为重要了。即随着对信息交换处理的需求,要求将这些元数据建立一个 些标准统一起来。而对于元数据的标准,从内容上,大致可分为两类,一是元 数据建模,是对将来元数据的组织进行规范定义,使得在元数据建模的标准制定 之后产生的元数据都以一致的方式组织,从而保证元数据管理的一致性和简单 性。二是元数据交互,是对已有的元数据组织方式以及相互间交互格式加咀规范 定义,从而实现不同系统元数据的交互。目前,主要有以下组织定义了元数据相 关的规范。 1 对象管理组织o m g 0 m g 成立于1 9 8 9 年,o m g 的目标是建立一种行业标准和对象管理规范来 为实际软件开发提供一个通用的构架。o m g 在1 9 9 5 年采用了m o f ( m e l ao b j e c t f a c i l i t y ) 1 9 9 7 年采用了u m l 2 0 0 0 年,o m g 又采用了c w m 。这三个标准: u m l 、m o f 和c w m 形成了o m g 建模和元数据管理、交换结构的基础,推动 了元数据标准化的快速发展。 2 。元数据联合会m d c 由一些数据仓库软件制造商组成的m e t a d a t ac o a l i t i o ni 生1 9 9 6 年形成并公布 了第一个由多厂家认可的元数据交换标准m d i s ( m e t a d a t ai n t e r c h a n g e s p e c i f i c a t i o n ) 。宣称支持这一标准的主要厂家包括i b m 、o r a c l e 、s y b a s e 、 c a 、e t i 和c a r l e t o n 等。m d l s 基本上是一个基于文 牛系统的元数据交换标准。 凡是支持这个标准的厂家,都可以按照m d i s 所规定的格式抽墩元数榭定义,并 将这类定义写到某个结构化的文件中去。凡足遵从造一标准的软f ; 卜,挪1 以读这 个文件并将元数据定义输入到自己的元数据仓储中去加以处理。由于是基于文件 韭室竖皇盘芏题主堑五生熊基茧j 理 0 系统,所以m d l s 有其固有的局限匪。对_ 二静态共享元数据豹批处理环境而言, m d i s 是很适合的;但基本上没有支持动态共享元数据的能力,目前也还作不到 使元数据的变化与时间保持同步。 3 微软的元数据交换标准一m i c r o s o f tr e p o s i t o r y 几乎与标准m d i s 同时,1 9 9 8 年微软公司在发布其数据库产品s q ls e r v e r 7 0 时同时发布了自己的元数据管理软件m i c r o s o f tr e p o s i t o l y2 0 。这个软件不 仅支持u m l ( u n i f i e d m o d e l i n gl a n g u a g e ) ,而且支持开发工具动态读写元数据。 e h 于这些特点,从趋势看,在元数据处理方面,m i c r o s o f tr e p o s i t o r y 很可能发展 成为既支持o l t p 环境又支持决策支持环境的事实上的标准。与m d i s 不同, m i c r o s o r r e p o s i t o r y 是基于关系数据库的系统,因此元数据更新是作为基本事务 加以处理的。另外,开发人员借助s q ls e r v e r7 0 的复制功能,可以使元数据在 不同的数据库间保持同步。 为了推动元数据标准化的发展,m d c 和o m g 在元数据标准的制定上协同 工作。1 9 9 9 年4 月,m d c 成为o m g 的成员,丽o m g 也同时成为m d c 的成 员。m d c 中使用了o m g 的u m l ,而m d c o i m 中的数据仓库部分被用来作 为o m g 的公共仓库元数据交互( c w m l :c o m m o nw a r e h o u s em e t a d a t a i n t e r c h a n g e ) 的设计参考,另外,m d i s 与m i c r o s o f tr e p o s i t o r y 的相互开放已有 很肯定的承诺。首先是m d i s 方宣布,将支持m i c r o s o f tr e p o s i t o r y 作为扩展 m d i s 标准的主要途径;微软也已宣布将保持自己的信息模型对m d i s 的开放性。 在这些组织的技术力量的合作努力下,元数据标准将逐步一致化。 正是对元数据标准化的需求和上述国际组织的努力,提出了元数据相关的许 多的理论。本论文则是学习o m g 组织提出的u m l 、x m i 、c w m 等相关理论, 并对通用数据仓库元模型和元数据交换等方面进行研究。 2 2 统一建模语言 2 2 1 背景 面向对象建模语言的发展始于2 0 世纪7 0 年代中和8 。年代末。从1 9 8 9 年到 1 9 9 4 年,其数量由不到l o 种猛增加到5 0 余种。但使用面向对象( o o ) 方法的 用户却很难找到一种完全满意的语言。 9 0 年代中期,出现了一批较好的方法。其中令人关注的有b o o c h19 9 3 ( 适 用于工业设计和构造) :r u m b a u g h 的o m t - 2 ( 特别适用于以数琚为中心的信息 系统的分析和描述中的应用) :j a c o b s o n 的o o s e ,即u s e c a s e 方法( 支持商业 工程和需求分析) 。它们都是完整的方法,但各有其特色。 u m l 开始于1 9 9 4 年l o 月。先由r m i o n a ls o f t w a r e 公司的g b o o c h 和 l r u m b a u g h 将b o o c h 和o m t ( 这两种方法被公认为是世界0 0 方法的先驱) 统 韭室竖垫盘茎基曼五生垃主墨垂五 一起来,并于1 9 9 5 年1 0 月推出了u m ( u n i f i e dm e t h o d ) 草案o ,8 版:1 9 9 5 年秋, 3 a c o b s o n 参加,把o o s e 也台并进来,这刁称为u m l 。 1 9 9 6 年,一些机构要将u m l 作为商、i k 镇临于是成立了完善和研i 强u m l 定义的机构,即u m l 成员协会,成员包括d e c 、h p 、i - l o g i x 、l t e l i i c o r p 、f b m 、 i c o nc o m p u t i n g 、m c is y s t e m h o u s e 、m i c r o s o f i 、o r a c l e 、r a t i o n a ls o f t w a r e 、t i 以及u n i s y s 等。它们为u m l 开发提供了大量的有价值的技术,结果于1 9 9 7 年 9 月推出了u m l1 1 。i 9 9 7 年“月1 7 日其被o m g ( o b j e c tm a n a g e m e n tg r o u p ) 接纳为标准。目前最新版本为u m l1 4 。c 1 2 2 21 ,的特点 u m l 的主要特点有: ( 1 ) u m l 最重要的是将b o o c h 、o m t 和o o s e 的概念融合在一起。 ( 2 ) u m l 吸收了现有方法中能够提供的功能,特别是关于并发( c o n c u f f e n t ) 、分 布式( d i s t r i b u t i o n ) 系统描述元素。 ( 3 ) u m l 致力于一种标准的建模语言,而不是标准的建模过程。尽管u m l 必须 应用于过程,但实践证明,不同的开发机构和不同的问题域,其建模过程不完全 相同。因此,u m l 首先把重点放在通用的元模型( 用带有文字说明的u m l 符 号表示) ,用来统一语义;然后才是通用的符号表示,用以表示语义提供的表示方 法。 元模型是用于定义对象模型的语言,元模型为u m l 的所有元素在语法上和 语义上提供了单一的、通用的和确定的描述。元模型使开发者在语义上取得了一 致,不仅消除了由于人为因素对语义表示所造成的影响,而且可使工具间的信息 交换和复杂系统的设计在语义上保持了高度的一致。 ( 4 ) u m l 使用图形符号和正文语法为系统建模,用来描述用户的层次模型,在语 义上是u m l 元模型的实例。 从应用的角度看,当采用0 0 技术设计系统时首先是描述需求:其次是根 据需求建立系统的静态模型,以构造系统的结构:第三步则是描述系统的行为。 其中,一、二步包括用例图、类图、对象图、包图、构件图和配置图,这些 是咀。的静态建模机制;第三步包括状态图、活动图、顺序图和合作图,是 u m l 的动态建模机制,其所建立的模型有的是可执行的,有的是表示执行时的 时序状态或交互关系。 由此可见,这些图形符号为系统分析、开发提供了多种图形表示,其有机的结合 使得分析、构造一致的系统成为可能。 2 2 3u m l 模型 u m l 是一种可视化的建模语言u m l 的概念模犁由u m l 的基本毒i = i 造块、 支配这些构造块组织的规则和一些运用于整个u m l 的机制组成。 l 。基本构造块 u m l 中有三种基本构造块,分别是事物、关系承i 罔。 韭豆坚垫盘茎鳕圭量盎生缝圭 越z 豇 事物分结构事物( 包括类、接口、洲- 作、j 干j m 、王动炎、构件年1 7 点j 、fj 为事物( 包括交互和状态机) 、分组市物r 乜) 即注释i f 物r 泣解、 e i m l 中有四种关系,分别是依赖、关联、泛化和实现关系。 r m i h 为系统分析、开发提供了多种图形表示: 类圈:类图展示了一组类、接口和协作及它们问的关系,在建模中所建立的 最常见的图就是类图。用类图说明系统的静态设计视图,包含主动类的类图 专注于系统的静态进程视图。系统可有多个类图,单个类图仅表达了系 统的一个方面。要在高层给出类的主要职责,在低层给出类的属- 肚和谋作。 对象图对象图展示了一组对象及它们间的关系。用对象图说明类图中所反 应的事物实例的数据结构和静态快照。对象图表达了系统的静态设计视图或 静态过程视图,除了现实和原型的方面的因素夕 ,它与类图作用是相同的。 用况图用况图展现了一组用况、参与者以及它们问的关系。可以用用况图 描述系统的静态使用情况。在对系统行为组织和建摸方面,用况图的是相当 重要的。 交互图交互图展现了按一定的目的进行的一种交互,它由在一个上下文中 的一组对象及它们问交互的信息组成。交互圈也可用于描述一个用况的行 为。顺序图和协作图都是交互图,顺序图和协作图可以相互转换。 顺序图展现了一组对象和由这组对象收发的消息,用于按时间顺序对控制 流建模。用顺序图说明系统的动态视图。 协作图展现了一组对象,这组对象间的连接以及这组对象收发的消息。它 强调收发消息的对象的结构组织,按组织结构对控制流建模。 状态图展示了一个特定对象的所有可齄状态以及由于各种事件的发生丽 引起的状态间的转移。一个状态图描述了一个状态机用状态图说明系统的 动态视图。它对于接口、类或协作的行为建模尤为重要,可用它描述用况实 例的生命周期: 活动图活动图是一种特殊的状态图,描述需要做的活动、执行这些活动的 顺序( 多为并行的) 以及工作流( 完成工作所需要的步骤) 。它对于系统的 功能建模特烈重要,强调对象间的控制流程。 高层活动图用于表示需要完成的一些任务,即用于分析用况,理解涉及 多个用况的工作流、多线程及并行,显示相互联系的行为整体,还可用于对 企业过程建模,对系统的功能建模。低层活动图用于表示类的方法。但活动 图不适用于描述动作与对象问的关系显示对象间的合作以及显示对象在生 命周期内的运转情况。 构件图构件图展现了一组构件之间的组织和依赖,用于对原代码、可执行 的发布、物理数据库和可调整的系统建模。 部署图部署图展现了对运行时处理节点以及其中构件的配署。它描述系统 硬件的物理拓扑结构( 包括网络布局和构件在网络上的位置) ,以及在此结构 上执行的软件( 即运行时软构件在节点中的分布情况) 。用部署圈泌明系统 结构的静态部署视图,即说明分布、交付和安装的物理系统。m , 韭室坚皇盘生堕圭丑盂生盘主 星8 五 2 运用构造块的规则 u m l 用于描述事物的语义成则分刑是:为牡物、灭系和幽i j i 了名;给一个名 字以特定含义的语境,即范围i 怎样 吏q 或行她名暑f ;! 】可1 也惟:事物押伺i j - 确 一致地相互联系,即完整性;运行或模拟动态模型的含义是什么,即执行。另外, u m l 还允许在一定的阶段隐藏模型的某些元录、遗漏某些元素以及不保汪模型 的完整- 性,但模型逐步地要达到完整和一致。n “ 3 u m l 的运用机制 有四种在整个语言中一致应用的机制,使得该语言变得较为简单。这四种机 制是详细说明、修饰、通用划分和扩展机制。 u m l 不只是一种图形语言。实际上,在它的图形表示法的每部分背后都有 一个详细说明,提供了对构造块的语法和语义的文字叙述。 u m l 表示法中的每一个元素都有一个基本符号这些图形符号对元素的最 重要的方面提供了可视化表示,对元素的描述还包含其他细节。例如,一个类是 否是抽象类,或它的属性和操作是否可见。要把这样的修饰细节加到基本符号上, 在对面向对象的系统建模中,至少有两种通用的划分世界的方法:对类和对 象的划分:对接口和实现的划分。u m l 中的构造块几乎都存在着这样的两分法。 u m l 是开放的,可用一种受限的方法扩展它。u m l 的扩展机制包括构造型、 标记值和约束。l t 3 1 u 毗是近年来推出的一种基于面向对象( o o ) 的可视化图形建模语言,用于 对软件系统进行说明、构造和文档建立;u m l 中的u 有两个方面的含义:一是 它有效地消除了原有建模语言间的差异;二是它统一了存在于不同类型系统中的 需求分析、设计、实现,以及内部概念中的观点和认识。正是如此,u m l 被广 泛地用于应用领域和多种类型的系统建模,如管理信息系统、通信与控制系统、 嵌入式实时系统、分布式系统、系统软件等。近几年还被运用于软件再工程、质 量管理、过程管理、配置管理等方面。u m l 已经取得重要成功,它已成为在软 件工业中占支配地位的建模语言,并在许多领域的软件开发中得到应用。( 当然 u m l 还存在许多的问题和待改进的地方,o m g 也正在对u m l 作重大修订,努 力推出u m l 2 0 。) 些室叠垫基兰登主叠盂生盘墨基2 直 第三章数据仓库、通用数据仓库元模型 3 1 数据仓库理论概述 数据仓库是近年来兴起的一种新的数据库应用。传统的数据库技术是以单一 的数据资源,即数据库为中心,进行事务处理、批处理、决策分析等各种数据处 理工作。处理主要的划分为两大类:操作型处理和分析型处理f 或信息型处理) 。 操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是对个或一组 纪录的查询和修改,主要为企业的特定应用服务的,注重响应时间,数据的安全 性和完整性:分析型处理则用于管理人员的决策分折,经常要访问大量的历史数 据。而传统数据库系统优于企业的日常事务处理工作,而难于实现对数据分忻处 理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离 成为必然。因此,随着数据库技术的应用和发展,人们尝试对数据库中的数据 进行再加工,形成一个综合的,面向分析的环境。以更好支持决策分析,从而形 成了数据仓库技术( d a t aw a r e h o u s i n g ,简称d w ) : 3 1 1 数据仓库的定义及特点 目前,大家公认的数据仓库创始人w i l l i a mh i n m o n 在他所著的 b u i l d i n g t h ed a t aw a r e h o u s e ) ) 一书中对数据仓库所下的定义是:数据仓库是在企业管理和 决策中面向主题的、集成的、稳定的、随时间不断变化的数据集合。由这个定义 可以看出数据仓库主要有以下四个特点: 面向主题:与传统数据库面向应用进行数据组织的特点相对应,数据仓 库中的数据是面向主题进行组织的。主题是个抽象的概念,是在较高 层次上将企业信息系统中的数据综合、归并进行分析利用的抽象。在逻 辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。面向 主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完 整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各 项数据,以及数据之间的联系。 集成的:所谓集成,是指数据仓库中的信息不是从各个业务处理系统中 简单抽取出来的,而是经过系统加工、汇总和整理,以确保数据仓库内 的信息是关于整个企业的一致的全局信息。这一步是数据仓库建设中最 关键、最复杂的一步。 稳定的:数据仓库的数据反映的是一段相当长的时间内历史数据的内 容,主要供企业决策分析之用。与面i 司应用的事务数据库需要对数据作 频繁的插入、更新操作不同,菜数据一旦进入数据仓库,一段情况下将 被长期保留,很少进行修改和利除操作。 随时间不断变化的:数据仓库内的信息并不只是关于企业当时或某一时 点的信息,而是系统记录了企业从过去某一时点f 如开始应用数据仓库的 j 室蛏垫基芏塑主叠孟生监墨亟! q 珏 时点) 到目前的各个阶段的信息,越过这些陪恩,司以对企业的发j 怯历程 和未来趋势做出定量分折刺预测。因此数掂仓库系统必颁1 i 断捕捉 o l t p 数据库中变化的数据并存绎过统一集成后装载到数据仓睬中。 当然,数据仓库中的数据也有存储期限会随删问变化不断删去旧的数 据,只是其数据时限远比操作型环境的婴长,比如根据需要可保存1 0 年内的历史数据。1 6 | 3 1 2 数据仓库支持决策的作用 从以上的概念来看,数据仓库似乎是一个静态的概念,有些人认为数据仓库 是一个大型的数据存储机制。事实上,数据仓库是一个工程的概念,是一个动态 的概念。数据仓库的根本任务是把数据加以整理归纳,并及时提供给相应的管理 决策人员,供他们做出改善其业务经营的决策,使信息发挥作用,支持决策。主 要表现在: 第一,数据仓库有效集成了企业的业务数据,提供了标准的报表和图表的 功能。数据仓库的报表和图表是关于整个企业集成信息的报表和图表,其中的数 据可来源于不同的多个事务处理系统。从而为企业提供了按照主题的多方位的决 策支持。 第二,数据仓库可以对分布在不同系统的业务数据进行清洗和加工。数据仓 库的源数据可能来自许多异构的事务处理系统,它们具有不同的数据格式和数据 存储管理组织,数据仓库可以按照面向主题的原则对这些数据进行清洗和加工, 使它们成为统一格式的易于使用的支持决策的数据。 第三,数据仓库支持多维分析。多维分析是通过把一个实体的多项重要的 属性定义为多个维度,使得用户能方便地汇总数据集,简化了数据的分析处理逻 辑,并能对不同维度值的数据进行比较,而维度则表示了对信息的不同理解角度, 例如,时间和地理区域是经常采用的维度。应用多维分析可以在一个查询中对不 同阶段的数据进行纵向或横向比较,这在决策过程中非常有用。 第四, 数据仓库技术可以帮助企业决策者对企业未来状况作出预测。数据 挖掘技术是数据仓库表现的关键技术。数据挖掘技术可以在已有数据中识别数据 的模式,以帮助用户理解现有的信息,并在已有信息的基础上,对未来的状况作 出预测。在数据仓库的基础上进行数据挖掘,就可以针对整个企业的状况和未来 发展作出比较完整、合理、准确的分析和预测。 第五,成功的数据仓库系统可以为企业带来高的投资回报。结合企业业务 现状,数据仓库可以建立在原有运行系统之上企业可以在以分主题方式对原来 运行数据重组的基础之上,为了某种支持特定决策的需要,再跨主题进行数据重 组,这就需要数据集市( d a t am a l t s ) 了。数据集市是聚集的、面向主题的数据 仓库,它简单、灵活,并且建立速度更快,花费也更低廉。通常情况下,企业将 建立一系列数据集市,用来处理一定范畴的问题快速决策意味着企业可以对市 场机会做出快速反应,这将为企业带来巨大的商业利益。 韭盏坚垫盘生墅主置立生谴主 垡! ! 区 3 。1 3 数据仓库系统体系结构 一个典型的企业数据仓库系统迎j 节芭占数锯协“数她矗:浦与- 叠耻、o l a p 嫩 务器以及前端工具与应用四个部分。 ”侧:固。_ : 一i 、一:n 、篓: 茸矗产ij d p 羲,。 赢! 园t 二7 二_ 3 j0 f i 一矗墨蠹+ 一矗鼍舟村与管呷卜- lj 苫叠善一。? 毫1 1 4 _ 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内 i l d b m s 中) 的各种业务数据和办公自动化l o a ) 系统包含的各类文档数据。 外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据 数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的基础 上,对数据进行抽取、清理并有效集成,按照主题进行重新组织,最终确定数 据仓库的物理存储结构,同时组织存储数据仓库元数据( 具体包括数据仓库的数 据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息) 。 按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库 ( 通常称为“数据集市”,d a t am a r t ) 。数据仓库的管理包括数据的安全、归档、 备份、维护、恢复等工作。这些功能与目前的d b m s 基本一致。 o l a p 服务器:对分析需要的数据按照多维数据模型进行再次重组。以支持 具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析 3 1 4 数据仓库的建设 企业级数据仓库的建设通常有两种途径:一种足从建造某个部门特定的数据 韭室堡垫盘兰堕圭叠盎生垃塞 堑! :噩 集市开始,逐步扩充数据仓库所包含的主题毋j 范删,最后形成一个能够宠全反畎 企业全貌的企业级数据仓库;另外一 4 呗i j 是从开。始就从企业b 栏体束考虑数据 仓库的主题和实施= 前一种方法类似于软件工程中的“自底向上”的思想,投资少、周期适且易 于见到成果,但由于该设计开始时是以特定| 勺帮f 1 缎丰题为框架的,向j 匿它晌黼 门和主题扩充往往比较困难。两最后种方法恰恰相反,“自顶向下”,投资大、 周期长。在企业的实际应用中往往采用前一种方法。“自底向上”地建设数据仓 库,并不意味着不需要在设计阶段的长远规划。采用逐步积累的方式建立数据仓 库,最大的闽题就是已有的框架无法把新的业务集成进来。因此在设计阶段就必 须充分考虑这一点。例如,部门级的主题是否有助于形成企业级的主题, 数 据抽取模块是否能重用等。数耀仓库的长远规划,并不仅仅是技术部门的事情 应当把数据仓库的构建作为企业发展战略的一个组成部分。在设计阶段需要不同 部门的沟通和协调,技术框架和系统设计必须从栏个企业的角度来考虑,即使剐 开始实篪的时候是面向某个部门的。从这一点来看,建立一个企业级的数据仓库, 主要的障碍不在于技术,而是不同部门之间的镏织、协调问题。“m 数据仓库是一种管理技术,它能够将分布在企业网络中不同站点的商业数据 集成到一起,为决策者提供各种类型的、有效的数据分析,起到决策支持的作用, 在数据库技术领域,一个关系解决方案的出现,要提供比硬件多层处理器所实现 的更高的灵活性。2 l 世纪电子商务将更加复杂,在很多内部和外部信窟、人员 和处理过程等资源都需要新层次的连接。建立起数据仓库系统和企业信息门户系 统将会让企业能够不断对变化的市场信息进行高度集成和快速响应,促迸企业的 知识链和供求链的活跃,使其具有巨大的竞争优势。 3 2c 张相关理论概述 3 2 1 引言 c w m 的提出主要基于以下背景: 从数据仓库开发者的角度( 饥p e r s p e c t i v e ) :单一工具很少能完全满足用户 不断交化的需求,同时又很难对现有各种产品进行集成: 从数据仓库用户的角度( u s e rp e r s p e c t i v e ) :面对的信息量太大,无法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 项目投标开发协议书
- 高价买房认购协议书
- 酒店房屋转租协议书
- 车辆维修风险协议书
- 进驻健康驿站协议书
- 销售人员驻点协议书
- 装修合同定金协议书
- 银行发卡服务协议书
- 养殖鸡合伙合同协议书
- 乒乓球馆会员卡协议书
- 兽医传染病学PDF
- 软件生存周期过程控制程序
- 钢制列管式固定管板换热器结构设计手册
- 注塑车间平面规划图OK
- 幼儿园中班音乐《小雨沙沙》微课件
- 西铁计202119号 中国铁路西安局集团有限公司关于印发《西安局集团公司地方涉铁工程建设管理办法》的通知2021-01-25
- 光伏发电项目试验计划
- 2023年全国青少年航天知识大赛题库
- 《一棵小桃树》阅读
- 髋臼及股骨骨缺损的分型及评价-课件
- 上海市华师大二附中2022-2023高二下学期期中政治试卷
评论
0/150
提交评论