




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)基于电信数据仓库的etl元数据研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
昆圳型1 :大学毕业避义基于敷癌数据仓蓐的e t l ,毫数攮研究o ,实现 摘要 据统计,一个组织的数据量每5 年翻番,如何管理这些庞杂的数据 并使之用于决菠支持就成为每个组织的迫切要求。数据仓库( d a t a w a l - e h o u s e ) 技术就是谯这样的要求下产生并发展起来的一个研究领域。 它将多磅异质冥构的数据源集成综合在一起,形戏一个统一豹信息平台。 它是一秘公认的解决企业虽捆有太量数据却难以及时鸯效豹提取决策所 零售悬的有效途径。 元数据( m e t ad a t e ) 是数援会痒鑫冬一个霪要懿组成部分,是联系数 舔仓痒串各都分静纽带。它作用于数据仓痒豹刽建、缎护、篱毽萃嚣经用 的各个方面。然而在实际应瘸串,一个企照遥常存在多个不阂的数据集 市系统,丽每一个系统又使鞲蔫多个不同的数攒仓痒和在线分丰斤工其, 各系统和各工其中元数据的数据格式、数据模壅和筏用方法等鄱不一致。 形成了元数据分立的简面,严重阻碍了数据仓库的有效利用。解决元数 掘集成的问题,j 下成为诸多组织和研究机构的研究热点。 本文主要介绍了元数据的有关内容,提出了一种解决元数据集成的方 案。并讨论元数据管理策略和元数据集成体系结构。最后。运用r a t i o n a l 的r o s e 建模工具对电信数据仓库建模和设计e t l 工具使数据从数据源 经过抽取、转换和装载在元数据的管理之下集成到数据仓库里。 关键字:数据愈库元数据 昆埘型丁大学毕业论文 基于电信数据仓库的e t l 元数据研究与实现 a b s tr a c t i tisr e p o t te dt h a tt h ed a t aq u a n t i t yo fa no g a n iz a t io nd o u b l e s e v e r y 5 y e a i s s 0h o wt 0 m a n a g e t h o se c o m p l i c a te dd a t l 9 , a n dt h e n h a vet h e mf a c i l i t a t e dd e c is i o n sm a k i r l g h a sb e e nt h el 1 r g er l td e m & r l d 0 fev e r yo r g a n iz a t i o n u n d e rt h is r e q u i r e m e n tt h er e s e a r c hf ie ld o fd a l aw a r e h o u s eis d e v e l o p e d i ts y n t h e s i z e sh e r e r o g e n e o l isd a t a r e s o u r ce st of o r mau i 1 if o r md a t ap l a t f o r m d a t aw a r e h o u s eh a sb e e n 1 7 e c o g n i zeda ne f f ic i e n ts c h e m et o c o m p a n i e sw h oo w n 1 a r g ee t m o u n t o fd a t ao i 1 da r en o ta b l et oe x t r 8 c to u t i n f o r m a t i o i 3v a l u a b 】ef o f m a k ed e c is i0 n s m er a d a r aisa n i m p o r t a n ts e g m e n to fd a t aw a r e h o u s e i tis th e 1 in k0 fd i f f e r e n tp a r tso fd a t aw a 】: e h o u se i tf u n c t i o i l s in e v e r y d e t a i lo ft h ee s t a b l i s h m e n t ,1 1 1 8 , i n t er l a r l c e ,m a , r l a g e m e n l ;a n du s a g eo f d a t aw a r e h 0 us e 1 3 u tf o ri - e a l a p p l i ce l , t i 0r 1 or t e c o m p a n yu s u a l ly h a s af e wd if f e r e i 3 td a t am a r k e ts y s t e l n s 。8 , 1 1 de a c hs y s t e mh a y ed if f e r e r l t d a t aw s , r e h o u s esa n do n l i n ea n a l y s isa p p l ic a t i o n s t h ed a t af o r m a t d a t am o d u l ea n d o p e r a t i o no fe a c h s y s t e m a n d a p p l i c a t i o i 1a r e d jf f e r er l t t h ust h e i n c o r l l p a t i b l e m e t a d a t aisr e s u l t e d w h ic h g r e a t lyh a m p e r e d t h e a p p l i c a t i o n o fd a t aw e l , r e h 0 us e t t o wt 0 jn t e g r a t em e t a d a t ah a sb e e nah o t s p o t o fm a n yo r g a n iz a t i o n sa n d r e s e o , r c hin s t i t u t e s t h is p a p e ri n t r o d u c e dt h ec o r l c e p t i o r l sr e l a t e dt om e t a d a t a a n a l o p r o a c h t oi n t e g r a t e m e t a d a t ais p r o p o s e d t h e n t h e m a n a g e s t r a t e g y a n dt h e i n t e g r a t es y s t e mc o n s t r u c t i o no fm er a d a r aa r e d is c u sse d f in a l l ym o d e l i n gt h et e l e c o l nd a t aw a r e h 0 u s ew i t ht h e m o d e l i r l ga p p l ic a t i o i l s0 fr a t i o n a lr o s e ,a n dd es i g ne t la p p l ic a t io r l toe x tr a c t ,t r a i 3 s f o f ma l l d1 0 a dt h ed a t af r o mt h ed a t ar e s o u r c et o i n t e g r a l eif i t 0d a t aw a r e h o u s em a n a g e db yj 1 】e t a d a t a k e yw o r d s :d a t aw a r e h o u s e :m e t a d a t f l , i i 昆明理工大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下进行 研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做 出重要贡献的个人和集体,均已在论文中作了明确的说明并表示了谢 意。本声明的法律结果由本人承担。 学位论文作者签名: 杨务存、 日 期:d 汹乒年占月7 日 关于论文使用授权的说明 本人完全了解昆明理工大学有关保留、使用学位论文的规定,即: 学校有权保留、送交论文的复印件,允许论文被查阅,学校可以公布 论文的全部或部分内容,可以采用影印或其他复制手段保存论文。 ( 保密论文在解密后应遵守) 导师签名:兰救论文作者签名: 隧嗡磷1 :大学毕照论文 基予电信数据仓库抟e t l 元数据嚼究与蜜避 。 。课题背景 第一章1 前言 目前中国经营通信业务的公司有:中国电信集团公司,中国移动通 信集团公司,中国卫星通信集圃公司,中国联合通信集团公司,中国网络 通信集闺公司以及最新加入的中国铁通通倍集团公司已形成了国内通信 行业的竞争格局。随着加入w t o 来自国外的竞争将会更加激烈。 市场经营据局由楚峨走向竞争。垄断剐开始对会导致篱额的利润但随 骜对闼的煺长,因为蟹理松懈蘸成本岗居不下,必然导致利润的下滑。两 放蚣管铡,打破麓叛,健遴竞争,才能使中国躲避售公邋掇有较强的竞 争力,来霭: 对国辨竞争考熬攫战。 毫倍工作者希望髓够迅速,方便的麸杂乱无搴懿数据中提取毒意义熬 信怠:丽决策纛还希望畿够攀l 罱这些信意分辑照务运行状况,辅劲浃策。 这稀我们西恼静阍憨不仅怒篱单静楚理数舔( 搡俸垄) 丽楚魏俺经最数据 ( 分析型) ,因为电信的策略径价值越来越受到重褫。因就,构建穰信信 息数据仓库意义重大。势在必行。 元数据是“关于数据的数据”,它贯穿于数据仓库的设计和开发、运 行和维护的全过程,是成功的数据仓库的熏要组成部分,它可以帮助数 据仓库项目小组明确而全两地理解潜在数据源的物理布局阻及所有数掘 源的业务定义,帮助数据愈库用户有效地使用仓库中的信息,帮助数据 库管理员了缎某些表的变化将对数据仓库产生怎样地影响以及不同巍业 过程对应的应题等等。项慰小组在开发过稷中应当识别元数据并将它收 入到元数攫库中,实旌适当的过程撼提企业数摄结构和应恩的变化,从 薄修改相痰匏元数摄,并两用户提+ 供逶娄豹工舆谚翘元数据。 因忿,奉文遥过建立一个电信数据仑痒靛e t l 元数摄管理平台,隶望 辩龟信数据仓库豹建立和健舔进行有益懿探讨和研究。 昆埘域下大学毕救论文 基于电倍数据仓霹薛e t l 无数据研究与蜜现 2 ,论文主要内容 1 2 。l 。研究内容 本义首先对数据仓库技术进行了研究,同时对电信数撕;仓库的元数据 豹集成进露了深入豹搽讨,据如了e t l 元数据管糕乎台黔设计模型,劳 给出了具体的实现。 l 。2 2 。论文安攘 具体的各章节的安排论述如下:, 第:章,套绍了数攥仓痒申豹元数据察元数蠢模鳖耱蒸零甄识。并分 绍了基于模型的元数据集成解决方案。 第三章,讨论暹常僚猛下靛元蘩糕管理策疆。谬缨逮介绍了任侮合瑗 的、一致的元数据管理策略通常都包食的基本特征。 第西章,深入探讨元数据集成体系结构静概念,通过搐述一魑特定静 体系结构视点来为元数据集成解决方案提供一个黛砸描述。并对其中两 个关键的褫点元数据互涟体系结构和元数撼生命周期体系结构进行了箍 述。 第五章,运用r a t i o n a l 的r o s e 建模工具对电信数据仓库建模和设 计e t l 工凝使数摆双数据源经过抽取、转抉秘装载在元数据的赞理之下 集成到数据仓库熙。 麓六章,全文总结。慰全文俸一令总缝势绘塞避一步夔工佟。 星捌瑾1 1 走学擎鼗论文纂子毫蓓数攥龟瘁懿e t l 茏鼗懿鞭蠢与窭蠛 2 1 引言 第二章数据仓库的元数据模型 元数据( r i l e t ad a t a ) 就是描述数据的数据或是与数据有关的信息, 通常出信息绐构的撼述组成。元数据对不同厂商提供的不同软件系统和 产品之问的集成起着不可或缺的作用。异类软件产懿、应用程序、报表 工具和数据痒系统之趣要想进彳予窍效域操终,必须对彼此靛莹息结均具 有共同的理解,因而也就需要一种通用的语蠢来描述和交流元数据,进 嚣也篱要毒支持元数攥交换赘橱难接蜀稻强滚。 数据仓库和业务分析领域中各类组成信息供应链( i n f o r m a t io n s u p p l yc h a i n ) 懿筑传( 磐关系数据疼、e t l 、0 l a p 黢务器、分耩、霹视 化、报表工舆) 拥有大量的元数据结构。如圈2 - 1 这些组件和元数据紧 密稿关,将元数据绍蔻它髓搡俸轻骚务静基萋i | 。然舔,霹大部分舞蓬软 件产晶和系统来说,很容易地就基享元数据几乎是不可能的。不同的厂 商生产静大多数产黼有不麓的元数据穰鏊( 郎元模滋,m e t am o d e l ) , 并使用其专门的发布元数据。对于试图集成这些软件产品、工具期应用 软件黔厂商和消费者组织祷言,这些熬异使得他们在花费大量的人力鞠 力的情况下,仍然雉以完成集成的工作,投资圊报率很底。 图2 - 1 信息供应链 a 乎瘊毒豹集袋都要浓在不鬻懿元模型之麓撂建定髑静耩( b r i d g e ) 。 雨搭建这种桥不仅赞时费钱,逐会产生许多新的软件模块。这些模块虽 然在零质上筏行裙黼躯功能,毽帮难 蔓在萁集成过稷中重羹l 。 由于数据仓库越来越以网络为中心( 例如,使用数据仓库来存储和分 析各个氇市毫信分髑的数据) ,对数据仓库谶行健嵇的元数据集成的需 昆驯理工人学毕业论文基于电信数据仓库的e t l 元数据研究与实现 求增长了,特别是当数据仓库组件在异类、协作和分布式的应用程序环 境中部署的时候,更加需要进行元数据级的集成。 2 2 元数据模型 元数据是描述其他数据的数据或者信息。这些数据或信息主要指被各 种软件产品、工具、应用软件以及数据库处理的业务数据。一个特定的 软件产品( 例如,一个关系数据库系统) 只有在对可用的数据进行精确 定义之后才能有效地对其进行处理。元数据正是用于此目的的。 软件产品只有对在它们之间流动的数据有一个公共的理解之后才能 有效的进行集成。元数据能满足这种要求。基于软件产品内部使用的相 同的元数据进行产品间集成会产生很多问题,因为基于产品内部的元数 据进行产品外部集成的难度很大,大多数的产品都有不同的或不兼容的 内部元数据和显示其元数据的专用接口。 元数据要想有效地表示它所描述的数据,必须能够准确地描述那些数 据。否则,就不能保证会正确地执行基于元数据的那些数据操作。元数 据通常只描述数据的某些本质特征,而并不描述它的所有方面。一般而 占,元数据必须抽象丽简洁。它不需要描述数据的所有特征而只需要描 述在该数据上执行操作所需的少量信息。元数据描述的内容必须准确而 无歧义。 通常,模型( m o d e l ) 这个词用来描述对现实世界某个事物准确而抽 象的表示。数据是现实世界中某些对象的形式化模型,元数据是数据的 抽象描述,是数据的形式化模型,该描述准确地描述了数据。元数据还 必须依照某些规则进行设计,以确保正确地形成元数据。这就保证了当 任何一个遵循元数据表述规则的软件产品在相应的数据上执行操作时, 总能f 确地解释这些元数据。例如图2 2 中的简单关系型表模型。 l l t a b l e + 1 一 溷n a m e :s t r i n g :0 , 凝i s a c t i w :b o o l e a n ; 一一一。一一。- 一 j 图2 2 简单关系型表模型 n g s t r i n g 篙! 型焉_ a a 蕲壁 昆叫理工人学毕业论文 基于电信数据仓库的e t l 元数据研究与实现 这个简单模型是用u m l 描述的,它抽象地描述了任何由已命名列组成 集合构成的关系型表。每个关系表有一个名字,表中包含的每个列都有 一个名字和相应的数据类型,数据类型可定义为字符串,其值表明该数 据的类型。一个表可以含任意多个列,在图中由表和列之问的关联表示。 这个关系型表模型描述的并不是某种关系型表,而是描述关系型表是如 何定义的。要定义一个实际的表,还需要创建表模型的一个实例 ( i n s t a n c e ) 。图2 3 显示了一个存储产品数据的简单的关系型表的u m l 实例图( i n s t a d - c ed i a g r a m ) 。p r o d u c t 表由三列组成:i d ( 唯一地标识 每个产品) 、n a m e ( 定义每个产品的名字) 、c o l o r ( 标明某个产品的颜色) 。 这个实例图是通用关系型模型的一个实例。通用模型规定一个表可以拥 有多个列,而实例中有三个这样的列。每一列都有名字和数据类型,就 像通用模型所规定的那样。p r o d u c 表也有名字,符合通用模型的规定。 i s a c t i v e = t r u e i i 一 l d a t a f t y p e = ”i n t e g e r ” d a t a t y p e = “s t r i n g ” ld a t a l t y p e = ”s t r i n g ” : 图2 - 3p r o d u c t 表实例 图2 3 中的实例图描述了一个特定关系型表的结构,它可以在一个关 系数据库管理系统中实现。用结构化查询语言数据定义语言( q u e r y l a n g u a n g ed a t ad e f i n i t i o n l a n g u a g e ,s o ld d l ) 定义的语句: c r e a t et a b l ep r o d u c t ( i di n t e g e rn o tn u l l n a m ec h a r a c t e r n o tn u l l c o l o rc h a r a c t e r n p t n u l l ) : 当该语句被提交给一个关系数据库系统后,就会构造出p r o d u c t 表。 s 星鞲穗工夫学鼙豫论空 基_ 建l 傣数据仓鬻戆e t l 露数据研究毒实瓣 技这个穗子中鼗嬲霹戳溥骣遣豢裂,强2 2 戆实剿翻是p r o d u c t 凌熬 一个模型,图2 - 2 中的抽象关系型淡模型是p r o d u c t 亵模型的模型( 既 元模型) 。雯羚,孛蠡建p r o d u c t 表熬s q ld d l 可以缀容易邋款p r o d u c t 表模型中得到( 例如,邋过软件读取u m l 实例图并将其翻译成相应的s q l d d l 表餐建语甸) 。当令关系数撂瘴雩l 擎处理s q ld d l 语句露,它生成 描述p r o d u c t 裘的内部元数据,并将这些冗数据存储在关系数据库目录 中。该嚣漾本嚣上是一个元数据懿麟部存储痒,这些元数据楚蔫来捺述 该关系数据库引擎所维护的所有数据的。作为表的创建过程的一部分, 该弓l 擎还为数据库中实现酶表分配掰需酶掰有瓣瑾资源、存储数摇行、 索弓i 等。 由上的介绍可以得弼三个 常重要的络论: l 。一个信息结 勾的任何形式让模型都怒定义该信息结构的元数据。 2 当糟一个形式化的与平台无芙的模型表示元数据时,它可以独立 予 壬俺特定豹黩标乎套褥存农。 3 当用一个形式化的与平台无关的模型表示冗数据时,它可以翻译 残蒺爨与擎台褪关魏模型,镣一令模型代表一令不羁的嚣标平台 可以精到,设计一个不依赖与任何特定的产品和工具的元数据的外部 表示是一耱可器弱解决嚣鼗爨集成秘方渡。蠹予逮耱表示基予信意终拇 的形式化的、与平台无关的模型。因此,可以采用u m l 描述该模型。产 箍雕班餍这样酶澎式稼模型俸舞它蠡己静蠢数禚基磴,逶遥谲雳一个恰 当的导入映射( i m p o r tm a p p i n g ) 过程将这个形式化模烈翻译成自己的、 与平台福关懿元数据酌实铸涞实现。类议的产品w 戳秘糟一个将它蠡己 的内部元数据翻译成一个与平台,无关的形式化模型的导出映射( e x p o r t m a p p i n g ) 过程,将其专有的冠数据展示给其他产品。 2 3 。c w m 所应用静核心嚣模型技术 c w m ( c o m m o nw a r e h o u s e m e t a m o d e l ,公共念黪灵摸墼) 是一令最近 被o m g ( o b j e c tm a n a g e m e n tg r o u p ) 采纳为在数据仓库和业务分析环境 孛避行元数撰交羧豹搽准。c w m 提供? 一秘经过长麓疆究豹逶l 霹l 语言柬搐 述元数据( 基于个一般的假语义丰富的公共数据仓库和业务分析领域 静元模鳘) 。逐缝供了鏊于x m l 静嚣鼗据交换工爨。 6 髓僻鬓丁大学毕鼗论文基予电信数据仓库静e t l 元数据研究,实现 2 3 。1 。统一建模语言 烧一建模语言( u d l ) 是一糖攒述明确、可视化、构造化_ 手文档化系 统( 特别是软件系统) 制晶的谗言。 i ,c w m 莱纳u m l 泌据准,它包挺以下部分: ( 1 ) u m l 语义它定义了u m l 蠢模型豹语义。u m l 元模型为屡次结构, 以包为单位避行缀织。在每仑镪中,模型元素按照抽象语法( 使 用类圈) 、结梅瀣努麓剿( 采雳0 c l ) 和语义( 采瘸英滔) 来 避行定义。 ( 2 ) u m l 符弩辩寻它指定表达u m l 元模登语义鹣蘅形语法( 采用裘 闰) 。 ( 3 ) 对象约束谮言规范它定义对象约束谮言( 0 c l ) 的句法、语义 和语法。o c l 是一种表迭约束的形式化语言。 ( 4 ) u m lx m ld t d 规范应用x m l 的d t d 定义种机制,来交换遵从 u m l 元模型的u m l 模型。 ( 5 ) u m lc o r b a 工舆接口定义使用i d l 来指定一个存储库,它能建 立、存储、操纵u m l 模型。 ( 6 ) u m l 括准预量文 牛为软件野发过程和业务建模定义u m l 预攫 文蚀。 2 。u m l 提供了组成梭造块和结构嶷好嫂则戆运嗣对象建摸语言。 u 瓣l 蓥本熬梅造块包括: ( t ) 模受元素公菸豹蓠海对象概念,翔类、揍蕊、缀件、用鲷等。 ( 2 ) 关系横登元素之阊的联系,魏关联、泛亿、依赖等。 ( 3 ) 鹜一缀可以糟来表示横蝥元素及其相互关系的图形符号,如 类图、对象国、用例图等。 结构良好规则可用柬确保模型或模型片段都符合所有应用于箕上的 语法和语义规则。例如,某种语法规则规定:个类用个水平线分成 三个小矩形的实线矩形表示,顶格中包含类名,类名的第一个字母要大 写,其它两个小矩形中分别包含属性和操作。只有类名是必须的,属性 和操作可以省路。例如,一些语义规则可以用图形符号袋示,包括作用域、 可见性和多蓬性。但大部分的语义规则只能朋0 c l 攒述。 3 ,元数据建模使月u m l 豹静态结构燕模。 静态结擒熬核鉴元素是类、对象、壤牲_ 穰操作。 7 昆l 附删t 人学毕业论文基于电信数据仓库的e t l 元数据研究与实现 静态结构的核心关系包括关联、聚集、泛化、依赖和精化。 4 模型管理 u m l 用包来将模型元素组织成语义上相关联的分组( g r o u p ) 。每个 包拥有它自己的模型元素,每一个模型元素不能同时被多个包拥有。一 个包可以从其他的包导入模型元素,这就意味着目标包的公共内容就增 加到源包的名字空间( n a m e s p a c e ) 中。包可以有不同级别的可见性( 公 有可见性( + ) ,受保护的可见性( # ) 和私有可见性( 一) ) 。 2 3 2 可扩展标记语言 可扩展标记语言( x m l ) 是一种定义标记语言( 例如h t l ) 的语言, 它描述了一类用标记语言书写的数据对象或x m l 文档,并且描述了处理 这些数据和文档的计算机程序的行为。x m l 是针对因特网中的应用而设计 的。x m l 文档具有形式化、简洁并且,清晰的特点。同时,它也易于创建和 处理。因此,x m l 自1 9 9 8 年诞生以来,就迅速成为数据交换和应用交换 中的通用格式。 1 x m l 文档定义定义了x m l 文档的逻辑结构和物理结构。 一个x m l 文档既具有逻辑结构又具有物理结构。物理上,文档是由为 实体( e n t i t y ) 的单元组成。一个文档从一个文档实体( 或称为根实体) 开始。逻辑上,文档由元素、声明、注释、特征引用和处理指令组成。 所有这些在文档中都用明确的标记表明。一个x m l 文档必须是结构良好 的,即逻辑结构和物理结构必须符合x m l l 0 规范中的定义的、结构良好 的约束。 2 文档类型定义( d t d )定义了定义文档标记的语法规则。 文档的d t d 由包含在文档内的标记声明的内部子集和被文档引用的 外部子集构成。一个标记声明可以是一个元素类型声明,一个属性列表 声明,一个实体声明或是一个表示法声明。 元素的类型声明和属性列表声明限制x m l 文档的元素结构。元素类型 声明限制元素的内容。一个元素类型的内容可以是有空内容,任意内容, 混合的内容,或是元素内容。属性列表声明为每个与给定的元素类型相 关联的属性确定它们的名字、数据类型和默然值。属性类型有三种:字 符串类型,一系列表识化类型和枚举类型。 3 x m l 名字空间 昆叫删工火学毕业论文 熬予电信数据仓库的e t l 元数据研究与实现 一个x m l 文档煮冒麓龟含被多拿获串系统建义窝傻爱赘元素帮耩往。 这样包含多个标记词汇的文档可能会弓 发识别和冲突问题。即使在遇到 箕经软件能称记使鞠了褶嗣静元繁类蝥鞠藩髓名称豹冲突时,软孝# 系统 也必须能识别它们所要处理的元索和属性。x m l 名字空间为元素炎型和 属性掇供一稀拥有道用名字的辊制,僮褥这登名字的作用藏圈超避了售 含它们的文档。 1 2 3 3 。元对象框架 元对象框架( m e t ao b je c tf r a m e w o r k ,m o f ) 是一个用来指定、构造、 管理、交换和集成软件系统中的元数据的模型驱动酶、分布式对象框絮 ( 后露部分介绍) 。此挺絮的作用是支持各种类型的元数据,并可以在 需要时候加新类型的元数据。为了达到这个目的,m o f 采用四层元数据体 系结誊鼋:元一元模型称m o f 模型,u m l 摸型,趱户摸慰和用户对象。这秘 体系结构即o m g 元数据体系结构,是将元数据作为数据,并为不间类型 戆元数据进行形式缘建模,繇疑 篱熬元模型,搜囊一令元一元模型掰提供 的元建模结构来表泳,这个元一元模型称为m o f 模型。 m o f l 3 溪范包含菝下两容: ( 1 ) m o f 模型定义建立元模型的建模元素和使用规则。、 ( 2 m o f 发射接翻竞诲程序京不使麓元模黧箨定谈日戆| | 擎嚣下,对元 、 数据进行创建、访阀和调用操作。 ( 3 ) m o f 到i d l 酶映射定义m o f 模黧定义静元模囊弱c o r b ai d l 之闫 的标凇映射,从丽允许自动生成访问和操纵元数据的元模趔指定 接口。 1 m o f 摸型 ; m o f 模型以u m l 的概念和结构为基础,尤篡是以u m l 的静态结构模黧 翔摸型罄理为基磷。因此,m o f 模型没露定义它宣己嬲圈形糖号和约束语 言,而采用u m l 的图形符号和o c l 来分别实现上述目的。m o f 是采用层次 结稳,叛u m l 元模型类议,共戳包为攀盈进行缓织。在每个包巾,模型 元素遵循抽歙语法( 用类圈) 、结构良好规则、和语义来进行定义。二 m o f 模型秘菝,元素怒类、黪象、瓣往蟊攥终。 m o f 模型的核心关系怒关联、聚集和泛化。 m o f 往弱色将覆鳌元素组成淤义上稳关静分组。簿个毽绷存它鸯己懿 模型元素,每一个模型元索不能同时被多个包拥有。一个包可以从其他 9 昆忉删丁人学毕业论文基于电信数撼仓库的e t l 无数据研究垮实现 的龟导入禳型元索,这就意味着蔺标包的公共内容就增加到源包的名字 空闯( n a m e s p a ce ) 中。包可以有不问级别的可见性( 公有可觅性( + ) , 受保护的可见性( # ) 和私有可见性( 一) ) 。这些机制和u m l 模型管理 中使用的机制相同。 虽然m o f 模型在大部分的概念和结构上同u m l 静态结构模型和模型管 理上相同,但它们之间也存在一些根本的差异。首先,m o f 关联被限定为 二元,它必须在两个类之间定义,且同时有两个关联端。每个关联端都 有名字、类型和多重性。其次,m o f 关联不能蠢雅属类。第三,m o f 类可 以有引用。引用定义类的相关知识、访问途径和作为关联实l 熨的链接。 引用具有名字葶被弓l 用的关联端。 2 元对象鞠接口 在m o f 孛,使鼹备秽元对象表示嚣数据,塔馁谤阕稻搽缴这些元数据。 反射接窝( r e f l e c t i v ei n t e r f a c e ) 帮m o f 到i d l 静映_ 鸯于稠甭五稀用户 模燮层瓣露对象共享一个公共的、营向对象的元数据模整。这五种元对 象是: n s t a n c e 对象、c l a s s p r o x y 对象、a s s o c i a t i o n 对象、p a c k a g e 对象和p a c k a g e f a c t o r y 对象。 3 m o f 反射接口 m o f 反射接口可使用程序实现下列功能: 创建、更新、访问、导航和调用用户模型层实例对象的操作。 使用用户模型层的关联对象查询和更新链接。 导航用户模型层包结构。 这些操 乍珂以在不使用元模型特定接口驰惶况下执行。嚣此,这些接 鄹可以用于为用户摸型艨的元慰象提供遇熙星熬斡访闯秘操缎,也霹以 用于元模型之阕数互操佟。 m o f 反射接口包括下列嬲令抽象接墨; r e f b a s e o b j e c t 为掰有播户模鍪甏的元对象提供公共搡伟。 r e f o b j e c t 为用户模墅瀑静实掰对象藕类代理对象提供公关操作。 r e f a s s o c i a t io n 为用户模跫蘑的关联对象提供公菸操作。 r e f p a c k a g e 为用户模型层的包提供公共操作。 r e f o b j o c tr e f a s s o c i a t io n 和r e f p a e k a g e 都继承了r e f b a se o b j e c t 接口,因此也支持r e f b a s c o b j e c t 提供的操作。 4 m o f 到i d l 的映射 1 0 昆i f 堙t 学毕业论文 攥于电信数攒仓库的e t l ,五数攒研究与实现 m o f 舞i d l 匏获赫定义了获偻耀m o f 模型霆义豹元模受弱c o r b ai l 的标准映射。产生的接口可以使用用户c o r b a 客户程序来创建访问更新 元模受的实辆( 蘸鲻户模篷层豹元对象) 2 。3 4 x m l 元数据交换 x m l 元数据交羧( x m i ) 是一稀用予在较件系统中交换元数据斡x m l 语言。x m i 整合了先前所讨论的三种基本技术:u m l 、m o f 和x m l 。x m i 允 许m o f 元数撼( 即遵从m o f 元模麓的元数据) l ;l 流或文倬的形式按照x m l 的标准格式进行交换。 x m l 支持完整的元数据或元数据片断的交换。每个包含遵从x m i 的元 数据的x m l 文挡都包含以下三秘元素:x m i 黉要的x m l 元索,包含符合 m o f 元模型的元数据的x m l 元素,或包含( 可选) 表示元模燃扩展的元数 据豹x m l 元豢。x m l 襄字空润极铡允许x m l 在一个x m l 文档中露时经蠲多 个元模型。c w m l 0 基于x m l l 1 ,其规范说明能括下列内容: ( 1 ) x m ld t d 貔产生终m o f 元模型转换为x n ld t d 稳援粼。 ( 2 ) x m ld t d 设计原则用于产生x m ld t d 。 ( 3 ) x m l 文档魏产生套x m l 文襁中绫鸫、瓣鹚m o f 元数疆豹魏裂。 ( 4 ) x m l 生成原则用予产生x m l 文档。 本凌上,x m i 燕m o f 元模叠鞫x i j ld t d 之鬻,疆及m o f 元数攥耩j ( m l 文档之间的对平行映射。 2 4 基于模型的元数据集成解决方案 基于模氆的元数据集成方法消除了或者说极大地减少了传统的基于 元数据褥的点到点元数据壤成体系结构掰具有麴葛成本和穗复杂发。它 是由软件产品之间的共享的元数据交换构成,软件产品以外化的元数据 定义形式出现,参与粒软件产品农工具裁定义整个镁壤豹公共元模型达 成一致,从而使得它们能很方便地理解该元模型的任何实例。每个产品 蒸麓将这个共享戆霞数握块蓑为宅鑫已肉罄豹元数据表示。这载簧求元 模型不仅要对它的领域有一个合理完备的描述,并且还要提供一魑扩展 秣青,疆使褥任鹰参与懿产品都能焉一秘标准熬公谈鹃方式豫脊该元蒺 型在语义方面的任何不足。 昆叫理工人学毕业论文 基于电信数据仓库的e t l 元数据研究与实现 图2 4 一个基于模型的中央辐射式元数据体系结构 在基于中央存储库的、中央辐射式元数据体系结构中( 参见图2 4 ) 存储库有了新的含义:它既要存储公共元模型定义,又要存储整个领域 用到的该元模型的各个实例( 模型) 。存储库必须实现个理解元模型 的适配器层,存储库可以实现其自身内部的元模型,依靠其适配器层在 c w m 元模型的共享实例间进行相互转换。 一个完整的、基于模型的元数据集成解决方案般由以下组件构成 1 ) 能以共享的、与平台无关的模型方式指定元数据的形式化语言。 2 ) 一个定义问题领域的公共元模型。 3 ) 用于交换共享元数据的公共交换格式。 4 ) 用于访问元数据的一个公共程序接口。 5 ) 用于扩展模型的标准机制。 6 ) 用于扩展元模型的标准机制。 7 ) 用于产品元数据导入和导出的软件适配器。 8 ) 一个中央数据存储库 9 ) 全面的元数据管理策略。 10 ) 全面的元数据技术体系结构。 昆删理丁人学毕业论文 基于电信数据仓库的e t l 元数据研究与实现 第三章数据仓库中的元数据管理策略 3 1 引言 在第二章中本文已经对c w m 元模型作了非常详细的描述,一个成功 的、基于模型的元数据集成解决方案所必需的两个组件是: 元数据管理策略。 对应的元数据集成体系结构。 上述两个部分不仅是基于模型的c w m 方法所必需的,对于任何成功的 元数据集成而言,这两者都是必需的。本章主要讨论通常情况下的元数 据管理策略。下一章则主要讨论这些元数据管理策略的体系结构实现, 以及使用c w m 作为这些体系结构基础时涉及的隐含知识。 3 2 元数据管理策略的必要性 一个元数据管理策略( m e t ad a t am a n a g e m e n ts t r o t e g y ) 是一个完 整定义,其中不仅要定义元数据集成能够做到什么,还要定义在数据层 确保对环境进行成功集成所必需的管理策略、需求以及约束。元数据集 成体系结构是一个技术的、实现元数据管理策略的系统体系结构。 3 3 元数据管理策略的重要性 想要进行成功的元数据集成,必须建立一个一致且合理的管理策略。 由这个管理策略为目标环境中的元数据集成、共享和重用制定目标和需 求。任何特定的元数据管理策略都是为某个数据仓库挖掘、业务分析或 信息供应链( i s c ) 部置而定制的。但任何取得成功的元数据管理策略都 必需遵从一些通用的原则。 通常,元数据管理策略的需求要么无法得到认同,要么将其草率地假 设为在很大程度上可以由软件工具或技术标准来解决。但是,一个合理 的元数据管理需求无法单靠技术来解决,无论元数据集成工具及其相应 的软件产品功能多强或者多么健壮,都不能代替一个合理、一致的元数 据管理策略。事实上,整个集成的任务要想取得成功,就必须在定义元 数据集成体系结构和选择工具之前确定策略,不管最终的元数据管理如 昆m 型t 大学毕业论文基于电信数据仓库的e t l 元数据研究与实现 何在目标环境中执行,都必须为元数据管理制定一些核心的全局策略来 定义整体、的需求。和行为。 。一 一 业界的专家们对此已有清醒的认识。例如,ga r t n e r g r o u p 就曾在 这个问题上发表过几个报告。报告m e t ad a t am a n a g e m e n ta l te r n a t i ves f o r d w sa n dd a t am a r t s ( g a r t n e r ,i 9 9 9 ) 中认为,仅靠工具的功能无 法解决元数据管理的所有问题,任何工具选择应该基于个全局的元数 据管理计划和体系结构来进行,在报告da t aw a r e h o u s i n gm e t ad a t a m a n a g e m e n t iss u e s ( g a r t n e r ,2 0 0 0 a ) 中对此作出了更加详细的阐述, 并且得出如下结论:一个合理的元数据管理策略应该能够最火程度地重 用元数据,提高投资回报率,其实现在一定程度上还要借助于克服阻碍 元数据集成的文化和政治问题。报告da t aw a r e h o u s i n g m e t ad a t a m a n a g e m e n t iss u e s ( g a r t n e r ,2 0 0 0 a ) 中指出,如果一个组织不能够在 基础的元数据管理问题上达成一致那么单凭技术是无法解决元数据集成 问题的。 在g a r t i i e r 最近关于c w m 的一篇报告o m g sc o m m o nw a r e h o u s e m e t a m o d e ls p e c i f i c a t i o n ( g a r t n e r ,j u l y 2 0 0 0 ) 中,虽然承认w m 是确保实现元数据集成和重用的有效步骤,但同时也指明,如果一个组 织无法对元数据管理策略达成一致,则c w m 本身是无法奏效的。该报告 还指出,在这种策略确实存在时,c w m 确实能够使支持c w m 的技术之间在 更大的程度上彼此理解语义。这篇报告对鼓励厂商遵循c w m 和x m l 标准 从而在最大程度上实现元数据重用的重要性进行了阐述。 最后,d a y idm a r c 0 在b u i l d i n ga n dm a n a g i n gt h em e t ad a t a r r p os i t o r y 一书中描述了元数据所有权( 即数据管理权,d a t a s te w a r d s h i p ,p 6 卜6 2 ) 的需要。他认为任何元数据存储或集成任务成功 的前提是:明确的管理方向、支持以及策略( 见p 1 8 5 和p i l5 1 2 1 ) 。 全书还提供了大量的建议和检查列表,以检验元数据集成和建立存储库 工作的功效。 企业文化、企业战略以i 及预算方面的问题很少能用技术加以解决。这 对元数据管理策略也是一样,但是当存在一个明确的、易于理解的并得 到广泛认同的管理策略时,组织能够显著地从使用一个基于模型的元数 据集成标准( 如c w m ) 中受益。使用c w m 能够极大地提高元数据集成、共 享和重用。而且,一个合理和一致的元数据管理策略确保非技术问题( 如 1 4 昆州理下大学毕业论文 蕊干电信数撼仓库的e t l 元数据磷究与实现 麓踣、文纯、缺乏掰有投戮及对语义摹鞋逡涵戆谈嗣等) 不会破坏元数据 集成方案。 3 4 元数据管理策略的基本元素 任何特定的策略必定针对特定的元数据集成闯题或者环境。在隧下的 列表中,给出一个元数据管理策略所需的一些基本元素。这个列表也可 以作为评估任何元数据管理策略提议的基础。而虽,凡是c w m 支持的策 略元素的实现都记泶在描述中( 任何元数据集成体照结构均是一些元数 据管理策略的实现,c w m 建任何基于模型的元数据集成体系结构的关键部 分) 。 任何合瑷的、一致的元数据管理策略通常都包含大多数下列基本特 锰: 一个元数据的全局安全镱略。 薅骚蠢元数握源元素_ 饔爨檬夔确认援制。 对每个元数据元素语义的一致理解。 薅繇蠢数据霞素懿臻谈瓠裁。 每个元数据元素的所有权。 共享粕修改元数据元素的麓弱。 重新发布元数据元素的规则。 元数据元素的版本控制。 元数据元素的重用弱标。 手工过程的消除机制。 冗余元数据的消除机割。 下面将详细叙述这些基本特褴。 1 )一个元数攥魏全局安全燕臻 安全问髓是元数据管理中的一个黛关重要但却经常被忽视的方面 ( m a r c o ,2 0 0 0 ,p 。6 2 - 6 3 a n d1 9 6 。囊子元数据死乎攘逮了一个信息系 统或计算环境中的所有方面,因此元数据是种具肖高度敏感性和战略 份毽熬信惠黠塞。元数据之搿辍曩毒酸蝰侩穰,是瓣秀宅氇含了大量鼗 务数据的特征信息,并成为策略和业务知识的基础。元数掇是最熬本的, 不荐筏含萁镌成分。一个合瑾翡元数攥管理策略必须包含个全运酶安 全策略,以保证元数据能够得到充分保护。 昆l w 璀t 人学毕业论义基于电信数据仓库的e t ly e 数据研究崎实现 c w m 没有为元数据定义一个安全模型,这样做有其原因。尽管对好的 安全模型的基本组件有某种程度的共识( 单一登录能力、认证以及基于 用户或位置的授权等) ,业界也定义了许多安全模垩。大多数软件产品 都提供了一种功能。由于c w m 主要致力于为描述元数据提供一种与技术 无关的语言,因此,它回避了对其自身安全模型的定义。c w m 依赖于具体 的c w m 实现提供安全功能。而实现机制则由技术平台提供,并且遵从元 数据管理策略的特定安全要求。 ( 2 )对所有元数据源和目标的确认机制 元数据管理策略必须能够确定所有可能的系统组件。这些组件可以作 为元数据生产者、消费者或者同时作为两者发挥作用。特别值得注意的 是,策略必须定义被配置的产
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025贷款公司借款合同模板
- 2025 年农业基础设施建设项目合同书
- 有了爱就有了一切爱的作文(13篇)
- 企业园区智能物业服务协议
- 人才招聘表-公司类型一
- 红楼梦第32回课件
- 红楼梦填空课件
- 诗歌的演变历程
- 2025年互联网广告精准投放算法在智能安防行业的应用效果研究报告
- 2025征兵政策试题及答案
- 通信工程用电登高等高风险作业施工安全操作
- 邮政储汇业务员高级技师理论知识试卷
- 四川雅安市人力资源和社会保障局招考聘用编外工作人员【共500题附答案解析】模拟检测试卷
- 护理服务规范整改措施(共15篇)
- 幼儿园教育活动设计与实践 张琳主编 PPT
- 建筑施工过程中成品保护施工方案
- 西师版三年级上册数学全册教案(完整)
- 整理版第三届宁波国际海报双年展2004获奖作品选
- 关键过程(工序)和特殊过程(工序)管理办法
- 武术校本课程武术基本功
- 机械制造及自动化专业讲座
评论
0/150
提交评论