(计算机科学与技术专业论文)基于cwm的企业数据集成研究——元仓库设计与建模工具功能扩展.pdf_第1页
(计算机科学与技术专业论文)基于cwm的企业数据集成研究——元仓库设计与建模工具功能扩展.pdf_第2页
(计算机科学与技术专业论文)基于cwm的企业数据集成研究——元仓库设计与建模工具功能扩展.pdf_第3页
(计算机科学与技术专业论文)基于cwm的企业数据集成研究——元仓库设计与建模工具功能扩展.pdf_第4页
(计算机科学与技术专业论文)基于cwm的企业数据集成研究——元仓库设计与建模工具功能扩展.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(计算机科学与技术专业论文)基于cwm的企业数据集成研究——元仓库设计与建模工具功能扩展.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着秘学技术斡邈猛笈袋帮僖憨铯静穰进,入销越来越希望各个信惑系统之闰靛数据 和信息能够嚣联和共享,解决所谓的“信息孤岛”问题。因此,企业数据集成的研究成为 人粕美注魏焦点。 近来,元数据的广泛应用给企业数据集成带来了新的发展动力。元数搦中携带的数据 结构郛语义的说明信息对进行数据集成很有帮助,人们意识刘数据礴效集成的前提是它首 先能在元数疆层上避行集成。然丽,绝大多数的韭务产品存储元数撼所使用的格式建不尽 相同的,这绘元数据层的集成带来了相当的困难。如果不同的元数据能基于同一个理解模 鍪,嚣置毒统一瓣元数豢臻输穆式,宅粕藏霉疆方绽建耀纛搡终。锌对这嘉要,0 g 在2 0 0 0 年提出了公按数据仓库元模趔( c w m ) 规范。c w m 的提出,为异构环境下元数 据的理孵和交换提供了一个撂准。 本文在探讨企渡数据集成模式的基础上,深入分析了元数据层上集成鹩重要往、可行 性,研究了元数据集成的几种解决方案以及元数据管理策略对元数据集成的踅要性等。并 虽分耩了e w m 元挨整佟鸯一个基予模壅懿元鼗螽集或体系结构懿纂稿设蕤在降低元数据 集成的成本、提高投资回报率等方面的重要赏献。 本文首先讨论了瀑题组囊短开发豹基予c w m 熬元数援集成管理系统w m m s 中元仓 库的设计与实现。元仓库是w m m s 的中心组件,用于存放c w m 元数据。本文设计的元 仓库是以成熟的关系泄数据库管理系统为基础的,其中我们设计了存放元数据的四类表, 给出了数舞类垄,类、关联、弓 瑟等e w m 瓣象裰念戮关系爱表豹浃射方法,并露荧系数 据库存储过稷对对蒙信息进彳予封装,以确保存储的元数据是符合c w m 规范的。 零文还鼯w m m s 孛建模王其熬动笺进行了扩旋设计。凌深入分辑c w m 类鼓及类翅 关联的基础上,利用r o s e 的二次开发完善了模型导入和模型集成功能部件,并改进完善 了模型检查算法。这样一来,该建模工具既能够由建模者创建模型,也能从元仓库巾导入 已有盼模墼,而且可以在已肖模型酶基础上,对模黧送行修缓合并,产生耨的模鍪,达笺 模型集成的最终目的。而模型检查保证了创建或修改的模型符合c w m 规范。 集成 关键词;企业数据集成、元数据集成、c w m 、元仓库、建模工具、模型导入、模型 第1 页 a b s t r a e t w i t ht 量l e a p i dd e v e l o p m e n to fs e i e n e ea 稚l e c b n o l o g y 饿e r eb a sb e e 硅辩o f eb o p e 镪 e x c l m n g ea i l ds b a r i n gd a t aa n di l l f 0 锄a t i o nb e t v 岭e nd i f r e r c n ti l l | 0 咖a t i o ns y s t e m st oe l i m 抽a t e 氆e 藏岛疆l 赫强i s l a 壬避if 黻瓤s 圭_ e 8 s o 珏,也e 辩s e a 托圭堇o fe n 耄e 翠砖s ed a 缘掘e 零| 鑫t i o nh a sk e n s oh o tp o - n tt h a tm a n yp e o p l ef o c u so n r e c e n 圭l y ,t h ew i d e l ya p p l i c a t i o no f i n e t a d a t ah a sb r o u g h tn e wp o w e r t od a t ai 芏1 t e g f a t i o n 。 硅ei 州j 3 h n a t i o no nd 越as 讯l c 沁r ea n d 粥联m i n gc o n t a i n e di nt 端m e t a d a t ac a nb eg r c 采h 。 p 如l t 0d a t ai n t e g r a t i o n p e o p l el l a v er e a l i z e dt 1 1 a tt h em e t a d a t ai n t e g r a t i o ni s 山ep r e c o n d i t i o no f d 越ai 娃耙g 豫t ;o 拄,b 通糙鞠yb 潞i 辩s s 爹鑫辩ss o f e 翔e 掘d a 圭a 疆s 巍gd i 艉瑶睡您糯越s ;攮i s b r i n 晓sc e r t a i nd i m c u l tt om e t a d a t ai n t e 灯a t i o n i fa um e t a d a t a sc o u l db eb a s e do nac o n m l o n m o d 烈扭n db eu s e dt o 戚黟攮e 椭l s p o 灶f o r 玎1 a t ,t h 掣c a no p e 豫t eo ne a c ho t h e lf o r 也i sn e e d , o m gh a sp r o p o s 酣c o 衄o nw a r e h o u s cm e 嗽d e l ( c 、m ) s p e c i f i c a 乏赫n c w mp 。0 v i d e sa c o m m o ns t a i l d a r df o rm e t a d a t ac o m p r e h e n s i o na 1 1 de x c h a n g e si nh e t e r o g e n e o u se n v i r o n e n t 确;sp 8 p 。f 鑫缓l y 垂s c 硅s s e d 氆ee 携t e 攀矗髓d 8 t a 掇e g 斑i o na sab a s e ,a 霸d 臻睫a d d r e s s 磁 t 1 1 ei m p o n a n c eo fm e t a d a t ai n t e g r a t i o n t h e nw ep r e s e n t e d8 e v e r a ls o l u t i o n so fm e t a d a t a i n e 鬈噬i o na n d e s e a r c h e d 主h e 妒l i c yo fm e t a d a 纽m a n a g e m e n t 翠娓翻s o 越a l y z e dc w m s c o n t r i b n l i et or e d u c 试鼗也ec o s to fm e t a d a t ai n t e 灯a t i o na n di m p r o v i n gt 量l er a t eo fr e t u 黼o n i n v e s t m e n ta sam o d e l 山a s e di n 矗a s t r _ i l c t u r eo f m e t a d a t ai n t e # 叫i o n w 毫k wd e v c l o p 磁ae w m 趣e dm c 涮躐ai 把g 撼t i o nm 糕a g e m e 挝s 对。激w l 蛙硗糊s c a l l e da sw m m sb a s e do na b o v ea n a l y s i s 弧畦sp 嘲e c ta 羲碰测啦ed 商g 建矗n di 黼p l 艘e n t 嬲o no f 堇珏髓a - 髓o r c 。 掘一s 招弼,氆e c e n 蹦c o m p o n e mo fw m m s ,i sac h e a ps d l n i o nt os t o r ec w m m e t a d a t a i ti sb 雠do nt h e 谢d d yu s co fr e 蜥o n a ld a t a b a s c ,删妇c a nb ew c l lm a p p e dt oa n de n c a p s u l a t et h e ( :w m o 巧e c t s oi tc a nm e e tt h en e 醐o f m e 埝d a t as t o 辩,e x 商a n g ea n d 赚a 五n 昏 t h i sp ”o j e c ta l s oe x t e n d e dm em o d e l i n gt 0 0 1 s b a s e do nt h ed e t a i l e da n a l y s i go fc n l 门k e l a s s e s 鞠d 氆。羚l a 重 o n 曲 p s 娩慨珏c | a s s e s ,w ee o 珏鞭m m 蹴d 氆e 琢o d e li m p o 缱e o 瑚p o n e 魅t a i l dm em o d e li m e 斟a t i o nc o n l p o n e n t ,趾di m p r a v e dm em o d e lc h e c k i n g 姒g o r i t h mb y u t i l 蜮蟮 r o s ee x t e n s i o ni n t e r 蠡e ( 雌i ) u s i n gt l l i st o o l ,t l l om o d e l e r sc a nc r e 如瑚。如l , i m p o r tm o d e l 矗d mm e t a s t o f e ,a n dm o d i f 妒n t e g r a t et h om o d e l s m o d e lc h e c k i n g 斑n c t i o nc 越 g u a r a i 】t e et h om o d e l s 、v h i c hc r e a t e do rm o d i f l e db yu s i n gm i 8m o d e i i n gt o o la c c o r d i n gt o e w 糙s p o e i 蠡c a 吞m 。 薹( e yw o 趟:e n l e f 翊s e d 越a i n t 。g 硎。趣m e 招d a 纽i n t e 磐a t i o 飘c w m ,m e t a s t o f e , m o d e i i n gt o o l ,m o d e li n l p o r t ,m o d e li n t e 舒a t i o n 籀i i 页 豳目录 鎏2 。l 联邦数攥瘁系统摸式。6 图2 2 中间件系统模式6 图2 3 数据仓库模式7 图2 4 信息供应链9 图2 s 使用桥的元数据层的集成l l 銎2 + 6 缓矮元数据存锉瘁熬元数撂层鹣集成1 2 图2 7 l 定义的表和列的模型1 3 图2 。8 图2 。7 熬一个实侧1 3 图2 9 基于模挺的、点封点的元数据体系结梅1 4 图2 ,1 0 基于模型的中央存储鹰元数据体系结构1 5 蚕3 10 m g 熬m e a 1 6 图3 2c w m 的内容结构图1 8 强3 3 艇i c r 。s o 鼗m 如d 如s e w i c c 豹系绞蜒架强1 9 图3 4s y b a s ew c c 的系统框架图2 0 图3 5o w b 体系结构图2 3 图3 6s q 癌系统一。2 4 图3 7 查询处理2 4 墅3 。8m 器l 体系维毒奄2 5 图4 1w m m s 系统结构图。2 6 图4 。2 各种c w m 元数据存储方式的特征和复杂性关系2 8 匿4 3 作为类挺的类表和表示属一隆静袋之闻静静键关联3 0 图4 4 基于类的数据类型映射实例3l 蚕4 5 关系墼瞧韵泛纯层次3 3 图4 6 类的继承关系在元仓库衷中的映射3 4 婴4 7 元仓库中对属热豹获取3 6 图4 8 产生a d dc o 腿。e i e m e n t 过程示意3 7 图4 9 产生a d d - r e l a t i o n a l r r i g g e r 过程脚本片断3 8 器4 。珀继承浚麓搔羁镄建霸测涂酶次滓。努 图4 1 lc w m 部分元模型4 0 墅4 ,1 2 图4 1 l 中元摸塑豹一个霓仓摩实捌4 0 图4 1 3 例子在元仓库中的存储4 l 图4 。1 4 一个确保约束的改进脚本4 2 匿5 1 建模互菇用铡鹜4 5 图5 2r e i 接口的部分类图4 7 銎5 。3 戳! l 接珏类之闯豹关系粼4 8 图5 4s q l s t n 蛇t u r e d t y p e 与c o l u m n 之间的类豳4 9 图5 5s q l s t r u c t 灌e d t y p e 与c o l u m n 之间的对象图4 9 第i i i 页 圈5 6 建模工其模型创建顺序图n 5 0 圈5 7 选择建模工鼹的菜单项5 l 图5 8 建模工具树形选择栏5 2 图5 9 建模工具建模实例5 3 黟5 1 0 建摸工具模型母入顺序圈+ 5 5 第i v 茭 表目录 表4 1 元仓疼映射表部分遗容2 9 亵毒。2e w m 篱擎数掇粪整懿获袈。3 0 袭4 3 多值属性映射3 2 袭4 4l :l 关联映射3 5 第¥页 独创性声明 本人声盼所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:一基王型曲垒些数量墓虚叠塞二二五垒庄选进复塞搓王县麴丝芷匮 学位论文作者签名: 曼型趟日期:埘年脏月- f 日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留、使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书) 学位论文题目:基王燮曲全些熬蠡塞盛鲤塞= 二五金座遮盐生建拦三墨盐能芷匮 学位论文作者签名: 兰型幽日期:衅p 恩r 日 、卅 作者指导教师签名:当! 兰!日期:一厂年,工月j 日 扰很多数据集成系统的核心问题。 不羁系统孛异秘、分蠢骊妻治豹数据绘数据集贼豢寒缀多嚣黢。现有鞍戏熟的数据嶷 成方法包括:模式集成、数据复制,以及两者综合的方法。 但是,异构数搬源的数据在数拯格式、数据内容等的方面大多烂不一致的,也就是说, 被集成的数据的元数据无法达成一致,这绘数据集成带来了匿大的瓣难。瓣魏,数据集成 之前首先必须使得不同的数据源能相互理解,即,元数据屡上的集成是数据有效集成的前 提。 1 。1 ,3 元数掇集成方案 来自不同数据源的信息,不同厂商的软件产品糟能在数据格式、数据理解上取得一致, 藏裁在数据瀑上送行互操 挈,实现有效夔数握集成。毽裁楚说骏绛产暴之藏流动熬数搀若 有一个公共的理解,就能进行有效粲成。元数据是描述数据的数掇,通常内信息结构的描 述缎敲。元数据是慰数据内容主题映射转换及各种操作的撒述,其中携带的数据结构和语 义的说嚼信息能帮劲理解数描。所戬说元数据对不黼厂商掇供魏不潜软俸系统移产菇之闯 的集成起着不可或缺的作用。因此,软件产品和工舆能够在数据层进行高效率集成的前提 京予,它在元数摆滋藏必簇蕊被有效建理鼹簿集藏。然嚣,绝太多数豹韭务产瑟存耱元数 据所使用的格式是不尽相同的,这给元数据层的集成带来了相当的困难。如果不同的元数 据熊基于嗣一个理勰模型,两 2 节中已经懿潞攀;侗滔毽夏姐漆叠掣游耐i 服务方法骢鐾 茬软裤并砖搿撙币侮;库掣巍 溺题酶一种有效魏策略。 c w m ( c o m m o nw a re h o u s em e 诅m o d o l ,公共仓库元模型) 是o m g 的m d a 结构的 重簧维残部分,是该缓织予2 0 0 0 冬提出豹铮怼元数据集成发震嚣凝戆一个开发熬嫂:器标 准。作为一个元模型,cwm 完整地描述了数据仓库和业务分析领域,是一个基于模型的 元数据集成的实现舆范。在 分析领域的工具共事c w m 元模型以及璇解元数据整体的管蠛策略,以实现异构的软件组 件之间的互操作性。 因此我们选择熬予c w m 的元数据集成解决方案。 目前,已有多个公司的产品采用了c w m 进行元数据交换,铡如o f a c l e9 i 、d b 2 等。 | 8 艇、涨毽y s 、 c r 、 强e 矗。豇、o 穗e i e 等多家公霉支跨e w m 蒡打算整合戮它我匏下 一圣数据仓库与韭务分辑产品中嘲。在2 0 年斡奥兰多霞舔会议上,l b m 等六豢公司震 涿了使用c w m 在l o 种不同厂商的数攥仓库产品间交换元数攒1 7 1 交换过程代价小、灵活 方便,这次展示可以说是数据仓库元数据交换的重大突破,2 0 0 l 、2 0 0 2 年分别在希尔顿阿 纳海姆和圣安东尼嶷稿开的元数据年会止又进一步完善了谗过程,推广了c 、m 在各 大厂商的使用p 一。 2 课题的研究内容和主要贡献 元数据集成是圜内各大企业应用中数据资源的集成和互操作发展的需要,而建立一个 存效黪元数据管理策路楚戏功进彳亍元数据絮成的关键。本课磁缀钟对元数据集成的嚣求以 及元数摇警瑾蓑臻豹麓本要素送行了分耱,竣量 蒡萎本实骥令元数据集或餐疆系统 w m m s 。 本课题是课题缎工作的一部分,主疑的研究工作如下; 1 、研究了目前愈业数据集成的模式,分析了数据集成的必键在于元数据屡的有效集 成;比较分析了各种无数据集成方式的优缺点。 2 、在深层剖柝构成c w m 豹每个镪鹣内客以及包之闽关系豹基础上,完饕了基予 c w 磁夔元鼗摄集成繁溪系统一删s 。 3 、对w m m s 中囊要组成部分元仓露迸乎亍设诗,给壤e 弩m 对象型数据副关系型数 据映射规则,基本实现了一个满足系统需对 :的元仓库,并给出一个存储的实例。 4 、对w m m s 的建模工具进行功能扩展设计,利用r o s o 扩展接口,设计开发了模型 导入和模型集成功能,改进完善了模型检焱算法。 。3 论文缝缀绩稳 本文共分为六章,缚章的内容如下: 1 、第一章为绪论部分,主要介绍了课题的研究背景和本文的主要研究内容。 2 、第二章为基础理论概述部分,首先阐述了数据集成的难点、模式,进而农分析了 元数撵集成的几释鳃决方案的基础上,摆懑基予模型的元数攒祭艘方案可以有效撼降低元 数爨集成懿复杂废,较大缝罐蠢投炎嚣壤,楚一耱嚣之畜效戆元数据集残方寨。 3 、第三章中介绍了通用元模整c w m 的构建背景默及圭簧结构,并详细地分析了一 个完整的基于模型的元数据体系结构构成组件的要求,元数搬管理策略的重要性簿,在此 熬础上阐述了一种基于c w m 元模型的元数据集成体系结构。 4 、第四章首先简要介绍了在前面理论分析的基础上,课题组自主开发的一个元数据 集成系统w m m s 。传卷分析和探讨了其巾一个主要部分一一元仓库兹需求和设诗。文中 第3 页 第二章数据集成及元数据集成 娄2 。 数撰集成方法 。数据集成是e a l 中最容易实现的形试,最基本层次的集成,也是应用集成的熬础,是 e a j 的关键和重点。数据集成发生在企业内的数据库和数据源级别。作为e 越解决方案中 最营遍的一个形式,众业数据集成是把不间来源、格式、特点、性质的数据在逻辑上或物 嫒土青规她集孛,从黼为企业提供全面黪数据共享【l o l 。数据煞成弱最大难点在予数搀豹异 毒弩瞧。一般寒说,数攒集戏分为嚣类:一蔻企遂产磊形成一个壤惑筷应链( i s e ) ,教数摇 为桥梁,以便各个产赫的相互理解;二蘧在数据层面形成全髑统一的逻辑视露,以便开发 新的企业应用。 在企业数据集成领域,已经有很多成熟的框架可以利用。这些技术在不同的着重点和 威用上解决数据荚掌和为企业提供决策支持。以下对这些数据集成方法做个简单的分 攒。 数蠡集残熬方法露凳懿有嚣耱: l 、模式集成方法 模式集成是人们域早采用的数据集成方法f i k 埘。其基本思想是,在构建集成系统时 将备数据源的数据视图集成为全局模式,使用户能够按照全局模式透明的访问备数据源的 数据u 3 1 ,在这种方法中,当用户向集成系统提出查询后,从蒸予需求的数据源中访问数据, 谈方法也穗为消极( l a 磁a p p r o a c h ) 数撂榘藏方法【埔。此方法将原来异掏豹数据模式敢适 瓷转换,薅臻数錾潦鬻戆异稳挂,映射筏全弱模式。模式爨藏方法孛嚣有豹嚣秘典型模式 为联邦数据库系统和孛闻件模式。 联邦数据库系统( f d b s ,f e d e r a t e d d a t a b a s e s y s t e m s ) 豳半自治数据库系统构成,相 飘之间分享数据,联激各数据源之间相溉提供访问接口,形成个联邦模式( 图2 1 ) 。同 时联邦数据库系统可以是集中数据库系统战分布式数据库系统及其他联邦式系统。在这种 模忒下又分为紧耦仓帮捡糕含两静情况f 捌,紧耦合提供统一的访同模式,一般蹩静态的, 焱缮热数撵源上跑较豳滚;嚣经勰台黧不提供统一懿接口,缳溪跌逶过统一豹潺蠢谤运鼗 攥源,其中核心酶怒努须解决所有数器源潞义上静阔题。不鬻酌是,联邦数据瘁系统主要 面向多个数据库系统的集成,其中数据源裔可能要映射到每一个数据模式,将会带来n + ( n i ) 的_ 歼销,当集成的系统很大时,对实际开发将带来巨大的困滩。 第5 页 图2 1 联邦数据库系统模式 中间件系统( m e d i a t e ds y s t e m s ) 通过统一的全局数据模型来访问异构的数据库、遗 留系统、阮b 资源等( 图2 2 ) 。中间件位于异构数据源系统( 数据层) 和应用程序( 应用 层) 之间,向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和数据 访问的通用接口。各数掘源的应用仍然完成它们的任务,中间件系统则主要集中为异构数 据源提供一个高层次检索服务。它由中间件和包装器来隔绝数据源的不一致性。中问件模 式是目前比较流行的数据集成方法,它通过在中间层提供一个统一的数据逻辑视图来隐藏 底层的数据细节,使得用户可以把集成数据源看为一个统一的整体。这种模型下的关键问 题是如何构造这个逻辑视图并使得不同数据源之间能映射到这个中间层。 图2 2 中间件系统模式 2 、数据复制( 仓库) 集成方法【1 5 】 该方法是指将各个数据源的数据复制到与其相关的其它数据源上,并维护数据源整体 第6 页 上的数据一敞性、提高信息殃享利用的效率【l6 】。数据源中的转换的信息预先存储在公共存 糖麾( 仓库) 中,农嚣要对霹照黠披露户套询。这秘方法也称为积极( e a g e ra p p r o a c h ) 数据集成方法h 4 】。程此方法中,将不同数据源的数攒存储在菜一存储库中,这个存储库通 常猕之为数据仓库( d a t a 随r e h o l 】s e ) 。 最常黧豹数蕹爱穰方法藏是鼗攒仓库方法驻”。数据仓露蹩在叠渡管理帮决策中嚣蠢主 题的、集成的、与时间相关的和不可修改的数据集食,它主要是面向决策的。其中,数据 坡麴类茭广义弱、功栽土独强弱、没骞重叠豹主题。数握众瘴在另雒一个麟嚣上表达数据 之间的共享,它主要是为了针对企渡某个应用领域掇出的一种数据集成方法,也就是面向 主题并为企舭提供数据挖掘和决策支持的系统( 图2 3 ) 。 d l 墟s 稍搬l幽擅s o 阱穗蔓 图2 3 数据仓库穰式 模式集成方法通用于系统规模大、数据更新频繁、数据实时一致性要求高的场合;通 常较露爰懿怒中舔 警方法。数据复制方法遥精于数舔源稽对稳定、躐者数掇分鑫广、瓣络 延迟大的情况。 糕综合方法是将这嚣耪方法结念经竭。器数据添熬部分信息攫懿菜耪援嬲 。 图2 。4 傣怠供应链 在l s e 孛,覆疑数疆终为供应链豹超始,经_ l 童一系歹l 戆麓工过程遂嚣穗纯,簸瑶交绘 终端客户( 如企业的狭爨者) 。 最原始的数据输入到数据库中,就转换为某种更精化、熙有用的数据,我们就能够在 数据库中执行简单的旋询等操作。显然,精化后在数据库的数据较原始数据更为有用,它 成为了一种信息。 第9 页 元数据存储库是具有特定目的的数据库,它存储、控制并能操作环境中其他所有相关 的元数据组件。各种构成i s c 的软件产品从中央存储库中检索全局元数据,而不是通过与 其他产品的点对点连接获得全局元数据。存储库中含有产品的元数据的单一定义,这个定 义是基于针对存储库产品本身的元数据模型的。每个产品必须实现它自己的存储库访问层 ( 另一种形式的桥) ,由该层理解与特定存储库相关的元数据结构,以及知道如何将这些 与存储库相关的结构映射为与产品相关的元数据结构。这种类型的配置通常称为中央辐射 式元数据体系结构( h u b a n d s p o k em e t ad a t aa r c h i t e c t u r e ) 。 可操作的数据数据提取、转换和 存储元数据p装载元数据j 数据仓库 元数据p 亘 数据市场 元数据p 报告元数 据p 图2 6 使用元数据存储库的元数据层的集成 中央存储库的方法缓解了建构多个桥的复杂性。但是并没有完全消除问题。从图中我 们可以看到,每个参与i s c 的软件产品开发一个不同的访问层,而访问层仍然是针对于一 个特定产品的。因此,这个方案虽然降低了总成本,但是没有将其降到最低,也没有消除 受制于特定的产商的问题。存储库仍然是一个需要与整个i s c 环境中的产品或工具进行集 成的工具,需要与其他部署在整个信息供应链环境中的产品和工具进行集成。因为存储库 是围绕着他自身专有的元模型、接口和交付服务建立的,因此它仍然需要建立元数据桥( 即 上述访问层) ,这种建立桥的工作和前面我们说的点到点的集成体系结构中的建立桥的工 作相比,工作量要少些。无论怎样,元数据存储库以及它与工作环境中其他部分集成的成 本,将会影响1 s c 中的r o l 。元数据存储库的集成方案也很昂贵。 点到点的桥集成体系结构和元数据存储库的集成方案成本都相对昂贵,我们真正想要 的是一个低成本的元数据集成体系结构,它使我们既能使用点到点方案,又能使用中央元 数据存储库方式作为元数据管理策略( m e t ad a t am a i l a g e m e n ts t r a t e g y ) ,而不是作为元数据 集成体系结构。我们想要一个在两种情况下都能工作的简单集成机制,使得我们可以根据 元数据管理的需要而不是集成成本和复杂度的需要来选择点到点或存储库方式。 下面我们引入一种模型驱动的元数据集成解决方案。 3 、基于模型的元数据集成解决方案 对于不同的软件产品,要在它们之间流动的数据能够被彼此理解,也就是说元数据应 第1 2 页 构实现范畴。两者的定义和功能在前面已有讨论。 元数援警理策嬉摆热馋管理、控裁秘使强元数缀靛策珞。它决定了元数摆在熬令繇境 中的工作流,也决定了元数据的整体技术体系结构和选择实现集成体系的工具。尽管基于 模烈的方法有很多优点,戗是如果没有一个合理的凭数据错理策略,使用该方法仍然会大 大降低i s e 的成功率。僵怒,值褥注意静怒尽管元效疆管瑗策略对元数据祭成体系结构宥 着藏大的影响,但宦并不是组件的一部分。 :嚣数撂熬按术髂系结稳定义元数据袁物理主魏傣实瑗。它定义元数据黧残秘纛连懿特 定拓扑结构,以及如何将备种元数据服务分布到其拓扑结构中的特定点上。因此,元数据 技术体系结李盘在物理上是融若于关键的软件组彳牛实现的,包括软传适配嚣和元数据存储 瘁,以及一个整体晌控稍椴架。 现有使用基于模型的冗数据集成解决方案的很多,例如微软的m e t ad a t as e r v i c e 、 s y b a s e 懿w e c 等。 m e t ad a t as e r v i c e 【划选择r 丑t i o n a jr o s e 作为建模工具,产生的元数据通过与元模型对 应的 d l 接口存入s q 乙s e w 锯中。经彝对冤数据的操终,始定义数握转换过程,都必须通 过这些i d l 接口跃糯范亿对元数据的操作。知识库弓l 擎在知识库数狮库中对元数据进行存 储、合并及检索( 图3 3 ) 。 图3 3m i c r o s o f tm e t an a t as e r v i c e 的系统框架图 w c c ( w 缸c h o u s ec o n t r 0 1c c n t e r ) p 副的核心模块是w c c 管理组件( 图3 4 ) ,可以从数 据仓痒中收集元鼗籀,并存麓舞一个中心元数据瘁中,也可淤将建禳工具魏p o 硗鼍r d o s i 叠n e r 产生的元数据存入该存储库中,另外e t l 工具、前端分析工具都能使用该存储库中的元数 握,邈霹殴烬产生熬是数据移入该元数据瘁孛。露产遽过w c c 管理哥敬方便建访瓣蚤秘 业务元数据和技术元数据,述可以选择元数据的细节粒度。 帮1 9 页 鋈3 。4s y b a s e 既e 静系统框蘩瑟 m e t ad a 诅s e “i c e 和w c c 所基于的元模型分别是o i m 和m d i s 。m d c 发布的m d i s 舰范描述的是数据库模式的元数据,它的描述和交换语言都为m d i s 所专有,可见m d i s 滗法得到广泛的支持。 3 。3 基手e w 醚的嚣数据集成体系维梭 前面我们已经介蛹了c w m 是一个究整的描述数据仓席和业务分析领域的元模型。 c w m 提供构建元数据所需的语法和语义,利用这些元数据可以描述一个完整的i s c 的所 有组成部分。 我们来看一下鏊予c w m 盼元数掇熊成群决方案是否识含我们上述讨论的元数据组 纷。 3 3 1 关键组件 c w m 的一个基础标准为u m l ,它是o m g 用于定义离散系统抽象模型的标准语言。 c w m 用u m l 表示,实际上,c w m 为u m l 的一个特定子集,u m l 是定义c w m 的表示 法藏氆。c w m 对u m l 戆子集避季亍了扩震,剃薅其强大豹表这筑力塞定义复杂元数疆及其 荚焱。 c w m 包含有五个朦次,2 1 个包。这魑包起提供了基予模型的元数据集成体系结构 所需的用于问题域的谮义完整的公共元模烈。i s c 的组成组件能就c w m 达成一致,因而 它们都能理解c w m 的实例,因此很容易在组件之间实现元数据的交换、共享和敷用。通 过时c w m 各包中的类以及类之间的关联详细的分析,我们知邋c w m 提供的元数据模型 豢瓣数据仓库帮i s c 建模是足够完备豹。熬个l s c 都可以扶一个篱单戆、基于摸激黥定义 中产生。 c w m 的另个灏础为m o f ,它提供了元模型定义所需的形式化规贝4 集。m o f 本质 上鼹元元模型,有时称之为本体论( o n t o l o g y ) ,它定义了为离散系统建模要用到的元模型 中的基本元素、语法和结构,是u m l 和c w m 的公共模型。遵循m o f 规范的_ 馥用软件可 以通过使用反射接口的通用操作对模型进行读取和更新操作,丽无需了解特定接豳。 涯l 乍为一个耀予交换共享元数摄嶷铡鞠公共交换掺式秘个访麓元数攥黔公共程 第2 e 夏 序接口,其优势是肖目共睹的。c w m 使用的x m l 交换编码( x m i ) 是怒义如何将支持 m 0 寥靛元攮型( 懿c w m ) 浃封到x m l 的个o 姒g 掭壤。x m | 精确的建义了农蛭l 文档中如何使用吡标记定义c w m 元模型实例。另外,m o f 舰范特别定义了从支持 m o f 的元模型到o m g 的i d l 的映射,选定某种编程语言定义程序接口时,使用适当的 i d l 编译嚣w 将c w mi d l 编译为箝合蟊标的接疆定义。 最后,我们还需要扩展模型的标准方法。c w m 用标凇u m l 扩展机制来对模挺进行 扩袋。这些檬准掇裁包基菰记整、擒造型亵缝袁。扩震e w 磁元模黧霉要定义一个表示瑟 子领域的新的元模型。 在上述阐述中,我们看到c w m 作为一j 肄元模烈,已满足基于模型的元数据集成方法 的关键组俘舞求。下面我们继续阐述虽然c w m 中没有鞠确的定义,侄事实上任何个成 功的基于模溅的元数据集成解决方案必需的两个主袋组件:元数据管理策略和对应的元数 豢象成俸系绻穆。 3 3 。2 元数搬管理策略 c w m 是确保实现元数据集成和重用的有效步骤,但如果一个组织无法就元数据管理 蒙黪这藏一致,c w m 是不憨奏效赘。一拿元数据管理募略定义了元鼗撂集戏2 骰黪事溪, 还定义了在元数据层确保对环境进行成功集成所必需的管理策略、浠求和约束。如何建立 一个有效的元数据管理策赂是成功避 亍元数据集成黝关键。个合理元数据管理需求是无 法单靠技术来解决的,无论元数据集成工具、软件产品如何强大,繇不能代替合理一致的 元数据管理策略。整个集成任务要能取得成功,就必须在定义元数据集成体系结构和选择 工爨之蘸就确定策酪。 当元数据以一种与平台相关的模型形式被表达的时候,魑然此时的元数据必须以具体 平套捆关的模式来表现,但怒只要绘出相应约驶射缎剿,裁可以将它转换成为其他平台下 的元数据形式,从而被其他系统所理解。如程系统a 中的元数据如果转换成为系统b 中的 元数据形式,就可以被系统b 所理解。 警元数据淤一萃申平台蠢关静摸黧形式被表这豹辩候,元数据藏w 滚独立于任骛瓣标平 台之外而存在,也就是说,冗数据可以不依赖于任何具体实现平台,可以独立于这姥平台 之乡 激统一黪方式撰述萎塞结麴,麴采翅c w 挞元模型毅m o f 定义豹格式夺继,这就是 与平台无关的表达形式。 当前对元数据管理策略的研究,其实都是集中磁第二种方案上,追求种与平螽无关 的元数据建模与存潞方式。 般来说,对元数据的管理主要有两种方法【2 4 】:对于相对简单的环境,按照通用的元 数撂管理耘壤建立一个集中茂翁元数攥知识疼;对予魄较复杂弱舔境,分鬟建立各郫分豹 元数据管理系统,形成分布式元数据知识库,然后,通过建立标准的元数据交换格式,实 现元数据的集成管理。 一个有效的元数掘管理策略所必需酶一整基本元素。对于任何合疆的、致酶元数据 管理策略通常都包含大多数下列基本要素【3 3 j ; 1 ) 一个嚣数据懿全蜀安全策略。 2 ) 对所有元数据源和数据目标的确认机制。 3 ) 对魇努元数据元素鲍确认规铡。 第2 l 页 础的解决方案体系结构从不同的工其中移出,再将它们以易于理解的模型的形式放到环境 串去,从嚣裔效她炙凝集成。 3 3 4 研究现状 对于基于c w m 的元数据管理集成,国内外也有了一定的研究。 o w b ( o f a c ! ew 醅e h o u 瓣b u i l d e r ) 通过慰数据模型构造和设计、数据提取、移勘和装 载( 嚣髓0 、元数据管瑗、分析工其的整台戳及数据仓库的管璇,将从前各自分离的产品提 供的功能集成到一个公共的环境,其核心概念是o w br e p o s i t o 巧,它存储在o r a c l e 数据库 黢务器中( 鬻3 5 ) 州。0 w 转酝p o s i o 帮孛藏包含遵循e w 弑标璇憝无数爨,憝够爨藏多 种数据源的数据,如平面文件,s a p 肋,蕊他o r a c l e 资源,d b 2 ,以及兼容其他版本的 0 w 8 托p o s i l o f i e s 资源。 图3 5 0 w b 体系结构蓬 尽管在o w br e p o s i t o 掣中也包含了c w m 标凇的元数据,但是这些c w m 元数据实 锲仅仅瘸子建立数据念疼瑷及搓供与o 狂l e 黩身数掇库驻务器静集戏,夏著没有考艨至g 在 分布式环境下的其它备种数据资源的集成。 德国汉壤大学分布式系统和信息工程系的蚴l ak o z l o v a 等人掇出了一个基于c w m 蕊范时两种主要类羹酌数据源一( 对象) 关系数据霖帮x m l 数据库实施数据集成的模墼 一s q x m l 【3 7 】( 图3 6 ) 。 第2 3 页 图3 。8m e 孔体系结构 s a s 懿垒篷嚣t l 黢务器是盘壁数舞嶷残平台熬一罄分,愆予设诗、警理联欢避鼗摇 奄瘁懿及简往数据 虫取、转换帮蠡嚣载过穰。它包括三个部分:e t ls t u d i o 用予鼹化数据管 理过程,集成不同类溅的数据源,允许用户浏览和理解复杂的数据集成问题:元数据服务 器管理所有的元数据,和c w m 标准兼容,并且提供了到第三方产品的桥;d a t aq u a l 蚵 s o l 嘶0 n 用来消除和减少数据的不一致性,提高数据质量。 s u n 也提出了个接口j a v a m e t a d a t a i n t e f 蠡c j m i ) 。j m l 楚个元数据访游和管理的 j 2 嚣嚣平台下豹标准a 鞑,它提供了移禳将符合0 酲g 稼准懿露模型浃麓舅3 9 v a 接溜豹形式 亿盼橇隶l 。 第2 5 茭 第四章w m m s 元数据集成方案及元仓库设计与实现 4 。l 基手e 谨颡酶嚣数据集裁管理系统糌糕麓s 本课题组在参考了元数据管理策略的基本要素以及上述典型的元数据管瑷方案的情 况下提出了一套基于c w m 的元数据集成管理的解决方案w m m s ,系统组成如阁4 1 。 图4 1w m m s 系统结构图 该系统主要由元稳岸、蕊l 解拆器、建搂工其、x m | 缡避鲜玛、软终适聚爨、w 曲 羧索零| 擎、e w 醚l 蚤l 绥鹾等臻髓模块缀箴。 其中元仓库是一个维护全局共享元数据的专门的存储器,主要用于存储和管联公共元 模型及其模型实例和存放建模与操作过税中所产生的元数据,还负责发布各种模型,使整 个环境都能使用这些模型,同时也可以将模型提供给任何需骚它们的产品和工具。w m m s 党仓库除了支持上述般m o f 存储库的元数据服务,还支持用予访问c w m 元数据的标 壤羧弱( ) 跚l 窥程序a p l ) 。元仓库是基予m o f 燕范的,势黩簧求元数据班e o 瀚a 对象 豹澎式存疆。通过将c w 麓靛嚣自慰蒙麓元模型获藩弱个关系墅数摇麾,然惹采舞 m i c r o s 破s q ls e v e r b m s 所定义的t s q l 语言来描述w m m s 元仓库。 连接元仓库的捌l 解析器相当于存储库的一个理解元横型的适配器层,能够将c w m 交换文档解析为c w m 实例并存储在存储库中,同时也能够将存储库中的公共元模型及其 模型实例解析为c w m x m i 文档用于发布和提供各种模型。 嗍s 设计了一个可视纯熬建模工基弱来援裂数据念艨熬逻辑帮耪溪实现。鉴予 第2 6 贾 c w m 和u m l 的天然联系,所以w m m s 使用支持u m l 建模最为通用的工舆r a t i o n a l r o s o 上= 次开发是己熬建摸工具。建模密可以馒蠲它完戏基于c w m 豹数据仓瘁的建攒正l 睾, 企龇数据库开发和管理人员也可以从哥前圈内企业应用非常广泛的关系墅的( 如o r a c i e , s y b a s e 等) 、多维的、面向对象的等各类数据源抽取元数据,并利用建模工具对其进行基 予c w m 静建模,舅岁 还可淡鼠元念库孛嚣入已经储存酶蠢模蕉,避行修改集成,满是金 业数据集成的需要,实现对这些信息系统元数据的交换和集成,从而实现原系统的进一步 秀发、移罄鄹集藏。毅产生瓣元数豢帮可以塞接存骧裂元数提毒镑疼中,凌可以邋_ 过元数 据转换工具( 即x m i 编码解码工具) 转换成x m id o c u m e n t 的形式用于分布式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论