(计算机科学与技术专业论文)元数据及其在审计系统中的应用.pdf_第1页
(计算机科学与技术专业论文)元数据及其在审计系统中的应用.pdf_第2页
(计算机科学与技术专业论文)元数据及其在审计系统中的应用.pdf_第3页
(计算机科学与技术专业论文)元数据及其在审计系统中的应用.pdf_第4页
(计算机科学与技术专业论文)元数据及其在审计系统中的应用.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机科学与技术专业论文)元数据及其在审计系统中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

元数据及其在审计系统中的应用 摘要 随着社会信息化程度的日趋提高,各行业的信息系统数据量都 在快速增长。实际业务操作中,往往是保存了数据,但却忽略了对 数据的管理和利用。事实上,海量数据背后隐藏着大量重要信息。 如何对现有数据进行深层发掘,并揭示出埋藏在数据中的趋势、 因果关系、关联模式等核心信息? 这是下一步深化经营分析系统应 用需要解决的头等大事。目前信息化系统的数据管理难度在于:各 部门数据与数据整合的难度也不断加大,影响到了经营分析系统中 的数据质量。 元数据管理解决的问题就是如何把业务系统中的数据分门别类 地进行管理,并建立数据与数据之间的关系,为数据仓库的数据质 量监控提供基础素材。1 1 1 按照传统的定义,元数据( m e t ad a t a ) 是 关于数据仓库的数据,指在数据仓库建设过程中所产生的有关数据 源定义,目标定义,转换规则等相关的关键数据,同时元数据还包 含关于数据含义的商业信息。 2 1 审计查询与分析系统( q u e r ya n da n a l y s e a s s i s t a n ts y s t e m ) 是利 用信息技术搭建分析与加工数据的工具平台,为企业开展业务提供 数据检索和数据分析支持。由于实现了用户对关注信息的自定义查 询,来实现对信息的检索和分析,从而为解决传统的信息系统开发 成本高、可扩展性差且维护成本高的问题带来了新的思考途径。 结合实际应用,文章给出了构建审计查询与分析系统的具体设 计步骤和开发流程,系统通过元数据管理功能模块来为定义查询模 板提供基础数据支持,本设计目前在某商业银行的审计自定义查询 和分析系统中运行良好。 关键词: 元数据;数据仓库:e t l d e s i g na n di m p l e m e n t a t i o no f a na u d i t s y s t e mb a s e do nm e t a d a t a a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ei n f o r m a t i o ns o c i e t y , t h et r a d ev o l u m e o fd a t ai n f o r m a t i o ns y s t e m si sg r o w i n gr a p i d l y i na c t u a lb u s i n e s s o p e r a t i o n ,o f t e np r e s e r v e sa l lo ft h e s ed a t a ,b u ti g n o r e st h em a n a g e m e n t a n du s eo fd a t a i nf a c t ,al a r g en u m b e ro fi m p o r t a n ti n f o r m a t i o na r e h i d d e nb e h i n dt h em a s s i v ed a t a h o wt od ot h ed e 印d a t ae x c a v a t i o n s ,a n dr e v e a l e dt h et r e n di nt h e c a u s a lr e l a t i o n s h i pb e t w e e nc o r r e l a t i o na n dm o d e lc o r em e s s a g e ,b u r i e d i nt h ed a t a ? t h i si st h en e x ts t e po fd e e p e n i n gt h eo p e r a t i n gs y s t e m a p p l i c a t i o n s c u r r e n t d i f f i c u l t y i nt h ei n f o r m a t i o n s y s t e m d a t a m a n a g e m e n ti s :t h es e c t o rd a t aa n dt h ed i f f i c u l t yo fd a t ai n t e g r a t i o n h a v ea l s oi n c r e a s e d ,a f f e c t i n gt h eo p e r a t i o no ft h es y s t e mo fd a t aq u a l i t y m e t a d a t am a n a g e m e n ts o l u t i o nt ot h ep r o b l e mi sh o wt h ed a t ai n t h e o p e r a t i o n a ls y s t e m s a n d m a n a g e m e n tc a t e g o r i e s ,a n d t h e e s t a b l i s h m e n to fd a t aa n dt h er e l a t i o n s h i pb e t w e e nt h ed a t af o rt h ed a t a w a r e h o u s ed a t ap r o v i d et h eb a s i sf o rm o n i t o r i n gt h eq u a l i t yo fm a t e r i a l a c c o r d i n gt ot h et r a d i t i o n a ld e f i n i t i o no fm e t a d a t a ( m e t ad a t a ) o nt h e d a t aw a r e h o u s ed a t ar e f e r st ot h ep r o c e s so fb u i l d i n gt h ed a t aw a r e h o u s e g e n e r a t e db yt h ed a t as o u r c ed e f i n i t i o n ,d e f i n i t i o no fg o a l s ,c o n v e r s i o n r u l e sr e l a t e dt oc r i t i c a ld a t a ,a n da l s oc o n t a i n si n f o r m a t i o no nm e t a d a t a d a t am e a n i n go fb u s i n e s si n f o r m a t i o n a u d i tq u e r i e sa n da n a l y s i ss y s t e m ( q u e r ya n da n a l y s ea s s i s t a n t s y s t e m ) i st h eu s eo fi n f o r m a t i o nt e c h n o l o g ys t r u c t u r ea n a l y s i sa n dd a t a p r o c e s s i n gt o o l sp l a t f o r mf o re n t e r p r i s e st od e v e l o pb u s i n e s st op r o v i d e d a t ar e t r i e v a la n dd a t aa n a l y s i ss u p p o r t a sar e s u l to fu s e ri n f o r m a t i o n o nt h ec o n c e r nf o rs e l f - d e f i n i t i o n ,t or e a l i z et h ei n f o r m a t i o nr e t r i e v a la n d a n a l y s i s ,s oa st os o l v et h et r a d i t i o n a li n f o r m a t i o ns y s t e m sd e v e l o p m e n t c o s t s ,p o o rs c a l a b i l i t ya n dh i ? g hm a i n t e n a n c ec o s t sh a sb r o u g h tt h ei s s u e o fn e wt h i n k i n gw a y s w i t hp r a c t i c a la p p l i c a t i o n ,t h ea r t i c l eg i v e sa b u i l d i n ga u d i ta n d a n a l y s i ss y s t e mf o rt h es p e c i f i cs t e p s t o d e s i g na n dd e v e l o p m e n t p r o c e s s e s ,m e t a d a t am a n a g e m e n ts y s t e m ,t h r o u g ht ot h ed e f m i t i o no f f u n c t i o n a lm o d u l e sp r o v i d et h eb a s i cd a t af o r t e m p l a t es u p p o r t ,t h e d e s i g no fac o m m e r c i a lb a n ki nt h ea u d i tc u s t o mq u e r ya n da n a l y s i s s y s t e mt ow o r kw e l l k e y w o r d s :m e t a d a t a ;d a t aw a r e h o u s e ;e t l 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处, 本人签名:烫j 坌垂 本人承担一切相关责任。 日期:2 1 磁:2 :圣2 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅 和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印 或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密 论文注释:本学位论文不属于保密范围,适用本授权书。 本人签名: 导师签名: 嗜侄王 日期: 日期: 2 棚9 ,2 二二 北京邮电大学硕士研究生学位论文 第一章绪论 1 1 研究背景 眼前,在这个无论是客户信息还是企业自身信息都急剧膨胀的信息时代, 对历史信息的有效利用已经成为企业越来越关注的问题。因此,各种综合信息 管理系统相继出现,如中国人民银行的b o s s 经营分析系统、各大国有企业如 中石油中石化等开发的数据分析系统。 所有这些系统的一个很大的特点就是建立在数据库和数据仓库的应用之 上,随着数据仓库( d w ) 技术的不断成熟,企业的数据逐渐变成了决策的主 要依据。数据仓库是一种面向决策主题、由多数据源集成、拥有当前及历史总 结数据、以读为主的数据库系统,其目的是支持决策。数据仓库根据决策的需 要收集来自企业内外的有关数据,并加以适当的组织处理,使其能有效地为决 策过程提供信息。数据仓库中的数据是从许多业务处理系统中抽取、转换而来, 对于这样一个复杂的企业数据环境,如何以安全、高效的方式来对它们进行治 理和访问就变得尤为重要。【3 j 解决这一问题的要害是对元数据( m e t a d 触r a ) 进行科学有效的治理。在 希腊语中,字首“m e t a - 意味着在其他事物中“伴随或“超过”之意。 4 l m e t a d a t a 的字面意思就是指伴随数据或超越数据之上的数据。应用到文中可认为:元数 据是指“描述数据的数据 ,它包含所描述数据的大小、来源、时间、内容摘要、 派生、用法等多种信息,其主要目的就是对指定数据进行有意义的模型化描述, 提供数据资源的全面指南。元数据不仅定义了数据仓库中数据的模式、来源以 及抽取和转换规则等,而且整个数据仓库系统的运行都是基于元数据的,是元 数据把数据仓库系统中的各个松散的组件联系起来,组成一个有机的整体。 1 2 项目目标 在监督银行各业务和管理部门合理合法稳健经营方面,银行的审计部门承 担着越来越大的责任。为了加大审计的力度,审计部门必须增加审计的覆盖面 和频度。由于受限于技术和工具,以往的现场审计方法犹如大海捞针,工作量 大又不容易发现问题。审计手段落后,审计工作量大,使得审计队伍不堪重负, 下辖机构能够被审计的频度很低。 在银行审计部门的这种需求下,我们结合了银行专家多年的风险管理经验, 采用先进的1 1 r 技术、商业智能技术及其工具,为商业银行审计人员设计了这套 第1 页 北京邮电大学硕士研究生学位论文 智能化的审计自定义查询与分析系统,建立一个灵活的审计系统,能够快速适 应建设交通银行银行审计部门对于审计信息的需要。具体有:提供灵活的模板 定义维护,提供多种抽样分析手段,提供灵活的专题定制平台,提供友好的模 板和审计专题查询平台,提供完整的权限控制和安全机制等。本系统中对相关 资料进行查询、上传和维护的平台,方便审计工作人员对内部报送资料进行日 常管理和对相关政策法规进行快速检索。同时将审计系统项目的建设与全行整 体信息化建设工作结合起来,通过该项目确立全行审计信息系统体系架构,进 一步提高审计管理工作的科学性和规范性。 本文主要论述了如何在银行海量业务数据分布存储、结构多样、的环境下, 尝试将系统功能单元组件化,为用户提供安全、高效、透明的元数据服务,从 而实现了用户的信息的自定义查询和分析。 1 3 主要研究内容 本文针对审计查询系统的设计和实现所需要完成的功能模块以及开发中的 难点进行了以下几个方面的研究工作: 1 综述了元数据管理相关技术 本文对元数据管理所涉及的相关技术进行了综述,主要涉及到数据仓库、 元数据映射、s q l 解析等技术。 2 商业银行审计业务需求等方面的学习研究和调查 了解了大量的银行业务,尤其是对公业务方面,包括会计业务、私金业务、 授信业务、国结业务、资金业务、中间业务等,对审计业务的需求进行的深入 的调研。 3 元数据管理模块的设计和开发 深入调查研究了现有商业银行业务数据系统和数据仓库系统的特点、功能 及其实现技术,在需求分析的基础上设计了一套能够对用户提供查询系统需要 的基础数据,包括查询数据源,数据库连接配置和连接管理等功能的元数据管 理模块。作为系统最底层的信息维护模块,他将直接同数据库进行信息交行, 为实现在查询模板定义模块提供数据库底层信息支持。 第2 页 北京邮电大学硕士研究生学位论文 1 4 本文结构 本文共六章: 第一章介绍了论文的研究背景,阐述了在银行海量业务数据分布存储、结 构多样的环境下,对数据进行有效的管理和利用的重要性,从而引申出元数据 管理产生的必要性; 第二章介绍了元数据的基础概念,和数据仓库的管理以及目前主流的元数 据管理标准: 第三章介绍了本审计查询与分析系统的整体设计架构,介绍了组件的开发 和系统功能部件的相互耦合关系,并着重介绍了其中的元数据管理模块的整体 设计; 第四章介绍了本文设计的模块在本审计查询与分析系统中应用的具体实 现和操作; 第五章对本论文的工作做了总结和展望。 第3 页 北京邮电人学硕十研究生学位论文 2 1 什么是元数据 2 1 1 元数据的概念 第二章元数据管理综述 按照传统的定义,元数据( m e t a d a t a ) 是关于数据的数据。在数据仓库系 统中,元数据可以帮助数据仓库治理员和数据仓库的开发人员非常方便地找到 他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据, 可将其按用途的不同分为两类:技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数 据( b u s i n e s sm e t a d a t a ) 。 s l 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和治理 数据仓库使用的数据,它主要包括以下信息:1 5 】 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定 义,以及数据集市的位置和内容; 业务系统、数据仓库和数据集市的体系结构和模式; 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、 预定义的查询与报告; 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、 数据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和 实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂数据 仓库中的数据。1 5 】业务元数据主要包括以下信息:使用者的业务术语所表达的 数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分 析方法以及公式和报表的信息;具体包括以下信息: 企业概念模型:这是业务元数据所应提供的重要的信息,它表示企业数据模 型的高层信息、整个企业的业务概念和相互关系。以这个企业模型为基础, 不懂数据库技术和s q l 语句的业务人员对数据仓库中的数据也能做到心中 有数。 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在 数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。 这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。 第4 页 北京邮电大学硕上研究生学位论文 业务概念模型和物理数据之间的依靠:以上提到的业务元数据只是表示出了 数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中 的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现。 除了技术元数据( 做h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) , 有的划分还包括过程处理元数据( p r o c e s se x e c u t i o nm e t a d a t a ) ,主要是e t l 处 理过程中的一些统计数据,通常包括有多少条记录被加载,多少条记录被拒绝接 受等数据。 2 1 2 元数据管理 所谓元数据管理,就是对技术元数据和业务元数据进行管理,其目标是为 了提升共享、重新获取和理解企业信息资产的水平。不对元数据进行管理或管 理不得当,信息将被丢失或处于隐匿状态而难以被用户使用,数据集成将十分 昂贵,不能对业务进行有效支撑。终端用户要识别相关的信息将十分困难,最 终用户将失去对数据的信任。 2 1 3 元数据管理的五级成熟度模型 元数据管理的成熟度模型主要分为五级。 6 1 第一级:随机状态( a d h o c ) 行为特征在这一级上,对元数据的管理是随机的。元数据由某个人或某一 组人员在局部产生或获取,并在局部使用。在大多数时间里,元数据是隐匿在 信息中,比如存储于诸如w o r d 、e x c e l 等形式的办公文档,这些文档使用的术 语仅局部的用户能知道其确切含义。人们通过与“责任人直接通信或通过信 息会话来获取这些知识。在局部环境工作数月或数年后,人们使这些元数据以 及对它的理解内在化,使对这种信息有习惯性的理解。 在这一阶段,元数据通过组织机构缓慢的传播或根本不传播,这取决于局 部小组与其他小组问的通信量的大小,这些元数据可能永远“待一在该局部小 组或某个人那儿。如果这样的小组或个人调离,则这种元数据信息可能永远丢 失。 元数据知识保留在人的大脑中。在这种环境中,知道( 或不知道) 与谁交 谈对于理解元数据成为一件十分重要的事。 元数据要通过与“责任人 的交谈才能共享。新来者需要通过他们的日常 工作来学习元数据。外部人员难以理解元数据,他们必须与“责任人一交谈才 第5 页 北京邮电人学硕士研究生学位论文 能得到他们想要的东西。因为元数据在局部产生或抓取并在局部使用,所以通 常也只能在局部修改,这种修改通常也不会通知公司里其他的组织。 可以用各种不同的工具来生成元数据。绝大部分是面向个人电脑的应用软 件。例如,e r w i n 可用于数据库建模,r a t i o n a l 用于为对象建模、e x c e l 用于生 成商品列表等。这些工具都没有设计成可以交换信息,因此,只能在当地的文 件系统中保存所生成的元数据。 第二级:发现 行为特征在元数据管理的这一级上,可以发现在不同企业之间的元数据。 像第一级的情况一样,元数据仍然在局部产生和抓取,然而,它处于可发现状 态,这样的元数据在企业一级显露,使得每一个对它有兴趣的人都能随时了解 “什么已经存在 。元数据仍然可以在局部级上维护,然后更新中央知识库,但 它们仍然使用不同的命名法。结果,相同的名字被甩于表示意义不同的事情, 而同一件事情则使用了几个不同的名字。 尽管如此,相比之下,从不同来源来的数据和数据的含义已经具有了更多 的透明度。对于商业用户,如果他们需要,现存的技术可为他们提供有关数据 的来源和怎样对数据进行计算的信息。 6 1 人们开始感知到共享元数据信息的重要性。业务分析员、数据拥有者和应 用开发者现在自觉地将元数据信息加载到中央知识库中。 元数据知识经由中央数据库进行共享。凭借对中央知识库地理解,人们能 够发现在其他应用系统中的数据。然而,由于使用术语的不同,人们互相之间 需要交流,以便弄清某些元数据的含义。而且,由于元数据的更新不受任何方 式的控制,使得这种更新没有告示或贴切的分析。 有一些元数据管理工具可用于共享来自数据源的元数据,并能把来自不同 建模工具的逻辑元数据导入到元数据知识库中。a gr o c h a d e 、u n i c o n 、 m e t a m a t r i x 是该类产品的一些例子。然而,除了以商业含义来定义数据表格的 栏目名之外,这些工具没有一个能很好地抓取元数据。 第三级:管理控制 在这一级对元数据的修改进行集中管理。1 6 1 局部业务单元或开发小组如不通 知其他的元数据保管者和用户,就不再能按照自己的想法对元数据进行修改。 在一个地方发起的元数据的修改将传播给其他地方。有各种工具和方法可用于 不同业务单元之间交换元数据。为了整合不同数据源中的数据,仍然必须用手 第6 页 北京邮电大学硕:l 研究生学位论文 工进行数据的映射,以解决不同数据源的数据整合。但是,这种映射在一个中 央知识库上进行维护和管理。 数据拥有者、应用开发人员、用户和其他的数据保存者现在比以往任何时 候更清楚元数据管理的重要性。人们遵循有关元数据管理的“监督 处理操作 规程。在对元数据进行修改前,他们就分析这种修改将会产生的影响。他们认 识到元数据的共享将使组织的运作更有效,并使他们的生活更轻松。 建立了监督体系结构( 谁是数据和应用的拥有者) ,监督资产( 数据仓库、数 据集市、命名标准) 和流程( 何时开始更新、如何更新) 。 有几个工具经常被用于元数据的监督处理。s c h e m a l o g i c 是一种新兴的工 具,通常被用于帮助监督处理发现业务的词汇及其分类。还有一些软件提供商 正在相互竞争,以填补这一空间,但还没有一家能提供商用的产品。 第四级:优化 在对元数据实施集中存储并通过监督体制对元数据进行管理后,企业会发 现,通过标准化和整合可以实施有意义的优化。为了优化各业务单元之间的各 种冲突和各个副本,人们开发了一个企业数据模型和词汇表。人们可以将这些 标准模型和词汇表用于各种新的应用。时机成熟时,可以把各种老的应用迁移 到这些模型上。 在这一级,人们坚持不懈地探索优化的途径。人们协同工作,通过在数据 的入口点确认数据的有效性来提高数据的质量。通过确定各业务实体的权威数 据源,使数据的映射达到最小化。数据开始从一个业务单元平滑地流到另一个 业务单元,而不用担心昂贵的数据集成成本。 首先,生成企业数据模型,并在中央知识库进行维护。第二,对数据模型 中定义的每一个实体确定权威数据源或企业应用的主参照数据,然后将业务的 上下文信息和含义与这些数据源进行关联。在整个组织中对业务的词汇表进行 标准化。鼓励应用开发小组使用这些标准化的术语,来生成、传播和表示信息。 目前,仅有少数几个能帮助企业实施优化的工具。而且,每一个工具只能 完成其中一到两个任务,还没有哪个工具能做企业优化所需的所有事情。 第五级:自动化 在这一级,元数据管理是自动进行的。当在逻辑层次发生元数据更新时, 它们将被传播到物理层次。反之,当在物理层次发生更新时,逻辑层次将被更 第7 页 北京邮电人学硕士研究生学位论文 新,以反映这种更新。在元数据中的任何变化也将触发业务工作流,以处理其 他各个业务系统所需的相对应的任何修改。由于各个应用系统遵照相同的词汇 表,它们之间的关系可以通过知识本体进行推断,所以,各应用系统之间数据 格式的映射自动产生。 人们把元数据管理作为常规业务的组成部分。就像电信网对业务的支持一 样,元数据成为组织运作中一种关键的、普遍存在的、无形的资产。元数据管 理变成业务处理的一个主要组成部分,而且,整个业务运作都要依赖于它。事 实上,如果元数据管理实施得很好,人们可以无需关心它在何处。在自动化级, 元数据管理成为一种使能器,而不被视为一种障碍。 在这_ 级,元数据管理的处理较为理想。绝大多数处理是自动完成的。人 们从手工和程序处理过程中解放出来。他们在元数据判定上可以工作得更有效。 当业务变化时,由知识工人对企业数据模型、词汇表和知识本体进行维护。这 样一种改变立即会在各个应用中反映出来。例如,假如一个新产品被引进,把 它加到企业词汇表和知识本体中,这一情况将自动地被传播给金融系统、制造 业系统和营销系统。使得每个应用系统无需花费昂贵的代价,去完成相应的修 改。 各个应用必须使用企业数据模型、词汇表和知识本体来获取、传播和表示 数据。人们开发了各种代理,将数据从一种格式翻译成另一种格式。为了实现 这些功能,当前正在展开知识库表示和知识集成方面的许多研究。 2 2 数据仓库与元数据管理 企业的计算机系统每年会产生很多数据,很多企业面临着这样的困境,难 以有效的管理大量的、繁杂的、不一致的数据,并方便地访问、利用这些数据 进行辅助决策。 建立数据仓库提供了一个很好的方法,把数据转化为有用的、可信赖的信 息,支持商业决策。而建立数据仓库一个重要的工作是元数据管理。元数据 ( m c t a d a t a ) 就是数据的数据,用于建立、管理、维护和使用数据仓库。元数 据管理是企业级数据仓库中的关键组件,贯穿于建立数据仓库的整个过程。 元数据使得用户可以掌握数据的历史情况,如数据从哪里来? 流通时间有 多长? 更新频率是多大? 数据元素的含义是什么? 对它已经进行了哪些计算、 转换和筛选等等。在需求不确定情况下,在瞬间万变的商业环境下,元数据可 以更好的支持需求的变化,降低项目风险。【1 l 第8 页 北京邮电人学硕士研究生学位论文 元数据贯彻于建立数据仓库的整个过程,不只是e t l 过程需要元数据的支 持。在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:( 1 ) 描 述哪些数据在数据仓库中;( 2 ) 定义要进入数据仓库中的数据和从数据仓库中 产生的数据;( 3 ) 记录根据业务事件发生而随之进行的数据抽取工作时间安排; ( 4 ) 记录并检测系统数据一致性的要求和执行情况;( 5 ) 衡量数据质量。 图2 - 1 元数据作用示意图 2 2 1 数据仓库元数据治理现状 元数据管理的主要任务有两个方面:一是负责存储和维护元数据库中的元 数据;二是负责数据仓库建模工具、数据获取工具、前端工具等之间的消息传 递,协调各模块和工具之间的工作。 由以上几节我们了解到元数据几乎可以被称为是数据仓库乃至商业智能 ( b i ) 系统的“灵魂 ,正是由于元数据在整个数据仓库生命周期中有着重要的 地位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。但遗憾的 是对于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;它 们提供的仅仅是对特定的局部元数据的管理。 与元数据相关的数据仓库工具大致可分为四类: 1 数据抽取工具:把业务系统中的数据抽取、转换、集成到数据仓库中, 如a r d e n t 的d a t a s t a g e 、c a ( 原p l a t i n u r n ) 的d e c i s i o nb a s e 和e t i 的e x t r a c t 第9 页 北京邮电大学硕士研究生学位论文 等。这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。 2 前端展现工具:包括o l a p 分析、报表和商业智能工具等,如 m i c r o s t r a t e g y 的d s sa g e n t 、c o g n o s 的p o w e r p l a y 、b u s i n e s so b j e c t s 的b o ,以 及b r i o 等。它们通过把关系表映射成与业务相关的事实表和维表来支持多维业 务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数 据与技术元数据相对应的语义层。 3 建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高 层的与特定业务相关的语义。如c a 的e r w i n 、s y s b a s e 的。p o w e r d e s i g n e r 以及 r a t i o n a l 的r o s e 等。 4 元数据存储工具:元数据通常存储在专用的数据库中,该数据库就如同 一个“黑盒子一,外部无法知道这些工具所用到和产生的元数据是如何存储的。 还有一类被称为元数据知识库( m e t a d a t ar e p o s i t o r y ) 的工具,它们独立于其它 工具,为元数据提供一个集中的存储空间。包括微软的r e p o s i t o r y ,c a 的 r e p o s i t o r y ,a r d e n t 的m e t a s t a g e 和s y b a s e 的w c c 等。 2 2 工元数据标准 在使用元数据的同时,随着数据仓库市场的发展,业界出现许多数据仓库 管理和分析的工具。没有规矩不成方圆,元数据管理之所以困难,一个很重要 的原因就是缺乏统一的标准,各种工具使用不同的元数据标准来表示和处理, 不同系统之间的迁移、数据交换变得困难。于是,我们希望用一种单一的元数 据标准,使得各种组织的元数据具有单一的元模型( m e t a m o d e l ) ,因此,需要 建立一种标准使得不同的数据仓库和商业智能系统之间可以相互交换元数据。 近几年,随着元数据联盟m d c ( m e t ad a t ac o a l i t i o n ) 的开放信息模型o i m ( o p e ni n f o r m a t i o nm o d e l ) 和o m g 组织的公共仓库模型c w m ( c o m m o n w a r e h o u s em o d e l ) 标准的逐渐完善,以及m d c 和o m g 组织的合并,为数据 仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。【1 l 2 2 2 1 m d c 的o i m 存储模型 m d c 成立于1 9 9 5 年,是一个致力于建立与厂商无关的、不依赖于具体技 术的企业元数据管理标准的非赢利技术联盟,该联盟有1 5 0 多个会员,其中包 括微软和m m 等著名软件厂商。1 9 9 9 年7 月m d c 接受了微软的建议,将o i m 作为元数据标准。1 1 l 第l o 页 北京邮电大学硕上研究生学位论文 o i m 的目的是通过公共的元数据信息来支持不同工具和系统之白j 数据的共 享和重用。它涉及了信息系统( 从设计到发布) 的各个阶段,通过对元数据类 型的标准描述来达到工具和知识库之间的数据共享。1 1 1 o i m 所声明的元数据类型都采用统一建模语言u m l ( u n i v e r s a lm o d e l i n g l a n g u a g e ) 进行描述,并被组织成易于使用、易于扩展的多个主题范围( s u b j e c t a r e a s ) ,这些主题范围包括: 分析与设计( a n a l y s i sa n dd e s i g n ) :主要用于软件分析、设计和建模。 该主题范围又进一步划分为:u m l 包( p a c k a g e ) 、u m l 扩展包、通 用元素( g e n e r i ce l e m e n t s ) 包、公共数据类型( c o m m o nd a t at y p e s ) 包和实体关系建模( e n t i t yr e l a t i o n s h i pm o d e l i n g ) 包等。 对象与组件( o b j e c ta n dc o m p o n e n t ) :涉及面向对象开发技术的方方 面面。该主题范围只包含组件描述建模( c o m p o n e n td e s c r i p t i o n m o d e f i n g ) 包。 数据库与数据仓库( d a t a b a s ea n dw a r e h o u s i n g ) :为数据库模式管理、 复用和建立数据仓库提供元数据概念支持。该主题范围进一步划分为: 关系数据库模式( r e l a t i o n a ld a t a b a s es c h e m a ) 包、o l a p 模式( o l a p s c h e m a ) 包、数据转换( d a t at r a n s f o r m a t i o n s ) 包、面向记录的数据 库模式( r e c o r d o r i e n t e dd a t a b a s es c h e m a ) 包、x m l 模式( x m l s c h e m a ) 包和报表定义( r e p o r td e f i n i t i o n s ) 包等。 业务工程( b u s i n e s se n g i n e e r i n g ) :为企业运作提供一个蓝图。该主题 范围进一步划分为:业务目标( b u s i n e s sg o a l ) 包、组织元素 ( o r g a n i z a t i o n a le l e m e n t s ) 包、业务规则( b u s i n e s sr u l e s ) 包、商业 流程( b u s i n e s sp r o c c s s e s ) 包等。 知识管理( k n o w l e d g em a n a g e m e n t ) :涉及企业的信息结构。该主题 范围进一步划分为:知识描述( k n o w l e d g ed e s c r i p t i o n s ) 包和语义定 义( s e m a n t i cd e f i n i t i o n s ) 包。 上述主题范围中的包都是采用u m l 定义的,可以说u m l 语言是整个o i m 标准的基础。虽然o i m 标准并不是专门针对数据仓库的,但数据仓库是它的主 要应用领域之一。目前市场上基于该标准的元数据管理工具已经比较成熟,例 如微软的r e p o s i t r y 和c a 的r e p o s i t r y 均采用了o i m 标准。 第l l 页 北京邮电大学硕上研究生学位论文 2 2 2 2 o m g 组织的c w m 模型 o m g 是一个拥有5 0 0 多会员的国际标准化组织,著名的c o r b a 标准即出 自该组织。公共仓库元模型( c o m m o nw a r e h o u s em e t a m o d e l ) 的主要目的是在 异构环境下,帮助不同的数据仓库工具、平台和元数据知识库进行元数据交换。 2 0 0 1 年3 月,o m g 颁布了c w m1 0 标准。c w m 模型既包括元数据存储,也 包括元数据交换,它是基于以下三个工业标准制定的:【1 l ( 1 ) u m l :它对c w 模型进行建模。 ( 2 ) m o f ( 元对象设施) :它是o m g 元模型和元数据的存储标准,提供在 异构环境下对元数据知识库的访问接口。 ( 3 ) x m i ( x m l 元数据交换) :它可以使元数据以x m l 文件流的方式进行 交换。 c w m 为数据仓库和商业智能( ) 工具之间共享元数据,制定了一整套 关于语法和语义的规范。它主要包含以下四个方面的规范:【1 7 l ( 1 ) c w m 元模型( m e t a m o d e l ) :描述数据仓库系统的模型; ( 2 ) c w mx m l :c w m 元模型的x m l 表示; ( 3 ) c w md t d :d w b i 共享元数据的交换格式 ( 4 ) c w mi d l :d w b i 共享元数据的应用程序访问接口( a p i ) 下面重点讨论c w m 元模型的组成,如下图所示。 t h ec w mm e l a m o d e l _ 眺l l m c e n t - n _ a 时q p e t e j o e t 啊啊_ a r _ u -o l p 蹁l 怒怨 日 - j | l t - i n l m m e n c l a 4 u 糟 倒科氍一袅l 抽l r - c 擅r tm e l t e l m _ l 棚l 日 - f 麓。l 撬 s “ i l l 4 1 a l r 州i o i i d 出l | 妒he q 酗卅函婚 “i - i l a r l - 一 伪枷i h ,潮 图2 - 2 c w m 模型图 第1 2 页 一 北京邮电大学硕十研究生学位论文 ( 1 ) 元模型( m e t a m o d e l ) 包:构造和描述其它c w m 包中的元模型类的基 础。它是u m l 的一个子集,由以下四个子包组成: a ) 核心( c o r e ) 包:它的类和关联是该模型的核心,其它所有的包都以它 为基础。 b ) 行为( b e h a v i o r a l ) 包:包括描述c w m 对象行为的类与关联,并且它 为描述所定义的行为提供了基础。 c ) 关系( r e l a t i o n s h i p s ) 包:包括描述c w m 对象之间关系的类与关联。 d ) 实例( i n s t a n c e ) 包:包括表示c w m 分类器( c l a s s f i e r ) 的类与关联。 ( 2 ) 基础包( f o u n d a t i o n ) :它包括表示c w m 概念和结构的模型元素,这 些模型元素又可被其他c w m 包所共享,它由以下六个子包组成: a ) 业务信息( b u s i n e s si n f o r m a t i o n ) 包:包括表示模型元素业务信息的类 与关联。 b ) 数据类型( d a t at y p e s ) 包:包括表示建模者可以用来创建所需数据类 型的结构的类与关联。 c ) 表达式( e x p r e s s i o n s ) 包:包括表示表达式树的类与关联。 d ) 关键字和索引( k e y sa n di n d e x e s ) 包:包括表示键和索引的类与关联。 e ) 软件发布( s o f t w a r ed e p l o y m e n t ) 包:包括软件如何在数据仓库中发布 的类与关联。 f ) 类型映射( t y p em a p p i n g ) 包:包括表示不同系统之间数据类型映射的 类与关联。 ( 3 ) 资源包( r e s o u r c e ) :用于描述数据资源的包,它包括以下四个子包: a ) 关系( r e l a t i o n a l ) 包:包括表示关系型数据资源的元数据的类与关联。 b ) 记录( r e c o r d ) 包:包括表示记录型数据资源的元数据的类与关联。 c ) 多维( m u l t i d i m e n s i o n a l ) 包:包括表示多维数据资源的元数据的类与关 联。 d ) x m l 包:包括表示x m l 数据资源的元数据的类与关联。 第1 3 页 北京邮电大学硕士研究生学位论文 ( 4 ) 分析( a n a l y s i s ) 包:它由以下五个子包组成: a ) 转换( t r a n s f o r m a t i o n ) 包:包括表示数据抽取和转换工具的元数据的类 与关联。 b ) o l a p 包:包括表示o l a p 工具的元数据的类与关联。 c ) 数据挖掘( d a t am i n i n g ) 包:包括表示数据挖掘工具的元数据的类与关 联。 d ) 信息可视化( i n f o r m a t i o nv i s u a l i z a t i o n ) 包:包括表示信息可视化工具 的元数据的类与关联。 c ) 业务术语( b u s i n e s sn o m e n c l a t u r e ) 包:包括表示分类业务的元数据的 类与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论