(计算机应用技术专业论文)元数据管理技术在商业智能系统中的研究与应用.pdf_第1页
(计算机应用技术专业论文)元数据管理技术在商业智能系统中的研究与应用.pdf_第2页
(计算机应用技术专业论文)元数据管理技术在商业智能系统中的研究与应用.pdf_第3页
(计算机应用技术专业论文)元数据管理技术在商业智能系统中的研究与应用.pdf_第4页
(计算机应用技术专业论文)元数据管理技术在商业智能系统中的研究与应用.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)元数据管理技术在商业智能系统中的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着科学技术和数据仓库技术的发展,管理和访问大型数据集的复杂性已成 为数据生产者和用户共同面临的突出问题,数据生产者需要有效的办法来组织、 管理和维护海量数据。元数据作为描述数据的内容、质量、状况和其它特性的信 息的作用已变得越来越重要,成为信息资源的有效管理和应用的重要手段。 本文针对商业智能系统的数据异构。用户层次多,以及数据范围广的特点, 做了一些工作主要包括: 1 设计了商业智能系统的元数据管理系统。该系统采用j a v a 语言开发,实 现了平台无关性,采用了当前流行的也,x s l t 等技术,同时使用了很多目前成 熟的开源软件项目。元数据管理系统充分发挥了x m l 的技术优势,特别是x m l 的 分离性。 2 对元数据层次结构建模做出了自己的研究。具体研究是非齐整非平衡及其 混合层次结构在元数据和o l a p 中的实现 本文创新之处: 1 主要创新之处是结合目前的一些元数据标准规范,开发实现了自己的元数 据管理系统。 2 在元数据和o l a p 中实现了非齐整非平衡及其混合层次结构 关键词:商业智能,数据仓库,元数据,元数据管理系统,x 札s c h e m a a ss c i e n c ea n dt e c h n o l o g ya n dt h ed e v e l o p m e n to fd a t aw a r e h o u s et e c h n o l o g y , m a n a g e m e n ta n d a o c 宅s sl a r g ed a t as e t sh a sb e c o m et h ec o m p l e x i t yo fd a t ap r o d u c e r s a n da s c i sa r ef a c i n gt h eo u t s t a n d i n gi 娼u c s , d a t ap r o d u c e r sn e e de f f e c t i v ew a y st o o r g a n i z e ,m a n a g ea n dm a i n t a i nm a s s i v ed a t a m e t a d a t ad e s c r i b e sa sd a t ac o n t e n g q u a f f t y ,c o n d i t i o na n do t h e rc h a r a c t e r i s t i c so ft h er o l eo fi n f o r m a t i o nh a sb c g m e i n c r e a s i n g l yi m p o r t a n ta st h ee f f e c t i v em a n a g e m e n to fi n f o r m a t i o nn s d u “) e sa n dt h e a p p l i c a t i o no ft h ei m p o r t a n tm e r d s n i i sp a p e rb u s i n e s si n t e l l i g e n c ed a t ah e t e r o g e n e o u ss y s t e m s ,u s e r sa r et o om a n y l e v e l s ,a sw e l la st h ed a t ac o v e raw i d er a n g eo ff e a t u r e s ,d o n es o m ew o r km a i n l y i n c l u d e s : 1 b u s i n e s si n t e l l i g e n c es y s t e md e s i g n e dm e t a d a t am a n a g e m e n ts y s t e m 1 h e s y s t e m u s e sj a v al a n g u a g ed e v e l o p m e n t ,a c h i e v e da p l a t f o r m - i n d e p e n d e n t , u s i n gt h e c u r r e n tp o p u l a r m lx s l t a n do t h e rt e c h n o l o g y , c u r r e n t l yu s e di nal o to fm a t u r e o p e ns o u r s o f t w a r ep r o j e c t s m e t a d a t am a n a g e m e n ts y s t e ma n dg i v ef u l lp l a yt ot h e a d v a n t a g eo fx m lt e c h n o l o g i e s ,p a r t i c u l a r l yx m ls e p a r a t i o n 2 h i e r a r c h i c a ls t r u c t u r eo f m e t a d a t am o d e lm a d ei t so w l r e s e a r c h s p e c 访c s t u d i e so nt h es k i pa n dr a g g e dh i e r a r c h i c a ls t r u c t u r em i x e do f m e t a d a t aa n do l a pj n t h er e a l i z a t i o n 儆i n n o v a t i o n : 。 1 t h em a i ni n n o v a t i o ni st h ec o m b i n a t i o no fs o m eo ft h ec u r r e n tm e t a d a t a s t a n d a r ds p e c i f i c a t i o n s ,t h ed e v e l o p m e n ta c h i e v e di t sm e t a d a t am a n a g e m e n ts y s t e m 2 m e t a d a t aa n do l a pa c h i e v eas k i pa n dr a g g e dh i e r a r c h i c a ls t r u c t u r em i x e d k e y w o r d s :b u s i n e s si n t e l l i g e n c e ,d a t aw a r e h o u s i n g , m e t a d a t a , m e t a - d a t a 学位论文独创性声明 本人声明所、量变的学位论文是本人存学帅指导f 进行的形 究工 作驶取得的研究成果。据我所知,除文i i 嘲别加以标注和致谢的地 方外,论文中不包含其他人已经发表或攒写过的研究成震,也不包含 为获得煎邑鑫堂或其他教育机构的学位或证书而使用遵的材糊。与 瓣i 同王作的同志对本研究所做的任何贞献均已在论文中作了明确 的说明并表示谢意。 。i 学位论菇作者签名 手写) :皂斌嗥。警字日期:j 翻警_ 气月。) 嗲目 学位论文版权使用授权书 ,本学位沦文作者完全。】解一直基盔堂一有关保留、使用学位论文 酊规定,有权保留并向国家有关部门或机构送交论交盼复印沓 和磁 盘,允许论文被查阅和借阅。本人授权煎昌太堂可以将学位论文的全 部或部分内容编入膏关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编本学位论文。同时授权中目科学技术信息研究 所将本学位论文收录到中国学位沦文全文数据库,并遇过网络向 社会公众提供信息服务。 ( 保密的学位论文在解密后适用本授权书) 、,、 学位论文作者虢新繇 衫肛! 舛 签字日期:词年l l 月站p、签宁曰期:沙1 年j l 月谚曰 第1 章引言 1 1 背景介绍 第1 章引言 随着全球市场的形成,企业正面临前所未有的机遇与挑战,商业竞争日趋激 烈,如何能在多变的市场环境下快速、正确地对市场环境做出反映,尽快占据市 场竞争优势,是所有企业为能更好的生存与发展而苦苦寻求的信息时代另一个 突出的特点是数据爆炸。商业管理信息系统即商业企业o l t p ( o n - l i n e t r a n s a c t i o np r o c e s s i n g ,联机事务处理) 系统、市场调查、供货商、客户、w e b 、 政府等都在源源不断地为企业决策者增加大量的信息。在商业管理信息系统中, 平均1 8 个月信息量就翻一翻,但是实际上用于分析的数据有多少呢? 有些项目专 家估计只有7 ,并且能用于分析的数据来源仅限于数据库,为了不影响o l t p 系 统的工作性能,数据库中只能保留较新的数据,大量的历史数据大多被转储出去 而成为所谓的“死”数据。各个企业面临这样庞大而杂乱的数据,如何尽量多的 使用商业管理信息系统所提供的大量数据,提高信息的利用率,快速准确地找出 需要的信息,做出高明的决策,是商业智能发展的驱动力。 此外,更多成熟技术的出现,比如硬件上的大容量存储技术、并行处理器 技术,数据仓库的管理工具及挖掘工具等,使企业能以更低的成本投资商业智能, 进而得到更高的投资回报率。再加上i n t e r n e t 技术使得分销商、供货商、商业 伙伴、零售商和生产主之间的数据访问和共享成为可能,因此研究和应用商业智 能就成为必然。通过部署商业智能管理信息系统,企业可初步实现优化企业资源、 增加竞争能力、提高利润、改善客户满意度的工作。 1 2 课题来源 本课题来源于导师项目 1 3 选题意义 商业智能应用系统所提供的商业建模和量化的分析指标能够提供企业内部 关键问题的解决方案,如能够及时地将从企业各应用系统中“提取”的各种基础 绩效指标与关键绩效指标( k p i ,k e yp e r f o r m a n c ei n d i c a t o r ) 提供给企业各级管 第1 章引言 理人员,辅助管理人员作出正确决策。而且,通过在企业各种应用系统中集成商 业智能技术,使得企业的运作流程与决策信息形成回路,能够帮助分析和改进企 业内部或企业之间的沟通和交流,所有系统可以协同以完成企业的整体目标,并 能够及早发现企业的运营瓶颈,系统更具弹性,企业更容易及时地作出正确的决 策。 基于元数据,我们可以尽量多的使用商业管理信息系统所提供的大量数据, 提高信息的利用率,快速准确地找出需要的信息,做出高明的决策,促使商业智 能的进一步发展。 1 4 论文主要工作 在实际应用中,我们面临的一个问题是缺乏统一的元数据管理系统。这是因 为商业智能系统创建过程中涉及的各类软件如数据存储软件、数据抽取软件、前 端展现软件等都存储各自的局部元数据,且数据存储模式不一样,不能进行元数 据共享。元数据是进行数据集成和数据理解的关键,在实际应用中,商业智能系 统的不同用户,要站在不同角度审视和使用该系统的数据,特别是对于管理人员 来说,数据的分散和元数据的不统一,造成信息整理、维护和分发的困难。 在该元数据管理系统中主要是为商业智能系统中组成数据仓库需要的所有 元数据进行管理。包括有创建维度、创建事实表、维度与维表的映射关系、从数 据库中导入数据仓库所需要的数据表格等配置信息。能够从元数据管理系统中读 取相关的元数据,然后将这些元数据组织展现,实现多维分析,能够对指标进行 下钻功能,能够对报表进行维度转置,以及一般报表具有的功能。 1 5 论文组成 本论文由六章组成,各章的主要内容如下: 第一章:引言 介绍了本课题的背景、意义、课题来源,并介绍了论文的主要工作。 第二章:商业智能与数据仓库技术 详细阐述了商业智能、数据仓库技术的概念、发展趋势,介绍了数据仓库的 数据组织结构及存储方式。 第三章:元数据 详细介绍了元数据定义、作用,以及常用元数据的标准,并介绍了元数据管 2 第1 章引言 理上的标准化与结构。 第四章:相关技术介绍 阐述了如何利用舯i 技术表示元数据,如何利用x m l 进行元数据建模。 第五章:商业智能系统的元数据管理设计与实现 从具体实现的角度,基于“恩创商业智能系统”项目的实际需求,详细介绍 了元数据管理系统的设计。 第六章:总结与展望 本章对论文进行了总结,归纳了论文的创新点,分析了在整个项目的实施过 程中遇到的问题和某些期待完善的内容,以及对元数据管理的发展趋势提出了自 己的看法。 论文最后部分是“致谢”和“参考文献”。 3 第2 章商业智能与数据仓库技术 2 1 商业智能 第2 章商业智能与数据仓库技术 2 1 1 商业智能简介 商业智能( b i ) 是英文单词b u s i n e s si n t e l l i g e n c e 的缩写。商业智能通常 被理解为将企业中现有的数据( 如财务数据、销售数据等常用业务系统中的数据) 转化为可以在企业决策者需要对企业有利的决策时起到积极作用的知识。为了将 数据转化为知识,需要利用数据仓库、联机分析处理( 0 l a p ) 工具和数据挖掘等 技术因此,从技术层面上讲,商业智能只是数据仓库、o i a p 和数据挖掘等技 术的综合运用。 因此,把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从 许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数 据的正确性,然后经过抽取( e x t r a c t i o n ) 、转换( t r a n s f o r m a t i o n ) 和装载( l o a d ) , 即e t l 过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视 图,在此基础上利用合适的查询和分析工具、数据挖掘工具、o l a p 工具等对其 进行分析和处理( 这时信息变为辅助决策的知识) ,最后将知识呈现给管理者, 为管理者的决策过程提供支持。 目前,商业智能产品及解决方案大致可分为数据仓库产品、数据抽取产品、 o l a p 产品、展示产品、和集成以上几种产品的针对某个应用的整体解决方案等。 前端的产品,它们负责直接面向用户,将用户的请求转发给服务层、数据层,同 时也要向用户展现所需信息。 第2 章商业智能与数据仓库技术 2 1 2 商业智能体系结构 0 量作 般 g 臂理 受 o 砖簟人且 图2 1 商业智能体系结构示意图 图2 1 描述了一个典型的商业智能体系结构。良好的体系结构对于系统的 成败至关重要。因为满足所有功能需求与非功能需求需要有良好的体系结构作保 证。例如:如何建立数据模型能很好地支持数据分析和知识发现的需要:采用何种 体系结构才能根据客户的需要定制功能,即在体系结构的指导下根据需要拼装功“ 能模块组建系统:选择何种决策分析工具,包括选择实现何种任务、选择实现这 种任务的何种工具:将分析的结果和发现的知识通过何种接口返回给用户等。 2 1 3 商业智能的应用领域 借助商业智能,利用企业中长期积累的海量数据,可以实现四方面的应用: ( 1 ) 客户分类和特点分析 根据客户历年来的大量消费记录以及客户的档案资料,对客户进行分类,并 分析每类客户的消费能力、消费习惯、消费周期、需求倾向、信誉度,确定哪类 顾客给企业带来最大的利润、哪类顾客仅给企业带来最少的利润同时又要求最多 的回报,然后针对不 同类型的客户给予不同的服务及优惠。 ( 2 ) 市场营销策略分析 利用商业智能实现市场营销策略在模型上的仿真,其仿真结果将提示所制定 的市场营销策略是否合适,企业可以据此调整和优化其市场营销策略,使其获得 最大的成功 ( 3 ) 经营成本与收入分析 对各种类型的经济活动进行成本核算,比较业务收入与各种费用之间的收支 差额,分析经济活动的曲线,得到相应的改进措施和办法,从而降低成本、提高 5 第2 章商业智能与数据仓库技术 利润。 ( 4 ) 欺诈行为分析和预防 利用联机分析和数据挖掘技术,总结各种骗费、欠费行为的规律,在数据仓 库的基础上建立一套欺骗行为和欠费行为规则库,预警各种骗费、欠费,减少企 业损失。 2 1 4b i 与d s s 、e i s 的比较 商业智能作为一种新兴的决策支持体系,与决策支持系统( d e c i s i o n s u p p o r t i n gs y s t e 吗d s s ) 、领导信息系统( e x e c u t i v ei n f o r m a t i o ns y s t e m , e i s ) 相比,在以下方面存在明确的优势。 1 ) 使用对象范围 b i 的使用对象不像d s s ei s 局限于企业的决策、分析人员,而是扩展到企 业组织内外的各类人员,既有企业领导和高层决策者,又有企业内部各部门的职 能人员,还包括客户、供应商、合作伙伴等企业外部用户,为他们提供信息、知 识,支持决策。 2 ) 具有的功能 b i 具有d s s ,ei s 所不具有的强大的数据管理、数据分析与知识发现能力。 3 ) 知识库状态 d s s ,e i s 中的知识库是在建立的系统中设置好的,库中的知识很少发生变 化。即使发生变化,采用定期人为更新的方法修改。而b i 系统是一个闭合循环 的动态系统。图2 1 中的数据来自各应用系统的反馈,并且数据挖掘可以从现有 的数据仓库中发现新知识,随时对知识库中的内容进行自动修正,所以b i 中的 知识库是一种动态结构。 但商业智能也存在不足。商业智能的目标与d s s 一样,是为了提高企业决策 的效率和准确性。但b i 是通过数据分析、知识发现工具提供有价值的、辅助决 策的信息和知识,用户必须根据这些信息和知识,运用行业知识和经验进行判断, 做出决定,几乎不具备智能决策的能力。不像专门的决策支持系统那样提供方案 生成、方案协调、方案评估等功能,更不具备群体决策的能力。 2 1 5 商业智能前景 一份调查数据显示,许多企业都制定了实施商务智能的计划,但这些计划要 一一实现,则需要一个相当长的过程。商务智能( b i ) 行业今年有望涌现大批面 向广泛用户群体的b i 工具。i d c 预测,b i 的发展不仅引起了数据库供应商的极 8 第2 章商业智能与数据仓库技术 大关注,也使其他大型企业希望成为专业的b i 供应商。 由于我国信息化建设起步比较晚,对商业智能的认识也处于起步阶段,国内 i t 行业己经熟悉的数据仓库应用成功的也并不是很多,主要研究方向集中在数 据仓库的建立以及数据挖掘算法和数据挖掘技术的研究上。但近年来各企业己经 意识到这方面的前景,几家大型企业已经开始着手商业智能系统的建立,如中国 电信、中国移动、花旗银行上海分行和招商银行都正在进行数据仓库的建设。 2 2 数据仓库 2 2 1 数据仓库的数据组织结构 数据仓库的概念是由w h i r , m o n 在1 9 9 2 年出版的建立数据仓库一书中 提出的。数据仓库的提出是以关系数据库、并行处理和分布式技术的飞速发展为 基础,为解决信息技术在发展过程中一方面拥有大量数据,另一方面有用信息却 很贫乏这种不正常现象的综合解决方案。 按照w h 1 r u a o n 给出的定义,数据仓库是面向主题的、集成的、相对稳定 的、随时间变化的数据集合,用来支持管理决策。 数据仓库是在原有的关系型数据的基础上发展形成的,但不同于数据库系统 的组织形式。一般数据仓库的数据组成包括:早期细节级数据、当前细节级数据, 轻度综合级数据、高度综合级数据。源数据经过综合后,首先进入当前细节级, 并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化 的数据将进入早期细节级,由此可见,数据仓库存在着不同综合级别,一般称之 为“粒度”。粒度越大,表示细节程度越低,综合程度越高。数据仓库的粒度是 一个主要的设计问题,因为它会影响存放在数据仓库中数据量的大小以及数据仓 库所能回答的查询类型。数据仓库还有一种很重要的数据一元数据,这会在后面 的章节详细介绍。 图2 2 数据仓库数据组织结构图 7 蹭一 二一曩譬 第2 章商业智能与数据仓库技术 2 2 2 数据仓库的数据存储方式 数据仓库的数据存储组织方式可分为虚拟存储方式、基于关系表的存储方式 和多维数据库存存储方式。 ( 1 ) 虚拟存储方式 虚拟存储方式是虚拟数据仓库的数据组织形式,它没有专门的数据仓库来存 储数据,所有数据还是存放在源数据库当中,只有需要进行分析或查询之时才依 据一定的规则从源数据库中提取相应数据临时组成所需数据视图,以供用户分析 或查询之用。这种方式花费少,软灵活,但对源数据要求较高,发布必须符合数 据仓库对数据的格式、组织要求等。 ( 2 ) 基于关系表的存储方式 基于关系表的存储方式是将数据仍存放在关系型号数据库当中,在这引起表 间有维表和事实表之分,依据元数据的管理来构成虚拟多维数据库的形式。这种 组织方式又可分为星型模型和雪花模型。星型模型如图2 3 所示,中间是事实表, 它是按维进行查询的中心,四周是与之相关的维的信息,每个维表都有自己的属 性,维表和事实表通过维关键字相关联。 图2 3 星型模型 雪花模型是对星型模型的扩展,它在维表中增加了层次,体现了维的不同粒 度的划分,使这个数据仓库的层次更加清晰,逻辑关系更加明白,但是同时增加 了系统的复杂程度,降低了通用性。 ( 3 ) 多维数据库存储方式 多维数据库的组织是直接面向o l a p 分析操作的数据组织形式。它按照预先 定义的多维结构将数据组织起来。多维数据库的存储方式有良好的预算能力,能 够支持高性能的决策支持系统计算,它能够直接访问数据立方体,在数据的存取、 查询速度上更快。但随着维数的增加,所形成的数据立方体会迅速增大,同时, 数据量的增加和多维数据库进行的预算结果将占用大量空间。因而,多维数据库 的数据量迅速膨胀的问题有待进一步解决。 第3 章元数据 3 1 元数据的定义 第3 章元数据 元数据是描述和限定其它数据的数据。关于元数据,迄今为止,还没有完全 统一的定义,最常规的定义就是:元数据是关于数据的数据( d a t aa b o u td a t a ) 。 一些专家和学者又把这个过于简洁的解释加以扩展和深化,较具代表性的几种定 义有: ( 1 ) 元数据是关于数据的数据。此术语指任何用于帮助网络电子资源的识 别、描述和定位的数据。 ( 2 ) 元数据是关于数据的结构化的数据( s t r u c t u r e dd a t aa b o u td a t a ) 。 ( 3 ) 元数据是与对象相关的数据,此数据使其潜在的用户不必预先具备对这 些对象的存在或特征的完整认识。它支持各种操作。用户可能是程序,也可能是 人。jr, ( 4 ) 元数据是对信息包( i n f o r m a t i o n pa c k a g e ) 的编码描述( 如都柏林核心记 录、g i l s 记录等) ,其目的在于提供一个中间级别的描述,使得人们据此就可以 做出选择,确定孰为其想要浏览或检索的信息包,而无需检索大量不相关的全文 文本。 ( 6 ) 元数据,即代表性的数据,通常被定义为数据之数据。它包含用于描 述信息对象的内容和位置的数据元素集,促进了网络环境中信息对象的发展和检 索。 3 2 元数据的作用 ( 1 ) 组织和维护对数据的投资 元数据帮助确保一个组织在数据上的投资。随着技术的进步,信息的采 集变得越来越容易,人们每天都在收集各种各样大量的信息,然而随着人员的变 更或者时间的流逝,关于数据的信息可能会丢失。缺少必要的关于数据的信息, 后来的工作人员可能无法使用或者因为对数据的质量缺乏信任而放弃使用,于是 先前获取数据的投资将会遭受损失。完整的数据信息的描述和关于信息的可靠性 的保证将帮助用户很好地使用数据。另一方面,这些描述信息在因用户错误地使 用数据( 比如没有按规定操作) 而弓) 发纠纷时给数据提供者予保护。 ( 2 ) 为数据的发现和获取提供信息 9 第3 章元数据 一般的应用可能会涉及到各个方面的数据。比如一个有关城市规划的应 用项目就可能会用到各种基础数据:绘局的城市地形图,遥感所的测绘图,水利 局的地下供水管道图,电讯局的光缆分布图等等。这些数据显然是不可能由一个 组织来提供的,只有通过根据数据集的相关元数据建立的数据目录服务器或空间 信息交换中心。用户才可以在相关工具的帮助下发现和获取需要的数据,进而才 能有效地利用各种基础数据。通过元数据定义数据集被用于检索的相关信息,使 得被查询的数据具有了一定的结构性,从而使查询更加准确和方便。就像现在图 书馆网站提供的复杂查询功能,在系统界面的帮助下,用户可以输入记录项在某 些域段需要满足的条件,以及这些条件的逻辑关系,从而形成一条比较准确的查 询语句,这样可以大大地减少查询的返回结果。同时元数据还提供了了有关数据 获取的信息( 比如用户要找的某本书所在图书馆及其书号) 来帮助用户取得数据。 ( 3 ) 数据的使用提供信息 通过元数据详细地描述数据集的相关结构信息及其语义解释,可以帮助 用户更好地使用数据,并为实现数据集问的共享和互操作提供了必要的信息。比 如,有时用户取回的图层数据并不是自己系统直接能用的格式,此时就需要根据 其元数据对该图层空间信息结构的描述信息来理解该数据,进行数据格式转换后 使用。还比如,用户拿到一幅地图数据以后不知道它是否满足自己系统的精度要 求,这就需要根据元数据提供的数据质量信息来做判断。 由此可见,元数据是使数据充分发挥作用的重要条件之一。它可以用于 许多方面,包括数据文档建立、数据发布、数据浏览、数据转换及数据使用等。 元数据对于促进数据的管理、使用和共享均有重要的作用。 3 3 常用元数据的标准 数据的编写是有标准的,对于不同领域一般都会根据需求来定义一个标准或 几个标准。标准的设定是为了实现领域中的数据信息交换和共享,为研究和生产 服务。 ( 3 ) d c 元数据标准 d c 元数据全称都柏林核心元素集( d u b l i nc o r ee l e m e n ts e t ) ,是1 9 9 5 年 国际组织d u b l i nc o r ew e t a d a t ai n i t i a t i v e 拟定的用于标识电子信息资源的拼 中简要目录模式。目前,它由1 5 个数据单元( e l e m e n t ) 组成。 第3 章元数据 表3 1d c 元数据 内容7 个元素知识产权4 个元素 题名 t i t l e 作者或创造者 c r e a t o r 主题词关键词 s u b j e c t 出版者 p u b l i s h e r 内容描述 d e s c r i p t i o n其他责任者 c o n t r i b u t o r 资源类型t y p e权限管理r i g h t s 来源 s o u r c e例示4 个元素 关系 r e l a t i o n日期d a t e 资源标识 i d e n t i f i e r 范围 c o v e r a g e 格式 f o r m a t 语言 l a n g u a g e 当前d c 的研究重点主要是网络环境下的数据描述和数据管理问题。但事实 上几乎所有的资源都能用d c 来描述。 由于d c 不针对某个特定的学科或领域,支持对任何内容的资源进行描述。 它能比较全面地概括文献的主要特征,对文献内容的标引深度没有限制。这种面 向内容的描述符合特种地方文献的要求。因而值得推广使用。 2 ) a c ( a d m i n i s t r a t e ) 元数据标准 a c 全称是a d m i n i s t r a t i v em e t a d a t a ( 管理元数据) ,简称形式有a d m i nc o r e , a c 元数据。值得指出的一点是,虽然a c 的字面意思是管理元数据,但它并不包 含所有的管理元数据,而是一种特定的管理元数据格式。a c 相对于描述性元数 据来讲是元数据的元数据,也可以称为“容器( c o n t a i n e r ) ”元数据,因为描述 性元数据( 下文用内容元数据指代) 描述资源本身,而a c 描述的对象是内容元数 据。a c 与内容元数据的关系见下图。a c 指示其它元数据的出处、管理等信息。 其作用在于核查其它元数据的现实性、完整性、所有权、作者,并提供与内容元 数据管理者联系的信息。 图3 2a c 元数据的的作用 a c 是附属性的元数据,它不能单独使用,必须和至少一种其它的内容元数 据集联合使用。a c 和内容元数据的联合使用与其它各种元数据的互操作一样可 以通过r d f x m l 来实现。a c 和d c 一样也是一个核心集。也就是说,它允许为了 满足特定需要进行扩展。 第3 章元数据 c 的核心元素有8 个,分为四大类,即关于w h o ,w h a t ,wh e n 的元素,有效 期、元数据位置和所有权的元素。a c 从九个方面来定义元素的含义和用法。其 中四项:v e r s i o nl a n g u a g e d a t a t y p e 和m a x i m u mo c c u r r e n c e 适用于所有的元 素。 表3 3a c 元数据 n a m e :名称l a n g u a g e :语言d a t a t y p e :数据类型 i d e n t i f i e r :识别符d e f i n i t i o n :定义 m a x i m u mo c c u r r e n c e :最 大重复次数 v e r s i o n :版本o b l i g a t i o n :可选或必c o m m e n t :评论 选( 含值) 常用的标准还有如描述艺术类可视资料的元数据标准c d w a ( c a t e g o r i e sf o r t h ed e s c r i p t i o no fw o r k so fa r t ) 和v r a c o r e ( c o r ec a t e g o r i e sf o rv i s u a l r e s o u r c e s ) ,以及f g d c 地理空间元数据内容标准等,这里不一一介绍。 3 4 数据仓库领域的元数据 3 4 1 元数据的分类 在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员 非常方便地找到他们所关心的数据:元数据是描述数据仓库内数据的结构和建立 方法的数据,可将其按用途的不同分为两类:技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) 。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数 据仓库使用的数据,它主要包括以下信息: ( 1 ) 数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据 的定义,以及数据集市的位置和内容: ( 2 ) 业务系统、数据仓库和数据集市的体系结构和模式: ( 3 ) 汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、 汇总、预定义的查询与报告: ( 4 ) 由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分 割、数据提取、清理、转换规则和数据刷新规则、安全( 用户授权和存取控制) 。 业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实 际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库 中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、 第3 章元数据 对象名和属性名:访问数据的原则和数据的来源:系统所提供的分析方法以及公 式和报表的信息。具体包括以下信息: ( 1 ) 企业概念模型:这是业务元数据所应提供的重要信息,它对企业数据模 型、企业业务概念以及它们之间的关系进行描述以这个企业模型为基础,即使 不懂数据库技术和s q l 语句的业务人员也能对敬据仓库中的数据做到心中有数 ( 2 ) 多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人 员在数据集市当中有哪些维,维的类别、数据立方体以及数据集市中的聚合规则。 这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式 ( 3 ) 业务概念模型和物理数据之间的依赖:以上提到的业务元数据只是表示 出了数据的业务视图,这些业务视图与实际的数据仓库或数据库、多维数据库中 的表、字段、维、层次等之间的对应关系也应该在元数据知识库中有所体现 3 4 2 元数据的作用 元数据管理在数据仓库项目中起到了承上启下的作用,具体体现在以下几个 方面: ( 1 ) 元数据是进行数据集成所必需的 数据仓库最大的特点就是它的集成性。这一特点不仅体现在它所包含的数据 上,还体现在实施数据仓库项目的过程当中。一方面,从各个数据源中抽取的数 据要按照一定的模式存入数据仓库中,这些数据源与数据仓库中数据的对应关系 及转换规则都要存储在元数据知识库中:另一方面,在数据仓库项目实施过程中, 直接建立数据仓库往往费时、费力,因此在实践当中,州门可能会按照统一的数 据模型,首先建设数据集市,然后在各个数据集市的基础上再建设数据仓库。不 过,当数据集市数量增多时很容易形成“蜘蛛网”现象,而元数据管理是解决 “蜘蛛网”的关键。如果在建立数据集市的过程中,注意了元数据管理,在集成 到数据仓库中时就会比较顺利:相反,如果在建设数据集市的过程中忽视了元数 据管理,那么最后的集成过程就会很困难,甚至不可能实现。 ( 2 ) 元数据定义的语义层可以帮助最终用户理解数据仓库中的数据 最终用户不可能象数据仓库系统管理员或开发人员那样熟悉数据库技术,因 此迫切需要有一个。翻译”,能够使他们清晰地理解数据仓库中数据的含意。元 数据可以实现业务模型与数据模型之间的映射,因而可以把数据以用户需要的方 式“翻译”出来,从而帮助最终用户理解和使用数据。 ( 3 ) 元数据是保证数据质量的关健 数据仓库建立好以后,用户在使用的时候,常常会对数据产生怀疑这些怀 疑往往是由于底层的数据对于用户来说是不“透明”的,使用者很自然地对结果 1 3 第3 章元数据 产生怀疑。而借助元数据管理系统,最终使用者可以了解数据的来龙去脉,也可 以很方便地得到数据的抽取和转换规则,这样他们自然会对数据有信心:当然也 可便捷地发现数据所存在的质量问题甚至国外有学者还在元数据模型的基础上 引人质量维,从更高的角度上来解决这一同题 ( 4 ) 元数据支持需求变化 随着信息技术的发展和企业职能的变化,企业的需求也在不断改变。如何构 造一个随着需求改变而平滑变化的软件系统,是软件工程领城中的一个重要问 题。传统的信息系统往往是通过文档来适应需求变化,但是仅仅依靠文档还是远 远不够的。成功的元数据管理系统可以把整个业务的工作流、数据流和信息流有 效地管理起来,使得系统不依赖特定的开发人员,从而提高系统的可扩展性 3 4 3 数据仓库元数据管理现状 由以上几节我们了解到元数据几乎可以被称为是数据仓库乃至商业智能 ( b i ) 系统的。灵魂”,正是由于元数据在整个数据仓库生命周期中有着重要的地 位,各个厂商的数据仓库解决方案都提到了关于对元数据的管理。但遗憾的是对 于元数据的管理,各个解决方案都没有明确提出一个完整的管理模式;它们提供 的仅仅是对特定的局部元数据的管理。当前市场上与元数据有关的主要工具见图 3 2 。 图3 4 当前市场与元数据有关的主要工具 如图3 2 所示,与元数据相关的数据仓库工具大致可分为四类: 1 1 ) 数据抽取工具:把业务系统中的数据抽取、转换、集成到数据仓库中, 如a r d e n t 的d a t a s t a g e 、c a ( 原p l a t i n u m ) 的d e c i s i o nb a s e 和e t i 的e x t r a c t 等。 这些工具仅提供了技术元数据,几乎没有提供对业务元数据的支持。 1 4 第3 章元数据 ( 2 前端展现工具:包括0 l a p 分析、报表和商业智能工具等,如 m i c r o s t r a t e g y 的d s sa g e n t 、c o g n o s 的p o w e r p l a y 、b u s i n e s so b j e c t s 的b o , 以及b r i o 等。它们通过把关系表映射成与业务相关的事实表和维表来支持多维业 务视图,进而对数据仓库中的数据进行多维分析。这些工具都提供了业务元数据 与技术元数据相对应的语义层。 ( 3 ) 建模工具:为非技术人员准备的业务建模工具,这些工具可以提供更高 层的与特定业务相关的语义。如c a 的e r w i n 、s y s b a s e 的p o w e r d e s i g n e r 以及 r a u o n a l 的r o s e 等。 ( 4 ) 元数据存储工具:元数据通常存储在专用的数据库中,该数据库就如同 一个。黑盒子。,外部无法知道这些工具所用到和产生的元数据是如何存储的。还 有一类被称为元数据知识库( m e t a d a t ar e p o s i t o r y ) 的工具,它们独立于其它 工具,为元数据提供一个集中的存储空间。包括微软的r e p o s i t o r y ,c a 的 r e p o s 的r y ,a r d e n t 的m e t a s t a g e 和s y b a s e 的w c c 等。 3 4 4 元数据管理的标准化 如上所述,在数据仓库的解决方案中,元数据分布在数据仓库系统创建的 各个阶段的不同工具中,这些工具中的元数据的定义模式不同,因此不同工具之 间的数据很难共享。要元共享数据就需要创建各工具之间的“转换桥”,如我们 常用的o d b c 和3 d b c 就属于共享各种数据库之间的转换桥,因为没有统一的标准, 在数据仓库创建过程要共享各个软件的元数据,就需要在各共享软件之间创建 “转换桥”,有时候还需要双向的,创建转换桥需要对各软件不同模式之间的数 据转换有非常详细的信息,这个过程是非常困难和费时的,因而造成元数据分散 和管理困难,其转换复杂度如图3 5 所示 元勰元教斋 元毂据 + 啼 卜_ _ _ - 图3 5 没有统一标准的元数据集成图 元数据存储库可以解决共享和理解数据仓库创建环境中所有的元数据的问 题。元数据存储库是具有特殊作用的数据库,存储和控制和使用整个环境中相关 1 5 第3 章元数据 的元数据部件。元数据集成图如图3 6 所示。 图3 6 统一标准的元数据集成图 在这种背景下,元数据联盟w d c ( m e t ad a t ac o a l i t i o n ) 的开放信息模型 o i m ( o p e ni n f o r m a t i o nm o d e l ) 和对象管理组织b m g ( o b j e c tm a n a g e m e n tg r o u p ) 的公共仓库模型c w m ( c o m o nw a r e h o u s em o d e l ) 标准在竞争中逐步完善,2 0 0 0 年 如c 和o m g 两大组织合并,新的o m g 在2 0 0 1 年2 月发布了c 删1 0 ,为数据仓库 厂商提供了统一的元数据标准,从而为元数据管理的发展铺平了道路。 1 蛐c 的o i m 存储模型 m d c 成立于1 9 9 5 年,是一个致力于建立与厂商无关的、不依赖于具体技术 的企业元数据管理标准的非赢利技术联盟,该联盟有1 5 0 多个会员,其中包括微 软和i b m 等著名软件厂商。1 9 9 9 年7 月m d c 接受了微软的建议,将o i m 作为元 数据标准。 o i m 的目的是通过公共的元数据信息来支持不同工具和系统之间数据的共 享和重用。它涉及了信息系统( 从设计到发布) 的各个阶段,通过对元数据类型的 标准描述来达到工具和知识库之间的数据共享。o i m 所声明的元数据类型都采用 统一建模语言u m l ( u n i v e r s a lm o d e li n gl a n g u a g e ) 进行描述,并被组织成易于 使用、易于扩展的多个主题范围( s u b j e c t ar e a s ) ,这些主题范围包括: ( 1 ) 分析与设计( a n a l y s i sa n dd e s i g n ) :主要用于软件分析、设计和建模。 该主题范围又进一步划分为u 札包( p a c k a g e ) 、u 虬扩展包、通用元素( g e n e r i c e l e m e n t s ) 包、公共数据类型( c o m m o nd a t at y p e s ) 包和实体关系建模( e n t i t y r e l a t i o n s h i pm o d e l i n g ) 包等。 ( 2 ) 对象与组件( o b j e c ta n dc o m p o n e n t ) :涉及面向对象开发技术的方方面 面。该主题范围只包含组件描述建模( c o m p o n e n td e s c r i p t i o nm o d e l i n g ) 包。 ( 3 ) 数据库与数据仓库( d a t a b a s e an d wa r e h o u s i n g ) :为数据库模式管理、 复用和建立数据仓库提供元数据概念支持。该主题范围进一步划分为关系数据库 模式( r e l a t i o n a ld a t a b a s e sc h e m a ) 包、o l a p 模式( o l a ps c h e m a ) 包、数据转换 第3 章元数据 ( d a t a t r a n s f o r m a t i o n s ) 包、面向记录的数据库模式( r e c o r d - o r i e n t e dd a t a b a s e s c h e m a ) 包、x m l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论