




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)数据仓库中基于本体的异构数据集成研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏大学硕士学位论文 摘要 建立数据仓库时,集成的数据是进一步分析、统计和数据挖掘的基础。 另外,数据仓库中的数据必须是共享、可重用的,而不是造成了新的信息 孤岛。而数据仓库中现有的e t l 方案只能在语法、结构层次上集成数据,无 法解决数据的共享、重用、以及语义上集成的问题;e t l 的过程非常繁琐, 没有智能化,工作量巨大。本文针对上述问题,介绍了数据仓库中一种基 于本体的异构数据集成方法,重点解决了集成中的语义异构问题。 提出了数据仓库中基于本体异构集成的框架与总体流程:首先建立领 域本体,在领域本体的指导下建立数据源的全局本体,各数据源分别建立 局部本体,然后通过数据源局部本体与全局本体间的映射得到映射关系, 再通过本体推理,得出隐含的语义关系,用最终的语义映射关系来指导数 据抽取、转换和加载过程,实现数据仓库语义程度以及智能化的异构数据 集成。在领域本体方面,研究了一个铁路货运营销c r m 的领域本体,采用 了w 3 c 推荐的o w l 作为本体表示语言进行描述。 在上述研究的基础上,设计了基于本体的e t l s e 具o n t o e t l ,并 结合铁路货运营销系统,利用本体异构集成的技术,详细分析和设计了货 运营销c r m 数据仓库的数据集成过程。 关键词:本体;数据抽取、转换与加载;数据仓库;语义集成;本体映射; 本体推理 i i l 江苏大学硕士学位论文 a b s t r a c t t h ea g g r e g a t ed a t ai st h eb a s i so fa n a l y s i sa n dd a t am i n i n gw h e nt h ed a t aw a r e h o u s ei s b u i l d i n g , a n dt h ed a t ai 1 1w a r e h o u s em u s tb es h a r i n ga n dr e u s i n g c a l ln o tb et h en e wi s o l a t e d d a t ai s l a n d b u tt h ee t ls c h e m ec a l la g g r e g a t ed a t ao n l yo nt h el e v e lo fs y s t a xa n ds t r u c t u r e n o w , i tc a nn o ts o l v et h ep r o b l e mo fd a t as h a r i n ga n dr e u s i n ga n da g g r e g a t i n gi ns e m a n t i c l e v e l ,t h ee t lp r o c e s si sc o m p l e xa n dh a v en oi n t e l l i g e n c e ,a n di th a v eal a r g ew o r k l o a d s o t h i sp a p e rd i s c u s s e sa no n t o l o g y - b a s e da p p r o a c ho fs e m a n t i ca g g r e g a t i o ni i ld a t aw a r e h o u s e a n ds o l v e dt h es e m a n t i ch e t e r o g e n o u sa g g r e g a t i o np r o b l e mi ns t r e s s t h ef r a m e w o r ki sp r o p o s e d :f i r s t l y , t h ed o m a i no n t o l o g yi sb u i r ,a n dt h eg l o b e o n t o l o g yo fd a t as o u r c e sa r eb u i l tw i t i lt h eg u i d a n c eo fd o m a i no n t o l o g y , a f t e rb u i l d i n gt h e l o c a lo n t o l o g i e so fd a t as o u “:e s t h em a p p i n gr e l a t i o 璐a l eg o tb yt h em a p p i n ga r i t h m e t i c b e t w e e nt h el o c a lo n t o l o g i e sa n dg l o b eo n t o l o g y t h r o u g ht h eo n t o l o g yi n f e r e n c et og e tt h e c o n n o t a t i v es e m a n t i cr e l a t i o n s f i n a l l y ,w i t ht h eg u i d a n c eo ft h ef i n a ls e m a n t i cm a p p i n g f e l a t i o i l s ,t h ep r o c e s so fd a t ae x t r a c t ,t r a n s f o r m ,a n dl o a d i n gi ss t a r t e d ,a n dt h ep r o b l e mo f d a t ai n t e r g r a t i o nms e m a n t i ca n di n t e l l i g e md e g r e ei nd a t aw a r e h o u s ei ss o l v e d o nt h ea s p e c t o fd o m a i no n t o l o g y , ad o m a i no n t o l o g yo fr a i l w a yf r e i g h tc r mi sa c c o m p l i s h e d ,i tu s e d o w lc o m m e n t e db yw 3 ca se x p r e s sl a n g u a g et od e s c r i b e b a s e do nt h er e s e a r c h ,o n t o e t l ,a sa l lo n t o l o g y - b a s e de t lt o o l ,i sp r o p o s e d ,a n d a c c o r d i n gt ot h ed o m a i no ft h ed ws y s t e mi nr a i l w a yf r e i g h tc r m ,w ed e s i g n e da n d i m p l e m e n tt h ed a t aw a r e h o u s eb yt h ea p p r o a c ho f o n t o l o g y b a s e dh e t e r o g e n o u si n t e g r a t i o n k e yw o r d :o n t o l o g y :e t l ;d a t aw a r e h o u s e :s e m a n t i ci n t e g r a t i o n :o n t o l o g ym a p p i n g : o n t o l o g yi n f e r e n c e 江苏大学硕士学位论文 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和 电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学 位论文的全部内容或部分内容编入有关数据库进行检索,可以采 用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位论文属于 不保密o 。 学位论文作者签名:墨酷指导狮签名琊彤 2 0 0 6 年1 0 月2 5 日 2 叼f 年f 2 月日 江苏大学硕士学位论文 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已注明引用的内容以外, 本论文不包含任何其他个人或集体己经发表或撰写过的作品成 果。对本文的研究做出重要贡献的个人和集体,均已在文中以明 确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:关夸 日期:2 0 0 6 年1 0 月2 5 日 江苏大学硕士学位论文 1 1 研究目的和意义 第1 章绪论 由于系统实现技术以及实现时间上的差异,造成了在不同的信息系统中存有大量异 构数据源。根据“i d cl o be x e c u t i v e ss u r v e y ,2 0 0 4 年”的调查报告【1 】显示,在全球 最大的1 0 0 0 家企业中,平均每个企业就有1 4 个数据库和4 8 个应用系统,而且随着网 络技术的不断应用、市场的变化和客户需求的变化,企业还在不断增加数据库和应用系 统。这些数据源往往是异构的,互相之间难以集成和共享。因而在数据集成时,如何改 变“数据太多,信息不足”的现状,使这些异构的数据能够集成起来,统一访问成为一 个急待解决的问题。 当今世界充满了激烈的竞争,正确及时的决策是企业生存和发展的重要因素。当联 机事务处理( o n l i n et r a n s a c t i o np r o c e s s i n g o l t p ) 系统应用到一定阶段,人们发现单 靠o l t p 已经不足以获得市场竞争的优势。为了充分满足数据分析和决策支持的需求, 兴起了数据仓库( d a t aw a r e h o u s e d w ) 技术。为了建立数据仓库,需要将有关数据集 成起来,即数据的抽取、转换、清洗和加载( e t l ) 的过程。在数据仓库中,e t l 一般 要占6 0 到8 0 的工作量圆,可以说数据仓库是一个数据集成并对集成好的数据加以 分析利用的项目。 建立数据仓库时,集成的数据是进一步分析、统计和数据挖掘的基础,所以数据质 量的保证是一个关键问题。另外,数据仓库是多层次的集合,它的信息必须是共享、可 重用的,而不是造成了新的信息孤岛。从二十世纪九十年代开始,本体论( o n t o l o g y ) 逐渐从人工智能领域走向更广阔的范围。人们用本体论来解决知识工程中的共享、重用 问题 a l ;用本体作为系统分析方法,应用于信息建模,面向对象分析和数据库设计等问 题1 4 l ;还用本体作为信息语义的形式化表示方法,应用于异构信息集成、多智能系统、 语义w e b 等【5 】,本体展现出了巨大的应用i i i 景。本文将用本体论来解决数据仓库中的 语义异构的数据集成问题。 1 2 研究现状与不足 1 2 1 研究现状 信息集成是将多个分散的、异构的、领域相关的数据源集成在一起,可分为虚拟 江苏大学硕士学位论文 ( v i r t u a l ) 集成和物化( m a t e r i a l i z e d ) 集成两种【6 i 。 ( 1 ) 虚拟集成现状 在本文中,又根据是否使用本体将虚拟集成分成不使用本体的虚拟集成和使用本体 的虚拟集成两种方式。 a 不使用本体的虚拟集成 传统的虚拟集成方法较多,一般是将各个数据源的信息在逻辑上用同样的概念模式 表示以形成一个统一的数据模式,达到数据共享的目的。数据的集成一般可分为两步进 行:第一步是将各个异构的局部数据源的外模式通过翻译器映射成局部集成模式,第二 步是用集成器将多个局部模式集成为一个统一的全局概念模式。 目前已经研制出来的虚拟集成系统有很多,这罩选取其中有代表性的几个系统,介 绍其功能和特点: n i m b l e l 7 1 通过一个数据包装器将不同的源数据转换成x m l 文档,用来在源数据上 建立统一视图。该系统通过将用户提出的查询语句转换为对x m l 文档的查询语句 x m l q l ,对x m l 文档进行查询,然后把在x m l 文档上的查询结构返回给用户,实 现对不同数据源数据的查询。 文献【8 l 中通过将数据库服务器返回的结果以x m l 进行封装后,作为不同客户的统 一数据表现形式来实现所谓的数据交换。文献【9 】则是用x m l 来描述用户对数据库的操 作请求和将操作结果转换成x m l 文档,通过执行x m i 文档中相关的操作来实现对数 据的查询。 斯坦福大学研制的t s i m m i s0 0 l 采用了一种自描述的数据模型o e m ( o b i e c e x c h a n g em o d e l ) 作为集成系统的公共数据模型,用基于逻辑的语言m s l ( m e d i a t o r s p e c i f i c a t i o nl a n g u a g e ) 作为集成系统的视图定义语言。它可以将不同数据库中需集成 的数据转换成o e m 模型,以便灵活地处理数据之间的异构性。 i p e d o :i p e d o3x m l i n f o r m a t i o nh u b “】是一套完整的服务级软件产品,为企业提 供了一个强大的x m l 信息平台。它能帮助企业方便的整合各个分散的系统,集中高效 的管理信息,同时能动态地个性化展现信息。包括3 个子系统:i p e d ox m ld a t a b a s e z 作为整个平台的核心,是新一代数据库;i p e d oi n t e g r a t i o nm a n a g e r 能够集成众多异构数 据源的数据,并实现数据共享和同步;i p e d ow e be x p r e s s 是一个基于i p e d ox m l d a t a b a s e 的信息发布平台。 b 使用本体的虚拟集成 国内对于本体集成的一些研究,主要是对半结构化数据源利用本体来集成,例如东 南大学的研究【1 2 1 主要是针对嵌套的x m l 结构,在保持x m l 文档结构的前提下,设计了 以x m l 为数据源,r d f 作为本体模式的语义集成模型;中国科学技术大学也研究了基于 x m l 的半结构化数据源的集成【l 引,提出了一种语义驱动的查询建立模型,种本体与数 2 江苏大学硕士学位论文 据源模式的映射模型和基于此模型的查询分解算法,以及针对数据源的查询语占转换算 法;国防科学技术大学在研究异构系统的语义集成【1 4 l 时采用“中介a g e n t ”,解决多代 理系统的知识共享、重用,提出了概念视图的概念,概念转换规则及互操作算法。东北 大学的部分研究【l5 】则提出了基于本体的数据集成架构模型,为所有的数据源建立全局 本体,再为每个数据源建立局部本体,定义本体与本体、本体与数据源之间的映射,然 后基于对本体的推理结果进行全局查询语句的分解,生成针对不同数据源的查询语句以 实现统一访问。 而国外对于本体集成的研究较多,d i e g oc a l v a n e s e 等人的研究【i6 】讨论了在全局本 体和局部本体间如何定义映射的基本问题,提出获得这些映射的方法,主要通过查询处 理过程来实现。a g u s t i n a b u c c e l l a 和a l c j a n d r a c e c h i c h 介绍了使用混合本体方法来集成 数据库和其他信息源旧,分为三个步骤:( 1 ) 创建共享词汇表( 2 ) 创建局部本体( 3 ) 定义映射。解决了同名异义、相同意思不同表达等语义异构问题。q ih e 等人提出的方 法【1 8 1 使用算法来解决模式异构,通过把元数据转换成实体类型的属性值,保留源模式 的信息和约束等语义信息。d e j i n gd o u 和p a e al e p e n d u 的研究【1 9 1 介绍了基于本体的关 系数据库的集成:把源模式的数据转换成目标模式,对不同模式查询。特点是使用 w e b - p d d l 来代替s q l 视图,以克服查询中的缺陷。 ( 2 ) 物化集成现状 物化集成指的是数据仓库方式的集成。数据仓库中的数据集成通常是通过e t l 来 实现的。目前,对于e t l 流程的建立,通常有以下两种方式: 利用数据库系统、业务子系统工具自行开发; 购买现成的e t l 工具。 利用各个子系统提供的工具进行自行开发的e t l ,通常用编程直接实现自己需要 的功能,效率较高,主要是针对具体应用的;而现成的e t lt 具,通用性高、效率稍 低。下面对主要的e t l 工具做一个介绍: a d t s m i c r o s o f t 的d t s 提供了一套工具,使用这些工具可以从不同的数据源提取数据、 转换数据,并把数据导入到单一或多个目标位置。数据的e t l 过程是通过标准接口0 l e d b 或0 d b c ( 针对不支持0 l ed b 的数据源,如:s y b a s e ) 定义e t l 过程的数据源连接, 通过d t s 自带的抽取规则或使用t - s o l 脚本语占定义数据抽取、清洗和转换方法,使用 d t s 提供的p a c i ( a g e 及工作流功能定义各p a c k a g e 的执行顺序,使用s o ls e r v e r 中设 置的定时任务对由d t s 定义的任务包进行统一的管理和调度,来完成整个过程。d t s 在 进行数据输入和输出时,具有抽取、转换和装载三个主要特点。利用这三个特点,可以 将数据从一个数据系统传送到另一个数据系统,同时对其进行整理和修改,满足了建立 数据仓库系统的要求。 江苏大学硕士学位论文 d t s 包是一个有组织的连接、d t s 任务、d t s 转换和工作流约束的集合。d t s 包还提 供一些服务,例如;把包的执行细节记入日志、控制事务、处理全局变量。当包运行时, 每个包都包含一个或多个顺序或并行执行的步骤。执行后,包连接到正确的数据源、复 制数据和数据库对象、转换数据,然后通知其它用户或事件进程。 b o r a c l ew a r e h o u s eb u il d e r o r a c l ew a r e h o u s eb u i l d e r1 0 9 第2 版是用于全方位管理数据和元数据的综合工 具。它提供对数据和元数据的数据质量、数据审计、完全集成关系和维建模以及整个 生命周期的管理。它支持以下数据集成和管理活动:提供提取、转换和加载( e t l ) 、 整合来自不同数据源的数据、从原有系统中移植数据、关系和维结构数据建模、设 计和管理公司元数据、清理数据以提供质量信息等。 c a j a x 在e t l 过程一个比较重要的部分是数据质量方面,我们很难区别e t l 和数据清洗 两个活动,由法国1 n r i a 开发的a j a x 系统 2 0 1 是一个典型数据清洗工具,它可以用来 处理典型的数据质量问题,例如对象同一性问题,拼写错误和记录之日j 数据矛盾问题。 d 市场上的其他工具 很多厂商致力于提供专门的e t l 工具,如i n f o r m a t i c a 的p o w e r m a r t ,a s c e n t i a l 的 d a t a s t a g e 等。而国内对e t l 的研究开发很少,成型且完善的应用于数据仓库系统中的 e t l 工具不多。 1 2 2 目前明系统中异构数据集成方案的不足 从目i ;i 的研究现状我们可以看出,当i j i f 语义集成系统分为不使用本体的和使用本体 的两种。不使用本体解决语义异构问题的系统不能同时解决健壮性、可重用性和互操作 性;使用本体进行语义集成已是数据集成系统的趋势。但是现有的这些使用本体的语义 集成系统主要集中在对虚拟集成的研究,对于基于本体的物化集成系统研究较少。 本文讨论的数据仓库( d w ) 就是物化集成系统的典型代表,和虚拟集成相比最大 的特点是需要将数据定期抽取,并转换后存放到数据仓库中。其优点是数据经过了转换 和清洗,可以方便进行o l a p 决策分析和数据挖掘,效率较高。 数据仓库中现有的e t l 方案只能在语法、结构层次上集成数据,无法解决数据的 共享、重用、以及语义上集成的问题,e t l 的过程非常繁琐,没有智能化,工作量巨 大;因为语义异构的处理难以实现,造成集成的数据质量较差;现有的e t l 方案还将 使后续的e t l 开发人员对e t l 过程的设计、编写出的程序和建立的流程的质量与可靠 性产生怀疑:e t l 活动中各个源与目标的内部结构和组成难以了解,数据的流动去向 和转换方式、数据来源与转换信息不明确,难以修改与维护。 4 江苏大学硕士学位论文 1 3 论文的主要工作 ( 1 ) 提出了数据仓库中基于本体异构集成的框架与总体流程。 ( 2 ) 研究了一个铁路货运营销的领域本体,设计了数据仓库领域集成语义异构数 据时的本体映射算法。 ( 3 ) 设计了基于本体的e t l 工具o n t o e t l 。 ( 4 ) 结合铁路货运营销系统,利用本体集成的技术,详细分析和设计了货运营销 c r m 数据仓库的异构数据集成过程。 1 4 论文组织 论文共分五章,主要内容概要如下: 第一章绪论 介绍课题的研究背景和研究意义,概述d w 中异构数据集成的研究现状,指出了其 在共享、重用以及语义等方面存在的不足。最后,介绍了本文的主要工作内容。 第二章相关概念和技术 对d w 中基于本体的异构数据集成所采用的技术进行了简单介绍,包括数据仓库、 数据集成的基本原理理论、本体论的相关知识等。 第三章数据仓库中基于本体的异构数据集成框架设计 使用本体,对目前流行的数据仓库中数据集成的架构的改进,提出基于本体的e t l 方案o n t 0 e t l ,并对其中的关键技术作了分析,提出了在数据仓库语义集成领域中 的映射算法,并给出了具体的解决方案。 第四章本体集成框架在铁路货运营销c r i i i 中的应用 将本体集成技术用于数据仓库建设中,构建铁路货运营销领域本体,实现映射算法, 并实现了o n t o e t l 的构建,再用来建立数据仓库,完成了整个过程的详细分析和设计。 第五章总结与展望 对全文进行总结,对今后的工作进行了展望。 5 江苏大学硕士学位论文 第2 章数据集成和本体论相关概念和技术 2 1 数据集成 2 1 1 数据集成的概念与目的 数据的异构性导致了应用对于数据集成的需求。异构数据指涉及同一类型但在处 理方法上存在各种差异的数据,大致可以分为四类:系统、语法、结构和语义1 2 l j 。系 统异构指硬件和操作系统等之间的差异;语法异构包括不同的语言和数据表示;结构 异构指不同的数据模型间的差异:语义异构主要是数据源内容和表示的语义差别。 数据集成用来对各种异构数据提供统一的表示、存储和管理,这些功能在异构数 据集成系统中实现。数据集成屏蔽了各种异构数据间的差异,通过异构数据集成系统 统一操作。因此集成后的异构数据对用户来说是统一的和无差异的。 由上述可知,数据集成的目标是为了实现各个异构数据源之间的数据共享,有效 地利用资源,提高整个异构数据集成系统的性能,并且能够把所有互相作用的细节向 用户隐藏起来,使用户把各个子系统看成是一个完全无缝的数据集成系统。 2 1 2 数据集成的必要性 企业建立各种信息系统是为了能够提高业务处理的效率、增强企业的竞争能力。然 而,人们谈论的信息技术,主要是信息表达、传输、存储和处理技术,而最重要的信息 组织技术却往往被忽视。数据环境建设大大滞后于网络环境建设的问题,已经成为我国 信息化建设的普遍问题。许多单位的数据库混乱状况与其一流的网络和计算机环境极不 相称,这不仅造成系统投资的极大浪费,也是数字鸿沟中比基础设施更难填平的部分, 而且使信息化建设无法跨上新台阶。 信息资源的开发是处于无序状态的,各部门在开发或引进各种应用软件时,都是追 求各自的功能实现,不会去按全局的观点做信息流分析和互相协调,不会去遵循统一的 数据标准,在这样混乱的数据环境中,根本无法实现信息共享。当前我国许多企业和政 府部门信息化建设的主要问题,已经不是通信网络、计算机选型、建设网站等问题,而 是如何将分散、孤立的各类信息变成网络化的信息资源,将众多的“孤岛式”的信息系 统进行整合,实现信息的快捷流通和共享。而数据集成恰恰为解决这些问题提供了一种 方案,数据集成通过一系列软件技术来对“信息孤岛”进行连接、交互和集成,对各种 6 江苏大学硕士学位论文 分布、异构的数据资源进行全局、统一、高效地访问和管理,为各种应用和决策支持提 供一个良好的数据基础。 2 1 3 数据集成的主要方式 数据集成最常用的方式一般有三种,联邦数据库、中介以及数据仓库的方法。”。其 中前两种属于虚拟集成,而数据仓库是物理集成方式。 2 1 3 1 虚拟集成 虚拟集成的思想是,在构建集成系统时将各数据源的数据视图集成为全局模式,使 用户能够按照全局模式透明地访问各数据源的数据“。虚拟集成的特点是直接为用户 提供了透明的数据访问方法。虚拟集成主要解决两个基本问题。”:构建全局模式与数据 源视图问的映射关系:处理用户在全局模式基础上的查询请求。全局模式与数据源视图 间映射的构建方法有两种1 :全局视图法和局部视图法。全局视图法。”中的全局模式是 在数据源视图基础上建立的,它由一系列元素组成,每个元素对应一个数据源,表示相 应数据源的数据结构和操作:局部视图法1 先构建全局模式,数据源的数据视图则是在 全局模式基础上定义,由全局模式按一定规则推理得到。联邦数据库和中介方式是现有 的两种典型的虚拟集成方法。 ( 1 ) 联邦数据库( f e d e r a t e dd a t a b a s e ) 方式 联邦数据库由参与联邦的半自治的数据库系统组成,目的是实现数据库系统间 部分数据的共享网,是数据库集成的最简单结构。联邦中的每个数据库的操作是独立 于其他数据库和联邦的。之所以叫“半自治”是因为联邦中的所有数据库都添加了彼 此访问的接口。结构图如图2 1 所示。 图2 1 联邦数据库集成方式图 江苏大学硕士学位论文 联邦数据库系统分紧密耦合f d b s 和松散耦合f d b s 两种 2 9 1 。 紧耦合f d b s 有一个或几个统一的模式,这些模式可通过模式集成技术半自动组成, 也可通过用户手工构造。要解决逻辑上的异构,就需要领域专家决定数据库模式阃的 对应关系。模式集成技术不易添加和删除联邦数据库集成系统中的数据库,所以紧耦 合f d b s 通常是静态的,且很难升级。 松耦合f d b s 没有统一的模式,但它提供了一些查询数据库的统一语言。这样f d b s 中的数据库更具有自治性,但必须用户解决所有语义上的异构。由于松耦合f d b s 没有 全局模式,所以,每个数据库都要创建自己的“联邦模式”。 f d b s 中实现互操作最常用的方法是将所有组件数据库进行一对一的连接。如果n 个数据库种的每一个都需要与其他( n 1 ) 个实现互操作,那么开发者必须编写n ( n 1 ) 段代码来支持两两之间的查询访问。而且这种互操作性是有局限性的交互,并不 能实现各数据库的灵活的集成。 ( 2 ) 中介( m e d i a t i o n ) 方式 图2 2 中介集成方式图 中介系统。2 1 通过提供所有异构数据源的虚拟视图来集成它们,这里的数据源可以 是数据库、w e b 数据源等等。该系统提供给用户一个全局模式( 也叫m e d i a t e d 模式) , 用户提交的查询是针对该模式的,所以用户不必知道数据源的位置、模式及访问方法。 这种集成方式与数据仓库中物化关系集成数据源的方式相似,但它并不存储任何实际 数据。中介的作用是在用户提交了一个查询以后,将用户查询翻译成个或多个对数 据源的查询。然后将数据源的查询结果进行综合处理,并将之返回给用户。其结构图 如图2 2 所示。 2 1 3 2 物化集成 物化方法也就是数据仓库法,该方法需要建立一个存储数据的仓库,把来自于几 8 江苏大学硕士学位论文 个数据源的数据副本都存储在单一的数据库中,由e t l ( e x t r a c t ,t r a n s f o r m ,a n dl o a d ) 工具定期从数据源过滤数据,然后装载到数据仓库,供用户查询。 与虚拟视图法相似的是用数据仓库集成异构数据源也需要异构统一的数据视图, 但不同的是e t l 工具过滤得到的数据存储到仓库里。而与传统的数据库不同的是数据 仓库中主要存储的是历史和汇总数据,用于决策支持,主要供分析或执行等人员使用, 而且为避免数据仓库与数据源中数据出现不一致,通常不允许用户对数据仓库进行更 新。下一节中详细介绍数据仓库有关概念,其集成的结构图如图2 3 所示。 图2 3 数据仓库集成方式图 2 2 数据仓库相关概念 业界公认的数据仓库( d a t aw a r e h o u s e ) 概念创始人w h i 硼o n 在建立数据仓库 一书中对数据仓库的定义啪1 是:数据仓库是面向主题的、集成的、稳定的、随时间不断 变化的数据集合,用以支持经营管理中的决策制定过程。 1 、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之自j 各 自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念, 是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息 系统相关。 2 、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之 间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽 取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性, 以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3 、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变 9 江苏大学硕士学位论文 化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一 旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大 量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 4 、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓 库中的数据通常包含历史信息,系统记录了企业从过去某一时点( 如开始应用数据仓库 的时点) 到目i j i 的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势 做出定量分析和预测。 从定义可以看出,数据仓库是一个数据的集合。目前,数据仓库的数据集成过程, 通常是一个在元数据指导下的e t l 过程。但是,e t l 并不是简单的堆积数据,丽是 要发掘出各个数据源的数据之间的语义关系,才能无缝集成数据,便于统计决策。而现 有的e t l 过程中元数据指导作用不能充分发挥,而且很难在语义的程度上集成数据源。 2 2 1 数据仓库产生 传统的数据库应用系统主要是面向事务处理的,它实现了大量日常事务处理的电子 化,减少了业务人员的工作量,大大提高了工作效率。因此9 0 年代以来,越来越多的 企业和部门纷纷建立了自己的数据库信息管理系统( m i s ) 。然而激烈的市场竞争激发 了各行各业对计算机应用的更多需求。当今,用户早已不满足计算机仅能帮助他们迅速 地处理具体业务,他们需要从已积累的海量历史数据中探索业务活动的规律性,获得参 与市场竞争的必须决策,从而实现数据到信息的转换。为此,建立一个企业的数据决策 支持系统企业信息系统( d s s e i s ) 是十分必要的。 因为传统的o l t p 系统具有如下缺点:o l t p 是面向事务操作的,所以数据库中的 信息分敬,缺乏集成性,而决策者通常关系集成的数据;o l t p 系统要求快速响应,主 要针对数据更新处理和系统的可靠性,所以数据库内保存的都是近期数据,大量历史的 数据无从查找;o l t p 系统的业务数据模式是针对事务处理模式设计的,数据的描述和 格式不适合非计算机专业人员进行分析和统计。因此o l t p 不能同时满足业务处理和分 析处理的需要,难以适应各类用户对数据综合程度的不同要求,在传统数据库上构建决 策分析系统必将是失败的。数据仓库正是在这种情况下应运而生,成为信息技术领域非 常热门的研究之一。 2 2 2 数据仓库中的数据集成 构建数据仓库是在收集企业原始数据和各种外部信息的基础之上,对数据进行抽 取、净化、转换和合成,最后将数据汇集整理到数据仓库的全过程。数据仓库通过合理、 1 0 江苏大学硕士学位论文 全面的信息管理,为决策者提供总结性的信息知识、趋势分析、情况描述等更直观的内 容,帮助决策者探索业务活动规律,为制定全局范围的战略决策和长期趋势分析提供有 效的支持。在数据仓库中,数据集成过程主要是e t l 的过程。 ( 1 ) e t l 概念 e t l ,即数据抽取( e x t r a c t ) 、转换( t r a n s f o r m ) 、清洗( c l e a n s i n g ) 、装载( l o a d i n g ) 的过程”“,是构建数据仓库的重要环节。用户从数据源抽取出所需要的数据,经过数据 清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 下面简单介绍e t l 的各个部分: 数据抽取即确定数据源,采集原始数据,通过不同的数据接口,从不同的数据源中 抽取数据。 数据清洗即对抽取的数据进行有效性检查,从中去除无效、重复、错误记录的过程, 这个过程如果出错,不仅会影响数据和决策的质量,还会导致业务决策者不相信数据仓 库的数据;数据转换指接收来自不同运作系统的输入并将其转换成目标数据仓库中需要 的格式的过程,包括数据的合并、汇总、过滤、转换等。本步解决了数据的质量问题, 数据质量的评价指标主要有数据的确定性( a c c u r a c y ) 、完整性( c o m p l e t e n e s s ) 和简洁 性( c o n c i s i o n ) 等。 数据装载负责将数据按照目标数据库元数据定义的表结构装入数据仓库,即对经过 前几步清洗和转换后的数据保存汇总。 ( 2 ) e t l 与元数据 元数据( m e t a d a t a ) o ”即数据的数据。数据仓库中的元数据不仅定义了数据仓库的 作用、指明了数据仓库中信息的内容和位置、存取了数据仓库的主题和相关信息,同时 数据的抽取和转换规则也是数据仓库元数据的重要组成部分。可按元数据用途的不同分 为两类:技术元数据( t e c h n i c a lm e t a d a t a ) 和业务元数据( b u s i n e s sm e t a d a t a ) 。技 术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的 数据:业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系 统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。 可见,e t l 过程其实是一个在元数据指导下的数据集成过程,而且e t l 规则本身是 技术元数据的一部分。当前的一些数据抽取工具,如a r d e n t 的d a t a s t a g e 、c a ( 原 p l a t i n u m ) 的d e c i s i o nb a s e 和e t i 的e x t r a c t 等仅提供了技术元数据,几乎没有提供对 业务元数据的支持,也就是说数据的集成过程缺乏对各种业务数据语义的支持。 2 2 3 联机分析处理 联机分析处理1 3 2 1o l a p ( o n - l i n ea n a l y t i c a lp r o c e s s i n g ) ,支持复杂的分析操作,侧 江苏大学硕士学位论文 重决策支持,提供直观易懂的查询结果,是使分析人员、管理人员或执行人员能够从 多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软 件技术。 o l a p 的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的 技术核心是“维( d i m e n s i o n ) ”。维是人们观察客观世界的角度,是一种高层次的类 型划分1 3 3 1 。o l a p 也可以说是多维数据分析工具的集合。本质是多维分析空间在某个角 度上的投影,多个维度表共同建立一个多维的分析空问彤l 。 o l a p 有多种实现方法,根据存储数据的方式不同可以分为r o l a p 、m o l a p 、h o l a p 1 。 o l a p 工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、 查询和报表。根据综合性数据的组织方式的不同,目前常用的o l a p 主要是基于多维数 据库的m o l a p 及基于关系数据库的r o l a p 两种。 本文中的数据仓库采用的即是r o l a p 方式。r o l a p 表示基于关系数据库的o l a p 实 现( r e l a t i o n a lo l a p ) 。以关系数据库为核心,以关系型结构进行多维数据的表示和存 储。r o l a p 将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维度 表关键字;另一类是维度表,每个维至少使用一个表来存放维的层次、成员类别等描 述信息。 在r o l a p 中,数据模型分为两种,一种是“星型模型”,一种是“雪花型模型”。 ( 1 ) 星型模型:维度表和事实表通过主关键字和外关键字联系在一起就形成了 “星型模型”。在星型模型的每一个事实表,对于每一维都有一个相对应的 维度表。事实表中每一条记录都包含有指向维度表的外键和相应的一些度量 值,维度表中记录的是有关这一维度值的属性。 ( 2 ) 雪花型模型:它是对星型模型的扩展,是对星型模型的维度表进一步层次化, 原有的各维度表可能被扩展为小的事实表,形成一些局部的“层次区域”, 这种星型模型的扩展称为“雪花模型”。当事实表涉及的维度较多时,事实 表中的数据记录数将迅速增长。例如,如果事实表条目为m ,增加一个维度 记录数为n 的维度表,通常事实表的记录数就会变成1 1 1 i i 条,这样所占的存 储空间将迅速增大。雪花型模型的出现主要是为了减少数据的存储量,改善 查询性能,避免冗余数据占用过大的存储空间。 2 3 本体论 o n t o l o g y 的概念起源于哲学领域,即“对世界上客观存在物的系统地描述”。在 人工智能界,最早给出本体定义的是n e c h e s 等人,1 9 9 1 年他们将本体定义为“一个本 体定义了组成主题领域的词汇的基本术语和关系,以及用于组合术语和关系以定义词汇 江苏大学硕士学位论文 的外延的规则”。 2 3 1 本体概念 2 3 1 1 本体定义 目前被大部分人公认的定义是: 本体是共享概念模型的明确形式化规范说明m 1 。该定义包含4 层含义: ( i ) 概念化通过抽象出客观世界中一些现象的相关概念而得到的模型,其含 义独立于具体的环境状态; ( 2 ) 明确用的概念及使用这些概念的约束都有明确( 显式) 的定义; ( 3 ) 形式化知识本体是计算机可读的。 ( 4 ) 共享本体中体现的是共同认可的知识,反映的是相关领域中公认的概 念集,它所针对的是团体而不是个体。本体的目标是捕获相关的领域的知识,提 供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的 形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义。 本体描述语占是一种用来在网络上发布和共享本体的语义标记语言,它经历了一系 列的演迸。自上个世纪9 0 年代以来,一些基于a i 的本体实现语占陆续被提出,如e l f 、 o n t o l i n g u a 、c y c l 、l o o m ,o c m l ,f l o g i c 。后来,随着w e b 的发展,又出现了一系列基 于w e b 的本体语言,也叫做本体标记语言,如s h o e 、x o l 、r d f 、r d f s 、o i l 、d a m l 、d a m l + o i l 、o w l 。 2 3 1 20 w l w 3 c 总结了以上几种语言的开发经验,于2 0 0 4 年2 月正式推出了o 礼( w e bo n t o l o g y l a n g u a g e ) 。o w l 是语义网发展中的一个重要里程碑,它已经经过广泛的讨论并得到比 较一致的认可。 o w l 作为w 3 c 推荐的本体描述语言的标准,位于w 3 c 绘制的本体语言栈的栈顶,是 在d a m l + o i l 的基础上发展起来的,作为r ) f ( s ) 的扩展,目的是提供更多的元语以支 持更加丰富的语义表达。针对不同的需求,o w l 有三个子语占:o w ll i t e 、o w ld l 和 0 w lf u l i 。o w ld l 在r d f s 和r d f 的基础上增加了更多的建模原语来描述类、特性、类 的实例,以及它们之间的关系。并针对特性提供了更加丰富的类型定义和属性描述以及 强有力的推理机制3 。 一个o w l 文档由四部分组成。第一部分是本体首部的定义。它包含了文档的元数 江苏大学硕士学位论文 据,例如导入信息、版本信息以及与其他o w l 文档的兼容性。 第二部分是类的定义,它包括了类的定义信息和子类关系的信息。在o w l 中,我 们能通过 标签定义类。类也可以使用 继承一个或多个类来 建立,因此,类的层次关系就建立了。类的语义是用类的描述来表达的。o w l 区分了 六种类描述b 8 3 :一个类标识( 一个u r i ) ;一个详细的列举;一个属性限定;两个或多 个类描述的交;两个或多个类描述的并;一个类描述的补。 第三部分是属性的定义。o w l 存在两种类型的属性,它们是对象属性( o b j e c t p r o p e r t y ) 和数据类型属性( d a t a t y p e p r o p e r t y ) 。对象属性是用来表述两个类的实例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合成孔径雷达在北极海域海浪波高与海面风场遥感反演中的应用与挑战
- 节日复工安全培训课件
- 第四单元 课件 中职语文高教版基础模块上册
- 宁津辅警面试题库及答案
- 2025内蒙古呼伦贝尔学院招聘35人笔试备考参考答案详解
- 2025内蒙古鄂尔多斯东胜区第五小学分校塔拉壕小学招聘1人笔试备考及一套答案详解
- 教师招聘之《幼儿教师招聘》练习题及参考答案详解(模拟题)
- 2025年教师招聘之《幼儿教师招聘》试卷附参考答案详解(基础题)
- 教师招聘之《幼儿教师招聘》全真模拟模拟题及答案详解(易错题)
- 教师招聘之《小学教师招聘》能力提升试题打印含答案详解(模拟题)
- 2025四川省水电投资经营集团有限公司所属电力公司员工招聘6人考试模拟试题及答案解析
- 江苏拱棚施工方案设计
- 2025版国际双语幼儿园托班入托服务合同
- 员工下班外出免责协议书
- 2025-2030中国海水利用行业经营形势分析与投资方向建议报告
- 2025年巨量引擎医药健康行业营销白皮书
- 体验单元 《分类与打包》课件 2025-2026学年大象版科学二年级上册
- 公司成立后追认合同范本
- 氯化钾使用护理课件
- QC/T 262-2025汽车渗碳齿轮金相检验
- 2025年交通安全问答试题及答案
评论
0/150
提交评论