(计算机应用技术专业论文)企业级异构数据集成框架研究.pdf_第1页
(计算机应用技术专业论文)企业级异构数据集成框架研究.pdf_第2页
(计算机应用技术专业论文)企业级异构数据集成框架研究.pdf_第3页
(计算机应用技术专业论文)企业级异构数据集成框架研究.pdf_第4页
(计算机应用技术专业论文)企业级异构数据集成框架研究.pdf_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

顾天竺:企业级异构数据集成框架研究 摘要 随着网络和分布式应用的发展和普及,大量的异构数据源应运而生。为了更 好的利用这些资源,人们迫切需要解决这些异构数据源的集成问题。本文在回顾 这方面的研究现状的基础上,主要引入本体概念来实现异构数据集成,本体的使 用有利于解决数据集成中的语义异构问题,这是其它数据集成技术很难实现的。 针对异构数据集成中语义集成的难点,给出了基于本体的集成方法,通过利用本 体描述数据库来解决语义的问题。针对三种不同应用情况,本文分别给出了三种 相应的数据集成方法。 论文的主要工作包括以下方面: 基础理论研究:首先给出了数据集成的基本步骤,然后提出了一个四层模式的数 据集成系统框架。在此框架下,使用r d q l 语言和联接查询作为数据查询的工具 进行查询,并推广了联接查询的使用范围,使之能应用于对本体的查询。 基于全局本体的数据集成:为所有的数据源建立一个全局本体,再为每个数据源 建立一个局部本体,同时定义本体与本体、本体与数据源之间的映射,然后基于 对本体的推理结果进行全局查询语句的分解,生成针对不同数据源的查询语句以 实现统一访问。 异构数据集成:主要研究基于本体的在异构数据库中进行数据挖掘的框架。并详 细论述了在该框架中全局本体和挖掘主题本体的建立过程以及在此基础上数据仓 库构建过程给出了一个具体的方法,对数据抽取的方式作了简单的分析。为了提 高系统效率,采用了缓冲数据库的方法,并且给出了数据缓冲的方式。 基于局部本体的数据集成:描述了一个基于本体的方法,用于解决分布式异构环 境下的数据集成问题,详细讨论了元数据表述、分布式本体映射、查询的机制。 关键词:本体异构数据源语义异构数据集成本体映射 2扬卅i 大学硕士学位论文 a b s t r a c t a l o n gw i t ht h ed e v e l o p m e n ta n dp o p u l a r i z a t i o n o fn e t w o r ka n dd i s t r i b u t i o n a p p l i c a t i o n ,al a r g ea m o u n to fh e t e r o g e n e o u sd a t as o u r c e sh a v eb e e ns p a w n e d ;t h e n e e d o fs o l v i n gt h ei n t e g r a t i o np r o b l e mo ft h e s eh e t e r o g e n e o u sd a t as o u r c e sw a s b e c o m i n gm o r ei m p o r t a n t t or e s o l v et h i sp r o b l e m ,t h ec o n c e p to fo n t o l o g y i s i n t r o d u c e di nt h i sp a p e r u t i l i z a t i o no fo n t o l o g yd i dw e l li ns o l v i n gt h ep r o b l e mo f s e m a n t i ch e t e r o g e n e i t yo fd a t ai n t e g r a t i o n ;h o w e v e rt h eo t h e rt e c h n o l o g i e so fd a t a i n t e g r a t i o nc o u l dh a r d l ya c h i e v e i t l o o k i n gb a c ko nt h ec u r r e n t r e s e a r c hs i t u a t i o n ,s i n c et h es e m a n t i ci n t e g r a t i o nh a s m a n yd i f f i c u l tp o i n t si nt h ei n t e g r a t i o no f h e t e r o g e n e o u sd a t a , t h em e t h o d so f o n t o l o g y i n t e g r a t i o n a r ep u tf o r w a r d t h em e t h o di st or e s o l v et h es e m a n t i cp r o b l e mb y d e s c r i b i n gd a t a b a s ew i t ho n t o l o g y s i n c e t h e r ea r et h r e ek i n d so fd i f f e r e n ta p p l i c a t i o n s i t u a t i o n s ,t h r e ec o r r e s p o n d i n gm e t h o d so fd a t ai n t e g r a t i o na r ep u tf o r w a r di nt h e p a p e r t h em a i nw o r ko ft h ep a p e ri n c l u d e st h ea s p e c t sb e l o w : r e s e a r c h e so nf o u n d a t i o n :f i r s t l y , t h eb a s i cs t e p so fd a t ai n t e g r a t i o na r eo f f e r e d t h e nas y s t e mf r a m e w o r ko fd a t ai n t e g r a t i o no ff o u r - l a y e rm o d ei p u tf o r w a r d t h i s f r a m e w o r ku s e sr d q l l a n g u a g ea n dc o n j u n c t i v eq u e r y a st h et o o lo fd a t aq u e r ya n d s p r e a d st h eu s a g er a n g eo fc o n j u n c t i v eq u e r y , w h i c h c a l la l s ob ea p p l i e do nt h eq u e r y o fo n t o l o g y g l o b a lo n t o l o g yb a s e dd a t ai n t e g r a t i o n :b u i l tag l o b a lo n t o l o g yf o ra l ld a t a s o u r c e s a n dal o c a lo n t o l o g yf o re v e r yd a t a s o n r c e ,a tt h es a m et i m es e tu pt h em a p p i n gb e t w e e n o n t o l o g i e sa n dd a t a s o u r c e s ,a n dt h e nd e c o m p o s e dt h eg l o b a lq u e r ys t a t e m e n tb a s e d o n t h er e s u l to fr e a s o n i n go n t o l o g y , p r o d u c i n gt h eq u e r ys t a t e m e n t so fd i f f e r e n t d a t a s o u r c e st or e a l i z et h eg o a lo f u n i f i e dv i s i t o n t o l o g y - b a s e dd a t am i n i n go nh e t e r o g e n e o u sd a t a b a s ee n v i r o n m e n t :t h e i n t e g r a t i o no f h e t e r o g e n e o u sd a t a :i tm a i n l ys t u d i e so nd e s i g n i n gt h ef r a m e w o r ko f d a t a m i n i n gb a s i n go no n t o l o g yi nh e t e r o g e n e o u sd a t a b a s e ,a n dr e m a r ko nt h ep r o c e s so f e s t a b l i s h m e n to f 西o b a lo n t o l o g ya n dt o p i co n t o l o g y , a sw e l la st h ep r o c e s so f e s t a b l i s h m e n to fd a t a b a s eb a s i n go nt h ef o r m e ro n e l o c a lo n t o l o g yb a s e dd a t ai n t e g r a t i o n :a no n t o l o g y - b a s e da p p r o a c ht ot h ep r o b l e m o fd a t a i n t e r o p e r a b i l i t y i s d e s c r i b e d ,s p e c i f i c a l l yf o c u s i n g o nt h ei s s u eo fq u e r y 顾天竺:企业级异构数据集成框架研究 3 p r o c e s s i n g i nad i s t r i b u t e dh e t e r o g e n e o u s s e t t i n g i np a r t i c u l a r , w e d i s c u s st h e m e c h a n i s m sf o rm e t a d a t ar e p r e s e n t a t i o n , d i s t r i b u t e do n t o l o g ym a p p i n g , a n dq u e r y a n s w e r i n g k e yw o r d s :o n t o l o g y , h e t e r o g e n e o u sd a t a s o u r c e ,s e m a n t i ch e t e r o g e n e i t y , d a t a i n t e g r a t i o n ,o n t o l o g ym a p p i n g 4扬州大学硕士学位论文 1 引言 1 1 论文的研究背景、选题依据及研究意义 1 1 1 论文的研究背景和选题依据 近几十年来,科学技术的迅猛发展和信息化的推进,使得人类社会所积累的 数据量已经超过了过去5 0 0 0 年的总和,数据的采集、存储、处理和传播的数量也 与日俱增。企业实现数据共享,可以使更多的人更充分地使用已有数据资源,减 少资料收集、数据采集等重复劳动和相应费用。但是,在实施数据共享的过程当 中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数 据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息 等棘手问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。因此,如 何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择。 随着w e b 技术的发展,可共享的资源越来越多,人们迫切需要把原来使用不 同平台的信息服务和管理系统联系起来,并且能够以w e b 页面的形式,进行全球 信息传递和共享。w e b 上的资源不仅包括传统的有严格数据模型的数据库,如关 系数据库和面向对象的数据库,而且还包括无结构和半结构的数据,如大量的 h t m l 文档、w e b 页面和文本数据。要用传统的数据库技术来存储和查询w e b 上的所有类型的数据是十分困难的“1 。 随着计算机技术,特别是i n t e m e t 技术的迅猛发展,在许多行业、单位或机 构、部门内部都逐步实现了业务、信息的计算机化管理。但是,各个行业、部门 或机构由于业务和功能归属不同,因此都是根据自身的需要,构建了许多相互隔 离的信息服务和管理系统。甚至在一个单位( 如一个企业、一个学校) 内部各部门 所采用的计算环境由不同平台组成,而不是固守任何一个平台。这样随着时间的 推移和技术的进步,这些由不同核心技术构建的信息系统就像一个个“信息孤岛”, 各自有着不同的处理对象、操作方法和专用客户端,在各个环节之间存在着数据 交流和部门协同的问题。每个部门或单位就是一个数据源,每个数据源都是异构 的,因而他们之间的信息和组织都不一样,这就构成了一个巨大而复杂的异构数 据库环境。 企业的各个部门或机构由于业务和功能归属不同,因此都是根据自身的需要, 构建了许多相互隔离的信息服务和管理系统,所采用的计算环境由不同平台组成, 而不是固守任何一个平台。这样随着时间的推移和技术的进步,这些由不同核心 技术构建的信息系统就像一个个“信息孤岛”,各自有着不同的处理对象、操作方 顾天竺:企业级异构数据集成框架研究5 法和专用客户端,在各个环节之间存在着数据交流和部门协同的问题。每个部门 或单位就是一个数据源,每个数据源都是异构的,因而他们之间的信息和组织都 不一样,这就构成了一个巨大而复杂的企业异构数据环境。 企业级数据主要是关系数据库数据,这些数据企业内各类管理信息系统、遗 留企业内应用程序、辅助企业内应用程序和嵌入企业内应用程序所管理的数据, 大部分是结构化的数据。各类文件数据和电子邮件数据是由办公自动化所管理的 数据。w e b 信息数据是由智能商务支持信息从企业外部所得到的数据。 在系统集成和进一步开发的过程中,常常面临的一个突出的问题就是;一个 管理信息系统中往往存在两种以上不同的数据库环境。在复杂的环境中,如何实 现不同数据库间数据信息资源合并和共享、如何保护已经建立的资源、充分利用 各部门已经使用的数据库,实现不同数据库之间的连接、数据交换和数据共享, 已经成为基于异构数据库的管理信息系统开发是否成功的关键。目前的研究工作 主要针对d b m s 异构。 那么如何集成、访问这些数据呢? 首先,关键的一个问题是必须研究他们之间 异构数据的集成问题,只有将这些孤立的数据都集成起来,提供给用户个统一 的视图,才有可能从巨大的数据资源中获取所需的东西。其次是选用合适的技术 进行数据分析、集成和处理。另外,一个实用的信息服务和数据集成系统也应具 有以下特点: 智能性。对来自不同数据源的结构化的、半结构化的、或非结构化的数据进 行统一处理、过滤、缩减、抽象、合并和归纳等工作; 开放性。对于异构、分布的数据源,还必须解决信息表示与结构上的不匹配 问题; 主动性。对现有的i n t e r n e t 数据表示、交换和服务机制进行适当规范,并提 供主动服务机制。 x m l 的出现为w e b 上的异构信息源的集成提供了新的途径。作为i n t e r n e tp 数 据交换和数据格式的标准,x m l 是互联网联合组织( 1 1 1 ew o r l dw i d ew e b c o n s o r t i u m ,w 3 c ) 设计并推荐的新一代标记语言,它是s g m l 的一个优化子集。 x m l 的自描述能力、结构化特征以及平台独立性,使其能够灵活地表达多种不同 数据源的信息,包括结构化数据和半结构化数据“1 。 1 i 2 论文的研究意义 企业在发展过程中积累了大量数据,并为存储和管理这些数据不断投资。然 而,由于实施数据管理系统的阶段性、技术性以及其它经济和人为因素的影响, 以至即使在一个单独企业,采用的数据管理系统也大不相同,从简单的文件数据 6 扬州大学硕士学位论文 库到复杂的网络数据库,它们构成了企业的异构数据源。尽管这些数据管理系统 能够满足数据存储和管理要求,但是在许多情况下,为完成一项工作,企业应用 可能需要访问分布在网络不同位置上的多个数据管理系统中的数据。例如,某公 司需要了解一套型架的生产和使用情况,那么,相关应用首先必须访问生产准备 科、工装所、以及使用车间的不同的数据库系统来提取相关数据,然后进行处理。 很显然,原有的数据管理系统并不能提供这种支持,需要一个强大的系统能够集 成存在于分布数据源的数据。 不仅如此,随着生存环境的不断变化,企业在把握机遇的同时也面临着许多 挑战。网络的发展使企业逐渐从一个孤立节点发展成为不断与网络交换信息和进 行商务事务的实体,企业数据集成也从企业内部集成走向了企业间集成。现在的 企业比以往任何时候都需要将内部数据进行发布和交换,这必然导致越来越多的 企业应用需要访问各种异构数据源,并且这些数据源可能分布在网络上任何地方。 为了满足这种需求,必须有一种系统能够支持异构数据源的数据集成。 在w e b 信息集成系统中,为解决数据源之间数据模型的异构性,提供一个有 效的公共数据模型( c d m ) ,以描述全局模式和全局查询语言是一个常用的解决方 法。面对于w e b 上大量的半结构和无结构数据,传统的数据集成技术都有其不足 之处。目前存在两种半结构化数据模型o e m 和o i m ,也有人针对已有半结构数 据模型表达x m l 文档时存在的缺陷,将有向图结构与瑚l 语言特性相结合,提 出了一种面向x m l 的公共数据模型x c d m ,它在带根连通有向图的数据模型基 础上,充分考虑) 也语法表达的灵活性,不仅可以表示w e b 上大量由) a 帆表 达的半结构化数据,还可以实现与其他数据模型,包括关系模型、面向对象模型 以及h t m l 文档之间的映射。x c d m 可以起到某种元数据的作用,统一描述半结 构和无结构数据,它符合公共数据模型的三个准则,完全适合作为w e b 信息集成 系统中的公共数据模型。面向x m l 的公共数据模型实现了底层异构数据模型之 间的数据集成。而w e b 信息集成系统面对的主要问题就是不同数据源在信息表示 上的不一致,包括命名冲突以及结构冲突等等。因此,还需要对本体进行深入研 究,本体研究的好处就是建立一套共享的术语和信息表示结构,多数据源之间异 构的信息借助本体成为同构信息,从而实现有效的集成。考虑到x m l 已经成为 目前信息表示和交换的标准,x m l 以及资源描述框架在本体描述方面也已经得到 了一定的应用。 总之,企业异构数据源集成并不是一个新的课题,但在企业生存环境不断改 变的前提下,这个课题也是不断发展的。如何面向未来,采用合理的技术实现网 络时代企业数据集成将是一个持久的讨论。作为企业应用和企业服务集成实现的 顾天竺:企业级异构数据集成框架研究 7 一个基础,企业异构数据源集成将对企业信息化进程带来深远的影响。本课题将 从企业内部和外部两个方面对企业的异构数据集成进行研究,在传统企业信息结 构的基础上提出一个全新的异构数据集成框架。 1 _ 2 论文的研究内容、研究现状及存在问题 1 2 1 论文的研究内容 数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集 中,从而为企业提供全面的数据共享。 1 2 2 研究现状及存在问题 当前,实现异构数据库的集成一般有两种方法。第一种就是将原有的数据移 植到新的数据管理系统中来,为了集成不同类型的数据,必须将一些非传统的数 据类型转化成新的数据类型。许多关系数据库供应商提供了类似的功能。这种集 成方式的缺点是随着数据管理系统的升级,原来数据的相关应用软件,或是被废 弃或是重新开发,以适应新的数据管理系统。因此,通常移植到一个新系统不是 一个实际的解决方案。 第二种方法是利用中间件搭建异构数据集成系统,该方法并不需要改变原始 数据的存储和管理方式。中间件位于异构数据库系统( 数据层) 和应用程序( 应 用层) 之间,向下协调各数据库系统,向上为访问集成数据的应用提供统一数据 模式,和数据访问的通用接口。各数据库的应用仍然完成它们的任务,中间件系 统则主要集中为异构数据源提供一个高层次检索服务。显然,中间件系统模式是 实现异构数据集成较理想的解决方案。 如何实现对各个数据源的集成存取,即如何将用户对继承视图的存取转换成 对异构数据源的操作在搭建异构数据集成系统过程中非常重要,目前来讲,共有 两种方法:全局视图模式( g l o b a l a s - v i e w ,g a y ) 和局部试图模式( l o c a l a s v i e w , l a v ) 。g a v 方法要求为集成视图中的每一个虚拟关系( 或虚拟对象类) r 写出一个 查询,说明如何从信息源得到r 的元组( 或对象) ,这种方法的特点是查询转换简 单,但增加新数据源时比较麻烦。l a v 方法则相反,它要求为每一个数据源s 给 出一个针对集成视图的查询,说明集成视图中的哪些元组( 或对象) 可在s 中找到。 它的优点是易于插入新数据源,但查询转换相对麻烦些。 在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联 邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的 着重点和应用上解决数据共享和为企业提供决策支持。在这里将对这几种数据集 成模型做一个基本的分析。 8扬州大学硕士学位论文 中间件模式通过统一的全局数据模型来访问异构的数据库、遗留系统、w e b 资源等,如图1 1 所示。中间件位于异构数据源系统( 数据层) 和应用程序( 应用层) 之间,向下协调各数据源系统,向上为访问集成数据的应用提供统一数据模式和 数据访问的通用接1 2 1 。各数据源的应用仍然完成它们的任务,中间件系统则主要 集中为异构数据源提供一个高层次检索服务。 图1 1 中间件模式 联邦数据库系统( f e d r a t e dd a t a b a s es y s t e m ,f d b s ) 由半自治数据库系统构 成,相互之间分享数据,联盟各数据源之间相互提供访问接口,同时联盟数据库 系统可以是集中数据库系统或分布式数据库系统及其他联邦式系统。在这种模式 下又分为紧耦合和松耦合两种情况,紧耦合提供统一的访问模式,一般是静态的, 在增加数据源上比较困难;而松耦合则不提供统一的接口,但可以通过统一的语 言访问数据源,其中核心的是必须解决所有数据源语义上的问题。 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的和不可 修改的数据集合。其中,数据被归类为广义的、功能上独立的、没有重叠的主题。 这几种方法在一定程度上解决了应用之间的数据共享和互通的问题,但也存 在以下的异同; 联邦数据库系统主要面向多个数据库系统的集成,其中数据源有可能要映射 到每一个数据模式,将会带来很大的开销,当集成的系统很大时,对实际开发将 带来巨大的困难。 中间件模式是目前比较流行的数据集成方法,它通过在中间层提供一个统一 的数据逻辑视图来隐藏底层的数据细节,使得用户可以把集成数据源看为一个统 一的整体。这种模型下的关键问题是如何构造这个逻辑视图并使得不同数据源之 间能映射到这个中间层。 顾天竺:企业级异构数据集成框架研究 9 数据仓库技术则在另外一个层面上表达数据之间的共享,它主要是为了针对 企业某个应用领域提出的一种数据集成方法,也就是我们在上面所提到的面向主 题并为企业提供数据挖掘和决策支持的系统嘲。 1 3 论文主要工作和结构 1 3 1 论文的主要工作 本文针对异构数据集成中语义集成的难点,给出了基于本体的集成方法,通 过利用本体描述数据库来解决语义的问题。针对三种不同应用情况,本文分别给 出了三种相应的数据集成方法。 1 3 2 论文的结构 本文共分为七章: 第一章论文的研究背景、选题依据及研究意义。 第二章异构数据集成及相关概念,包括企业级异构数据、o n t o l o g y 相关概 念、本体描述语言、合取查询。 第三章概述了基于本体的数据集成的一般方法,以及一般的框架。 第四章详细描述了应用于e a i 背景下的集中式数据集成的具体方法。 第五章详细描述了应用于数据挖掘的集中式数据集成的具体方法,主要以雪 花型数据模式。 第六章详细描述了应用于数据挖掘的集中式数据集成的具体方法,主要以雪 花型数据模式。 第七章本文总结,归纳了文章的优缺点,并提出了展望。 l o扬州大学硕士学位论文 2 异构数据集成及相关概念 2 1 企业级异构数据简介 2 1 1 企业级数据异构的概述 企业级数据包括关系型数据库数据、各种文件数据、电子邮件数据、w e b 信息 数据等一系列可以利用的数据。这些数据是分布式的、异构的,有些甚至是非结 构化的和半结构化的。 企业级数据主要是关系数据库数据,这些数据企业内各类管理信息系统、遗 留企业内应用程序、辅助企业内应用程序和嵌入企业内应用程序所管理的数据, 大部分是结构化的数据。各类文件数据和电子邮件数据是由办公自动化所管理的 数据。w e b 信息数据是由智能商务支持信息从企业外部所得到的数据。 企业级数据的异构包括不同的数据库系统之间的异构和不同结构数据之间的 异构。 异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透 明访问。每个数据库系统在加入异构数据库系统之前就已经存在,拥有自己的数 据库管理系统,异构数据库的各个组成部分具有自身的自治性,在实现数据共享 的同时,每个数据库系统仍保有自己的应用特性、完整性控制和安全性控制,异 构数据库系统的异构性主要体现在以下两个方面: 1 、系统异构,数据源所依赖的应用系统、数据库管理系统乃至操作系统之间 的不同构成了系统异构。例如,计算机体系结构的异构,各个参与数据库系统的 可以分别运行在大型机、小型机、工作站、p c 或嵌入式系统中;基础操作系统的 异构,各个数据库系统的基础操作系统可以是u n i x 、w i n d o w s n t 、d o s 等;平 台异构,是由于数据库管理系统本身的异构造成的,可以是同为关系型数据库系 统的o r a c l e 、s q ls e r v e r 等,也可以是不同数据类型的数据库,如关系、模式、层 次、网络、面向对象、函数型数据库共同组成一个异构数据库系统。 2 、语义异构:也称语义冲突,模式异构,由于数据库各自是独立的,不同数 据库的数据模式往往互不相同,会造成数据表现和结构上的不一致。一般的存储 模式包括关系模式、对象模式、对象关系模式和文档嵌套模式等几种,其中关系 模式为主流存储模式。需要注意的是,即便是同一类存储模式,它们的模式结构 可能也存在着差异。例如o r a c l e 所采用的数据类型与s q ls e r v e r 所采用的数据类型 并不是完全一致的。传统的解决方法是语义映射,语义冲突来源于模式层面和数 据层面,所以语义映射包括两方面:模式层次的模式映射和数据层次的数据映射。 顾天竺:企业级异构数据集成框架研究 模式层次的模式映射,相当于将不同数据库的字段名进行映射( 包括1 1 映射和m - n 映射) ;数据层次的模式映射,相当于将不同数据库的记录进行映射( 库a 的某记 录和库b 的某记录相近或可以合并成一个更完整的记录) 。 在系统集成和进一步开发的过程中,常常面临的一个突出的问题就是:一个 管理信息系统中往往存在两种以上不同的数据库环境。在复杂的环境中,如何实 现不同数据库之间数据信息资源合并和共享、如何保护已经建立的资源、充分利 用各部门已经使用的数据库,实现不同数据库之间的连接、数据交换和数据共享, 已经成为基于异构数据库的管理信息系统开发是否成功的关键。目前的研究工作 主要针对d b m s 异构。 2 1 2 异构数据集成的特点 l 、在分布、异构环境下的异构数据集成方案和构架结构,基于术语标准化的 一致性的操作平台。 2 、灵活的资源共享方式,可以根据自身的需要提出访请求。结构化数据、半 结构化数据和非结构化数据都转换成统一的格式,提高网络传输速度。 3 、安全的验证控制措施。半结构化数据和非结构化数据有效检索方案。 4 、兼容不同数据库结构和平台,模型中的中间文档采标准化的语义及操作表 示,通过语义和操作的转换,兼容现有数据库结构和平台。为信息增加语义信息, 提高检索效率。为特定的数据源提供专用的接口,将各种类型的数据转换成统一 格式的数据,也可以通过接口对数据源进行更新操作。 5 、实现模块之间逻辑和技术的低耦合性。 6 、适合w e b 应用,便于用户通过i n t e m e t 访问。 7 、一定的扩展性和可移植性。在数据源扩展的时候,只要配置相应的数据接 口和更新元数据即可,易于扩展。统一格式的数据可以通过企业域进行跨平台地 交换,具有一定的可移植性【2 】。 2 2 本体相关概念 o n t o l o g y 本来是哲学中元物理学( 形而上学) 的一个分支。从哲学的角度来说, 逻辑是抽象的形式,而o n t o l o g y 研究事物存在的方式,是具体的内容,因此,在哲 学上,没有o n t o l o g y ,逻辑关于任何东西都只是空洞的抽象,无法进行具体的描述; 而没有逻辑,o n t o l o g y 就只能进行分析、表达和讨论,在抽象上的通性模糊不清。 几千年来,哲学家们一直在争论o n t o l o g y 的种类。 自二十世纪九十年代初,o n t o l o g y 概念被广泛地引用到计算机领域,特别是a i 和k e 研究中,因为a i 和k e 需要开发一个领域共享的、公共的概念实现知识共享和 1 2 扬州大学硕士学位论文 重用。在a i 领域,o n t o l o g y 通常被称为领域模型( d o m a i nm o d e l ) 或概念模型 ( c o n c e p t u a lm o d e l ) ,是关于特定知识领域内各种的对象、对象特性以及对象之间 可能存在的关系的内容理论。通过对应用领域的概念和术语进行抽象,o n t o l o g y 形 成了应用领域中共享和公共的领域概念,可以描述应用领域的知识或建立一种关 于知识的描述。o n t o l o g y 的抽象可能是很高层次的抽象,也可能针对特定领域的概 念抽象。o n t o l o g y 己经成为k e 、自然语言处理、协同信息系统、智能信息集成、 i n t e m e t 上智能信息获取、k m 等各方面普遍研究的热点。因此,随着高度结构化的 知识库在a i 和o o 系统中的出现,对于实际应用和理沦研究,o n t o l o g y 的标准都变 得日益重要1 3 。 2 2 1o n t o l o g y 的定义 近年来,各种研究机构和k e 研究者提出了多种面向a i 、具有细微差别的 o n t o l o g y 定义。例如:c r r u b e r 的定义强调t o n t o l o g y 是知识表示的元级描述;w i e l i n g a 和s c h r e i b e r 的定义强调t o n t o l o g y 在知识级的形式化,表示应用于可知识化的a g e n t 中的知识;而a i 的某些领域中,o n t o l o g y 作为术语学的同义词,表示术语的语义解 析,a l b e r t s 的定义主要面向k e 针对特定的任务或领域,强调应用领域的概念术语 分类。其中g r u b e r 的定义被引用最多,也是我们认为迄今为止最准确地刻画了 o n t o l o g y 本质的定义: 一个o n t o l o g y 是共享概念化的形式化、显式的定义哆。 “概念化”从广义上讲是指世界观,是对某个特定领域的思维方式。可以把它视 为对真理( r e a l i 劬的某一部分结构的非形式化规则的集合。更详细的讲,概念化是 我们为了某种目的而想要表示的世界的一种抽象的、简化的视图( v i e w ) 。每一种知 识库,基于知识的系统都显式的或隐式的遵从于某种概念化。概念化不关心实际 含义,只关心事实的形式化的结构,并且与用来描述它的语言无关;与一个特定 情况的一次实例无关。在另一个方面,o n t o l o g y 首先是一个词汇表。但是仅仅由词 汇表组成的o n t o l o g y 没有什么用途,o n t o l o g y 必须给出这些词汇的含义。 “显式”是指明确定义使用的概念类型以及对它们的使用约束;“形式化”指定义 的o n t o l o g y 应该是机器可读的事实,而不是自然语言;“共享”说明了一个o n t o l o g y 不是个人私有的,而是至少在一个研究小组内被普遍接受。从根本上说,o n t o l o g y 的作用是为了构建领域模型,例如,在k e 过程中,一个o n t o l o g y 提供了关于术语概 念和关系的词汇集,通过该词汇集可以对一个领域进行建模。虽然不同的o n t o l o g y 之间存在一些差异,但它们之间存在普遍的一致性。 对于一个o n t o l o g y 来说,我们可以下定义许多的标准的术语们就使用这些术语 来谈论这些o n t o l o g y 。例如;要讨论“时间”,我们可以使用两种术语: 顾天竺:企业级异构数据集成框架研究 1 3 l 、第一种,我们使用点来表示时间: p o i n t , ) ) ,两个时间点之间 的关系只有a b 三种情况 2 、第二种,我们使用线段来表示时间: i n t e r v a l ,t e m p r e l a t i o n s h i p , 因而o n t o l o g y 就像第一例当中的应用程序一样,而词汇表是用来描j 盎o n t o l o g y 的术语的集合。 o n t o l o g y g l 知识库之间是有区别的。o n t o l o g y 提供一系列的概念或术语来描述 某些领域,提供基本的结构或构架来建立知识库,而知识库利用o n t o l o g y 的概念和 术语说明真实世界或假设的世界中什么是对的。例如,医学的o n t o l o g y 可能包含术 语定义,如“l e u k e m i a 或 t e r m i n a l ”,“i l l n e s s 但它不包含一个特定的病人有什么病 的诊断结果。 2 2 2o n t o l o g y 的分类 由于研究o n t o l o g y 的机构和组织很多,各种o n t o l o g y 定义抓住t o n t o l o g y 名r 方面 的特性,因此存在着不同的o n t o l o g y 的分类方式。这里介绍三种典型的分类方式, 一种是根据o n t o l o g y 的通用性级别,在建立一个k b s 系统的过程中,按所实现的不 同功能确定o n t o l o g y 的不同类型;第二种是根据o n t o l o g y 按照概念化的结构数量和 类型进行分类;另一种是根据o n t o l o g y 所刻画和描述的现实世界的不同方面进行 o n t o l o g y 分类。 第一种分类方式把o n t o l o g y 分为以下四种类型; 领域o n t o l o g y :针对特定的应用领域抽象领域知识的结构和内容,包括各种领 域知识的类型、术语和概念,并对领域知识的结构和内容加以约束,形成描述特 定领域中具体知识的基础。如图2 1 所示描述了关于出版物o n t o l o g y 的两种表示形 式。 钿t p | 口蘸r 薅f 图2 1出版物o n t o l o g y 的两种表示形式 通用o n t o l o g y :针对获取关于世界的通用性知识,提供基本的观念和概念,如 时间、空间、状态等。用来描述知识对象,包括描述知识对象的基本概念与属性, 习 圈 1 4 扬州大学硕士学位论文 如标题、作者、关键字、日期等,主要用于对知识对象进行标注。目前,都柏林 核心元数据非常适用于对知识对象( 如电子文档、数据库中的记录、问题解决方 案、w e b 页面) 进行描述,因此该模型用包含十五个描述属性的都柏林核心集描述 信息o n t o l o g y ( 如图2 2 ) 。 孤s c r i t l l i c o n t r l m t o r l l a u t h o r l i i d b n t i f i e r l 铂_ e f o i l h n e 职i l b l i s h e r l f o r m a t i o n t o l o g y g e t r d i | f 口日a ti i t y p e l l i t l e l lr e l a t i 0 8lj 溉t ell 黔暮h 乜li 魁u r c e 图2 2 都柏林核心集 应用o n t o l o g y :针对特定应用领域知识建模的抽象定义。通常,应用o n t o l o g y 是一种概念的混合,这些概念来自领域o n t o l o g y 和通用o n t o l o g y 。 表示型的o n t o l o g y :主要描述在知识表示形式化背后的概念化,而不致力于任 何特定的领域,这种o n t o l o g y 提供表示性的中性实体,即提供表示的框架,而不描 述什么应该被表示以及怎样表示。 第二种方式把o n t o l o g y 分为以下三种类型 术语学o n t o l o g y :类似于词典,定义了从不同方面表示知识的术语。在医学领 域,这种o n t o l o g y 的一个示例是u m l s 中的语义网络; 信息o n t o l o g y :定义了数据库的记录结构,数据库模式是这类o n t o l o g y 的一个示 例。在医学领域,这类o n t o l o g y - - 个典型示例是p e n & p a d 模型的l e v e l l ,种又寸 病人医学记录建模的框架。在l e v e l1 上,模型提供了一种框架记录对病人的基本 观察,但没有在症状、信号、治疗等方面进行区分; 知识建模o n t o l o g y :定义了知识的概念化。与信息o n t o l o g y 相比,知识建模 o n t o l o g y j l 恿常具有更加丰富的内部结构,进而,这类o n t o l o g y 通常适用于些特定 的知识。在医学领域的l e v e l2 描述是这类o n t o l o g y 的一个示例,在l e v e l2 级别上, 把l e v e ll 对病人的基本观察分组,描述做决策的过程。 第三种分类方式把o n t o l o g y 分为以下四种类型 静态的o n t o l o g y :描述世界中静态方面的特征,即存在的事物、它们的属性以 及它们之间的关系; 动态的o n t o l o g y :描述比界中不断变化的方面,典型的原语概念包括了状态、 状态转换和过程描述世界; 意念型的o n t o l o g y :包括动机、意图、目标、信念、选择等,典型的原语概念 顾天竺:企业级异构数据集成框架研究 包括论题、目标、支持、否决、子目标、主体等; 社会型的o n t o l o g y :包括社会结构、组织结构、联盟等,社会型的o n t o l o g y 通常 用行为者、位置、角色、权威、承诺等原语概念进行刻画。 按上面的o n t o l o g y 类型获取的是静态知识,独立于问题解决的方式。然而,k e 还关心关于问题解决力一法的知识,因此,方法和任务o n t o l o g y 也是一些有用的 o n t o l o g y 。任务和方法o n t o l o g y 把动态推理行为看成一种o n t o l o g y 的抽象,这样从领 域知识的角度提供了一种描述推理原语的方法。 2 3 本体描述语言 2 3 1 本体描述语言简介 由于机器并不能像人类一样理解蕴含在自然语言中的语义,计算机最终把所 有的信息都当作0 、1 字符串进行处理。而本体的目的是使信息成为机器可理解的, 因此,在计算机领域讨论本体,首先就面临着本体究竟是如何描述的,也就是概 念的形式化问题。对应的研究内容就是本体的描述语言。 自2 0 世纪9 0 年代以来,一些基于a i 的本体实现语言陆续被提出,如k i f 、 o n t o l i n g u a 、c y c l 、l o o m 、o c m l 、f l o g i c 。后来,随着w e b 的发展,又出现了 一系列基于w e b 的本体语言,也叫做本体标记语言,如s h o e 、x o l 、r d f 、r d f s 、 o i l 、d a m l 、d a m l + o i l 、o w l 。其中o w l 已经成为w 3 c 的推荐标准语言。 资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ,r d f ) 是对象( 资源) 数据模 型及其关系,这些模型可用x m l 语法表示;r d fs c h e m a 是描述r d f 资源属性 和类的词汇表,这些属性和类的通用层次关系带有语义。o i l ( o n t o l o g yi n t e r c h a n g e l a n g u a g e ) 是r d f ( s ) 的扩充,它具有更为丰富的模型构造元素。d a m l + o i l 支 持机器可理解的本体定义和文档中词汇到本体的连接,是r d f 和r d fs c h e m a 的 扩充,能表示更多更复杂的约束,支持可操作的推理【5 】。 2 3 3r d f 与r d fs c h e m a 资源描述框架是一个用于表达关于万维网( w o r l dw i d ew e b ) 上的资源的信息 的语言。它专门用于表达关于w e b 资源的元数据,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论