(计算机应用技术专业论文)数据交换模型研究与实现.pdf_第1页
(计算机应用技术专业论文)数据交换模型研究与实现.pdf_第2页
(计算机应用技术专业论文)数据交换模型研究与实现.pdf_第3页
(计算机应用技术专业论文)数据交换模型研究与实现.pdf_第4页
(计算机应用技术专业论文)数据交换模型研究与实现.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机应用技术专业论文)数据交换模型研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网和信息技术在各个领域的深入应用,存储在各个信息系统中的信 息大量增加。一方面,这些信息分布广泛、管理自治和异构性强的特点严重阻碍 了各个数据源之间的数据交换;另一方面,要求各个系统能够进行数据交换的需 求越来越多。上述两方面的矛盾迫切要求实现各个数据源之间透明的数据交换, 而不必考虑数据模型的异构、数据的抽取和合成等问题。由于传统的数据交换方 式只能在结构层次上交换异构信息而没有解决交换信息的语义异构问题,因此大 量对用户有价值的语义信息没有被利用。此外,当前国内外研究的重点是异构数 据的集成,它一般只能提供集中式的数据查询功能,不能实现各个异构数据源之 间的数据交换。 本文对异构数据源的数据交换及其语义异构问题进行了深入的研究。首先概 述了数据集成的主要方式,说明了本体在数据集成中的优势与作用,分析了三种 典型的基于本体的数据集成方式,讨论了它们的优缺点。接着在上面分析的基础 上,借鉴共享本体的思想总结出基于局部共享本体的数据集成方式。它改变数据 源与局部本体一一对应的映射关系,使用一个共享局部本体与多个相似数据源对 应,解决局部本体过多的问题。然后提出了一种通用的、开放的、低耦合的数据 交换模型。该模型利用基于局部共享本体方式的数据集成,为数据交换提供了一 个全局的虚拟视图并解决语义异构问题;使用x m ls c h e m a ( e x t e n s i b l em a r k u p l a n g u a g es c h e m a ) 定义所交换数据信息的统一格式,采用消息作为载体在各个 数据源之间传递信息,保证模型与平台的无关性和开放性;同时支持请求应答和 发布订阅两种数据交换模式,以满足多种数据交换需求。最后研究了本体及其映 射的构建方法,并实现了一个本文提出的数据交换模型的原型系统。 论文的研究工作深化了数据集成的应用,初步解决了数据交换中的语义异构 问题,为数据交换系统的实现提供了种新的参考性框架。 关键词:数据交换;数据集成;语义异构;本体 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e ta n dt h ei n f o r m a t i o nt e c h n o l o g y , t h e i n f o r m a t i o nw h i c hi ss t o r e di nt h ei n f o r m a t i o ns y s t e m si si n c r e a s i n ge n o r m o u s l y o n o n eh a n d ,t h ed a t as o b r c c sa r eh e t e r o g e n e o u s ,d i s t r i b u t i v ea n dd y n a m i c t h e s e c h a r a c t e r ss e r i o u s l yb l o c kt h ed a t ae x c h a n g eb e t w e e ne a c hd a t as o u r c e o nt h eo t h e r h a n d ,n e wr e q u i r e m e n t sn e e de x c h a n g ed a t ab e t w e e ne a c hs y s t e mt oa c c o m p l i s hn e w f u n c t i o n s t h ec o n t r a d i c t i o no ft h e s et w oa s p e c t sd e m a n d su r g e n t l yd a t ae x c h a n g e b e t w e e nh e t e r o g e n e o u sd a t as o b l c e si ns p i t eo ft h eh e t e r o g e n e i t yo ft h ed a t am o d e l , d a t ae x t r a c t i o n , d a t as y n t h e s i s ,a n do t h e ri s s u e s t h et r a d i t i o n a ld a t ae x c h a n g em o d e l c a no n l yu s et oe x c h a n g et h ei n f o r m a t i o no nt h es t r u c t u r el e v e l ,b u ti sn o ta b l et o s o l v et h es e m a n t i ch e t e r o g e n e i t y s oi tc a u s e st h a tm a s so fv a l u a b l ei n f o r m a t i o nf o r u s e ri sn o tb eu s e d i na d d i t i o n ,m o s to ft h ec u r r e n tr e s e a r c hf o c u s e so nt h ed a t a i n t e g r a t i o nw h i c ho n l ys u p p o r t st h ed a t aq u e r y t l l i st h e s i sr e s e a r c h e sd a t ae x c h a n g eo ft h eh e t e r o g e n e o u sd a t as o u r c e sa n dt h e i r s e m a n t i ch e t e r o g e n e o u sp r o b l e mi nd e p t h f i r s t l y , i td e s c r i b e st h em a i nm e t h o d so f d a t ai n t e g r a t i o na n dt h er o l eo fo n t o l o g yi nt h ed a mi n t e g r a t i o na n dd i s c u s s e st h e a d v a n t a g e sa n dd i s a d v a n t a g e so ft h r e et y p i c a lo n t o l o g y - b a s e dm e t h o d s t h e n ,t h e t h e s i sp r e s e n t san e wm e t h o dw h i c hi sb a s e do nt h ef r o n t a la n a l y s i s i no r d e rt o d e c r e a s el o c a lo n t o l o g i e sw h i c ha r eb u i l tf r o mt h es i m i l a rd a t as o u r c e s ,i tc h a n g e st h e a b s o l u t eo n e - t o 一0 1 1 0r e l a t i o n s h i pb e t w e e nt h el o c a lo n t o l o g ya n dt h ed a t as o u r c ea n d e s t a b l i s h e sao n e - t o m a n yr e l a t i o n s h i pb e t w e e nt h el o c a ls h a r e do n t o l o g ya n dt h e s i m i l a rd a t as o u r c e $ s e c o n d l y , i tp r e s e n t san e wd a t ae x c h a n g em o d e l t h i sm o d e l m a k e su s eo ft h el o c a ls h a r e do n t o l o g yt oi n t e g r a t ee a c hd a t as o u r o gt op r o v i d ea g t o b a lv i r t u a lv i e wf o rt h ed a t ae x c h a n g ea n ds o l v et h es e m a n t i ch e t e r o g e n e i t y i tu s e s t h em e s s a g e 鹊ac a r r i e rt ot r a n s p o r tt h ei n f o r m a t i o nb e t w e e nt h ed a t as o u r c e sa n d e n s u r e st h a tt h ec o m m u n i c a t i o ni si n d e p e n d e n to ft h ep l a t f o n l l t h eu n i f o r mf o r m a to f m ei n f o r m a t i o nw h i c ht h em o d e lt r a n s p o r t sb e t w e e ne a c hd a t as o u r c ei sd e f i n e db y t h ex m ls c h e m a 。硒ep r o c e s s e so ft h ed a t ae x c h a n g ei nt h em o d eo ft h e r e s p o n s e - r e q u e s ta n dp u b l i s h - s u b s c r i b ew h i c ht h em o d e ls u p p o r t si sd e s c r i b e di n d e t a i l l a s t l y , i ts t u d i e st h ec o n s t r u c t i o nm e t h o do ft h eo n t o l o g ya n di t sm a p p i n ga n d i m p l e m e n t sap r o t o t y p es y s t e m t h er e s e a r c ho ft h i st h e s i sd e e p e n st h ea p p l i c a t i o no ft h ed a t ai n t e g r a t i o na n d p r e l i m i n a r i l ys o l v e st h es e m a n t i ch e t e r o g e n e o u sp r o b l e mo ft h ed a t ae x c h a n g ea n d p r o v i d e san e w i n s t r u c t i o n a lf r a m e w o r kf o rt h ed a t ae x c h a n g es y s t e m k e yw o r d s :d a t ae x c h a n g e ;d a t ai n t e g r a t i o n ;s e m a n t i ch e t e r o g e n e i t y ;o n t o l o g y h i 独创性声明 本人声明,所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示了谢意。 研究生签名:墼日期二竺掣 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权 保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部内容, 可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 研究生签名:耸趣一导师签名:蓉乡生叁:主。日期挫坠茎1 武汉理工大学硕士学位论文 第1 章。绪论 1 1 课题背景及研究意义 近年来,信息化技术的深入发展导致大量的数据信息产生出来。各个政府部 门和企业单位开发的应用系统越来越多,积累了各种各样丰富的数据,包括各种 关系或层次模式的数据库、文件系统以及x m l 【1 1 ( e x t e n s i b l em a r k u pl a n g u a g e , 可扩展标记语言) 文档等半结构化的数据【2 1 。这些数据的软硬件平台各异,数据 结构和存储方式也不相同,使得各个数据源之间的交互变得越来越复杂和困难, 形成了很多的“信息孤岛”。 同时随着n t e r n e t 技术迅猛的发展,各个政府部门和企业单位逐渐从一个孤 立结点发展成为不断与网络进行信息交换和业务处理的实体,数据交换也从组织 内部交换走向组织间交换,现在的政府部门和企业单位比以往任何时候都需要发 布和交换内部数据。这必然导致越来越多的应用需要访问各种异构数据源,并且 这些数据源可能分布在网络的任何地方,具有不同的数据模式、数据定义和操纵 语言以及语法和语义等【引。 上述两方面的矛盾迫切要求提出一种通用的数据交换模型,该模型可以在不 修改现有的各个数据源的结构并保持原有应用的基础上,实现异构数据源之闭的 数据交换,提供给用户和应用程序对系统中数据的透明访问,而不用考虑数据的 异构性。 本课题来源于“武汉市交通委员会数据交换和共享技术规范研究 项目。 目前武汉市交委及其下属部门拥有交通部、海事局、交通厅和市交委等推广应 用和自己开发的系统共2 0 多个,涉及公路、铁路、港口和航空等多个方面的业 务。这些系统开发和运行环境差别很大,存在许多问题: ( 1 ) 数据出现严重的不一致性; ( 2 ) 数据重复存储; ( 3 ) 各系统之问无法共享数据和交换数据; ( 4 ) 各系统无法为市交委的电子政务系统提供必要和准确的数据,影响网 上发布系统服务。 武汉理工大学硕士学位论文 随着信息化的不断深入,新的需求要求建立一个数据交换与共享平台,从 而实现各个异构系统之间的数据交换与共享。 1 2 数据交换及其研究现状 1 2 1 数据源特征 计算机技术在各个领域的广泛应用,使得应用系统中的数据也多种多样。这 些数据在软硬件平台、数据内容和表示方式等方面都不相同,具有如下特征: ( 1 ) 分布广泛数据源广泛分布于不同物理位置上,彼此之间使用网络连接 起来。 ( 2 ) 管理自治各数据源在管理上是独立的,系统之间相互不受限制。任何 一个本地的数据源应该有权利控制对其数据的访问和操作。数据采取什么样的表 示形式或者操作方法是本地数据库管理员根据本地需要决定的。自治性表现在如 下三个方面【4 】【5 】: 通信自治系统自己决定与其他系统间通信的内容和方式,例如通信协 议、通信端口等。 设计自治系统自己决定所管理数据的语义解释、命名表示和数据内容间 的限制与约束等。 执行自治系统自己决定对各种请求的处理方式,例如响应及时性、处理 如何执行等。 ( 3 ) 系统异构异构性会因为不同的原因发生在系统的不同层次和不同的方 面。不同的数据源可能会使用不同的数学模型、查询语言或概念表达模式来描述 同一个充满语义的客观世界。系统异构是阻碍数据交换的主要因素,具体包含平 台、结构、语法和语义四个方面的异构。平台异构指硬件和操作系统等不同;结 构异构指不同的数据模型例如关系数据库、x m l 文档等;语法异构指不同的语 言和数据表示;语义异构指数据的含义等不同。其中语义异构又包括如下四个方 面【6 】【7 】: 属性异构通常指不同的数据源对相同实体的属性采取不同的描述方式。 例如,电话号码在某个系统中是一个字段,在另一个系统中则分为区号和号码两 个字段存储。 命名异构不同的信息源使用多种术语表示同一概念或者同一概念在不 2 武汉理工大学硕士学位论文 同的信息源表达不周的含义。这两种情况也可以看作是我们熟悉的同义词和同形 异义词。例如,在不同的数据源中分别使用a u t o 和m o t o r 表示汽车。 格式异构指数据源的实体属性使用了不同的域范围、精度和单位等。例 如,距离在有的系统中以米为单位,有的系统中则以公里为单位。 外延异构外延指实体对象的范围。根据两个集合的关系,外延异构可以 分为四类:等价、包含、相交和不相交。等价表示相同的对象集合,这些相同的 对象集合在全局模式中表示为一个类。如果在合并的类上进行全局查询,需要执 行连接或外连接操作来获得最终结果。包含指一个类的范围是另一个类范围的子 集。在全局模式中,范围小的类表示为另一个类的子类。相交表示有交叉的实体 的集合,这样的类在全局模式中集成时应该具有一个公共的子类,该公共子类包 含着公共的对象集。如果对公共子类进行全局查询,需要进行全局连接操作来获 得结果。不相交表示类的范围完全不同但在语义上相关,这样的类在全局模式中 需要泛化为一个父类。如果进行全局查询,则需要对两个局部数据库的结果进行 合并操作。 1 2 2 研究现状与存在的问题 从交换数据的报文格式来看,早期的电子数据交换有以下几种实现方式:( 1 ) 文本数据交换;( 2 ) 数据库文件交换;( 3 ) e d i ( e l e c t r i cd a t ai n t e r c h a n g e ,电子 数据交换) 报文交换。文本数据交换要求发送和接收时必须严格按约定好的格式 组织和解析,系统编程量大,可修改性和可扩充性差。数据库文件交换要求接收 方了解数据文件结构,可修改性和可扩充性差。e d i 报文是e d i 技术采用的交 换格式。 在传统e d i 中定义了严格的事务集合。这些事务集合对数据的内容、结构 和处理需求进行了阐述。换句话说,在事务集合中嵌入了商业规则,商业规则与 事务集合定义的结合引发了很多问题。首先,e d i 需要建设专用网络,开发专用 程序,投入巨大,因此它的应用往往仅局限于少数大银行和大企业;其次,e d i 数据侧重于信息对机器的可读性,人工阅读e d i 数据简直就是灾难;再次,所 有e d i 数据都不能通过w e b 来进行数据搜索和定位,也无法在w e b 上显示,而 这不满足那些现代i n t e r n e t 小型企业与一些不固定商业伙伴进行小型交易的 最基本要求;最后,传统e d i 经过几十年的发展,e d i 信息标准仍然得不到统 一。传统e d i 出路在于必需开发新一代的电子数据交换标准,让未来的e d i 在 3 武汉理工大学硕士学位论文 电子信息交换中不受格式限制,而且会更安全、可靠,以满足未来商业和市场需 要。 随着x m l 技术的应用,于是出现了两种主要的基于x m l 技术的数据交换 规范: ( 1 ) e b x m l ( e l e c t r o n i cb u s i n e s su s i n ge x t e n s i b l em a r k u pl a n g u a g e ) 规范。 e b x m l 规范是u n c e f a c t 和o a s i s 于2 0 0 1 年5 月发布的全球基于x m l 的电 子商务信息交换框架,它向全球各贸易参与方提供一种可互操作的、安全稳定的 电子商务信息交换模式,使任何地方的任何规模的企业都能够通过i n t e m e t 指导 商业活动。它提供给公司和组织一个标准的方法来交换数据,指导商业关系,定 义并注册商业过程。e b x m l 力图建立一种基于开放式标准的电子商务理论( 包 括电子政务) 框架,为电子商务实旌提供理论指导。 ( 2 ) b i z t a l k 规范。b i z t a l k 规范是由微软推出的一个基于x m l 的开放式数 据集成和电子商务平台。b i z t a l k 是微软发起的电子商务s c h e m a 库,配合的产品 有微软的b i z t a l k 服务器。b i z t a l kf r a m e w o r k2 0 提供了构建解决方案的架构, 这些方案能够将包含于s o a p 文件中的数据跨越界限( b o u n d a r y ) 移动。这里 的界限指的是消息在两套不同系统之间迸行传递的点。b i z t a l kf r a m e w o r k2 0 并 不是w 3 c 的标准之一,而x m l 则是标准之一。 b i z t a l k 利用x m l 来解决跨越平台移动消息所面临的下列问题: 1 ) 需要一个容易使用,具有弹性的标准,来利用x m l 跨越界限进行指定、 封装、发行与交换结构化以及非结构化的消息。 2 ) 需要一个容易使用,具有弹性的标准,来利用x m l 从某个系统的格式 转换成另个系统的格式,来进行指定、封装、发行与交换企业规则以进行消息 传输。 3 ) 需要一套m i d d l e w a r e ( 中介软件) 应用程序来提供跨越系统界限的沟通。 4 ) 需要一套在跨越系统界限传输消息时提供错误侦测与文件收据的标准。 上述数据交换方式解决了数据交换中语法、结构层面的异构和数据通信等 方面的问题,但是还存在如下的不足: ( 1 ) 数据语义层面的异构没有能解决i s l 。数据交换以下几个方面的需求要 求解决语义异构问题: 信息检索基于关键字的查找有可能因同词不同义找不到需要的信息,也 有可能因同义不同词而丢失一些需要的信息。 信息提取语义信息机器无法理解并处理,必须人工浏览和阅读,目前的 4 武汉理工大学硕士学位论文 数据交换不具有从文本中提取信息所需要的通用认知知识,也不能对信息进行整 厶 口o 维护随着信息的不断增加,如何维护信息,保持信息的一致性、正确性、 实时性需要用到信息的语义。 ( 2 ) 当前国内外大部分数据交换系统通常按照自有标准设计,没有采用通 用的技术和架构标准,因面通用性较差;并且这些数据交换系统的开发虽然均采 用组件化、模块化的软件开发方式,但系统各模块间的耦合程度非常高,致使数 据交换系统的维护和修改比较困难,维护成本较高; ( 3 ) 目前国内外研究的重点大多放在集中式的数据集成上,一般只能提供 数据的查询功能,查询出来的数据不能直接交给系统使用,没有实现数据在各个 数据源之间的交换。 1 3 本文主要工作及章节安排 本文分析研究了三种典型的基于本体的数据集成方式,并借鉴共享部分局 部本体的思想总结出基于局部共享本体的数据集成,然后提出了一种基于这种 数据集成的、通用的、支持请求应答和发布订阅两种数据交换模式的数据交换 模型。它利用数据集成提供统一的虚拟视图,采用消息作为载体在各个数据源 间交换信息,使用x m ls c h e m a 定义与平台无关的信息交换的统一格式。最后 研究了本体及其映射的构建,并实现了一个原型系统。 本文的章节安排如下: 第1 章主要介绍异构数据交换的课题背景与研究意义、数据源特征、研究 现状与存在的问题和本文主要的研究内容及其组织安排。 第2 章主要分析基于本体的数据集成。首先概述数据集成的主要方式,然 后重点讨论基于本体的数据集成,包括本体的介绍、本体在数据集成中的优势 与作用,最后分析三种典型的基于本体的数据集成方式的优缺点。 第3 章在上一章分析的基础上借鉴共享部分局部本体的思想总结出基于局 部共享本体的数据集成方法,并阐述本文提出的数据交换模型,重点说明请求 应答和发布订阅两种模式下的数据交换过程,同时使用x m ls c h e m a 详细定义 信息交换的统一格式。 第4 章研究讨论全局本体和局部共享本体及映射的构建方法。 第5 章介绍原型系统的实现。 第6 章总结本文的主要内容并指出了进一步的研究方向。 5 武汉理工大学硕士学位论文 第2 章基于本体的数据集成分析 本文提出的数据交换模型是基于数据集成的。数据集成是数据交换的基础, 数据交换是数据集成的延伸和扩展,实现数据交换的首要问题是各个异构数据源 的集成。只有将这些分布广泛、管理自治、系统异构的数据都集成起来,提供给 用户一个统一的视图,才有可能透明的从巨大的数据资源中获取所需的数据。各 个需要交换数据的数据源在数据集成提供的这个平台上选择信息,数据提供者和 使用者通过主动或者被动的方式发送或接收数据。 2 1 数据集成 数据集成这个概念由来己久,可以对数据集成系统进行形式化的定义【9 】: 一个数据集成系统可以形式化定义为一个三元组: i = g ,s ,m 其中,g 是全局模式,s 是数据源模式,m 是全局模式和数据源模式的映射 关系。 根据数据集成的形式化定义中m 的不同,即全局模式和数据源模式映射关 系的不同,数据集成可以分为两种主要方法:( 1 ) 以全局模式为中心的方法,也 称为g 1 0 b a l 勰v i e w ( g a v ) :( 2 ) 以数据源为中心的方法,也称为l o c a l a s v i e w ( l a v ) 。 g a v 和l a v 的区别是映射以全局模式还是数据源中的元素为中心。g a v 完 成数据集成的好坏由数据源映射到全局模式的好坏决定。它的缺点是扩展性不 好,当需要增加或修改数据源时,全局模式就需要进行改动。l a v 克服了这个 缺点,具有高度的模块化和良好的可扩展性。如果设计的全局模式比较好,那么 当数据源修改时,只会影响到它的定义,而对整个集成系统没有影响;当有新的 数据源加入时,可以比较容易地扩展整个l a v 数据集成系统。l a v 主要的缺点 是可能产生不完全的查询结果,查询过程需要进行推理,即查询重组,因而比较 复杂。l a v 完成数据集成的好坏依赖于我们特征化数据源的好坏程度。 数据集成从实现的机制上来看,主要分为两种方式: 6 武汉理工大学硕士学位论文 ( 1 ) 虚拟视图集成【l o 】虚拟视图集成的思想是将构建各数据源的数据视图集 成为全局模式,使用户能够不必考虑数据模型的异构性、数据抽取、数据合成等, 按照全局模式透明地访问各数据源的数据。虚拟视图集成包括两个主要任务:使 用全局视图法或者局部视图法构建全局模式与数据源视图间的映射关系和用户 查询请求的处理。联邦数据库和中介系统是现有的两种典型的虚拟集成方法。 联邦数据库方式中每个成员数据库都把自己的局部数据模式与其它数据库 的局部数据模式合并组成一个公共的全局数据模式。联邦数据库是用自下向上的 虚拟途径来构造的。由于缺乏必要的标准,联邦数据库系统只能在一定的限制条 件( 如对加入联邦系统的d b m s 和各d b m s 间的互操作加一定的限制) 下实现, 难以实现各种数据库的灵活的数据集成。因此,联邦式数据库目前还不能成为一 种通用的数据集成方法。其体系结构如图2 1 所示。 图2 1 联邦数据库体系结构 中介系统【l l 】是通过虚拟视图进行集成,这个虚拟视图是在分析各个数据源 模式的基础上建立起来的。数据源可以是数据库、遗留系统( 1 e g a c ys y s t e m ) ,w e b 数据源等。中介系统的集成方式类似于物化方法集成方式,但是数据还是存储在 各个数据源上。系统为用户的查询提供一个全局模式,用户提交的查询是基于这 个全局模式的,而不必知道数据源的位置、模式和查询方式等。系统自动完成对 各个数据源的查询并返回数据。中介系统可以容易地增加删除数据源,各个数 据源完全自治。其体系结构如图2 2 所示。 ( 2 ) 物化法即数据仓库法数据仓库法【1 2 】的思想是建立一个实体的数据仓 库,它包含了所有需要交换数据的数据源所包含的数据,数据交换以这个数据仓 库为基础,用户的查询就是对数据仓库中的数据进行查询。该方法的优点是建立 系统的过程很简单。但是由于各个数据源中的数据是不断变化的,对数据的增加、 删除和修改却不能实时的更新数据仓库中的数据。数据的及时更新问题成为该方 法的最大缺点。 、 7 武汉理工大学硕士学位论文 图2 - 2 中介系统体系结构 2 2 本体在数据集成中的作用 2 2 1 本体概述 o n t o l o g y 最早是一个哲学的范畴,后来随着人工智能的发展,被人工智能界 给予了新的定义【1 3 l 。最初人们对o n t o l o g y 的理解并不完善,这些定义也在不断 发展变化中,比较有代表性的定义如表2 1 所示【1 4 1 。 表2 1 范畴提出时间提出入定义 客观存在的一个系统的解释和说明,客观 哲学 现实的一个抽象本质 给出构成相关领域词汇的基本术语和关 1 9 9 1 n e c h c s 等系,以及利用这些术语和关系构成的规定 计算机 这些词汇外延的规则的定义 19 9 3 g r u b e r概念模型的明确的规范说明 19 9 7 1 3 0 r s t 共享概念模型的形式化规范说明 19 9 8 s t u d e r共享概念模型的明确的形式化规范说明 关于最后一个定义的说明体现了o n t o l o g y 的四层含义: ( 1 ) 概念模型:通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概 8 武汉理工大学硕士学位论文 念而得到的模型,其表示的含义独立于具体的环境状态。 ( 2 ) 明确:所使用的概念及使用这些概念的约束都有明确的定义。 ( 3 ) 形式化:o n t o l o g y 是计算机可读的。 ( 4 ) 共享:o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公 认的概念集,它所针对的是团体而不是个体。 o n t o l o g y 的目标是捕获相关的领域的知识,提供对该领域知识的共同理解, 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术 语) 和词汇之间相互关系的明确定义。 p e r 彩z 等人用分类法组织了o n t o l o g y ,他归纳出o n t o l o g y 包含5 个基本的 建模元语( m o d e l i n g p r i m i t i v e ) 15 1 。这些元语分别为:类( c l a s s e s ) 、关系( r e l a t i o n s ) 、 函数( f u n c t i o n s ) 、公理( a x i o m s ) 和实例( i n s t a n c e s ) 。通常也把类( c l a s s e s ) 写成概念( c o n c e p t s ) 。 概念的含义很广泛,可以指任何事物,如工作描述、功能、行为、策略和 推理过程等等。 、关系代表领域中概念之间的交互作用。形式上定义为1 1 维笛卡儿乘积的子 集。从语义上讲,4 种基本的关系如表2 2 所示。 表2 2 关系名关系描述 p a r t o f 表达概念之间部分与整体的关系。 表达概念之间的继承关系,类似于面向对象中的 k i n d - o f 父类与子类之间的关系。 表达概念的实例与概念之间的关系,类似于面向 i n s t a n c e - o f 对象中的对象和类之间的关系。 表达某个概念是另一个概念的属性。如“价格 a t t r i b u t e - o f 是桌子的一个属性。 函数是一类特殊的关系。该关系的前n - 1 个元素可以唯一决定第n 个元素。 公理代表永真断言,例如概念乙属于概念甲的范围。 实例代表元素。从语义上分析,实例表示的就是对象,而概念表示的则是 对象的集合,关系对应于对象元组的集合。 按照应用领域的不同可以大致将本体划分为以下几类【1 6 】: 9 武汉理工大学硕士学位论文 领域本体( d o m a i no n t o l o g y ) 涉及特定学科领域的本体。 通用本体( g e n e r a lo n t o l o g y ) 涉及具有普遍意义的客观世界的常识的 本体,也称为顶级本体、上层本体( u p p e ro n t o l o g y ) 。 应用本体( a p p l i c a t i o no n t o l o g y ) 涉及问题求解的本体,也称为问题、 方法或问题求解本体( p r o b l e m s o l v e do n t o l o g y ) 。 元本体( m e t a - o n t o l o g y ) 涉及知识表示语言的本体,也称为表示本体 ( 或) 、宏本体( r e p r e s e n t a t i o no n t o l o g y ) 。 本文中构建本体使用的语言是o w l ( w e bo n t o l o g yl a n g u a g e ) 旧,它不仅 仅提供给用户可读的文档内容,而且计算机也可以处理文档内容信息。o w l 能 够被用于清晰地表达词汇表中词条( t e r m ) 的含义以及这些词条之间的关系。而 这种对词条和它们之间的关系的表达就称作o n t o l o g y 。o w l 相对x m l 、r d f 和r d fs c h e m a 拥有更多的机制来表达语义,从而超越了x m l 、r d f 和r d f s c h e m a 仅仅能够表达网上机器可读的文档内容的能力。 o w l 包含的主要元素如下: ( 1 ) o w l :c l a s s :一个类定义了因共有某些属性而同属一组的一些个体。 ( 2 ) r d f s :s u b c l a s s o f i 可以给出一个或多个关于“一个类是另一类的子类, 的陈述来创建一个类层次结构( c l a s sh i e r a r c h i e s ) 。 ( 3 ) r d f :p r o p e r t y :属性能用来表述个体之间或者从个体到数值之间的关系。 o w l :o b j e c t p r o p e r t y 和o w l :d a t a t y p e p r o p e r t y 都是r d f 类r d f :p r o p e r t y 的子类。 ( 4 ) o w l :d a t a p r o p e r t y 和o w l :o b j e c t p r o p e r t y :o b j e c t p r o p e r t y 代表的是类中实 例与另外一个类中的实例的属性关系,d a t a p r o p e r t y 代表类中的实例与基本数据 种类的数据之间的属性关系。 ( 5 ) r d f s :s u b p r o p c r t y o f - 通过给出一个或多个陈述声明“某属性是另外一 个或多个属性的子属性”,可用来建立属性层次。 ( 6 ) r d f s :d o m a i n :一个属性的定义域用来约束该属性可以适用的个体。如 果一个个体以一个属性和另一个体关联,并且该属性用某个类作为它的一个定义 域,那么该个体必然属于这个类。 ( 7 ) r d f s :r a n g e :一个属性的值域用来限制哪些个体可以成为属性的值。如 果一个个体以一个属性和另一个体关联,并且该属性的值域是一个类,那么另外 那个个体必然属于此类。 ( 8 ) o w l :i n d i v i d u a l :个体是类的实例,个体之间可以用属性相互关联。 1 0 武汉理工大学硕士学位论文 ( 9 ) o w l :e q u i v a l e n t c l a s s :两个类可以被声明为等价,即它们拥有相同的实 例。等价性可以用来创建同义类。 ( 1 0 ) e q u i v a l e n t p r o p e r t y :两个属性也可以被声明为等价。相互等价的属性 将一个个体关联到同一组其它个体。它也可以被用来创建同义属性。 ( 1 1 ) s a m e a s :两个个体也可以被声明为相同。这个构词可以被用来创建 一系列指向同一个个体的名字。 ( 1 2 ) d i f f e r c n t f r o m :一个个体可以声明为和其他个体不同。在使用如o w l ( r d f ) 等语言时,由于这些语言不假设个体有而且只有一个名字,明确声明个体 是不同的显得很重要。 ( 1 3 ) a u d i f f e r e n t :在一个a u d i f f e r e n t 陈述中,我们可以指出一定数量的 个体两两不同。a l l d i f f e r e n t 在表达一个集合中的对象互不相同且建模者有意强调 对这些个体的唯一名假设时尤其有用。它常和d i s t i n c t m e m b e r s 一起使用,来声 明列表中的成员都是独特的且两两不同的。 ( 1 4 ) i n v e r s c o f - 一个属性可以被声明为另一个属性的逆属性。如果p 1 被 声明为p 2 的逆属性,那么如果x 通过p 2 关联到y ,则y 通过p 1 关联到x 。 这些元素都将在定义本体及其映射中使用。 2 2 2 本体的优势与作用 本体在数据集成系统中的作用有以下五个【1 8 】: ( 1 ) 元数据的表达局部本体可以用同一种语言清晰地表达每一个数据源。 ( 2 ) 概念化全局全局本体可以在异构的数据源上提供一个全局的概念视图。 ( 3 ) 支持高层次的查询全局本体能够为各个数据源提供高层次的视图,使 得用户不必要了解各个数据源就可以规范的查询。查询可以通过全局本体和局部 本体的映射,分解并转换到各个数据源。 ( 4 ) 作为公布的中间件在混合的p 2 p 系统中,全局本体作为公布的中间件, 完成节点问查询的重写。 ( 5 ) 支持映射由本体规范的字典,有助于映射过程的自动化。 本体描述了知识库中知识的概念化,它是对概念化本身及其含义的明确描 述。本体是领域概念化的结构规范。关于本体的一种假设是所有的概念都通过关 系明确地关联着,从一个概念出发可以根据一系列的规则推导出另一个概念【1 w 。 它具有如下特征: 武汉理工大学硕士学位论文 ( 1 ) 从功能上来讲,本体和数据库有些相似,但表达的知识丰富得多。首先, 本体比数据库表在词法和语义上所能表示的信息都丰富;其次,本体提供的是一 个领域严谨丰富的知识而不单单是一个存放数据的结构。 ( 2 ) 本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础。 这种形式化的描述成为软件系统中重用和共享的组件。 ( 3 ) 本体适合表示抽象的描述。 由1 2 1 节的分析可知:异构性是阻碍数据集成和交换的主要因素,其中语 义异构又是最难解决的。数据本体的上述三个特点决定了本体在数据集成中有非 常突出的优点,即解决数据集成中语义异构问题【2 0 】【2 l 】。 语义般是指用户对于那些用来描述现实世界的计算机表示的解释,即用户 用来联系计算机表示和现实世界的途径。为了让计算机能“读懂人能够理解的 信息,需要用“元信息对信息进行描述,使得计算机能够基于此描述自动分析 和处理信息。其实语义也并不是引入到i t 领域的新概念,数据库长期以来已经 在用语义来区分模式和数据,并作为数据库建模、查询和事务管理技术的一部分, 语义是保证数据管理系统达到可扩展性、高效性和健壮性要求的一个关键元素。 异构数据的语义异构包括属性异构、命名异构、格式异构和外延异构,可以 通过本体的定义及本体与本体、本体与数据源映射得到解决瞄】。 属性异构通过使用本体中的r d f s :s u b p r o p e r t y o f 语法来解决。 命名异构中的相同实体使用不同名字可以使用本体的o w l :e q u i v a l e n t c l a s s 和 o w l :e q u i v a l e n t p r o p e r t y 语法解决。对于同一数据源里的不同实体使用相同的名字, 将在本体定义中对概念的i d 采用附加上层概念i d 的方式解决。 格式异构通过类公理或函数、查找转换表来解决。其中有属性类型或精度的 不同可以通过一个映射表来解决。 外延异构中的包含元素类型异构就可以通过本体定义语法中的 r d f :s u b c l a s s o f 以及r d f :s u b p r o p e r t y o f 进行解决,交义元素类型异构可以通过本 体定义语法中的o w l :i n t c r s e c t i o n o f 语法进行解决,不相交元素类型异构可通过在 全局本体中使用o w l :u n i o n o f 语法进行解决。 2 3 典型的基于本体的数据集成分析 目前基于本体的数据集成方式主要包括单个本体、多本体和混合本体三种方 1 2 武汉理工大学硕士学位论文 式【2 3 】渊。 单个本体的方法也称为集中方法,使用一个全局本体提供的共享词汇表来 表示信息的语义。全局本体从所要集成的数据源抽象与综合出来,也可以是几个 特定本体的结合,其结构如图2 3 所示。通常各个数据源与全局本体利用某种形 式的映射关系联系起来,通过这种映射关系将对本体的查询分解为对各个数据源 的查询。但是这个关系的建立有较大的难度,一般需要领域专家介入,提取其中 的基本术语以及术语之间的关系。 数据源 数据源 ,数据源 图2 3 单本体方法结构 单本体方法适用于待集成的所有信息源具有几乎同样的视图。对于视图差 别比较大的数据源,集成的难度非常大。比如由于每个信息在不同数据源的粒 度不同而很难查询最小粒度的信息。同时数据源很多时候是跨领域的,使得直 接建立一个全局本体几乎不可能,而且单本体方法对于影响概念化的信息源是 敏感的,这是因为一个信息源中的变化意味着全局本体的变化以及不同信息源 之间的映射。单本体方法的缺陷促使多本体方法的出现。 多本体方法也称为分散方法,每个数据源有一个描述自己数据信息的局部 本体,其结构如图2 4 所示。每个数据源与自己的局部本体之间建立起一个映射 关系,并且各个局部本体之间也存在着映射关系,使得他们能够比较。例如, 在s k

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论