(计算机软件与理论专业论文)异构信息源集成中本体的自动映射及应用.pdf_第1页
(计算机软件与理论专业论文)异构信息源集成中本体的自动映射及应用.pdf_第2页
(计算机软件与理论专业论文)异构信息源集成中本体的自动映射及应用.pdf_第3页
(计算机软件与理论专业论文)异构信息源集成中本体的自动映射及应用.pdf_第4页
(计算机软件与理论专业论文)异构信息源集成中本体的自动映射及应用.pdf_第5页
已阅读5页,还剩43页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 随着信息时代的发展,用户对信息的要求越来越严格,全面性、准确性、 实时性变得十分必要。与此同时,信息的提供者也希望将自己的资源有偿或无 偿地提供给更多的用户。因此需要构建一个集成平台,能够使信息提供者方便 地发布自己的信息,同时为用户全面查询信息提供一个简单统一的接口。 由于各个信息提供着的信息源是异构分布自治的,因此在构建这样一个平 台的过程中,重点要解决的就是这些数据源之间的语义异构以及物理异构( 系 统异构、结构异构、语法异构) 问题。其中语义异构包括由不一致数据和对相 同数据的多个解释造成的数据级异构和由数据的逻辑组织不相似所造成的模 式级异构。本文引入本体概念和w 曲s e i c e 技术来分别解决语义异构问题和 物理异构问题。 本文提出了应用本体和w 曲s e i 技术进行面向语义的信息集成模型 ( s b a ) ,并重点讨论了如何扩展本体自动映射算法,以及如何利用该方法简化 信息源注册过程以及控制信息源的质量。 本文提出的e m a p 算法,是对礤m a p 方法的扩展。此算法在i f - 姒p 算法输出的基础上,将等价概念的每个属性取出,并利用关键字比较和同义词 库的方法完成属性之间的映射。由于整个映射算法是自动完成的,因此使信息 源的管理得到极大的简化。 本文还提出了概念匹配度和信息源匹配度的概念,并在这两个概念的基础 上提出了控制信息源逻辑质量的方法。利用该方法,平台系统可以观察到每个 信息源和目标视图的匹配度,从而为用户查询提供参考。该方法也可以为平台 自身决定信息源是否符合要求提供参考:如果某信息源逻辑质量过低,平台可 以拒绝其注册。 本文扩展了现有的本体自动映射技术,并通过将该技术与w 曲s e i c e 技术 相结合,既解决了信息源语义异构和物理结构异构的问题,又实现了信息集成 系统对信息源管理的自动化。 山东大学硕士学位论文 关键宇:信息集成,语义,本体,自动映射,服务质量,w e bs e r v i c e ,s b i | i i 山东大学硕士学位论文 w i 血t l l e 叫c kd e v e l o p m 吼to fi n f o m a l i o ne m ,l l s e r sn e e d so fi i l f o 眦d b e c o m e m o r e 锄d 瑚r es t r i c t :g e r a l i 饥c u r a c y 锄dr e a l m m ea v e r yn e c 豁s a r y nt l l e s a l n e 石m e ,i i l f o m l a t i p r o “d e 硌a l 唧e c tt os h 缸e1 h e i rr e l l r c 豁砸t l lm o r el l s e 鹉 f o r 疗o rp a i d b 嬲e d l l l e s en e e d s ,w es h o i l l dc o n 鼬m c tap l 舶姗、】i i h e i i l f o 啪a t i p r o v i d e r s 伽p u b l i s ht l l e i rr 嚣o l l r c 龉e a s i l y w h i l e 璐e 培c 孤砌e v e i i l f o 咖瓶m r o l i 曲as i m p l em dm 田i m e r f h c e 唧e h e n s i v e i y s i n c em ei i l f o m 埘o nr e u r c 嚣o fd i 饪b r e n tp r o v 主d e 硌a d i s 仃i b u l e d ,h e t e r o g 跚u s 觚d 鲫蜘o n l o 啉,也ep r o b l e m st l l a tw es h o u l d l v ew h e nc o n s t n l c t i n gt h i sp l 施m a mh e t e r o g e i t yt l i a tb o 恤o f m 锄d c 觚dp h y s i c a i ( s y s c e l i l s 仃u c t i l r e ,蜀m t a x h e r e , m es e m 柚t i ch g t e r o g e n e i 锣i i l c l u d e sd a t al e v e lc m 1 f l i c ta n ds c h e m al e v e lc c 咀f l i c t w b u 1 l l ec c 印to f0 n t o l o g y 锄dw 幽s e r “c et e c h i q u et or e l v et l l 懿e m 锄d c c o n f l i c tp r o b l e 嘟柚dp h y s i c a lh e t e r o g e 妙r e s p e 甜v e l y h “sp a p e r w en o to n l yp r o p o s e d 肌a r c h i t e c t l | r et l l a tn 锄e ds b a ,砌c he i i 】p l o y s o n 纠。盱趾dw 曲s e i c et e c i l l l i q u e st oi n t e g r 甜ei n f o 加a l i o t l b u ta l s 0d i s c 璐dh o w 协e x 呦da u t o m a t i co n t o l o g y - m a p p i n ga 1 9 0 r i m mi no r d 豇t os i i i l p l 毋m er e 画s 仃a t i o n s o fi n f o 册a l i o nr e l l r c 嚣嚣w e u 船札h a i l c e1 l l em 肌a g 锄e n to ft h eq u a l 毋o f i n f o n n a 石o nr e s o u “翳 t h ee m a pa l g o 删【l i i li s 锄e 赋e l l s i o no f - m a pa l g o r i t l l i i lw e f e t c he a c h 踟i l a l p a i ro f c o n c e p 据g e l l e r a t e db yt h e 一m a pa l g o r i t l l l l l ,a i l dc 0 玎1 p a r et i l e i rp r o p e 而e sb y k e y 一、构r d s - c o m p a r i s o rs y n 0 呵md 砒a b 够e 1 1 l e nw eg e r a t e t l l em a p p i n g r e l a l i o n s i l i pb e t 、e 1 量l e s ep r o p e n i 嚣a st h ew h o l em a p p i i l gp r o c e d u r ei s 锄t o m a t i c , 也em 孤a g e m 钮to f i 础d m 蜥舳r e s o u r c 皓i s 斟e 甜ys i l l l p l i 丘e d hm ep a p e r ,聊a l p u tf o n a f d 铆oc o n c 印t s :c o n c e p ts i i l l i l a r i t y 缸d 耐0 彻a l i o n r e u r c es i i n i l a r i 戗b 嚣e d0 l l w i l i c h w ec 孙百v ea m e t h o d t o 舳l t h eq u a l i t i 豁o f t l l ei n f o m l a t i o ns o u r c e s b yl l s i n g “sm e m o d w ec a l lo b s e r v ee a c hi n f o m a t i i i i 山东大学硕士学位论文 r 嘲u r c 部s i i i l i l a r i 锣而t l lt a 玛e tv i e wt h i sm e i i l o dc 眦a l 晰n gl l st l l er e f e r v a l u e so fw h e t l l e rt l l ei n 南m “伽r e u r c 豁m e e to l i rd 锄锄d s :i ft h eq u a l i l yo ft l l e i r i f o m a 矗o nr e s o u r c 嚣i st o ol o ww es l l o l l l d 厕ti t sr e 西s 嘶o n w bh a v ei m p r o v e dm ea u 幻m a 石co n t o l o g y m a p p i n ga l g o r i 衄嬲w e l l 髂c o m b i n e di t w i mw 曲s e i c et e c l l i l i q u e ,讪i c h 百v 器璐as 0 1 而o no ft l 圮h e t e r o g e i i e 毋o f 啪i n 瑚缸c 髓dp h y s i c a l 锄da l aw 锣t oa u 岫m a t em em 锄a g 锄即to f t l l ei b m 谢 r e s ( h l l 8 ”帅r d s :i n f o 珊a l i 蚰i n t e g r a t i 佃,s e m 蛐t i c ,0 n t 0 i o 跏a u t o m a 在cm 印p i n g , q o s ,w e bs e r “c e ,s b i i a 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:缝日期:幽:丝篁 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) ,掺 论文作者签名:缝丝导师签名: 鲁弓 山东大学硕士学位论文 1 1 课题的研究背景 第1 章绪论 随着i n t e r n e t 的快速发展,网络成为一种重要的信息传播和交换的手段。 对于信息获取者来说,如何获取w e b 上的有用数据并加以综合利用,或者对息 的提供者来说,如何获得一个方便发布自己信息资源的平台,成为一个引起广 泛关注的研究领域。 信息集成技术就是要从多个自治的,分布的异构数据源中获取信息,建立 多数据源的全局统一视图,而不考虑其数据类型、数据存储、物理位置等影响 因素,随时随地提供对数据统一、透明的访问,为用户提供简单一致的查询方 式,最终实现信息共享i ”。简单的说,信息集成的目的就是在用户看来,他们 需要的所有数据,应该好像驻留在一个单一的数据源里一样。 信息集成有如下特点: 全局统一的数据视图:信息集成基础架构必须根据应用层的需要,为它提供 访问数据的全局的统一数据视图,使应用对数据的访问不受数据格式、数据位 置和访问接口差异的限制; 灵活的访问方式:应用访问信息可以通过0 d b c 、j d b c 、w e b 服务、数据库自 带客户端或异步客户端接口来实现,无论数据是分布在何种数据库、文件或消 息队列中,应用对数据的访问都如同是在对一个逻辑的数据库进行。 信息集成主要需要解决以下几个方面信息的异构问题:系统异构、结构异 构、语法异构、语义异构【2 】。其中系统异构包括硬件和操作系统,例如,硬件、 系统软件( 如操作系统) 和通信系统之间的差异。语法异构包括不同的语言和数 据表示:结构异构包括不同的数据模型;语义异构包括用户信息请求的语义和数 据源的语义。现在已开发出很多技术来解决这些类型的异构。 前二种类型的异构己经可以利用诸如c o r b a ,d c o m 和各种中间件产品来 解决,第三种异构也可以通过w 曲s e n ,i c e 来解决。现在我们面临的问题就是 山东大学硕士学位论文 如何解决语义的异构问题:近来咀。作为一种为交换异构信息提供公共语法 的方法为人们所接受,同时也有大量的模式级规范( d 1 巾或沮模式) 作为标 准在电子商务中使用,包括e b 咀p 、b i z l 钮k 【4 1 和r o s e t t a n “”。尽管这样的 模式级规范可用于指定共同接受的用于交换产品信息的标签集,但尚不能解决 语义异构问题。在使用沮。结构进行所有数据交换的方法里,语义异构依然 存在州。 本体通过对概念的严格定义和概念之间的关系来确定概念精确含义,表示 共同认可的、可共享的知识,从而解决上面的问题。 使用本体有许多的优点。首先,本体提供了一个丰富的、预定义的词汇库, 可作为与数据源的稳定的概念接口,并且独立于数据模式。第二,本体表示的 知识足够支持所有相关信息源的转换。第三,本体支持一致的管理和非一致数 据的识别等。 然而,当越来越多的本体在各个系统中被应用,随之而来的又是越来越多 系统要求共享这些本体已达到知识共享、信息共享的目的印。但是共享本体是 一个尚未得到很好解决的问题。这可以追溯到上世纪8 0 和9 0 年代,当时人们 为了集成异构的数据库也面临同样的问题( 因为数据模式可以被认为是一种轻 型的本体) 。而在当今的信息集成系统中,不同的信息提供者用自己定义的本 体来描述自己的信息源,而中心集成系统则在领域专家的指导下建立了一套全 面的、标准的本体,如何实现全局本体和多个局部本体的共享,即如何在两个 本体问建立映射关系,包括寻找概念的对应关系、属性的对应关系和关联的对 应关系是本文要探讨的问题。 传统的本体映射方式主要是靠手工实现,这是一项十分复杂和繁琐的工作。 因为在一个本体中存在成千上万的概念,而每个概念有存在很多属性,如果对 每一个信息提供者的局部本体做手工映射,工作量是十分惊人的。现在已经出 现了本体自动映射技术,但这些技术都不能很好的和信息集成系统相结合,如 何扩展本体自动映射技术,并且将该技术合理地运用到信息集成系统中来,是 我们在后面章节要讨论的内容。 2 山东大学硕士学位论文 1 2 国内外研究现状 1 2 1 信息集成研究现状 信息集成技术的研究始于七十年代中期,至今已有二十多年了。从一开始 的多数据库集成发展到现在的异构数据源集成,数据集成的范围和作用都在不 断扩大。 a l i l i tp s h e 山【。1 提出信息集成的发展可大约分为三个阶段来看: 7 0 年代一8 0 年代中期:出现的主要技术有多数据库系统和联邦数据库系 统,重点在于使有着不同软硬件设备的计算机系统进行互连和通信,解 决了一定程度上的语法和结构异构,实现了地理分布、数据模式等的透 明性: 8 0 年代中期一9 0 年代中期:随着网络的出现、l n t 锄e t 的发展以及多种 类型的数据的形成( 包括结构化数据库、半结构化数据、数字多媒体等) , 出现了一些支持多种类型的异构数据集成的技术,如m e t a d a 饥 m e d i a c o r 、中间件等: 9 0 年代中期一现在:这个阶段比较关注数据集成过程中的语义异构的 解决问题,更多的运用知识领域的有关技术如本体等。主要有信息的智 能集成、数字化图书馆等。 从实现的体系结构的角度出发,信息集成技术可分为如下几种例: 单个的联邦系统: 将所有数据源统一到一个单一的集成系统中。这种方法比较简单,集成系 统有统一的数据模式,不用考虑分布数据的转化和统一。但是,它存在一系列 的问题:首先,构建这样一个集中式的系统需要很长的开发时间,要求高性能 的主机设备,实现代价较高;其次,系统的扩展和维护会涉及到整个系统,而 且一个集成系统无法共享另一个集成系统的模块。 基于组件的分布式集成系统: 用分布式的对象模型,诸如,微软的分布式组件对象模型( d c o 岫、c o r b a 或s u n 的r m i 来构建信息集成系统。这种方法有效的避免了单个联邦系统带来 的开发代价大,代码难以重用的问题,利用网络计算环境可以有效的实现复杂 山东大学硕士学位论文 的大规模的信息集成。但是,d c o m ,c o r b a 或r m i 要求服务客户端与系统提供 的服务本身之间必须进行紧密祸合,即要求一个同类基本结构。这样的系统往 往十分脆弱:如果一端的执行机制发生变化,那么另一端便会崩溃。例如,如 果服务器应用程序的接口发生更改,那么客户端便会崩溃。 基于w e bs e r v i c e 的信息集成系统: i n t e r i i e t 的迅速普及和广泛应用对计算机技术的发展产生了深刻影响,桌 面应用正在向网络应用转移,从网上获得的不仅是信息,还包括程序、交互式 应用( 即服务) ,操作界面将在浏览器层面上得到统一,兼容性由网络标准技 术实现( 如s o a p ,u d d i ,w s d l 等) 。随着x 虬和语义w e b 的发展,w e bs e r v i c e s 框架成为一种比较好的体系结构。因此提出在w e bs e r v i c e s 的框架下,使用 一组w e bs e r v i c e s 协议,构建信息集成系统的方案。这种方法克服了上述两 种方法的缺陷,具有完好封装,松散耦合,规范协议,高度可集成能力等特性。 因此,基于w e bs e r v i c e s 的信息集成方案是构建w e b 信息集成系统较为理想 的体系结构。本文提出的s b i i a 属于这种体系结构。 在信息集成的过程中,不同信息源的设计者对于现实世界的事物的看待角 度可能不同,这样就会产生语义异构。为了解决这一问题,我们引入了本体的 概念【1 0 j 。 一个本体为特定领域的实体给出名字和描述,使用谓词来表示这些实体之 间的关系。它为表示和交流领域的知识给出了一个词汇库,并给出了一系列包 含着词汇库里的术语的关系,因此它具有描述数据源语义和解决异构的能力。 几乎在所有的基于本体的集成方法中,本体都是用作数据源语义的明确描 述。但如何使用本体进行数据源集成有着几种不同的方法。它们分别是:单本体 方法、多本体方法、混合方法【1 1 1 。其中基于单个本体的集成看起来是最简单的 方法,因为它可以被其它的方法模拟。 ( 1 ) 单本体方法 单个本体的方法也称为集中方法,使用一个全局本体为确定语义提供一个 共享的词汇库。所有的数据源都与这个全局本体关联。使用这种类型本体集成 方法的一个显著例子是s 讧s 【埘 ( 2 ) 多本体方法 4 山东大学硕士学位论文 多本体方法也称为分散方法,每个数据源都由各自的本体进行描述。例如, 在0 b s e r 、,e r 【1 3 j 和s k c 中,数据源的语义就是由不同的本体进行描述的,可 以比较容易地增加移除数据源,但异构本体的比较会导致很多的同义词、同形 异义词等问题,因为本体都使用各自的词汇库。 ( 3 ) 混合方法 为解决单本体或多本体方法的缺点,开发了混合方法。与多本体方法相似, 每个源的语义都由它们各自的本体描述。但为了使每个源本体与其它的源本体 具有可比性,这些源本体都是基于一个全局共享词汇库建立的。共享词汇库包 含了领域的基本术语( 原语) 。为了建立源本体的复杂术语,可以通过一些操作 符结合这些原语。由于源本体的每个术语都是基于原语,术语就变得比多本体 方法中的术语容易比较。有时,共享的词汇库也是本体。c 0 圈n 【1 4 1 和m e c 帆a 【”】 系统都是使用了混和本体方法。 本文提出的s b a 信息集成模型就类似于混和本体的方法,所有的信息源 提供者的本体都是基于一个公共的参考本体建立的,但是他们之间还会差异, 所以本文又提出了一个本体映射方法来解决差异问题,使s b a 从信息源注册 到用户查询的完成都是自动的。 1 2 2 本体映射技术研究现状 目前存在的本体映射技术主要可分为以下几种1 6 j : 1 1 基于上层本体的映射 基于上层本体建立映射的基本思想是:首先定义通用上层本体,然后不同 的领域本体分别基于这些上层本体建立,这样不同领域本体之间的映射问题就 可以利用它们和上层本体之间的关系实现。这种方法的前提是所有领域本体必 须基于上层本体建立。 2 ) 基于相似度计算的映射 基于相似度的本体映射方法的基本思想是:本体0 1 到0 2 的映射发现问题, 可以分解为0 1 中的每一个元素x 搜索其在0 2 中最相似的映射对象x i 。这种方 法获得的结果是局部最优解。一些研究者对该方法进行扩展,试图使其支持全 局最优的映射发现。 山东大学硕士学位论文 3 ) 基于机器学习的映射 基于机器学习的映射方法将映射问题转换成分类问题,为某个概念选择最 优映射的问题就转换成对其进行分类的问题。分类学习的方法通常利用一个本 体中的信息学习分类模型,然后利用另一个本体中的信息预测其每个元素可能 的映射对象。 4 1 组合映射 将以上介绍的方法结合,可以构造出更精确的映射方法。现在存在的系统 有c h i m 黜f 1 刀等。 琢小d a p 算法是基于信息流理论嘲的方法,而本文提出的e m a p 算法则 是在该算法的基础上加入了基于相似度的映射方发,属于组合映射。 1 3 课题的研究目标 从前面的介绍我们可以看出,随着信息网络时代的发展,用户对信息的要 求越来越严格,全面性、准确性、实时性变得十分必要。与此同时,信息的提 供者也希望将自己的资源提供给更多的用户。因此我们需要构建一个集成平 台,能够使信息提供者方便地发布自己的信息,同时为用户全面查询信息提供 一个简单统一的接口。但是目前这样的系统平台面临着很多问题,其中一个主 要的难题就是信息源异构问题。 尽管目前在国内外已经有很多的信息集成方法和系统被提出,但是作为各 种信息源的一个集成平台,总是难于考虑到集成中的方方面面。由于各个信息 提供着的信息源是异构分布自治的,因此我们要解决的就是这些数据源之间的 语义冲突以及物理结构上的不一致问题。其中语义冲突包括由不一致数据和对 相同数据的多个解释造成的数据级冲突和由数据的逻辑组织不相似所造成的 模式级冲突。 课题通过提出一个模型,为解决异构信息源信息集成问题提供了一整套解 决方案。在模型中引入了人工智能中本体的概念来解决语义冲突问题,通过 w 曲s e r v i c e 技术解决物理结构的不一致问题,并通过对本体自动映射技术的改 进实现从信息源注册到用户查询结构返回的自动化。 6 山东大学硕士学位论文 1 4 本文的研究内容和创新点 本文我们提出了应用本体技术进行面向语义的信息集成的系统模型 ( s b a ) 。在本模型中,本文重点探讨了它的核心部分一一本体的自动映射技术。 本文提出了e - m a p 算法,它对m _ m a p 方法进行了扩展。此算法在球m a p 算法输出的基础上,将等价概念的每个属性取出,并利用关键字比较和同义词 库的方法完成属性之间的映射。由于整个映射算法是自动完成的,因此使信息 源的注册过程得到极大的简化。 本文还提出了概念匹配度和信息源匹配度的概念,并在这两个概念的基础 上提出了控制信息源逻辑质量的方法。 本文的创新点: 对m a p 算法进行了改进,提出了e m m p 算法: 将w 曲s e r v i c e 技术与本体自动映射相结合,实现了信息源的自动注册。 1 5 本文的结构 本文第二章阐述了语义信息集成的相关研究。第三章提出了基于w 曲服务 的信息集成系统模型s b a ,介绍了模型各部分的组成及功能,然后给出了本 体自动映射模块的结构以及各部分的功能。 第四章介绍了e 邛m a p 算法,该算法在m a p 算法的基础上,对相似概 念的属性进行进一步的映射,输出满足框架要求的映射结果。然后对算法的正 确性和时间复杂度进行了分析,最后通过一个例子介绍了e m a p 算法的运 行过程。第四章同时也给出了如何利用e m a p 算法和w 曲s e r v i c e 技术实现 信息源的自动注册,以及如何控制每个信息源的质量。最后介绍了如何利用缓 存查询结果进行查询优化。 第三、四章是全文的重点。 第五章对全文进行小结,并对今后的工作提出一些设想。 7 山东大学硕士学位论文 第2 章本体与语义信息集成 2 1 语义和语义信息集成 语义是研究用语言来交流的词或句子意义的( s e n 舶石c si s 咖由o fm e a n i n g c o m m 眦i c 8 t e db ,rl 锄g u a g e ) ”】,可以将语义简单地看作是数据( 符号) 所代表的概 念的含义,以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表 示。对于计算机领域来说,语义一般是指用户对于那些用来描述现实世界的计 算机表示的解释,即用户用来联系计算机表示和现实世界的途径。为了让计算 机能“读懂”人能够理解的信息,需要用“元信息”对信息进行描述,使得计算机 能够基于此描述自动分析和处理信息。其实语义也并不是引入到i t 领域的新概 念,数据库长期以来已经在用语义来区分模式和数据,并作为数据库建模、查 询和事务管理技术的一部分,语义是保证数据管理系统达到可扩展性、高效性 和健壮性要求的一个关键元素。 信息集成以下几个方面对语义的需求推动了语义信息集成技术的产生: 信息检索:基于关键字的查找有可能因同词不同意找出不相关的信息,也 有可能因不同词同意而丢失一些相关的信息; 信息提取:必须人工浏览和阅读,目前的自动代理不具有从文本中提取信 息所需要的通用认知知识,也不能整合信息。 维护:信息不断增多,如何维护信息的一致性、正确性、实时性需要用到 信息的语义; 文档自动生成:从半结构化数据生成半结构化信息表达需要机器识别这些 数据资源的语义。 为了提高信息查询检索的效率,共享领域内知识,语义信息集成已成为当 前研究的一个热点领域,也是未来信息集成发展的方向。为实现语义信息集成, 先后在信息集成领域引入了元数据、r d f 、本体、智能a g e m 等工具,其中本 体是近年语义信息集成中广泛采用的工具之一。语义信息集成主要包括两部 分:w 曲信息集成和基于语义的文档集成或数据库信息集成【删。 山东大学硕士学位论文 2 2 语义信息表示 语义的表示最早起源于人工智能领域,比较经典的方法有一阶谓词逻辑表 示法、产生式表示法、框架表示法( 状态层次) 、脚本表示法、语义网络表示法、 面向对象表示法【2 0 1 、咀,r d f 【2 1 1 等方法。选择适当的表示方法,需要从以下 方面进行考虑: 1 充分表示领域知识和知识的语义信息。 2 有利于对知识的理解和利用。 3 便于知识的组织、维护和管理。 4 便于理解和实现。 b e m 郇l 于2 0 0 0 年1 2 月1 8 日在v 儿2 0 0 0 的会议上正式提出了语义 w 曲。语义w 曲的目标是使得w 曲上的信息具有计算机可以理解的语义,满足 智能软件代理( a g 锄t ) 对w w w 上异构和分布信息的有效访问和搜索。 一阶谓词逻辑表示法、产生式表示法、框架表示法( 状态层次) 、脚本表示 法、面向对象表示法主要适用于传统的语义表示,w 曲信息表示能力差。要表 述w 曲信息,目前多采用以儿为基础的表示结构: 沮。x t e n s i b l e m a r k u p l 锄g u a g e ) 已经成为了w 曲数据表示和交换的事实 标准,是应用或者机器问共享数据的一种有效方式。它的可扩展性是它区别其 他标记语言的最基本特征。其核心在于以一种标准化的方式来建立数据表示的 结构,而将具体标记的定义留给了用户。但是。模式并不能对其所含有的 语义进行任何解释,不仅如此,由于) m 几模式只能对v 儿的语法合法性进行 验证,而不能区分x m l 属性和元素在含义上的不同,因此对于同样的信息内 容,可能被映射为多种不同的) 口l 结构。 为此,w 3 c 推荐以i f 田1 ( r e l l r c ed e s a i 砸o nf 删m e w o r k ) 标准来解决 咀。的语义局限。r i ) f 提出了一个简单的模型用来表示任意类型的数据。这 个模型由节点和节点之间带有标记的弧组成。节点表示w 曲上的资源,弧表示 这些资源的属性。这个数据模型可以方便的描述对象( 或者资源) 以及它们之间 的关系。) f 模型实质上是一种二元关系的表达,由于任何复杂的关系都可以 分解为多个简单的二元关系,因此m ) f 模型可以作为其他任何复杂关系模型的 9 山东大学硕士学位论文 基础模型。 r d f 和v 几是互补的。首先,砌) f 以一种标准化,互操作的方式来规范 x m l 的语义。v 几文档可以通过简单的方式实现对砌) f 的引用。其次,由于 r d f 是以一种建模的方式来描述数据语义的,这使得r i ) f 可以不受具体语法 表示的限制,但是) f 仍然需要一种合适的语法格式来实现r i ) f 在w 曲上的应 用。由于x m l 已经成为被广泛支持的w 曲数据表示标准,便于应用的读取, 因此将r i ) f 序列化为v 几表示可以使r d f 获得更好的应用可处理特性,并 使得砒) f 数据可以像咀数据一样的容易使用、传输和存储。 尽管如此本身对语法是无知的,它只是提供了一个表达元数据的模型。r d f 并没有定义任何一个特定领域盼语义,需要使用其它工具来描述领域相关的语 义。另外r d f 本身并不能针对特定应用需求来定义一些类和特性。为此w 3 c 又引入了i u ) f 词汇描述语言i t i ) f s ( r d fs c h e n 曲,但它在处理语义上仍然存 在两个问题:( 1 ) 同一概念有多种词汇表示;( 2 ) 同一个词有多种含义( 概念) 。为此 w 3 c 采用w 曲本体描述语言o 、) l ,l 2 习( o n t o l o 舒w 曲l 趾g u a g e ) 作为新的描述语 言。 下面对当前一些表示方法的语义表达能力进行比较: 咀。提供了一种结构化文档的表层语法( s u 舭es y r i t a x ) ,但没有对这些文 档的含义施加任何语义约束。 皿s c h 瞰l a f 蚓是一个约束沮。文档结构和为v 儿扩充了数据类型的语 言。 砒) f 是一个关于对象( 或资源) 和它们之间关系的数据模型,且为该数据模 型提供了简单的语义,这个数据模型能够用皿。语法表示。 r i ) fs c h 咖a 是一个描述i u ) f 资源的属性0 r o p e n y ) 和类( c l a 豁e ) 的词汇表, 提供了关于这些属性和类的层次结构的语义。 o w l 添加了更多的用于描述属性和类的词汇,例如类之间的不相交性 ( d i s j o i i l 恤器s ) 、基数( c a r d i n a l 坶,如恰好一个) 、等价性、属性的更丰富类型、属 性特征( 例如对称性) 、以及枚举类( e n 哪e r 砒e dc l 觞s ) 。 l o 山东大学硕士学位论文 2 30 n t o i o g y 和其描述语言叫l 2 3 10 n t o i o 科 0 i t t o l o 科( 本体) 最早是一个哲学的范畴,后来随着人工智能的发展,被 人工智能界给予了新的定义。然而最初人们对0 n t o l o 盯的理解并不完善,对于 o n t o l o 射的定义也在不断的发展变化中,s t i l d e r 等人经过对以往研究的总结, 给出了目前最流行的定义: 定义2 1 ( 0 n t o i o 舒) 0 r i t o i o 舒是共享概念模型的明确的形式化规范说 明( 0 n t o l o 舒i st l l ee x p i i d t 锄df o m l a ld e i i p 石o f s h a r ec o n c e l p n l a i i z 商o n ) 。 这个定义体现了o n t o l o 舒的四层含义:概念模型,明确,形式化,共享。 ( 1 ) 概念模型( c c 印t l l a l i 动t i ) 通过抽象出客观世界中一些现象( p l l e n o m o n ) 的相关概念而得到的模型, 其表示的含义独立于具体的环境状态 ( 2 ) 明确( e 冲l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义 ( 3 ) 形式化( f b m l a l ) o n t o l o 努是计算机可读的。 ( 4 ) 共享( s h a r e ) 0 l i l t o l o 劈中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 它所针对的是团体而不是个体嘲。 p e r e z 等人认为0 n t o l o 舒可以按分类法来组织,他归纳出0 啊协lo _ 盱包含5 个基本建模元语o 山d e l i n gp r i l n i t i v e ) 例。这些元语分别为:类( c l a s s e s ,通常也写 作c o n c e p t s ) 、关系( f e l a t i o n s ) 、函数( f i 】i l c t i o l l s ) 、公理( a 五伽均和实例( i n s t 姐c e s ) 。 ( 1 ) 类( c l 勰s e s ) 或概念( c o n c e p t s ) 可以指任何事物,如工作描述、功能、行为、策略和推理过程等等。从语 义上讲,它表示的是对象的集合,其定义一般采用框架( 妇n e ) 结构,包括概 念的名称,与其他概念之间的关系的集合,以及用自然语言对概念的描述。 ( 2 ) 关系( r e l 撕s ) 代表领域中概念之间的交互作用,形式上定义为n 维笛卡儿乘积的子集 山东大学硕士学位论文 r :c 1 c 2 c n 。如子类关系( s u b d 船s o f ) 。在语义上关系对应于对象元组的集 合。 ( 3 ) 函数( f l c t i o n s ) 是一类特殊的关系。在这种关系中前n 1 个元素可以惟一决定第n 个元 素。形式化的定义如下f :c 1 c 2 c n 1 一c n 。例如m o m e r o f 关系就是 一个函数,其中m o t l l e r o f ( x ,y ) 表示y 是x 的母亲,显然x 可以惟一确定 他的母亲y 。 ( 4 ) 公理( a ) 【i o m s ) 代表永真断言,比如概念乙属于概念甲的范围。 ( 5 ) 实例( i n s t a i l c e s ) 代表元素。从语义上讲实例表示的就是对象。 另外,从语义上讲,最基本的关系共有4 种: 关系名关系描述 p a r t _ o f 表示概念之间部分与整体的关系。 k i i l 抽f 表示概念之间的继承关系,类似于面向对象中的 父类与子类之间的关系。 i i l s t a i l c e o f 表示概念的实例与概念之间的关系,类似于面向 对象中的对象和类之间的关系。 a t t r i b u t e - o f 表示某个概念是另一个概念的属性。如“价格”是桌 子的一个属性。 在实际建模过程中,概念之间的关系不限于上面列出的4 种关系,可以根 据领域的具体情况定义相应的关系。 为了对0 l i 幻l o g y 进行有效的分类,( h 丽n o 提出以详细程度和领域依赖维 度作为对0 咀t o l o 盱划分的基础d 们。详细程度是相对的、较模糊的一个概念, 指描述或模对象的程度。详细程度高的称作参考( r e f e r 吼c e ) 0 l i l t o l o 画器,详细程 度低的称为共享( s h a 面曲0 n t 0 1 0 画嚣。依照领域依赖程度,可以细分为顶级,上层 ( t o p 堆l “e i ) 、领域( d o r r l a i n ) ,任务( t 嬲k ) 、应用( a p p i i 删i o n ) o n t 0 i o 百e s 等4 类。 顶级本体:描述的是最普通的概念及概念之间的关系,如空间、时间、事 山东大学硕士学位论文 件等,与具体的应用无关,其他种类的0 | i l t o l o 西嚣都是该类0 n t o l o 百豁的特例。 上层本体:是描述特定范围的最基本的概念及概念之间的关系,其范围内 的各领域本体都是它的特例。 领域本体:描述的是特定领域( 医药、汽车等) 中的概念及概念之间的关系。 任务本体:描述的是特定任务或行为中的概念及概念之间的关系。 应用本体:描述的是依赖于特定领域和任务的概念及概念之间的关系。 目前已有很多本体,出于对各自问题域和具体工程的考虑,构造本体的过 程也各不相同0 1 捌。由于没有一个标准的0 r 坤o i o 豺构造方法,不少研究人员 提出了有益于构造0 咀t o l o 盯的标准,其中最有影响的是g n l b 盯于1 9 9 5 年提出 的5 条规则3 3 1 : 明确性和客观性;即0 i 哟l o 尚,应该用自然语言对所定义术语给出明确的、 客观的语义定义。 完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。 一致性:即由术语得出的推论与术语本身的含义是相容的,不会产生矛盾。 最大单调可扩展性:即向o n t o l o 舒中添加通用或专用的术语时,不需要修 改其已有的内容。 最小承诺:即对待建模对象给出尽可能少的约束。 0 n t o l o 留可以用自然语言来描述,也可以用框架、语义网络或逻辑语言等 来描述。具体描述o n t o l o 舒的方法很多,目前使用最普遍的方法是o 几、 o 几十d m a l 、r i ) f s 、0 w l 、o i l t o l i n g 吼、c y c l 和l o o m 等。 2 3 2 伽l 简介 o w l 是本体论w 曲语言( 0 r i t o l o 舒w 曲i 舢圈玲g e ) 的字母缩写。设计的 最终目的是为了提供一种可以用于各种应用的语言,这些应用需要理解内容, 从而代替只是采用人类易读的形式来表达内容。 0 w l ( w 曲0 n t o l o 科l a i l 趴a g e ) 适用于这样的应用,在这些应用中,不仅 仅需要提供给用户可读的文档内容,而且希望处理文档内容信息。0 w l 能够 被用于清晰地表达词汇表中的词条( t e r i n ) 的含义以及这些词条之间的关系。 而这种对词条和它们之间的关系的表达就称作o n t o l o 舒。o w l 相对沮。、) f 山东大学硕士学位论文 和r d f s c h e m a 拥有更多的机制来表达语义,从而0 w l 超越了儿、r d f 和 r d f s c h e i m 仅仅能够表达网上机器可读的文档内容的能力。图2 ,l 中给出了 0 w l 的语言层次图。 0 w l 提供了三种表达能力递增的子语言,以分别用于特定的实现者和用户 团体。 1 ) d 耽f 把用于提供给那些只需要一个分类层次和简单约束的用户。例如, 虽然0 w l l i t e 支持基数限制,但只允许基数为o 或1 。提供支持0 w l l i t e 的 工具应该比支持其他表达能力更强的o w l 子语言更简单,并且从辞典 ( t 1 1 e s a i 】r i ) 和分类系统( t 锄n o r 可) 转换到0 w ll i t e 更为迅速。 2 ) d 耽脱用于支持那些需要最强表达能力而需要保持计算完备性 ( c o m p u t 出彻a lc o m p l e t 朗e s s ,即所有的结论都能够确保被计算出来) 和可判定 性( d e c i d a b i l 毋,即所有的计算都能在有限的时间内完成) 。o w ld l 包括了 o w l 语言的所有语言成分,但使用时必须符合一定的约束,例如,一个类可 以是多个类的子类时,但它不能同时是另外一个类的实例 图2 1o 见语言层次 3 ) d 脱而盯支持那些需要尽管没有可计算性保证,但有最强的表达能力和 完全自由的m ) f 语法的用户。例如,在o w l f i l i l 中,一个类可以被同时看为 许多个体的一个集合以及本身作为一个个体。它允许在一个本体增加预定义的 ( r d f 、0 w l ) 词汇的含义。 在我们的软件中目前只能支持o w i j ,i t e ,因此在下面我们主要介绍 山东大学硕士学位论文 o w l 广l 沁模板中的几个主要的元素。 1 ) c l 笛s :一个类定义了因共有某些属性而同属一组的一些个体。例如, d 粕劬和f 瑚k 都是类p 粥( 人) 的成员。多个类也可以用“子类” ( s u b c l 嬲s 关系组织为一个特定的层次结构。 2 ) r d 6 :s u b c l a 豁o f 以给出一个或多个关于“一个类是另一类的子类”的 陈述来创建一个类层次结构。例如,可以声明类p e r s ( 人) 是类m 锄m a l ( 哺 乳动物) 的子类。一个推理机就可以据此推出:如果某个个体是一个“人”, 那么它也是一个“哺乳动物”。 3 ) r d f s :p r o p e 啊:属性能用来表述个体之间或者从个体到数值的的关系。 属性的例子有:h 雒c h i l d ( 有孩子) ,h a s r e l 撕v e ( 有亲属) ,h 鹪s i b l i n g ( 有兄弟 姐妹) 和h a s a g e ( 有年龄) 等。o 训:o b j e c i p f o p e 啊和。谢:d

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论