(计算机软件与理论专业论文)应用本体解决信息集成中的语义冲突问题.pdf_第1页
(计算机软件与理论专业论文)应用本体解决信息集成中的语义冲突问题.pdf_第2页
(计算机软件与理论专业论文)应用本体解决信息集成中的语义冲突问题.pdf_第3页
(计算机软件与理论专业论文)应用本体解决信息集成中的语义冲突问题.pdf_第4页
(计算机软件与理论专业论文)应用本体解决信息集成中的语义冲突问题.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 信息集成就是要从多个自治的,分布的异构数据源中获取信息,建立多数据 源的全局统一视图,而无需考虑数据类型、数据存储、物理位蚤等影响因素,随 时随地提供对数据统一、透明的访问,为用户提供有效的查询方式,最终实现信 息共享。信息集成主要需要解决以下几个方面信息的异构问题:系统异构、结构 异构、语法异构、语义异构。 传统的分布式信息集成着重于处理信息的系统异构和结构异构,缺乏一种有 效的消除信息语义异构的方法。信息源的自治性、异构性与领域相关性是造成信 息语义异构的主要原因,语义异构已经成为当前信息集成的主要瓶颈问题。 本体( o n t o l o g y ) 是共享概念模型的明确的形式化规范说明,通过描述概念及 概念之间关系来描述概念的语义。作为一种有效表现概念层次结构和语义的模型, o n t o l o g y 被广泛运用到计算机科学的众多领域。语义冲突是指当描述同一现实世 界事物时,两个对象在描述方式和内容上的不同而造成的冲突。本课题将语义冲 突分为数据层冲突和模式层冲突两大类,定义并讨论了各种类型的语义冲突,并 通过对各类语义冲突的分析,提出了一种基于本体的语义冲突解决方案。该方案 定义了一个基于公共概念的冲突处理本体( c c s o l ) ,通过比较本体间概念的相似 程度的方法自动地检测语义冲突;借助领域专家定义推理规则,通过在上层本体 和领域本体间、领域本体与实例间建立模式映射的方法,消除语义冲突,从而解 决信息集成的语义异构,实现集成系统的语义一致性。 在此基础上,本课题提出了一个的语义信息集成模型,该模型以信息集成中 最主要的查询操作为核心,由用户层、中间层、信息层构成,使用本体和基于本 体的智能代理来响应用户查询。将全局查询形式的用户查询转换成针对不同的信 息源的子查询,并按不同信息源的领域本体对子查询进行本体转换,籍此实现基 于语义的查询操作。 关键字:信息集成,语义,本体,模式映射,语义冲突,c c s o l 山东大学硕士学位论文 a b s t r a c t t h ea i mo fi n f o r m a t i o ni n t e g r a t i o ni st of a c i l i t a t e i n t e r o p e r a b i l i t ya m o n g d i s t r i b u t e da n dh e t e r o g e n e o u si n f o r m a t i o nr e s o u r c e s i tp r o v i d eu s e r sw i t hag l o b a l v i e wo fm u l t i i n f o r m a t i o nr e s o u r c e sd a mw i t h o u tr e g a r dt od a t as t r u c t u r e ,s t o r a g ea n d p o s i t i o n o n t o l o g yi st h ee x p l i c i ta n df o r m a ld e s c r i p t i o no f s h a r ec o n c e p t u a l i z a t i o n i tc a n p r o v i d es e m a n t i cm e a n i n gt h r o u g hr e l a t i o n sb e t w e e nc o n c e p t s s e m a n t i cc o n f l i c ti st h e c o n f l i c tc a u s e db yu s i n gd i f f e r e n tw a y si nh e t e r o g e n e o u ss y s t e m st oe x p r e s st h es a m e e n t i t yi nr “i t y i tp r e v e n t si n f o r m a t i o ni n t e g r a t i o nf r o ma c x 沁m p l i s h i n gs e m a n t i c c o n s i s t e n c y 1 1 1 ec o n f l i c t sc a l lb ec l a s s i f i e di n t ot w oe a t e g o r i e s :d a t a - l e v e lc o n f l i c t sa n d s c h e m a - l e v e lc o n f l i c t sa c c o r d i n gt ot h e i rs t r u c t u r a lc h a r a c t e r s a saf i n em o d e lf o r p r e s e n t i n gh i e r a r c h ya n ds e m a n t i cm e a n i n go fc o n c e p t s ,o n t o l o g yc a nb eu s e dt o e l i m i n a t es e m a n t i cc o n f l i c t st h r o u g hs c h e m am a p p i n g s i nt h i sp a p e r , w ep r o p o s eas o l u t i o nt ot h ei s s u eo fs e m a n t i cc o n f l i c t s f i r s t l y , w e d e f i n eac o m n l o nc o n c e p t ss e m a n t i co n t o l o g yc a l l e dc c s o lt od e a lw i t l lv a r i o u sk i n d s o fc o n f l i c t s n e x t , t h r o u g hi n t e l l e c t u a la g e n t , w ec a l la u t o m a t i c a l l yd e t e c tc o n f l i c t sb y c h e c k i n gc o n c e p t u a lr e l e v a n c e f i n a l l y , w ec r e a t es c h e m a - m a p p i n g sb e t w e e nc c s o l a n dd o m a i no n t o l o g i e sa n ds o l v et h ec o n f l i c t sw i t ht h em a p p i n g s w ec a nu l t i m a t e l y r e a c hs e m a n t i c c o n s i s t e n c yb e t w e e nh e t e r o g e n e o u si n f o r m a t i o nr e s o u r c e si nt b j s a p p r o a c h o nt h eb a s i so ft h e s e ,w ep r o p o s ea no n t o l o g y - b a s e dm u l t i a g e n tp r o t o t y p em o d e l 1 1 1 em o d e li sq u e r y - c e n t r i c k e yw o r d s :i n f o r m a t i o ni n t e g r a t i o n , s e m a n t i c ,o n t o l o g y , s c h e m a - m a p p i n g , s e m a n t i cc o n f l i c t ,c c s o l 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人 承担。 论文作者签名: 圭连 日 期:! ! ! 兰:! :s 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保 留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅:本人授权山东大学可以将本学位论文的全部或部分内容编入有关 数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本 学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:拯导师签名: 期:三! ! 兰:生:罗 一一一一: 山东大学硕士学位论文 1 1 引言 1 绪论 随着互联网的迅猛发展和电子信息的普遍运用,i n t e r n e t 已成为一个巨大的全 球化信息仓库。为了有效地利用这些信息,使之能够被多个用户或应用程序共享 和重用,人们采用信息集成技术来处理爆炸性增长的信息资源。信息集成就是要 从多个自治的,分布的异构数据源中获取信息,建立多数据源的全局统一视图,而 不考虑其数据类型、数据存储、物理位置等影响因素,随时随地提供对数据统一、 透明的访问,为用户提供有效的查询方式,最终实现信息共享 1 】。简单的说,信 息集成的目的就是在用户看来,他们需要的所有数据,应该好像驻留在一个单一 的数据源里一样。信息集成主要需要解决以下几个方面信息的异构问题:系统异 构、结构异构、语法异构、语义异构。信息集成的首要指导原则是:在用户看来他 们需要的所有数据,应该好像驻留在一个单一的数据源里一样。 信息集成有如下特点: 全局统一的数据视图:信息集成基础架构必须根据应用层的需要,为它提供访 问数据的全局的统一数据视图,使应用对数据的访问不受数据格式、数据位置和 访问接口差异的限制; 灵活的访问方式:应用访问信息可以通过o d b c ,j d b c 、w e b 服务、数掘库 自带客户端或异步客户端接口来实现,无论数据是分布在何种数据库、文件或消 息队列中,应用对数据的访问都如同是在对一个逻辑的数据库进行; 丰富的特色功能:利用信息集成基础架构可以对各种分散于各处的实时数据进行 集成,就好像它们来自于同一数据源。 信息集成主要需要解决以下几个关键方面信息的异构问题:系统异构、结构异 构、语法异构、语义异构【2 】。其中,系统异构和结构异构的处理技术已经日渐成 熟;虽然在语义异构方面也进行了不少的尝试,但尚未有所突破。直到近年,随 着语义网技术的发展,本体被引入到信息集成中,语义异构的研究才有了新的进 展。 m 4 “十9 山东大学硕士学位论文 1 2 国内外研究现状 传统的信息集成主要有以下几种方法 3 】: 1 ) 数据仓库方法 在数掘仓库方法中,各数据源中的数据按照需要的全局模式从各数据源抽取 并转换,存储在数据仓库中。用户的查询就是对数据仓库中的数据进行查询。该 方法的优点是建立系统的过程很简单。但是,由于w e b 信息源包含海量的数掘而 且数据是不断变化的,数据仓库的集成系统面l 晦着初始数据装载和变化后数据的 更新问题。如果用户需要实时数据,那么数据即时更新的效率就会影响系统的可 用性。数据更新问题成为该方法的最大弊端。 2 ) 异构数据库的集成 异构数据库集成主要有多数据库语言系统和模式集成两种方案前者只提供 了统一的多数据库操作语言和公共接口以访问成员数据库,各成员数据库高度自 治,但没有解决语义异构和实现存取定位透明,用户必须指明所要访问的数据库, 数据库之间的约束或依赖关系也必须由用户和应用程序负责定义和维护。该方法 比较适合于集成少量数据库。 模式集成系统提供了一个全局模式,使客户可以透明地访问各成员数据库, 成员数据库仍保持较高的自治性。模式集成比较适合于集成大量数据库或者要求 高的存取透明度。早期联邦数据库系统( f d b s ) 仅指模式集成系统。后来被引伸 包括没有全局模式的松散耦合数据库。 3 ) 联邦信息系统( f e d e r a t e di n f o r m a t i o ns y s t e m s ,f i s ) f i s 包括数据源层、包装层、联邦层( 中间件层) 和表示层。其包装层对应于f d b s 的成员模式和输出模式。它将多数据库语言系统从f d b s 中分离出来,作为种松 散耦合信息系统成为f i s 中独立的一类,它与其它紧密耦合系统的区别是系统没 有提供一个联邦模式,透明度较低。 4 ) 基于中间件和智能代理信息系统( m e d i a t o r - b a s e di n f o r m a t i o ns y s t e m s , m b i s ) 要集成大量半结构化或非结构化数据源中的信息,如w e b 信息,要求系统 具有可扩展性,以便集成新增数据源。基于模式集成的数据库集成方法已不适用 山东大学硕士学位论文 于这种新的要求,于是提出了基于中间件的信息系统。 以上几种方法各有优缺点及其适用范围。数据仓库方法和多数据库语言系统 实现与处理简单、高效,读写能力强,但扩展能力和透明性差,且容易产生数掘 的不一致性;模式集成系统具有很高的访问透明性以及较强的读写能力和一致性 控制,使用方便,但全局模式的形成和异构性的解决复杂,维护困难;前面三种 都只能集成数据库信息,而m b i s 可以集成范围广泛的数据源信息,且高度模块 化和分布性,系统实现灵活、重用性、扩展性强,但仅支持只读查询。具体系统 可根据应用需求混合采用几种方法,比如根据透明度要求采用多数据库语言系统 或模式集成集成企业内的大量数据库,而企业间的信息集成由于数据源数量少且 经常变化,可以采用多数据库语言系统,若涉及非数据库信息的集成,就要采用 m b i s 。 此外o r a c l e 公司在其最新推出的o r a c l e1 0 9 也提供了信息集成的解决方案 【4 】,主要策略是:整合、联合和共享。 整合将异种数据整合到中央数据库中,然后从一个中心位置进行管理, o r a c l e1 0 9 允许将各种异类信息整合到一个已证明具有可伸缩性的数据库中; 联合将多个数据存储中的数据联合到单个虚拟数据库中,使信息保留在原始 位置,信息在那里进行正常的维护和更新。从外表看,多个数据源集成到一个虚 拟数据库中,隐藏了整合视图背后数据库的数量和类型。联合数据库允许访问 o r a c l e 和非o r a c l e 数据,以及结构化数据和非结构化数据,同时隐藏了应用程序 数据的实际物理位置; 共享在用户、应用程序和数据库之间共享信息,在多个数据库和应用程 序数据存储器中维护多个信息副本。 另外目前比较前沿的信息集成技术还有信息网格【5 ,6 】,它是在计算网格、服 务网格基础进行扩充,通过对信息进行语义描述的实现信息的透明性共享。 1 3 课题研究的主要内容 分布式信息集成面临的主要问题是结构、设施的异构和缺乏统一的语义集。 导致语义异构的因素主要如下: 山东大学硕士学位论文 1 ) 不同的信息源使用多种术语( 词汇) 表示同一概念; 2 ) 同一概念在不同的信息源中表达不同的含义: 3 ) 各信息源使用不同的结构来表示相同( 或相似) 的信息: 4 ) 各信息源中的概念之间是存在着各种联系,但因为各信息源的分布自治性, 这种隐含的联系不能体现出来。 本课题从语义信息集成的需求出发,根据语义表示和信息集成的研究状况, 决定从一个新的角度来分析语义异构问题:把各种语义不一致看做语义冲突,通过 检测和消除语义冲突,来实现集成信息的语义一致性,从而解决语义异构问题。 本课题用中间件和智能代理建立一个基于本体的冲突检测和处理模型。该模型的 建立,旨在保持信息源自治性的基础上,实现一种简单、灵活、高效的自动语义 信息集成方法,以涵盖复杂的语义异构现象,满足互联网、电子政务等对信息集 成语义一致性和集成效率的要求。 本课题的主要工作包括: 。 1 ) 提出了语义冲突的概念。 2 ) 归纳了语义冲突中存在两大类的冲突,并定义了冲突处理的优先级。 3 ) 提出了基于领域本体重构上层本体生成算法 4 ) 建立了语义冲突的检测和消除算法 5 ) 基于上述算法提出了语义冲突处理模型,通过建立模式映射的方法处理语 义冲突。 6 ) 初步设计了查询操作为核心的语义信息集成系统模型。 1 4 本文的结构 首先本文第二章系统阐述了语义信息集成的概念、知识体系,提出了语义信 息集成模型,对集成的流程进行了探讨,并对所使用的工具本体进行了概括 性描述;其次,第三章介绍了语义冲突的定义并对其分类及处理过程做了详细的 讨论;接下来,第四章对如何利用本体解决集成遇到的不同类型的语义冲突进行 了比较全面的讨论,第三、四章是全文的重点;最后,在第五章对全文进行小结, 并对今后的工作提出一些设想。 4 山东大学硕士学位论文 2 语义信息集成 2 1 语义与语义信息集成 语义是研究用语言来交流的词或句子意义的( s 锄a n t i c si ss t u d yo fm e a n i n g c o m m u n i c a t e db yl a n g u a g e ) 【7 】,可以将语义简单地看作是数据( 符号) 所代表的概念 的含义,以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示。 对于计算机领域来说,语义一般是指用户对于那些用来描述现实世界的计算机表 示的解释,即用户用来联系计算机表示和现实世乔的途径。为了让计算机能“读 懂”人能够理解的信息,需要用“元信息”对信息进行描述,使得计算机能够基 于此描述自动分析和处理信息。其实语义也并不是引入到r r 领域的新概念,数据 库长期以来已经在用语义来区分模式和数据,并作为数据库建模、查询和事务管 理技术的一部分,语义是保证数据管理系统达到可扩展性、高效性和健壮性要求 的一个关键元素。 信息集成以下几个方面对语义的需求推动了语义信息集成技术的产生: :,二 信息检索:基于关键字的查找有可能因同词不同意找出不相关的信息,也有可。 能因不同词同意而丢失一些相关的信息: 信息提取:必须人工浏览和阅读,目前的自动代理不具有从文本中提取信息所 需要的通用认知知识,也不能整合信息。 维护:信息不断增多,如何维护信息的一致性、正确性、实时性需要用到信息 的语义; 文档自动生成:从半结构化数据生成半结构化信息表达需要机器识别这些数 据资源的语义。 为了提高信息查询检索的效率,共享领域内知识,语义信息集成已成为当前 研究的一个热点领域,也是未来信息集成发展的方向。为实现语义信息集成,先 后在信息集成领域引入了元数据、r d f 、本体、智能a g e n t 等工具,其中本体是 近年语义信息集成中广泛采用的工具之一。语义信息集成主要包括两部分:w e b 信 息集成和基于语义的文档集成或数据库信息集成 8 】。 , 一一。”。r 一一,l f一一一一m _ _ 9 m 山东大学硕士学位论文 目前本体应用在语义信息集成中的最有代表性的项目有( o n t o ) 2a g e n t 9 1 、 o n t o b r o k e r 1 0 和s k c 1 1 。这三项目也分别代表7 - - 个应用方向。f o n t o ) 2a g e n t 的目标是为了帮助用户检索到所需要的w w w 上已有的本体,其主要思想是采用 了参照本体( r e f e r e n c eo n t o l o g y ) 来引导用户定位所需要的本体资源。o n t o b r o k e r 面 向的是w w w 上的网页资源,其目标是为用户检索到含有用户所关心的内容的网 页。其基本思想是在页面中加入预先定义的本体标识( 基于h t m l 或x m l ) ,由 w r a p p e r 收集这些标识并保存在数据库中。s k c 是s t a n f o r d 大学开展的一个项 目,其目标是解决信息系统( 包括w e b ) 5 b 的语义异构问题,实现异构自治系统之 问的互操作。该项目希望通过在多个信息源上建立不同的本体,然后在这些本体 上建立一个代数系统,用这个代数系统来实现各本体之间的互操作,从而实现异 构系统之间的互操作。 2 2 语义信息集成的知识体系 2 2 1 语义信息的表示 语义的表示最早起源于人工智能领域,比较经典的方法有一阶谓词逻辑表示 法、产生式表示法、框架表示法( 状态层次) 、脚本表示法、语义网络表示法、面 向对象表示法【1 2 】、x m l - - r d f 1 3 等方法。选择适当的表示方法,需要从以下方 面进行考虑: 1 充分表示领域知识和知识的语义信息。 2 有利于对知识的理解和利用。 3 便于知识的组织、维护和管理。 4 便于理解和实现。 b e m e r s l e e 于2 0 0 0 年1 2 月1 8 日在x m l 2 0 0 0 的会议上正式提出了语义 w e b 。语义w e b 的目标是使得w e b 上的信息具有计算机可以理解的语义,满足智 能软件代理( a g e n t ) 对w w w 上异构和分布信息的有效访问和搜索。 一阶谓词逻辑表示法、产生式表示法、框架表示法( 状态层次) 、脚本表示法、 面向对象表示法主要适用于传统的语义表示,w e b 信息表示能力差。 6 山东大学硕士学位论文 要表述w e b 信息,目前多采用以x m l 1 4 2 为基础的表示结构: x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 已经成为了w e b 数据表示和交换的事实标 准,是应用或者机器间共享数据的一种有效方式。它的可扩展性是它区别其他标 记语言的最基本特征。其核心在于以一种标准化的方式来建立数据表示的结构, 而将具体标记的定义留给了用户。但是x m l 模式并不能对其所含有的语义进行 任何解释,不仅如此,由于x m l 模式只能对x m l 的语法合法性进行验证,而不 能区分x m l 属性和元素在含义上的不同,因此对于同样的信息内容,可能被映 射为多种不同的x m l 结构。 为此,w 3 c 推荐以r d f 1 5 ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 标准来解决x m l 的语义局限。r d f 提出了一个简单的模型用来表示任意类型的数据。这个模型由 节点和节点之间带有标记的弧组成。节点表示w e b 上的资源,弧表示这些资源的 属性。这个数据模型可以方便的描述对象( 或者资源) 以及它们之间关系。r d f 模 型实质上是一种二元关系的表达,由于任何复杂的关系都可以分解为多个简单的 二元关系,因此r d f 模型可以作为其他任何复杂关系模型的基础模型。 r d f 和x m l 是互补的。首先,r d f 以一种标准化,互操作的方式来规范 x m l 的语义。x m l 文档可以通过简单的方式实现对r d f 的引用。其次,由于+ r d f 是以一种建模的方式来描述数据语义的,这使得r d f 可以不受具体语法表 示的限制,但是r d f 仍然需要一种合适的语法格式来实现r d f 在w e b 上的应用。 由于x m l 已经成为被广泛支持的w 曲数据表示标准,便于应用的读取,因此将 r d f 序列化为“l 表示可以使r d f 获得更好的应用可处理特性,并使得r d f 数掘可以像x m l 数据一样的容易使用、传输和存储。 尽管如此本身对语法是无知的,它只是提供了一个表达元数据的模型。r d f 并没有定义任何一个特定领域的语义,需要使用其它工具来描述领域相关的语义。 另外r d f 本身并不能针对特定应用需求来定义一些类和特性。为此w 3 c 又引入 了r d f 词汇描述语言r d f s ( r d fs c h e m a ) 【1 6 】,但它在处理语义上仍然存在两个 问题:( 1 ) 同一概念有多种词汇表示;( 2 ) 同一个词有多种含义( 概念) 。为此w 3 c 采用 w e b 本体描述语言o w l 1 7 ( o n t o l o g yw e bl a n g u a g e ) 作为新的描述语言。 下面对当前一些表示方法的语义表达能力进行比较: x m l 提供了一种结构化文档的表层语法( s u r f a c es y n t a x ) ,但没有对这些文档 山东大学硕士学位论文 的含义施加任何语义约束。 x m ls c h e m a 18 】是一个约束x m l 文档结构和为x m l 扩充了数掘类型的语 言。 r d f 是一个关于对象( 或资源) 和它们之间关系的数据模型,且为该数据模型 提供了简单的语义,这个数据模型能够用x m l 语法表示。 r d fs c h e m a 是一个描述r d f 资源的属性( p r o p e r t y ) 和类( c l a s s e ) 雕j 词汇表,提 供了关于这些属性和类的层次结构的语义。 o w l 添加了更多的用于描述属性和类的词汇,例如类之间的不相交性 ( d i s j o i n t n e s s ) 、基数( c a r d i n a l i t y ,如恰好一个) 、等价性、属性的更丰富类型、属性 特征( 例如对称性) 、以及枚举类( e n u m e r a t e dc l a s s e s ) 。 2 2 2 本体和o w l o n t o l o g y 最早是一个哲学上的概念,后来被引入到人工智能领域, s t u d e r 等人经过对以往研究的总结,给出了目前最流行的定义: 定义2 1 :o n t o l o g y 是共享概念模型的明确的形式化规范说明 1 9 】( o n t o l o g yi s t h ee x p l i c i ta n df o r m a ld e s c r i p t i o no fs h a r ec o n c e p t u a l i z a t i o n ) 。 这包含4 层含义:概念模型、明确、形式化和共享。“概念模型”指通过抽象 出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型概念模型所表现 的含义独立于具体的环境状态。“明确”指所使用的概念及使用这些概念的约束都 有明确的定义。“形式化”指o n t o l o g y 是计算机可读的( 即能被计算机处理) 。“共 享”指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念 集,即o n t o l o g y 针对的是团体而非个体的共识 2 0 】。 p e r e z 等人认为o n t o l o g y 可以按分类法来组织,他归纳出o n t o l o g y 包含5 个基本建模元语( m o d e l i n gp r i m i t i v e ) 【2 1 】。这些元语分别为:类( c l a s s e s ,通常也写 作c o n c e p t s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理( a x i o m s ) 和实例( i n s t a n c e s ) 。 概念可以指任何事物,如工作描述、功能、行为、策略和推理过程等等。 关系代表领域中概念之间的交互作用。形式上定义为n 维笛卡儿乘积的子集 r :c 1x c 2 x x c n 。如子类关系( s u b c l a s so f ) 山东大学硕士学位论文 函数是一类特殊的关系。在这种关系中前u 1 个元素可以惟一决定第n 个 元素。形式化的定义如下f :c ix c 2 x c n 1 一c n 。例如m o t h e ro f 关系就是 一个函数,其中m o t h e r o f ( x ,y ) 表示y 是x 的母亲,显然x 可以惟一确定他 的母亲y 。 公理代表永真断言,比如概念乙属于概念甲的范围。 实例代表元素。 另外,从语义上讲,最基本的关系共有4 种 关系名关系描述 p a r t - o f 表示概念之间部分与整体的关系。 k i n d o f 表示概念之间的继承关系,类似于面向对象中的父类与 子类之间的关系。 i n s t a n c e o f 表示概念的实例与概念之间的关系,类似于面向对象中 的对象和类之间的关系 a t t r i b u t e - o f 表示某个概念是另一个概念的属性。如“价格”是桌子的 一个属性。 为了对o n t o l o g y 进行有效的分类,g l l 撕n o 提出以详细程度和领域依赖维度 作为对o n t o l o g y 划分的基础 2 2 1 。详细程度是相对的、较模糊的一个概念,指描 述或模对象的程度。详细程度高的称作参考( r e f e r e n c e ) o n t o l o g i e s ,详细程度低的 称为共享( s h a r i n g ) o n t o l o g i e s 依照领域依赖程度,可以细分为顶级上层( t o p u p l e v e l ) 、领域( d o m a i n ) 、任务( t a s k ) 、应用( a p p l i c a t i o n ) o n t o l o g i e s 等4 类。 顶级本体描述的是最普通的概念及概念之间的关系,如空间、时间、事件等, 与具体的应用无关,其他种类的o n t o l o g i c s 都是该类o n t o l o g i e s 的特例。 上层本体是描述特定范围的最基本的概念及概念之间的关系,其范围内的各 领域本体都是它的特例。 领域本体描述的是特定领域( 医药、汽车等) 中的概念及概念之间的关系。 任务本体描述的是特定任务或行为中的概念及概念之间的关系。 应用本体描述的是依赖于特定领域和任务的概念及概念之间的关系 目前已有很多本体,出于对各自问题域和具体工程的考虑,构造本体的过程 山东大学硕士学位论文 也各不相同 2 3 ,2 4 。其中比较著名的有m i k eu s h o l d & m i c h e a lg r u n i n g e r 的 s k e l e t a lm e t h o d o l o g y ( 骨架法) 2 5 1 、m i e h e a lg r u n i n g e r & m a r k sf o x 的t o v e ( 企 业建模法) 【2 6 、m a r i a n of e r n a n d e z & g o m e z p e r e z 等人的 m e t h o n t o l o g y 2 7 、a l e x a n d e rm a e d c h e 等人的c y c l i ca c q u i s i t i o np r o c e s s 2 8 1 等方法,由于没有一个标准的o n t o l o g y 构造方法,不少研究人员提出了有益于 构造o n t o l o g y 的标准,其中最有影响的是g r u b e r 于提出的5 条规则【2 9 】: 明确性和客观性:即o n t o l o g y 应该用自然语言对所定义术语给出明确的、客 观的语义定义。 完全性:即所给出的定义是完整的,完全能表达所描述术语的含义。 一致性:a p 由术语得出的推论与术语本身的含义是相容的,不会产生矛盾。 最大单调可扩展性:即向o n t o l o g y 中添加通用或专用的术语时,不需要修改 其已有的内容。 最小承诺:即对待建模对象给出尽可能少的约束。 o n t o l o g y 可以用自然语言来描述,也可以用框架、语义网络或逻辑语言等来 描述。具体描述o m o l o g y 的方法很多,目前使用最普遍的方法是o i l 、o i l + d m a l 、 o w l 、o n t o l i n g u a 3 0 、c y c l 3 1 和l o o m 3 2 等。 o w l 是w e b 本体语言( o n t o l o g yw 曲l a n g u a g e ) 的缩写。其设计目的是为了 提供一种可以用于各种应用的语言,这些应用需要理解语义内容,从而代替只是 采用人类易读的形式来表达内容。o w l 语言从2 0 0 1 年开始制定标准,2 0 0 4 年2 月证式成为w 3 c 的推荐标准。它能够被用于清晰地表达词汇表中的词条( t e r m ) 的 含义以及这些词条之间的关系。 o w l 通过提供更多具有形式语义的词汇,使之在w e b 内容的机器可理解性 方面要强予x m l 、r d f 和r d fs c h e m a ( r d f s 、等所能达到的程度,o w l 是w 3 c 推荐的语义w e b 规范的一部分。 o w l 有三个表达能力递增的子语言: o w ll i t e :提供给一个分类层次和简单的属性约束,它只是使用了o w l 语言 的部分特征,并且做了更多的关于特征使用的限制; o w l d l :支持那些需要在推理系统上进行最大程度表达的用户,它的推理系 统能够保证计算完全性和可决定性,但它的词汇集受到一些限制; o 山东大学硕士学位论文 o w lf u l l :支持那些需要在没有计算保证的语法自由的r d f 上进行最大程 度表达的用户,允许o n t o l o g y 在预定义的r d f 、o w l 词汇表上增加词汇。 三种子语言关系如下: 每个合法的o w ll i t e 本体都是一个合法的o w ld l 本体; 每个合法的0 w ld l 本体都是一个合法的o w lf u l l 本体; 每个有效的o w ll i t e 结论都是一个有效的o w ld l 结论: 每个有效的o w ld l 结论都是一个有效的o w lf u l l 结论。 2 2 3 应用本体表示概念的层次结构 下面分别介绍运用本体表示概念层次的r d f 图表示法和o w l 文档表示法, 这两种方法可以等价进行转换。 根据本体的5 个建模元语,可以对本体形式化定义如下: 定义2 6 :o = ( c 凡f i ) ,其中c 代表互不相交的类或概念集合,r 代表概念 间的关系,f 代表函数关系,a 代表公理,i 代表实例。如果只需要表示概念间的 层次关系,也可以只关注前两个元语,将本体的形式定义简写作0 乓c ,r ) 。用椭 圆型结点表示本体中的概念,用带箭头的实线段代表概念问关系,用打点的虚线表 示同一层次内概念间关系。如p e e r 、d i s j o i n t 等。一般用关系的首字母在代表关系 的线段上表示关系的类型,将类名的首字母大写,而将特性和实例名称的首字母 小写。 p :i r t - o f k i n d - o f i ;i n s t a n c e - o f a l n r i t , u t c - o f 图2 1 本体的r d f 图 利用本体的r d f 图,可以很容易的构造出本体的o w l 文档。o w l 文档继 承了r d f 文档的特点,采用类( c l a s s ) ,特性( p r o p e r t y ) ,实例( i n s t a i l c e s ) 三元组的 山东大学硕士学位论文 标签形式表示。可以用主( 类c l a s s ) i 胃( 特性p r o p e r t y ) 宾( 实例i n s t a i l c e s ) 的陈述句方 式理解表达式的语义,一般类名的首字母大写,而将特性和实例名称的首字母小 口 叫。 如下面例子中定义类副教授( a s s o c i a t e p r o f e s s o r ) ,第一句可理解为“副教 授是学校工作人员的子类”,副教授是主语,是子类关系为谓语,宾语是学校工作 人员。第- - z 句分别表示类副教授和类教授、类助教都是不交的。 o w l :d i s j o i m w i t hr d f :r e s o u r e e = ”# p r o f e s s o r ”侈 = c l ,c 2 ,c n ,其e f l p = e l ,p 2 ,尸哪为一组给定条件。 垂直映射( v m ) 是全局类的对象按类的属性纵向以属性组映射成中间类的对 山东大学硕士学位论文 象,记为c ( m f ) ( 4 = c i ,c 2 ,c n ) 其中4 = a l ,a 2 ,4 n ) 为一组给定属性。 混合映射( m m ) 是水平映射和垂直映射的混合揉作,记为 c ( m m ) ( a p ) = c 1 ,c 2 ,c n ,其中4 p = ( 彳f ,p i ) i = 1 , 2 ,n 。视应用需要,可先 水平映射后垂直映射,也可先垂直映射后水平映射。 相关映射( c m ) 是指一个全局类是根据另一个与其有关联性质的类的属性来 进行映射的,该相关类已水平映射为h 1 , h 2 ,, h n 。相关映射记为 c ( c m ) ( h ) = c 1 ,c 2 ,c n ,其中日= h l ,h 2 ,h n 。它是一种半连接操作。在 查询处理中,经常用半连接操作以实现连接操作中操作数的缩减,减少连接和传输 开销。 对于局部映射( l m ) ,可以只考虑中间类到局部类的简单转换关系,如属性名、 属性类型的转换等。其他情况的处理方法同中间映射类似。 以上5 种映射操作可用一个统一的形式描述如下: 定义2 8 : c ( o p j ) ( d = c 1 ,c 2 ,c n ,其中o p j e h m ,v m ,m m ,c m ,l m ,s = s i ,s 2 ,踟) ; 3 0 p j h m ,v m ,m m 时,= ( a i ,p d ; 3 0 p j = c m 时,研表示相关类; 3 0 p j = l m 时,表示转换函数 操作的结果是将全局类或中间类c ( a ,r m ) 按操作o p 映射为一组满足条件的 子类c i ( a 1 ,r 1 ,m 1 ) ,c n ( a l l ,r n , m n ) 。 在o w l 中,模式映射信息可以用元语m a p p i n g 表示,常用的标签有 e q u i v a l e n e e ( 表示概念或特性相同) ,s a m c a s ( 表示个体相似性) ,d i f f e r e n t f r o m , a l l d i f f e r e n t 等。以下是一个简单的o w l 中映射的例子: ( 0 w l :s a m e a sr d f i r e s o u r e e = ”拌b i l l c l i n t o n ” 2 3 语义信息集成模型 1 4 基于本体的以查询和检索为中心的语义信息集成模型的基本设

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论