(管理科学与工程专业论文)基于本体的信息集成框架及应用.pdf_第1页
(管理科学与工程专业论文)基于本体的信息集成框架及应用.pdf_第2页
(管理科学与工程专业论文)基于本体的信息集成框架及应用.pdf_第3页
(管理科学与工程专业论文)基于本体的信息集成框架及应用.pdf_第4页
(管理科学与工程专业论文)基于本体的信息集成框架及应用.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(管理科学与工程专业论文)基于本体的信息集成框架及应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 随着网络和分布式应用的发展,信息资源愈来愈呈现出异构、海量、动态的 分布特点,同时企业在信息化建设中构建的各种各样的应用系统,由于彼此缺乏 有效的协作,数据之间的交换性和共享性差,成为了一座座的“信息孤岛”,如 何集成这些地理上分布、管理上自治、模式上异构的数据源,为人们提供“真正 想要的数据”,是目前信息集成面l 临的重要问题。 传统的集成技术在集成异构数据的过程中只考虑了数据的语法、结构层的问 题,而没有考虑到语义层异构,对于信息的语义失配、异构问题则无能为力。本 文引入本体来实现异构信息在概念层次上的集成,本体是一种能在结构、语义和 知识层次上描述信息系统的概念模型,可以有效的解决信息集成中的语义异构问 题。 本文首先研究了信息集成的研究现状,分析了当前集成方法的不足,提出基 于本体的信息集成。 接着介绍了本体的基本概念及理论,本体构建的准则、方法、语言、工具等 相关技术,分析了基于本体的信息集成的优势与集成方法,提出了基于本体的物 流信息集成框架( l r f ,l o g i s t i c si n f o r m a t i o ni n t e g r a t i o nf r a m e w o r k ) 的四层体系结 构,实现对异构物流信息系统的语义集成。 然后介绍了u i f 的本体及本体映射的构建,详述了对关系数据库与x m l 文 件数据源集成构建本体的方法。并以异构物流系统中运输工具服务于客户的记录 为例进行本体构建及映射的构建。最后,介绍了l i i f 原型的实现。 关键词:本体;语义异构;信息集成;异构数据源;本体映射 荚文摘要 t h ef r a m e w o r ka n di t sa p p l i c a t i o no fo n t o l o g y b a s e di n f o r m a t i o n i n t e g r a t i o n a b s t r a c t w i t ht h ed e v e l o p m e n to fi n t e r a c ta n dd i s t r i b u t e da p p l i c a t i o n , t h ei n f o r m a t i o n r e s o u r c e sb e c o m em o r ea n dm o r eh e t e r o g e n e o u s ,m a g n a n i m o u sa n dd y n a m i c a tt h e s a m et i m e ,t h ee n t e r p r i s ec o n s t r u c t e dv a r i o u sa p p l i c a t i o ns y s t e m si nt h ec o n s t r u c t i o no f i n f o r m a t i o ns y s t e m h o w e v e r , t h o s es y s t e m sl a c ko f e f f e c t i v ec o o p e r a t i o n , w h i c hm a k e i td i f f i c u l tt oe x c h a n g ea n ds h a r ed a t ab e t w e e nt h e m t h o s es y s t e m sb e c o m e d e t a c h e d i s l a n do fi n f o r m a t i o n i ti st h em a i np r o b l e mf o ri n f o r m a t i o ni n t e g r a t i o nt h a th o wt o i n t e g r a t et h o s ei n f o r m a t i o nr e s o u r c e sw h i c h a r ed i s t r i b u t e do ng e o g r a p h y ,s e l f - r u l eo n m a n a g e m e n t ,h e t e r o g e n e i t yo nm o d e ,a n dp r o d d ei n f o r m a t i o n w h i c ha r er e a l l y w a n t e d f o rp e o p l e t h et r a d i t i o n a li n t e g r a t i o nm e t h o do n l yc a ni n t e g r a t eh c t e r o g o n o u si n f o r m a t i o ni n s y n t a xl e v e la n ds t r u c t u r el e v e la n dh a sn o t h i n gt od ow i t ht h ep r o b l e mo fs e m a n t i c m i s m a t c ha n dh e t e r o g e n e i t yo fi n f o r m a t i o n i nt h i sd i s s e r t a t i o n , o n t o l o g yi si n t r o d u c e d t or e a l i z et h ei n f o r m a t i o ni n t e g r a t i o ni nc o n c e p tl e v e l o n t o l o g yc a l ld e s c r i b et h e c o n c e p tm o d e lo f i n f o r m a t i o ns y s t e mi ns t r u c t u r e ,s e m a n t i ca n dk n o w l e d g el e v e l ,w h i c h m a k ei te f f e c t i v et os o l v et h ep r o b l e mo fs e m a n t i ch e t e r o g e n e i t yi nt h ep r o c e s so f i n f o r m a t i o ni n t e g r a t i o n f i r s t l y ,i nt h i sd i s s e r t a t i o n , c u r r e n ti n f o r m a t i o ni n t e g r a t i o nm e t h o d sa r ed i s c u s s e d , t h ed i s a d v a n t a g e so ft h e ma r ef o u n d ,a n do n t o l o g y - b a s e di n f o r m a t i o ni n t e g r a t i o ni s i n t r o d u c e d s e c o n d l y ,t h eb a s i ct h e o r yi si n t r o d u c e d ,w h i c hr e f e r st oo n t o l o g ya n dr u l e ,m e t h o d , l a n g u a g ea n dt o o lt oc o n s t r u c to n t o l o g y ,a tt h es a m et i m e ,w ea n a l y s e st h ea d v a n t a g e a n di n t e g r a t i o nm e t h o dt o a p p l yo n t o l o g yi n i n f o r m a t i o ni n t e g r a t i o n ,i n 仃o d u c e o n t o l o g y - b a s e dl o # s t i c si n f o r m a t i o ni n t e g r a t i o nf r a m e w o r k ( l i i f ) t or e a l i z es e m a n t i c i n t e g r a t i o no f t h eh e t e r o g e n e o u sl o g i s t i c si n f o r m a t i o ns y s t e m 英文摘要 t h i r d l y , w ei n t r o d u c et h ec o n s t r u c t i o no fo n t o l o g ya n do n t o l o g ym a p p m g , i n t r o d u c et h em e t h o do fc o n s t r u c t i n go n t o l o g yf t o md a t a b a s ea n dx m lf i l e sa n dt a k e t h er e c o r dt h a tc o n v e y a n c es e ! n v - e sf o rc u e n tf o re x a m p l et od e s c r i b et h ec o n s t r u c t i o no f o n t o l o g ya n do n t o l o g ym a p p i n g f i n a l l y , t h ei m p l e m e n t a t i o nt op r o t o t y p es y s t e mi s i n t r o d u c o d k e yw o r d s :o n t o l o g y ;s e m a n t i ch e t e r o g e n e i t y ;i n f o r m a t i o ni n t e g r a t i o n ; h e t e r o g e n e o u sd a t as o u r c e ;o n t o l o g ym a p p i n g 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文:基王奎焦数值盅塞盛框袈丞廛且:。除论文中已经注明 引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未 公开发表的成果。 本声明的法律责任由本人承担。 论文作者签名:彳茹踩g 缈7 年7 月冲日 学位论文版权使用授权书 本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、 版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位 论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将 本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或 扫描等复制手段保存和汇编学位论文。 保密口,在年解密后适用本授权书。 桦肝。篡一。一4 。, 不保密曰( 请在以上方框内打“”) 论文作者签名:彬导师签名:学考。錾 日期:卅争 月印日 基于本体的信息集成框架及应用 第1 章绪论 1 1 引言 信息集成的需求由来己久,对信息集成的研究一直是数据库研究领域及其它 相关领域一个非常热门的课题。近年来随着计算机及网络技术的不断发展,信息 爆炸式地增长,w 曲上的信息资源呈现出海量的、深度异质的、多型态的特点, 大量信息淹没在互联网中,无法有效识别和发现,而成为“信息海洋”。同时, 存贮在各种信息系统中的信息资源通过网络互连,形成了巨大的网络信息空间, 空间中的信息具有信息量大、异构性强、信息内容动态变化和信息源分布自治等 特点【1 】【2 】。 由于各数据源中的数据模式各异,对数据内容的思考与理解方式不同,相互 之间对信息内容的理解很难达成共识,彼此间的信息的交流受到限制,很难正确 理解对方的信息,解释返回的数据结果,说明数据的质量问题,无法将得到的结 果和自己的信息合并。 如何从广阔的“信息海洋”与网络信息空间中获得“真正想要的数据”,实 现各异构数据源彼此间“真正的理解” 3 1 ,是信息集成目前面临的新的难题。这就 要求信息集成不仅仅解决信息语法、信息结构层面的异构,更重要的是消除信息 语义层面的异构,解决异构信息的一体化表示和描述问题,在此基础上才能有效 地依据不同的信息体系和应用目的对信息进行合理有效的组织、管理和利用。 1 2 研究现状及问题的提出 1 2 1 数据异构简介 数据异构是一个含义丰富的概念,不仅指不同的数据库系统之间的数据是异 构的,如o r a c l e 和s q ls e r v e r 数据库,还包括不同结构的数据之间的异构,如结 构化的s q ls e r v e r 数据库数据和半结构化的x m l 数据,更重要的是数据表示的 语义上的差异。 根据异构方式不同,数据异构分为系统异构、语法异构、结构异构和语义异 第1 章绪论 构【4 1 。 系统异构:硬件和操作系统的异构。 语法异构:不同的语言和数据表示造成的异构。 结构异构:不同的数据模型造成的异构。 语义异构:用户信息请求的语义和数据源的语义。 本文重点研究语义异构问题,由于不同系统的设计者对于现实世界的事物的 看待角度不会完全一样,对事物的定义也就不一样,这样就会产生语义异构,语 义异构有如下几种表现形式【5 】: 命名异构:不同的数据源使用多种术语( 词汇) 表示同一概念,即异名同义, 如在不同的系统中,“牡丹花”有的表示为“牡丹花”,而有的却表示为 “国花”,虽然名字不一样,但其实它们的含义是一样,如在集成过程中 如不解决语义问题,用户就会把它们当作不同的概念,这样用户在寻找“牡 丹花”信息时就不能得到“国花”的信息。相反地,在不同系统中,同一 概念也可能表达不同的含义,即同名异义。 格式异构:各数据源使用不同的属性、计量单位、属性层次等来表示相同 ( 或相似) 的信息,如在度量成绩时,有的用“甲”、“乙”、“丙”、“丁” 来表示,而有的则表示为“优”、“良”、“中”、“差”。 属性异构:不同的数据源对相同实体的属性采取不同的定义方法。 外延异构:各数据源中的概念所包含的范围不同,如运输工具,在有的系 统中仅含有货车,而在有的系统中却含有货船。 混淆冲突:由于概念不明确,容易造成混淆,例如“最近的交易价格”中 的“最近”可能被解释为“5 分钟前”或“1 0 分钟前”。 1 2 2 信息集成研究现状 信息集成,也称为数据集成,就是指屏蔽各种异构数据间的差异,对各种异 构数据提供统一的操作,实现不同应用系统中异质信息资源的跨时间、空间的透 明、无缝整合,以便以统一的、无差异的方式为用户提供更高层的信息服务。一 基于本体的信息集成框架及应用 个理想化的异构信息集成系统应该能够使用户只需关注“需要什么信息”,而无 需给出关于“如何获取信息”的详细指令。 数据集成技术的研究始于七十年代中期,从一开始的多数据库集成发展到现 在的异构数据源集成,数据集成的范围和作用都在不断扩大。 a m i tp s h e m 提出数据集成的发展大约可分为三个阶段【6 】: 7 0 年代至8 0 年代中期:出现的主要技术有多数据库系统和联邦数据库系统, 重点在于使有着不同软硬件设备的计算机系统进行互连和通信,解决了一定程度 上的语法和结构异构,实现了地理分布、数据模式等的透明性,主要的产品有 u n i s q l m ( u n i s q l ) ,m e r m a i n ,d a t a l o i n e r ( i b m ) ,o m n i c o n n e c t ( s y b a s c ) 。 8 0 年代中期至9 0 年代中期:随着网络的出现,i n t e r n e t 的发展以及多种类型 的数据的形成( 包括结构化数据库、半结构化数据、数字多媒体等) ,出现了一些 支持多种类型的异构数据集成的技术,如m c t a d a t a 、m e d i a t o r 、中间件等,主要的 系统有t s i m m i s ,g a r l i c ,s i m s ,h e r m e s ,i n f o s l c u t h 等。 9 0 年代中期至现在:这个阶段比较关注数据集成过程中的语义异构的解决问 题,更多的运用知识领域的有关技术如本体等。主要有信息的智能集成、数字化 图书馆等。 综合数据集成发展过程,构建信息集成系统一般有两种方法:物化法和虚拟 视图法。 1 物化法 物化法m ,即数据仓库法,该方法建立一个数据仓库,参加集成的各数据源的 数据,将其数据备份通过e t l ( e x t r a c t 、t r a n s f o r ma n dl o a d ) 工具过滤,按照一个 集中、统一的视图要求,转换成符合数据仓库的模式并存入数据仓库,供用户查 询。这种方式的优点是既可用于数据集成,又可用于决策支持;缺点是数据更新 不及时、数据重复存储,较适用于简单系统。 2 虚拟视图法 虚拟视图澍8 1 构造一个或多个“中间模式”,模式是用给定数据模型对具体数 据的描述,反映一个单位的各种事物的结构、属性、联系和约束。用户的查询基 第1 章绪论 于中闻模式,不必知道各个数据源的特点,数据仍保存在局部数据源中。系统将 基于中间模式的查询转换为针对各局部数据源模式的查询,将用户的查询分解成 对各个数据源的子查询,并将各子查询返回的数据综合起来得到查询结果。 虚拟法集成模式的优点在于: 支持数据的实时视图,能够同时描述中介模式的多个版本; 对异构数据源数量大、更新频繁的集成系统,集成更快捷; 适用于自治性高、异构性强的异构数据源集成; 集成系统结构灵活,易于创建、修改。 因此,虚拟视图法适用于数据源数目多,局部数据源自治性很高,集成系统 对数据源没有控制且数据更新频繁的环境中。 采用虚拟视图法集成数据源主要有两种体系结构:一种是联邦数据库系统, 另一种是m e d i a t e d 系统。 联邦数据库系统,是数据库集成的最简单结构。它的构成方式是将所有组件 数据库进行一对一的连接。如果存在n 个数据库,则每个数据库都需要与其它n 1 个数据库实现互操作,即如果你有n 个不同的系统或数据源需要集成,你就需要建 立n 叫1 ) 个不同的数据交互接口,开发者就必须编写n - 1 ) 段代码来支持两两之间 的查询访问。所以联邦数据库集成系统适合于自治数据库的数量比较小的情况。 中介系统通过提供所有异构数据源的虚拟视图进行集成。数据源可以是数据 库、遗留系统、w e b 数据源等。这种集成方式与数据仓库中使用物化方法集成数据 源的方式相似,但它不存储任何实际数据。系统提供给用户一个全局模式( 也称为 m e d i a t e d 模式) ,用户针对全局模式提交查询而不必知道数据源的位置、模式和访 问方法,系统将用户查询翻译成一个或多个对数据源的查询。然后将数据源的查 询结果进行综合处理,并将它返回给用户。中介系统中的数据源是完全自治的, 可以容易地增加删除数据源。 按照研究所采用的信息模型和研究出发点来分,虚拟视图信息集成方法目前 主要有两类 9 1 :结构化方法和语义方法。 结构化方法是从同一信息的结构入手来进行信息集成,解决所要集成信息的 基于本体的信息集成框架及应用 结构异构,对于所要集成信息的语义关联不做考虑。 语义方法是从所要集成信息的语义关联入手( 直接体现为从各信息源的局部 语义模式入手) ,通过对信息的语义和语义关联进行一致的描述,进而协调生成全 局信息视图,基于全局信息视图实现信息查询和信息共享等服务。 ( 1 ) 国外研究现状 采用结构化方法的典型代表有美国s t a n f o r d 大学和m ma l m a d e n 研究中心联 合开发的t s i m m i s ( t h es t a n f o r d - i b mm a n a g e ro fm u l t i p l ei n f o r m a t i o ns o u r c e s ) 0 0 系统。该项目主要从解决异构信息的结构异构入手,提出了一种具有自描述性、 面向对象的信息描述模型o e m ( o b j e c te x c h a n g em o d e l ) ,同时给出了应用于该模 型的信息查询语言l o r e l ( l i g h t w e i g h to b j e c tr e p o s i t o r yl a n g u a g e ) 。o e m 模型是 早期比较有代表性的半结构化数据模型。此后,很多集成系统均使用o e m 的变体。 s t a n f o r d 大学的l o r e 工作组在o e m 模型的基础上开发了半结构化数据库管理系统 l o r e 。在x m l 逐渐兴起后,他们就将l o r e 系统移植到完全基于x m l 的数据模型 上,并相应地扩展了其查询语言。 采用语义方法的典型代表有意大利m o d e m 大学和m i l a n o 大学联合开发的 m o m i s ( m e d i a t o re n v i r o n m e n tf o rm u l t i p l ei n f o r m a t i o ns o u r c e s ) t 1 1 】系统。他们提出 了一种基于语义的异构信息描述模型o d m 及相应的建模语言o d l ( o b j e c t d e f i n i t i o n l a n g u a g e ) 。o d l 语言是为了适应异构信息集成的需要从o d m g ( o n e c t d a t a b a s em a n a g e m e n tg r o u p ) 的o d l 语言扩展而来。o d m 是一种面向对象的信息 模型,它独立于信息源的语义,可被用来描述结构化和半结构化信息源的异构模 式。 ( 2 ) 国内研究现状 在国内,东南大学计算机科学与工程系的研究人员在紧密跟踪t s i m m i s 项目 研究的基础上,采用结构化集成方法,开发了一个基于c o r b a 的半结构化信息 集成系统原型一一v e r s a t n e 【1 2 1 ,该原型底层信息模型采用类似于o e m 的 o i m ( m o d e l f o r o b j e c t i n t e g r a t i o n ) 模型。该模型基于带根连通有向图理论建立,其 o i m 对象代数提供并、差、选择、投影、粘贴及切削6 种操作。 第1 章绪论 国内关于语义集成还只是处于研究状态,所开发的项目也只是处于试验阶段。 1 2 3 问题的提出 通过对国内外信息集成研究现状的研究可知,现有结构化信息集成方法解决 了硬件和操作系统的异构、语言和数据表示造成的语法异构与数据模型造成的结 构异构问题,但当用户在这些集成平台上获取信息的时候,仍很难得到充足、有 效的信息。究其原因,主要在于这些集成平台在集成异构系统的过程中只考虑了 数据的语法、结构的描述,而忽略了很重要的一个方面语义描述,即语义异 构,例如,对语义异构中的异名同义问题,虽然异构数据源中的元素命名不同, 但有着相同的潜在意义,在集成过程中,就需要标识出这些元素实际上表示相同 的概念,而现有的信息集成技术却不能识别,在集成中仍会把它们当作不同的概 念,这就使得信息集成的收效大大降低。 本体可准确地描述概念含义及概念之间的内在关联,能通过逻辑推理获取概 念之间蕴含的关系,具有很强的表达概念语义和获取知识的能力,在信息集成中 引入本体,可以很好地解决语义异构问题,可以有效弥补现有集成方法的不足。 因此,本文选题研究基于本体的信息集成,解决异构系统中存在的语义异构 问题。 1 3 论文的工作 本文深入研究信息集成的方法,提出基于本体的信息集成框架,以更好地支 持领域信息共享与互操作,为用户提供更高效的信息服务。具体来讲,主要包含 以下几个方面的内容: 1 研究信息集成研究的现状,提出基于本体的信息集成方法。 2 总结概述本体在信息集成中的应用,包括本体的基本概念理论、本体构建 的相关技术及基于本体的信息集成的方法。 3 提出基于本体的物流信息集成框架,并对其体系结构进行分析介绍。 4 研究集成框架中本体及本体映射构建的技术方法,包括局部本体和全局本 体的构建以及局部映射和全局映射的构建,并结合实例进行说明。 基于本体的信息集成框架及应用 5 框架的原型实现。 1 4 论文章节安排 第一章绪论。主要分析造成信息集成的研究现状,分析现有信息集成技术的 不足,将本体引入到信息集成中,介绍本论文的工作及论文章节安排。 第二章本体基本理论及相关技术。这一章概括总结了本体的概念、建模原语、 分类和表现形式,以及本体构建的相关技术。 第三章基于本体的物流信息集成框架( u i f ) 。本章介绍了基于本体的信息集成 优势及集成方法,提出了基于本体的物流信息集成框架的四层体系结构。 第四章l i i f 的信息集成实现。本章研究了l i f 本体及本体映射的构建,并以物 流企业运输工具服务于客户的记录为例构建了本体及本体映射。 第五章u i f 原型实现。本章对l i i f 进行了原型实现、分析。 第六章总结与展望。总结本论文的研究工作,并提出下一步的工作目标。 第2 章本体基本理论及相关技术研究 第2 章本体基本理论及相关技术研究 2 1 本体的基本概念及理论 2 1 1 本体的概念 本体( o n t o l o g y ) 的概念起源于哲学领域,是表述哲学理论的一个术语,在1 7 世纪德意志哲学家r g o c l e n i u s 首次提出;1 8 世纪初,本体论己在哲学界被广泛采 用;在2 0 世纪的分析哲学中,本体论正式成为研究实体存在性和实体存在的本质 等方面的通用理论。本体在哲学中定义为“对世界上客观存在物的系统地描述, 即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本 剧1 3 1 。 上世纪8 0 年代末9 0 年代初,人工智能界将本体概念引入了计算机领域,赋予 了本体新的含义。在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本 体定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系 构成的规定这些词汇外延的规则的定义”。n e c h e s 认为:“本体定义了组成主题 领域的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延 的规则。,j 【1 4 】 后来,在信息系统、知识系统等领域,越来越多的人研究本体,并给出了许 多不同的定义,其中,1 9 9 3 年,g r u b c r 给出了本体的一个最为流行的定义【1 5 】,即 “本体是概念模型的明确的规范说明”。后来,b o r s t 在此基础上,给出了本体的 另外一种定义“本体是共享概念模型的形式化规范说明”【1 6 1 。1 9 9 8 年s t u d e r 等对 上述两个定义进行了深入的研究,给出被普遍接受的定义“本体是共享概念模型 的明确形式化规范说明”该定义包含4 层含义旧: 概念化( c o n c e p t u a l i z a t i o n ) :客观世界现象的抽象模型。 明确( e x p l i c i t ) :概念及它们之间的联系都被精确定义。 形式化( f o r m a l ) :精确的数学描述,计算机可读的。 共享( s h a r e ) :本体中反映的知识是领域共同认可的知识,是相关领域公认 的概念集。 8 基于本体的信息集成框架及应用 虽然不同研究者对本体有不同的描述,但从内涵上来看,他们对本体的认识 是一致的,都是把本体当作某个领域内( 可以是特定领域的,也可以是更广的范围) 不同主体( 人、代理、机器等) 之间进行交流( 对话、互操作、共享等) 的一种语义 基础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系,作为使用 者之间达成的共识因此,本体的用途包括交流、共享、互操作、重用等。 2 ,2 本体的建模原语 本体提供了一个用来表达和交流某些主题知识的词表和词表中术语间的关系 集。作为知识的手段,p e r e z 等人认为本体可以按分类来组织,并归纳出本体的五 个基本的建模原语【8 】:类( c l a s s e s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理 ( a x i o m s ) 和实例( i n s t a n c e s ) ,通常也把c l a s s e s 写成c o n c e p t s ( 概念) ,其中: 类或概念:指相似术语所表达的概念的集合体,可以指任何事物,如工作描 述、功能、行为、策略和推理过程。从语义上讲,它表示的是对象的集合,其定 义一般采用框架结构,包括概念的名称,与其他概念之间关系的集合,以及用自 然语言对概念的描述。 关系:领域中概念之间的交互作用,形式上定义为二维笛卡儿积的子集: r :c i c 2 c n 。从语义上讲,类之间的基本关系有4 种: p a r t - o f :表达概念之间部分与整体的关系。 k i n d - o f f 表达概念之间的继承关系,类似于面向对象中的父类和子类之间 的关系。 i n s t a n c e o f :表达概念的实例和概念之间的关系,类似于面向对象中的对 象和类之间的关系。 a t t r i b u t e o f f 表达某个概念是另外一个概念的属性。 函数:一类特殊的关系,可以由一个或若干个概念推出另一个概念,可形式 化的定义为f :c i x c 2 x c 。一c 。如m o t h e r o 就是一个函数,m o t h e r ( a ,b ) 表示a 是b 的母亲。 公理:代表永真断言,如地球围绕太阳公转。公理可用来约束信息,证明正 确性或推导新信息。 第2 章本体基本理论及相关技术研究 实例:表示某概念的具体化的值。实例是本体的最基本元素,具有不可再分 性,如果某实例还可再划分,则它是一个类,而非实例。 在实际的应用中,不一定要严格地按照上述5 个基本原语来构造本体。同时, 概念之间的关系也不仅限于上面列出的4 种基本关系,可以根据特定领域的具体 情况定义相应的关系,以满足应用的需要。 2 1 3 本体的分类 目前关于本体的研究非常广泛,尤其是在国外,许多研究组织和机构都研究建 立了各种各具特色的本体。由于本体的研究领域及对本体研究的侧重点不同,也 出现了不同的分类方法。 1 根据本体表示的形式化程度,可将本体分为以下四种类型【1 9 1 : 完全非形式化:完全采用自然语言进行表示,结构非常松散,典型的如术 语列表。 结构非形式化:采用受限的或结构化的自然语言进行表示,能有效提高本 体论的清晰度,减少二义性。如企业本体的文本版本。 半形式化:采用一种人工定义的形式化语言进行表示,目前己有许多研究 机构开发制定了这类形式化本体论表示语言,许多采用o n t o l i n g u a 描述的 本体都属于这一类。 完全形式化:所有属于都具有形式化的语义,并能在某种程度上证明包括 一致性和完整性等方面的属性。 在实际应用中,这几种表示方式各有所长。如果本体论的应用目的是为了加 强人与人之间的交流,则非形式化的本体论将更为适用,如果对本体论的处理需 要由机器自动完成,则形式化程度越高越好,在有些情况下,需要将非形式化和 形式化两种方式组合起来使用。 2 c r u a r i l l o 提出以详细程度和领域依赖度为依据为对本体进行划分啪1 。 详细程度是相对的、较模糊的一个概念,指描述或刻画建模对象的程度,根 据详细程度不同,本体可分为: 参考本体:详细程度高的本体,它是以万维网上已有的本体为对象建立的。 基于本体的信息集成框架及应用 共享本体:详细程度低的本体。 领域依赖度是指所研究的本体对所研究的学科领域的依赖程度,根据领域依 赖度可将本体分为: 顶级本体:描述的是最普通的概念及概念之间的关系,如空间、时间、事 件、行为等,与具体的应用无关,完全独立于特定的问题或领域,可以在 一个很大的范围内共享,其他种类的本体都是该类本体的特例。 领域本体:描述的是特定领域( 如医药、园林、物流等) 中的概念及概念之 间的关系。 任务本体:描述的是特定任务或行为中的概念及概念之间的关系。它们都 可以应用顶级本体中定义的词汇来描述t l 己的词汇。任务本体和领域本体 处于同一个研究和开发层次。 应用本体:描述特定的应用,它既可以应用特定的领域本体中的概念及概 念之间的关系,又可以引出特定的任务本体中的概念及概念之间的关系。 3 1 9 9 9 年,p e r c z 和b e n j a m i n s 在分析和研究了各种本体分类法的基础上, 归纳出1 0 种本体【1 8 1 :知识表示本体、普通本体、顶级本体、元( 核心) 本体、领域 本体、语言本体、任务本体、领域任务本体、方法本体和应用本体。这种分 类法是对c n l a , r i n o 提出的分类方法的扩充和细化,但是这1 0 种本体之间有交叉, 层次不够清晰。 4 根据本体对于推理的能力,可分为: 轻量级本体:不具备逻辑推理功能,如叙词表和w o r d n e t 。 中级本体:具备简单的逻辑推理功能,系统可以识别一阶谓词逻辑表达式。 重量级本体:具有复杂的逻辑推理功能,系统可以识别更加复杂的二阶谓 词逻辑的表达式,并为更加复杂的推理功能的实现预留了接口。 2 1 4 本体表现形式 本体有两种主要表现形式本体模型与本体图。 ( 1 ) 本体模型 一个本体模型可以看作是一个3 元组,o = ( c ,r ,a ) ,其中c 表示本体中类的集 第2 章本体基本理论及相关技术研究 合,r 表示本体中连接类和类的所有二元关系的集合,a 表示本体中所有的值属性 的集合。 ( 2 ) 本体图 本体图是一个构建完成的表示全局本体的一个无环的有向网络:c j = - q a ( s , 其中s = ( e l ,c 2 ,c i ,c j ,o n ) ,是图中所有节点的集合,节点对应于本体中的 概念;v - ( c i c j ,) 1 0 i n ,0 骨架法。 表2 1 四种本体构建方法比较口6 l t a b 2 1t h ec o m p a r i s o no f 4m e t h o d st oc o n s w u c to n t o l o g y 名称生命周期相关技术 本体的应用 方法的细节 骨架法无不确定一个域很少 m 删帅l o g y 法有有,不全多个域 详细 i d e f 5 法无不确定多个域详细 七步法无真正的周期有多个域详细 对于任何特定领域来说,并没有唯一的本体构建方法,可能几种方法都是可 行的,最佳的方法依赖于开发者采用的应用软件及可预见扩展功能。本体开发和 完善是一个反复叠加的增量过程,不可能一蹴而就。 2 2 3 本体构建语言 本体构建语言,又称本体表示语言,是关于本体的标记语言,用来标记计算 机可以理解的客观世界领域的基本概念及概念之间的关系,具有如下特征嗍: 为本体的构建提供建模原语。 为本体从自然语言的表示格式转化为机器刻度的逻辑表达格式提供标引 工具。 为本体在不同系统之间的导入和输出提供标准的机读格式。 形式化语言表示,利用机器可读的形式化表示语言表示本体,可直接被计 第2 章本体基本理论及相关技术研究 算机存储、加工、利用,或在不同的系统之间进行互操作。 本体表示语言起源于历史上人工智能领域对知识表示的研究,有o n t o l i n s u a 、 c y c l 、l o o m 、o c m l 、f l o g i c 语言等,比较有代表性的语言有: ( 1 ) o n t o l i n g u a l 2 7 是一种基于知识交互格式( k i f ,k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的语言,它为构造和维护本体提供了统一的、计算机可读的方式。其构造的本体 可以很方便地转换到各种知识表示和推理系统,使得对本体的维护与具体使用它 的目标表示系统分离开来。例如,可以把o n t o l i n g u a 转换成p r o l o g 、c o r b a 的i d l 、 c l i p s 、l o o m 、e p i k i t 、灿g e r n o n 和标准的k i f 。o n t o l i n g u a 主要作为本体服务器 上提供的、用于创建本体的语言。 c 2 ) c y c l 2 s 】是c y c 系统的描述语言,它是一种体系庞大而非常灵活的知识描 述语言,在一阶谓词演算的基础上,扩充了等价推理、缺省推理等功能,具备一 些二阶谓词演算的能力,该语言的环境中配有功能很强的推理机制。与其它表示 语言不同的是,c y c l 拥有非常庞大而又具有灵活表达能力的功能特征集。 ( 3 ) l o o m e :9 1 是支持o n t o s a u r u s 工具进行本体构建的底层描述语言,是一种基 于一阶谓词逻辑的高级编程语言,属于描述逻辑( d e s c r i p t i o n l o g i c ) 体系。l o o m 提 供表达能力强、声明性的规范说明语言,提供强大的演绎推理能力及多种编程风 格和知识库服务。该语言后发展为p o w e r l o o m 语言。p o w c r l o o m 是k i f 的变体, 它是基于逻辑的,具备很强表达能力的描述语言,采用前后链规则( b a c k w a r da n d f o r w a r dc h a i n c r ) 作为其推理机制。 随着w e b 的发展,b e m c r s - l e e 在2 0 0 0 年1 2 月1 8 日的x m l 2 0 0 0 的会议上提 出了语义w e b ,语义w e b 的目标是使得w e b 上的信息具有计算机可以理解的语义, 满足智能软件代理( a g e n t ) 对w w w 上异构和分布信息的有效访问和检索,本体是 解决语义层次上w e b 信息共享和交换的基础,为了便于w e b 上应用程序使用方便, 出现了一系列基于w e b 的本体表示语言,如s h o e 、x o l 、r d f 、r d f s 、o i l 、 d a m l 、d a m l + o i l 、o w l 等,w 3 c 给出的语言栈描述【3 川如图2 2 所示,表2 2 对本体语言栈进行了描述。 基于本体的信息集成框架及应用 图2 2w 3 c 的本体语言栈 f i g 2 2t h eo n t o l o g yl a n g u a g es t a c ko f w 3 c 表2 2 语言栈的描述【3 1 】 t a b 2 2t h ed e s c r i p t i o no f l a n g u a g es t a c k 名称描述 x 匝 结构化文档的表层语法,对文档没有任何语义约束。 x 几s c h e m a 定义x m l 文档的结构约束的语言。 对象( 或者资源) 以及它们之间关系的数据模型,为数据模 r d f 型提供了简单的语义,这些数据模型能够用x m l 语法进行 表达。 描述r d f 资源的属性和类型的词汇表,提供了对这些属性和 r d fs c h e m a 类型的普遍层次的语义 添加了更多的用于描述属性和类型的词汇,例如类型之间的 o w l 不相交性,基数,等价性,属性的更丰富的类型,属性特征 ( 例如对称性) ,以及枚举类型。 本文将采用o w l 语言描述本体,o w l ( o n t o l o g yw e bl a n g u a g e ) 【3 2 】是由 w e b - o n t o l o g y 工作小组开发,并于2 0 0 4 年2 月1 0 日正式成为w 3 c 推荐的本体描 第2 章本体基本理论及相关技术研究 述语言标准,位于本体语言栈的栈顶,其设计目的就是要让软件代替人工来进行 信息内容的加工,提供一种可以面向各种应用的语言。o w l 是在d a m l + o i l 的 基础上发展起来的,作为r d f ( s ) 的扩展,可以提供更多的原语以支持更加丰富的 语义表达,并更好的支持推理。o w l 能够被用于清晰地表达词汇表中的词条的含 义以及这些词条之间的关系,而这种对词条和它们之间的关系的表达就称作本体。 o w l 相对于x m l 、r d f 和r d f s 来讲,拥有更多的机制来表达语义,从而超越 了x m l 、r d f 和r d f s 仅仅能够表达网上机器可读的文档内容的能力。 针对不同需求,o w l 具有3 个子语言:o w ll i t e 、o w ld l 和o w lf u l l , 它们的具体描述如表2 3 所示。 表2 3o w l 的3 个子语言描述 t a b 2 3t h ed e s c r i p t i o no f 3s u b - l a n g u a g eo f o w l 子语言 描述例子 用于提供给那些只需要一个分类层次支持基数,只允许基数为0 o 、 ,ll i t e 和简单的属性约束的用户。或1 。 支持那些需要在推理系统上进行最大 程度表达的用户,这里的推理系统能够 保证计算完全性( 即所有的结论都能够 当一个类可以是多个类的一 o 、l d l 保证被计算出来) 和可决定性( 即所有 个子类时,它被约束不能是另 的计算都在有限的时间内完成) 。它包 外一个类的实例。 括了o w l

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论