(计算机软件与理论专业论文)基于本体的信息集成研究.pdf_第1页
(计算机软件与理论专业论文)基于本体的信息集成研究.pdf_第2页
(计算机软件与理论专业论文)基于本体的信息集成研究.pdf_第3页
(计算机软件与理论专业论文)基于本体的信息集成研究.pdf_第4页
(计算机软件与理论专业论文)基于本体的信息集成研究.pdf_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 信息集成可以最大程度地利用已有知识成果,屏蔽数据的半结构性、异构性和分布 性,为用户提供统一的模式,实现异构数据源之问的信息交互及从异构数据源中有效获 取信息。 在信息集成中必须提供通用语义模型解决语义异构问题,这个通用语义模型是一个 平台无关模型,屏蔽了信息之间的语义异构。本体是共享概念模型的明确的形式化规范 说明,能够有效地表达特定领域内的通用知识,可作为信息集成中的通用语义模型,因 而目前信息集成方法的研究热点都是基于本体的。 本文以本体论的相关研究作为基础,在借鉴已有的信息集成方法和信息集成系统结 构的基础上,设计了一种基于本体的信息集成的体系结构,并对中间层本体的构建方法、 查询重写等一些关键技术进行了研究,所做的工作和取得的创新成果主要体现在以下几 个方面: 首先,设计了一种基于本体的信息集成体系结构,该体系结构较大限度实现用户只 依据中间层本体就能够查询到感兴趣的信息,而无需关心查询结果的处理过程及数据 源。 其次,借鉴需求工程中的多视点理论,基于一些限定和假设,提出了一个基于多视 点的中间层本体构建方法。该方法在获取中间层本体的同时,也保证了中间层本体与局 部本体间的语义一致性。 再次,通过定义中间层本体中概念与局部本体中概念的映射关系,将基于中间层本 体的查询转换为基于局部本体的查询,并根据中间层本体中概念与局部本体中概念之间 的映射关系,以g a v 和l a v 两种查询重写策略实现了查询重写。 最后,将本文提出的信息集成的体系结构应用到w e b 信息的集成中,得到基于本 体的w e b 信息集成的体系结构,解决了目前w e b 信息集成中屏蔽w e b 数据的半结构性、 异构性和分布性,为用户提供统一的模式的一些关键问题。 关键词:本体;信息集成:中间层本体;查询重写;w e b 信息集成 r 牟= 课题选臼科技部社会公益研究专项资金项目( 2 0 0 1 d i b l 0 0 6 0 ) a b s t t a c t a b s t r a c t i n f o r m a t i o ni n t e g r a t i o nc a nu t i l i z et h ee x i s t i n gk n o w l e d g et ot h eu t m o s te x t e n t ,a n di tc a r ls h i e l dt h e c h a r a c t e r i s t i c so fd a t as u c ha ss e m i - s t r u c t u r e d ,h e t e r o g e n e i t ya n dd i s t r i b u t e d ,c o n s e q u e n t l yp r o v i d e sa u n i f i e dp a t t e r nf o ru s e r st or e a l i z ei n f o r m a t i o ne x c h a n g ef o rh e t e r o g e n e o u sd a t ar e p o s i t o r ya n dt oo b t a i n v a i n a b l ei n f o r m a t i o nf r o mh e t e r o g e n e o u sd a t ar e p o s i t o r y i ni n f o r m a t i o ni n t e g r a t i o n ,w em u s tc o n s t r u c tau n i v e r s a ls e m a n t i cm o d e lt or e s o l v et h ep r o b l e mo f s e m a n t i ch e t e r o g e n e i t y t h i sm o d e lm u s tb ep l a t f o r m - f r e e ,a n dc a ns h i e l dt h es e m a n t i ch e t e r o g e n e i t yo f d i f f e r e n ti n f o r m a t i o n o n t o l o g yi sa ne x p l i c i ts p e c i f i c a t i o no fac o n c e p t u a l i z a t i o n ;i tc a na v a i l a b l ye x p r e s s t h eg e n e r a lk n o w l e d g ei nc e r t a i nf i e l d s ,a n dc a l lb eu n i v e r s a ls e m a n t i cm o d e lo f i n f o r m a t i o ni n t e g r a t i o ns o , a tp r e s e n t ,t h ea c t i v er e s e a r c ho na p p r o a c h e st oi n f o r m a t i o ni n t e g r a t i o ni sm o s t l yb a s e do no n t o l o g y b a s e do nt h er e l a t e dr e s e a r c hw o r k st ot h et h e o r yo f o n t o l o g y , a n db o r r o w i n gi d e a sf r o mt h ee x i s t i n g a p p r o a c h e st oi n f o r m a t i o ni n t e g r a t i o n ,t h et h e s i sd e v e l o p so n t o l o g y - b a s e d i n f o r m a t i o n i n t e g r a t i o n a r c h i t e c t u r e ,a n dm a k e sas t u d yo ft h ek e yt e c h n o l o g i e st h e r e i n t h em a i nw o r k sa n di n n o v a t i v er e s u l t so f t h i sp a p e ri n c l u d et h ef o l l o w i n gf o u ra s p e c t s : f i r s t l y , o n t o l o g y - b a s e di n f o r m a t i o ni n t e g r a t i o na r c h i t e c t u x ei sd e s i g n e d t h ea r c h i t e c t u r er e a l i z e st h a t u s e r sc a nq u e r yi n t e r e s t e di n f o r m a t i o no n l yt h r o u g hm e d i a t o ro n t o l o g y , b u tn on e e dt oc o n c e r nt h e p r o c e s s i n ga n dd a t as o u r c e s e c o n d l y , i l l u m i n e db ym u l t i p l ev i e w p o i n t st h e o r y i n r e q u i r e m e n te n g i n e e r i n g , a m u l t i p l e - v i e w p o i n t s - b a s e dm e d i a t o ro n t o l o g yc o n s t r u c t i n ga p p r o a c hi sp r o p o s e d t h ea p p r o a c ho b t a i n s m e d i a t o ro n t o l o g y , a tt h es a m et i m e , i tk e e p ss e m a n t i ca m o n gl o c a lo n t o l o g ya n dm e d i a t o ro n t o l o g y t h i r d l y , b ym e a n so ft h ed e f i n i t i o no ft h em a p p i n gb e t w e e nt h ec o n c e p t si nm e d i a t o ro n t o l o g ya n d t h o s ei nl o c a lo n t o l o g y , w es w i t c ht h eq u e r yb a s e do nm e d i a t o rt ob a s e do nl o c a lo n t o l o g y a n dw ea c h i e v e q u e r yr e w r i t i n gp r o c e d u r ei nt h ef o r mo f g a v a n dl a vq u e r yr e w r i t i n gs t r a t e g i e sa c c o r d i n gt ot h ed e f i n e d m a p p i n g f i n a l l y , a p p l y i n gt h ei n f o r m a t i o ni n t e g r a t i o na r c h i t e c t u r ee s t a b l i s h e di nt h et h e s i st ow e bi n f o r m a t i o n i n t e g r a t i o n ,w eo b t a i nt h eo n t o l o g y - b a s e dw e bi n f o r m a t i o ni n t e g r a t i o na r c h i t e c t u r e ,w h i c hs h i e l d st h e s e m i s t r u c t u r e d ,h e t e r o g e n e i t ya n dd i s t r i b u t e do ft h ew e bi n f o r m a t i o na n dp r o v i d e sa nu n i f i e dp a a e mf o r u s e r s ,t h e r e b yo v e r c o m i n gt h ep r o b l e mi nw e bi n f o r m a t i o ni n t e g r a t i o n k e yw o r d s :o n t o l o g y :i n f o r m a t i o ni n t e g r a t i o n :m e d i a t o ro n t o l o g y ;q u e r yr e w r i t i n g w e bi n f o r m a t i o ni n t e g r a t i o n 原创性声明 本人郑厦声明:本人所呈交的学位论文,是在孳师的指导1 独立 进行研究所取得的成果。学位论文中凡引用他人已经发表或未易:表的 成果、数据、观点等,均已明确注明出处。除义中已经注明引川的内 容外一i 包含任何其他个人或集体已经发表或撰写过的科研成浆。对 小义的研,f 成粜做出重要贡献的个人和集体,均已在文t ;,以咧f ;j | 力j 枥i 明。 本声嘲的法律责任出本人承担。 论文竹者签名:蕉丛 i l j :二堂二兰一 关于学位论文使用授权的声明 ,夺,f 弧导师指导下所完成的论文及棚黄的职务作铺,知识权归 瘸兰燃人学。本人完全了解兰州大学有关保存、使用学位沦文的1 豫定, 刚意弋:技“! 仔或向国家彳_ j 关鄢门或机构送交沦文的纸质版和f 乜一扳, 允许险殳被查阅霄l 借阅:奉a 授权兰州大学町啦将本学位论文j 全部 或部分i 匀容编入有关数搬阵进行检索,可以采用任何复制手段伯:存和 汇编本学位论文,本人离校后发表、使用学位论文或与陵沦义,拨棚 关的学术论文或成果时,第一署名单位仍然力兰州大学。 保密论文在解密后应道。,) :此栅定。 沦文作者笤名:。蓬赴塑一种雌箍孙丛一 兰州大学硕士学位论文基于本体的信息集成研究 1 1 研究背景 第一章绪论 目前信息集成的方式主要有两类:结构方法和语义方法。结构方法使用仅有语法和一定结构规 则的描述手段来定义领域的数据模型,提供给用户供查询使用的统一结构模式。语义方法则使用具 有语义的描述手段来构建领域的概念集和数据模型,以及概念之间的关系,即使嗣共享概念集作为 集成手段,实现信息集成。信息集成可以最大程度地利用已有知识成果,屏蔽数据的半结构性、异 构性和分布性,为用户提供统一的模式。实现异构数据源之间的信息交互及从异构数据源中有效获 取信息。 语义异构指在一定领域内专用的词汇意义的共享和交流,由于不同团体对一定领域事物的认识 和表示不同,来自不同数据源关于一定领域的词汇描述存在着冲突,即横向差异;即使是同一团体, 随着时间变化,由于知识水平的提高或其他原因,对一定领域事物的认识也会有所改变,从而导致 在不同时间产生的关于一定领域的词汇描述不一致,即纵向差异,这种认识上的差异所产生的描述 差异即为语义异构,造成语义异构的主要原因如下; 1 )不同的数据源使用多种术语( 词汇) 表示同一概念; 2 )同一概念在不同的数据源中表达不同的含义: 3 )各数据源使用不同的结构来表示相同( 或相似) 的信息: 4 )各数据源中的概念之问存在着各种联系,但因为务数据源的分布自治性这种隐含的联系不 能体现出来。 在信息集成中必须提供通用语义模型解决语义异构问题,这个通用语义模型是一个平台无关模 型,屏蔽了信息之间的语义异构。本体是共享概念模型的明确的形式化规范说明,能够有效地表达 特定领域内的通用知识,可作为信息集成中的通用语义模型,因而目前信息集成方法的研究热点都 是基于本体的。 基于本体的信息集成方法远远要比使用结构化的方法复杂。造成这种复杂性的主要原因在于: 基于本体的信息集成涉及到本体工程中的多个研究领域,如本体构建、本体集成、本体查询等。由 于本体工程作为人工智能中一个新兴的领域,在许多研究领域还未形成成熟、完整的体系。 目前国外基于本体的信息集成研究中比较有代表性的项目有s k c l l i ,o n t o b r o k e r t 2 1 ,a r i a d n e l 3 1 , o b s e r v e r i “,p i c s e l l 等。 尽管国内对于基于本体的信息集成研究起步较晚,但国家对这方面的研究已经给予高度重视, 在一些国家重点基础研究发展规划项目中给予了资助,“网络环境下海晕信息组织与处理的理论与方 法研究”项目重点对“面向内容的海量信息集成、分析处理与服务”这一课题进行了研究m j 。 兰州大学硕士学位论文 基于表体的信息集成研究 1 2 本文的研究内容 本文以本体论的相关研究为基础,在借鉴已有的信息集成方法和信息集成系统结构的基础上。 没计了一种基于本体的信息集成体系结构,对中间层本体的构建方法,查询重写的关键技术进行了 研究,并将提出的体系结构进行应用,得到基于本体的w e b 信息集成体系结构。 1 ) 基于本体的信息集成体系结构 在许多使用查询驱动集成方式、面向多领域数据源的信息集成应用中,用户的查询由本体驱动 且涉及到多个数据源,因此用户常常希望只根据中间层本体就能够查询到感兴趣的信息,而不必关 心查询结果从哪个数据源中得到并经过怎样的处理。为适应这一需求,本文在借鉴己有的信息集成 方法和信息集成系统结构的基础上,设计了一种基于本体的信息集成体系结构。 在信息集成应用中,使用本文提出的体系结构增加了一些新的问题:如何构建中间层本体及如 何将针对中间层本体的查询重写为针对局部本体的查询,可通过使用基于本体的信息集成中的关键 技术得以解决。 2 ) 中问层本体构建 在本文提出的体系结构中,需要提供一个中间层本体给用户作为访问接口,作为对应于所有数 据源的通用语义模型,中间层本体应该包含用户查询中可能涉及的概念及概念之间的关系,并且尽 可能与各局部本体在语义上保持一致。为此提出了在构建中间层本体过程中应遵循的三条基本原则: 完备性原则,互关联原则,一致性原则。 中间层本体根据局部本体构建,因而中间层本体的构建过程实质上是一个本体集成过程。借鉴 需求工程中的多视点理论,基于一些限定和假设,我们提出了一个基于多视点的中间层本体构建方 法。将各局部本体视为中间层本体的一个视点,通过检查和处理各局部本体间的不一致性,使用启 发式规则推理不同局部本体概念之间的关系等手段获取中间层本体。该方法在获取中间层本体的同 时,也保证了中间层本体与局部本体间的语义一致性。 3 1 查询重写 信息集成系统的主要功能是回答用户的查询,在基于本体的信息集成系统中,用户的查询由本 体驱动,用户通过查询本体得到自己感兴趣的一些概念,并希望获取这些概念在数据源中的实例。 在基于本文提出的体系结构构建的信息集成系统中,用户的查询基于中间层本体,用户查询得 到的是中间层本体中的概念,但中间层本体中的概念与数据源中的数据却不产生直接映射,数据源 中的数据直接映射到局部本体,因而要得到中间层本体中概念的实例数据,必须定义中间层本体中 概念与局部本体中概念的映射关系,将这个基于中间层本体的查询转换为基于局部本体的查询,即 为查询重写。 将本体中的概念表达为谓词形式,使用d a t a l o g 规则表示查询,并根据中间层本体中概念与局 部本体中概念之间的映射关系,分为g a v 和l a v l 7 1 两种方式来讨论查询重写策略。 4 )基于本体的w e b 信息集成体系结构 w e b 信息集成就是在w e b 环境中实现异构数据源之间的信息交互,并从这些异构的数据源中有 效获取信息。w e b 信息的分布性、动态性使得信息的来源更加多元化,变化速度更快,故而w e b 环 兰州大学硕士学位论文基于拳体的信息集成研究 境f 的信息集成具有更大的挑战性。w e b 信息集成系统的主要目标是支持对w e b 上的多个数据源( 如 不同的w e b 站点,传统数据库,文件系统等) 的查询,满足用户的访问需求。 w e b 上的数据具有半结构性、异构性和分布性等特点,屏蔽这些特性。为用户提供统一的模式, 是目前w e b 信息集成的关键问题。 为此,将本文提出的信息集成的体系结构麻用到w e b 信息的集成中,得到基于本体的w e b 信息 集成的体系结构,是一个开放、实用的体系结构,具有扩展性好、数据冗余少等特点,即可解决上 述关键问题。 1 3 本文的组织安排 本文以基于本体的信息集成体系结构为基础,对基于本体的信息集成关键技术的研究展开,总 共分六章,具体安排如下: 第一章绪论。阐述了本文的研究背景,包括基于本体的信息集成中的一些基本问题和国内外的 研究现状、本文的研究内容与组织安捧。 第二章本体论及相关研究。主要阐述了本体论的相关理论,从本体论的定义、分类、作用及应 用到本体的构建及描述,作为本文的理论基础。 第三章信息集成及其体系结构。概述信息集成的相关内容,包括信息集成系统的发展、信息集 成方法及分类并基于上述内容设计了一种基于本体的信息集成体系结构。 第四章基于本体的信息集成中的一些关键技术的研究。主要对其中的中间层本体的构建及查询 重写的关键技术进行研究。 第五章基于本体的w e b 信息集成。将本文提出的信息集成的体系结构应用到w e b 信息的集成, 得到基于本体的w e b 信息集成的体系结构,并介绍未来w e b 信息集成的发展方向s e m t i cw e b 技术。 第六章结束语。对全文工作进行总结,并指出了进一步的工作方向。 兰州大学硕士学位论丈基于拳体的信息集成研究 2 1 本体论 2 1 1 概述 第二章本体论及相关研究 到1 9 9 3 年为止,本体论这个术语在计算机学科各个领域中的应用已非常广泛。虽然在这些领域 也有一些较为正式的定义,但美国s a n f o r d 大学的知识系统实验室的学者t o mg r u b e r 在1 9 9 3 年一篇 论文口j 中给出了第一个被泛接受的定义:本体是对概念化的显式的解释说明,并作如下解释:知 识的形式化表达的基础是概念化( c o n c e p t u a l i z a t i o n ) :研究领域内的对象、概念和其它实体,以及它 们之间的关系。因此,概念化是对所描述世界的一种抽象、简化。每一个知识库、基于知识库的信 息系统和基于知识共享的智能a g e n t 都内含一个概念化的世界显式的或隐式的。本体论是对概 念化世界显式的解释说明。当领域知识以一种形式化的方式进行描述的时候,所有被表示的对象集 合便构成我们讨论的世界。对象以及它们之间的关系是通过知识表达语言的词汇来描述的。因此, 可以通过定义一套知识表达的专门术语来定义一个本体。在这样的一个本体中,我们所讨论世界中 的实体、对象、关系以及过程等是以人可以理解的文本进行描述的,并通过形式化的公理限制来规 范这些术语的解释和使用。严格地说,“本体是一个逻辑理论的陈述性描述。” 如果一个c o n c e p t u a l i z a t i o n 表示为c = ,对于任一可能世界w 矿,c 上的“预定世 界结构”w 可以表示为s k = ,其中r c = 厦w ) i p e 孵) 是辨中的元素在w 中的外延关 系的集合,可以用品= s e l w w 表示c 中的所有预定世界结构。 现在考虑一个包含词汇表矿的形式语言三,重新更改标准定义,定义上语言的一个模型为结构 ,其中p d j 是一世界结构( w o r l ds t r u c t u r e ) , v dk 3 r 表示为将d 中的符号指定为矿 中的符号,r 中的关系指定为矿中的谓词关系的一个解释函数。因而一个模型确定了语言的一种外 延的解释。同样,也可以使用结构 表示语言模型的内在解释,其中c = 为一个概 念化。也表示将d 中的符号解释为y 中的符号,婀中的关系解释为矿中的谓词关系。我们将这种内 在的解释称之为语言三的本体认可( o n t o l o g i e a lc o m m i t m e n t ) 。如果用肛 表示语言的一个 本体认可,就可以这样说,三通过足认可c ,其中c 为罡的内含的概念化( u n d e r l y i n g c o n c e p t u a l i z a t i o n ) 。 给定一个语言三、词汇表v 和一个本体认可j ,_ ,一个模型 sp 与k 兼容必须满足这样 的条件:i ) scs ,i i ) 对每一个常量c ,k c ) = 3 ( c ) ;i i i ) 存在这样一个世界结构w ,对于每一个谓词 符号b ,可以将它匹配为3 c p ) ,以及存在一个概念化地关系p ,满足s = p p ( w ) 可( 。中 所有与k 兼容的模型集合聪) 被称为k 上的语言的所有预定模型( i n t e n d e dm o d e l ) 的集合。本体、 预定模型厶( 和语言三之间的芙系如图2 1 所示。 4 兰州大学硕士学位论文基于奉体的信息集成研究 c o n c e p t u a l i z a t i o nc f c 。删融, l a n g u a g el m o d e l sm ( l ) i n t e n d e dm o d e l i x ( l ) 图2 1 本体、预定模型五旺) 和语言上之间的关系 在澄清本体,预定模型和概念化的基础上得到下面的本体的定义:本体是为了说明一个形式化 词汇表的预定含义的一个逻辑理论,或者说是对世界的某特定的概念化的一个本体认可,丽这个 逻辑语言的预定模型使用这样的词汇表示必须受到本体认可的限制。本体通过尽可能的接近这些预 定模型间接的反映了这个认可,可以看出本体是语言相关的,而概念化是语言无关的。认清这一点 对本体的s h a r i n g ,f u s i o n ,t r a n s l a t i o n 都非常重要。 也有其他的研究学者尝试着给出本体的定义,比如b o r s t ,w i l t e mn i c o 在1 9 9 7 年给出本体的另 一个定义“a no n t o l o g yi saf o r m a ls p e c i f i c a t i o no f as h a r e dc o n c e p t u a l i z a t i o n ”,可以看出是在g r u b e r 定义上的一个简单的扩展,强调必须在需要说明的概念化上达成一致仰。而r s t u d e r , v r b e n j a m i n s 和d f e n s e 在9 8 年给出的定义“a no n t o l o g yi saf o r m a l ,e x p l i c i ts p e c i f i c a t i o no fas h a r e d c o n c e p t u a l i z a t i o n ”也只是进一步做了一些小的扩展l i 。 不同的研究团体根据自身对本体的使用和目的给出了不同的解释和定义,但总的来说,都没有 超出前面两位研究学者给出的定义,因此,在本文中所使用的本体定义主要依照这两个学者的说法 特别是后者,其为形式化研究本体的集成、共享以及系统应用提供了一个良好地基础。 2 1 2 本体论的定义 s t u d e r 等对上述两个定义进行了深入的研究,认为“o n t o l o g y 是共享概念模型的明确的形式化 规范说明”。 这包含4 层含义1 q :概念模犁( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化( f o m a l ) 和共享( s h a r e ) 。 “概念模型”指通过抽象出客观世界中。些现象的相关概念而得到的模型。概念模型所表现的 含义独立于具体的环境状态。 兰州大学硕士学位论支基于本体的信息集成研究 “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 “形式化”指o n t o l o g y 是计算机可读的( 即能被计算机处理) 。 “共享”指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即 o n t o l o g y 针对的是团体而非个体的共识。 o n t o l o g y 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认 可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇问相互关系的明确定义。 2 1 3 本体论的分类 根据本体不同方面的属性( 如形式化程度、目的和描述对象) ,可以对本体进行不同的分类i 。 根据本体的形式化程度不同,可以把本体分为高度非形式化的( h i g h l yi n f o r m a l ) 、结构非形式化 的( s u u c t u r e d - i n f o r m a l ) 、半形式化的( s e m i - f o r m a l ) 和严格形式化的( r i g o r o u s l yf o r m a l ) 。 为了区别不同的领域本体应对本体进行有效的分类,可依据详细程度和领域依赖度。详细程度 是指描述或刻画建模对象的程度,详细程度高的称作参考本体( r e f e r e n c eo n t o l o g y ) ,详细程度低的称 为共享本体( s h a r eo n t o l o g y ) 。 领域依赖程度可细分为顶级( t o p - l e v e l ) 、领域( d o m a i n ) 、任务( t a s k ) 和应用( a p p l i c a t i o n ) 本体等4 类, 见图2 - 2 按领域依赖程度划分本体层级结构。其中: 顶级本体描述的是最普通的概念及概念之间的关系。如空间、时间、事件、行为等等,它独立 于具体的应用领域。 领域本体描述的是特定领域中的概念及概念之间的关系。 任务本体描述的是特定任务或行为中的概念及概念之间的关系。领域本体和任务本体通过特殊 化顶级本体来描述一般领域、任务或活动中的概念: 应用本体描述的是依赖于特定领域及任务的概念及概念之间的关系,这些概念对应于领域实体 执行一个活动的作用,是领域和任务本体的特殊化。 图2 - 2 按领域依赖程度划分的o n t o l o g y 层级结构 6 兰州大学硕士学位论文基于本体的信息集成研究 2 1 4 本体论的作用 总的来说,构建本体的目的是为了实现某种程度的知识共享和重用。b c h a n d r a s e k a r a n 等人认为 本体的作用主要有以f 两方面l ”i : 1 ) 本体的分析澄清了领域知识的结构,从而为知识表示打好基础。本体可以重片 ,从而避免重 复的领域知识分析。 2 ) 使统一的术语和概念使知识共享成为可能。 本体的具体作用1 1 3 1 即通讯( c o m m u n i c a t i o n ) 、互操作( i n t e r - o p e r a b i l i t y ) 和系统工程( s y s t e m s e n g i n e e r i n g ) 。阐述如下: 1 ) 通讯:主要为人与人之间或组织与组织之间的通讯提供共同的词汇。 2 ) 互操作:在不同的建模方法、范式、语言和软件工具之间进行翻译和映射,以实现不同系统 之间的互操作和集成。 3 ) 系统工程:本体分析能够为系统工程提供以下方面的好处: 重用( r e - u s a b i l i t y ) :本体是领域内重要实体、属性、过程及其相互关系形式化描述的基础。 这种形式化描述可成为软件系统中可重用和共享的组件( c o m p o n e n t ) 。 0 知识获取( k n o w l e d g ea c q u i s i t i o n ) :当构建基于知识的系统时,用已有的本体作为起点和基础 来指导知识的获取,可以提高其速度和可靠性。 0 可靠性( r e l i a b i l i t y ) - 形式化的表达使得自动的一致性检查成为可能,从而提高了软件的可靠 性。 固规范描述( s p e c i f l c a t i o n ) :本体分析有助于确定i t 系统( 如知识库) 的需求和规范。 2 1 5 本体论的应用 由于o n t o l o g y 有非常广阔的应用领域,因而实际中的应用程度也不同,可分为几个级别讨论【1 4 j : 第一级:在分布代理中o n t o l o g y 作为代理间相互通讯的共同词汇。 第二级:在关系数据库中,o n t o l o g y 作为概念层数据表,其中结构化的概念和关系使用了 o n t o l o g y 概念。 第三级:在某些知识库中o n t o l o g y 被用来组织信息主干( b a c k b o n e ) 。 第四级:o n t o l o g y 能同答有关其本身性能的问题。 第五级:o n t o l o g y 的标准化。 第六级:在不同的概念层数据表间进行数据转换,不仅是结构上的转换,也是语义上的转换。 第七级:在知识库中,o n t o l o g y 用f 知识重用。 第八级:o n t o l o g y 能用于o n t o l o g y 的重组。 目前,o n t o l o g y 成功地运用丁知识r 程旧“,知识表示l ”i ,定性建模,语言i :程1 1 9 ) 数据 库设计 2 0 1 信息建模 2 1 1 信息集成1 ,面向对象分析 2 3 1 信息检索与抽取 ”i ,知识管理和组织, 基j :代理的系统分析”6 。本体论更广泛地用于企业信息集成2 “,自然语言翻泽,医学领 7 兰州太学硕士掌住论文基于本体的信包集成研究 域川,机械工程1 3 2 i ,知识标准化 3 3 t 电子商务p “,地理信息系统1 ,生物信息系统1 。 2 2 本体的构建和描述 2 2 1 本体论的建模元语 p e r e z 等人用分类法组织了本体论,归纳出5 个基本的建模元语( m o d e l i n gp r i m i t i v e ) 1 37 j :类或 概念、关系、函数、公理和实例。 1 )类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事物,如工作描述、功能、行为、策略和推理过程等。 概念的定义一般采用框架( f r a m e ) 结构,包括概念的名称,与其他概念之间关系的集合,以 及用自然语言对该概念的描述。 2 ) 关系( r e l a t i o n s ) 代表了在领域中概念之间的交互作用。形式上定义为n 维笛卡儿乘积的子 集:r :c l c 2 xc t l 。如:子类关系( s u b c l a s so f ) 。在语义上关系对应于对象元组的集 合。 3 )函数( f u n c t i o n s ) 一类特殊的关系。该关系中前n 1 个元素可以唯一决定第n 个元素。形式 化的定义如下:f :c l c 2 c 。l g 。例如m o t h e r o f 关系就是一个函数,其中m o t h e r o f ( x y ) 表示y 是x 的母亲,显然x 可以唯一确定他的母亲y 。 4 ) 公理( a x i o m s ) 代表永真断言。 5 ) 实例( i n s t a n c e s ) 代表元素。从语义上分析,实例表示的就是对象。 另外,从语义上讲,本体概念间的基本关系共有4 种,如表2 1 所示。 表2 - 1 本体概念间的基本关系 关系名关系 描 述 p a r t - o f 表达概念之间部分与整体的关系 k i r i d - o f表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系 i n s t a n c e - o f表达概念的实例与概念之间的关系,类似于面向对象中的对象和类之间的关系 a t t r i b u t e 甜 表达某个概念是另一个概念的属性,如“价格”是桌子的一个属性 在实际的应用中,不一定要严格地按照上述5 类元语来构建o n t o l o g y ,概念之间的关系也不仅 限于上面列出的4 种基本关系,可以根据特定领域的具体情况定义相应的关系,以满足应用的需要。 2 2 2 本体的构建准则 本体作为通讯、互操作和系统工程的基础,必须经过精心的设计,实际上,本体的构建是一个 非常费时费力的过程。t r g r u b e r 在1 9 9 5 年提出了指导本体构建的5 个准则【3 8 】,即: 1 ) 清晰( c l a r i t y ) :本体必须有效地说明所定义术语的意思。定义应该是客观的,与背景独立的。 当定义用逻辑公理表达时,应该是形式化的。定义应该尽可能的完整且i e l ;i 自然语言加以说明。 2 ) 一致( c o h e r e n c e ) :本体应支持与其定义相一致的推理,它所定义的公理以及用自然语言进行 8 兰州大学硕士学位论文基于奉体的信息集成研究 说明的文档都应该具有一致性。 3 ) 可扩展性( e x t e n d i b i l i t y ) :本体应为可预料到的任务提供概念基础。它应支持在已有的概念基 础上定义新的术语,以满足特殊的需求,而无需修改已有的概念定义。 4 ) 编码偏好程度最小( m i n i m a le n c o d i n gb i a s ) :概念的描述不应该依赖丁某一种特殊的符号层的 表示方法,因为实际的系统可能采用不周的知识表示方法。 5 ) 本体约定最t x ( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) :本体约定应该最小,只要能够满足特定的知 识共享需求即可。这可以通过定义约束最弱的公理以及只定义通讯所需的词汇来保证。 2 2 3 本体的构建方法 尽管存在着许多本体构建方法,但目前还没有一种方法能够被广泛接受简要介绍其中的几种。 1 c y c 方法学1 由d o u g l a sl e n a t 于1 9 9 0 年提出,c y c 方法学由以下步骤构成:首先抽取蕴涵在各个数据源中 的通用知识,然后通过自然语言处理和机器学习工具获取本体中新的知识。 2 u s e h o l d & k i n g 的“骨架法1 4 0 1 在开发企业本体的过程中,于1 9 9 5 年提出了一种本体构建方法。该方法建议了一些通用步骤来 构建本体:1 ) 确定本体构建的目标;2 ) 捕获领域中核心的概念和概念之间的关系;3 ) 使用一种形 式化的语言来表达本体。本体可被重用来构建新的本体。 3 o r u n i n g e r & f o x 的评价法1 4 1 1 建议了一种形式化方法来构建本体。首先直观地确定一些本体可能会使用到的一些应用。然后, 提出一些使用自然语言描述的问题( 被称为资格问题) 来确定本体的范围,即这些问题能够被本体回 答。这些问题被用来抽取主要的概念,它们的属性、关系和公理。这些概念、属性、关系和公理都 被定义在p r o l o g 中,因而g r u n i n g e r & f o x 所提出的这种方法学是一个非常形式化的方法。 4 b e m a r a se ta l 的k a c t u s 方法1 4 2 】 由b e m a r a s 等人在1 9 9 6 年提出,该方法基于k a c t u s 项目。本体的构建依赖于应用知识库, 使用自底向上的提取方法构建。越多的应用被建立,本体就变得越通用,最后本体从知识库中产生。 应用这种方法是一个重复的过程,本体表达了所有应用中的需要的概念化知识。 5 m e t h o n t o l o g y e 4 w 是一个融合了多种技术的本体构建方法。该方法的框架保证了本体在知识层面上的构建,包括: 确定本体开发过程中主要的活动以及每个活动中的步骤,一个基于快速原型法的生命周期等。 m e t h o n t o l o g y 被本体开发环境w e b o d e 部分支持。 6 s e n s u s 方法1 4 4 j 与上面介绍的方法学具有较大的不同,s e n s u s 方法使用自顶向下的方法从一个大本体中产生 一个特定的领域本体,主要是通过自动选择s e n s u s 本体中相关领域的条目和剪枝操作完成特定领 域本体的构建。 9 兰州走学硕士学位论文基于本体的信息集成研究 2 2 4 本体的描述语言 本体的描述语言可被看作是以知识共享为目的而设计的知识表示语言。f 面就对儿个主要的传 统本体( 知识) 描述语言作简要介绍。 2 2 4 1k i f 与o n t o l i n g u a k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 1 4 s l 是一种为在不同计算机系统之间交换知识而设计的面向计 算机的语言,这些计算机系统可以是由不同的开发者、在不同的时间、用不同的语言所创建的。k i f 设计的主要目的不是为了与用户交互,也不是要用它作为一个系统内部的知识描述语言,而是作为 一种用于不同系统间进行知识交互的通用语言。 k i f 注重于逻辑表示的充分性,所以在高效的推理能力方面不强;但由于对k i f 的理解并不依 赖于特定的解释器,使k i f 十分适台作为知识级通信的表示语言。不同的计算机系统可以具有自己 专门的内部数据结构和知识表示形式,在进行相互问的知识交互时,要将自己内部的表示方式转换 成统一的k i f 格式,从而实现异类系统的知识交互,所以k i f 起着“桥梁”的作用。 o n t o l i n g u a t “l b - i 以看作是基于k i f 建立起来的一种本体交换语言。其使用一个基于k i f 的清晰 语义对本体的设计和说明进行支持。o n t o l i n g u a 将其允许的k i v i 表达式的集合定义为一个本体,称 为“f r a m eo n t o l o g y ”。f r a m eo n t o l o g y 以陈述形式说明面向对象的基本表示元素,如类、实例和属 性约束等。o n t o l i n g u a 的定义是l i s p 风格的,其对每个自变量表、文件字符串以及由关键字标注的 k i f 文旬集合都关联一个符号。一个o n t o l i n g u a 本体的组成为:类、关系、函数以及不同对象的定 义,还有与这些术语相关的公理的定义。f r a m eo m o l o g y 和k i f 自身的o n t o l o g y 、工程数学o n t o l o g y 、 配置o n t o l o g y 以及工作分配o n t o l o g y ,一起构成了支持分步计算环境下协同工作的共享本体库。但 是o n t o l i n g u a 高效的表示能力使得在其之上建立推理机制变得困难。 2 2 4 20 k b c k i f 作为纯粹的表示语言并没有包含针对知识库的存取和操作而设计的命令。由斯坦福大学知 识系统实验室提出的o k b c ( o p e nk n o w l e d g eb a s ec o n n e c t i v i t y ) ”j 是对k i f 的补充,它是为访问基于 框架的知识表示系统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论