(计算机应用技术专业论文)本体映射的研究.pdf_第1页
(计算机应用技术专业论文)本体映射的研究.pdf_第2页
(计算机应用技术专业论文)本体映射的研究.pdf_第3页
(计算机应用技术专业论文)本体映射的研究.pdf_第4页
(计算机应用技术专业论文)本体映射的研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)本体映射的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东科技大学硕士学位论文 摘要 摘要 本体最初是一个哲学概念,用来描述事物的本质。在2 0 世纪8 0 年代,科研人员把 本体引入人工智能领域,并赋予其新的含义。在计算机科学领域,本体被定义为共享概 念模型的形式化规范说明。应用本体的主要目的是为了知识共享和复用。科研人员从实 际出发提出多种构造本体的标准,其中最有影响的是t r g r u b e r 提出的5 个准则:明 确性和客观性、一致性、完全性、最大单调可扩展性、最小承诺。因为本体的构造还没 有个统一的标准,所以在同一个领域内产生了大量不同的本体。这些本体问是异构的, 本体映射能解决本体异构问题。 本体映射的关键是相似度的计算。对于相似度的计算,目前常用的方法有基于实例 和利用启发规则两种,这两种方法都有缺点。本文把两种方法进行合并和改进,生成一 种改进的相似度计算方法。本体一般理解为概念、属性和关系的集合。因为概念的属性 和关系对概念有重要的描述作用,所以在本体映射中,不仅要考虑概念的相似度,而且 要考虑属性和关系对概念相似度的影响。 本文从两个方面对概念的相似度进行计算。首先计算概念的语义相似度,然后计算 概念的描述相似度。语义相似度是指概念之间自身语义的相似程度;描述相似度就是从 属性和关系的角度说明概念的相似性,是指概念的属性或概念间关系的相似程度。在此 基础上设计了一个本体映射框架m o m f ( m u l t i p l e w a y o n t o l o g y m a p p i n g f r a m e w o r k ) ,采用 混合的体系结构。该映射框架由应用本体、参考层、共享领域词汇表、局部本体和映射 模块五部分组成。应用本体中包含一个已经存在的上层( b q p 1 e v e l ) 本体。本文中使用 w o r d n e t 系统。参考层提供了数据类型的匹配表和相关信息。共享领域词汇表是一个共 享领域的全局术语词汇表。词汇表根据w o r d n e t 来分类,表的每一行包含某一术语的同 义词。各个局部本体的建立都以共享领域词汇表为参考。映射模块是映射框架的核心部 分,它的任务是计算概念的相似度。利用两个“教师”本体对该映射框架和计算方法进 行了验证和分析。最后,对所做的工作进行总结,展望了未来所要做的工作,并陈述了 本体和本体映射的研究方向及发展前景。 关键词:本体:本体映射:语义相似度;描述相似度 坐查型垫查兰堡圭兰焦堡苎! ! 兰 a b s t r a c t o n t o l o g yi sap h i l o s o p h i c a lc o n c e p to r i g i n a l l y , a n di td e s c r i b e st h en a t u r e so fo b j e c t s i n 1 9 8 0 ,s ,s c i e n t i f i cr e s e a r c h e r si n t r o d u c e do n t o l o g yi n t ot h ef i e l do fa r t i f i c i a li n t e l l i g e n c e ( a d , s oo n t o l o g yh a sn e wm e a n i n g s i nt h ef i e l d so fc o m p u t e rs c i e n c e ,o n t o l o g yi s af o r m a l s p e c i f i c a t i o no fas h a r e dc o n c e p t u a l i z a t i o n t h em a i np u r p o s eo fa p p l y i n go n t o l o g yi s k n o w l e d g es h a r i n ga n dr e u s i n g r e s e a r c h e r sp r o p o s em a n y c r i t e r i af o rb u i l d i n go n t o l o g y t h e c r i t e r i o np r o p o s e db yt rg r u b e ri so n eo ft h em o s ti n f l u e n t i a l i ti n c l u d e sf i v er e g u l a t i o n s : c l a r i t ya n do b j e c t i v i t y , c o h e r e n c e ,c o m p l e t e n e s s ,m a x i m a le x t e n d i b i l i t y , m i n i m a lc o m m i t m e n t b e c a u s et h e r ei sn o tac o m m o nc r i t e r i o nf o rb u i l d i n go n t o l o g y , s og r e a td e a l so fd i f f e r e n t o n t o l o g i e sa r ec o n s t r u c t e di nt h e8 a l n ed o m a i n t h e s eo n t o l o g i e sa r eh e t e r o g e n e o u s o n t o l o g y m a p p i n gc a ns o l v e t h ep r o b l e mo fo n t o l o g i c a lh e t e r o g e n e i t y t h ek e yo fo n t o l o g ym a p p i n gi st h ec o m p u t a t i o no fs i m i l a r i t i e s b y 缸t h e r ea r et w o u s u a lm e t h o d so fc o m p u t i n gs i m i l a r i t i e s o n ei sb a s e do ni n s t a n c e s ,a n dt h eo t h e ru s e s h e u r i s t i cr u l e s b u tt h e yh a v es h o r t c o m i n gr e s p e c t i v e l y i nt h i sd i s s e r t a t i o n , a ni m p r o v e d m e t h o do fc o m p u t i n gs i m i l a r i t i e si sp u tf o r w a r d i tc o m b i n e sa n di m p r o v e st h ea b o v et w o m e t h o d s o n t o l o g yi su s u a l l yv i e w e d a st h es e t so f c o n c e p t s ,a t t r i b u t e sa n dr e l a t i o n s b e c a u s e a t t r i b u t e sa n dr e l a t i o n so fc o n c e p t sp l a yi m p o r t a n td e s c r i p t i v er o l e s ,o n t o l o g ym a p p i n g c o n s i d e r sn o to n l yt h es i m i l a r i t i e so fs i m p l ec o n c e p tp a i r s ,b u ta l s ot h ei n f l u e n c eo fa t t r i b u t e s a n dr e l a t i o n st ot h ec o n c e p ts i m i l a r i t y i nt h i sd i s s e r t a t i o n ,t h es i m i l a r i t yi sc o m p u t e dw i t ht w oa s p e c t s :f i r s tc o m p u t i n gt h e s e m a n t i cs i m i l a r i t y , a n dt h e nc o m p u t i n gt h ed e s c r i p t i v es i m i l a r i t y s e m a n t i cs i m i l a r i t y d e s c r i b e st h ed e g r e e so fs i m i l a r i t yb e t w e e nt w oc o n c e p t s d e s c r i p t i v es i m i l a r i t ye x p l a i n st h e s i m i l a r i t yo f c o n c e p t sf r o mt h ev i e wo fa t t r i b u t e sa n dr e l a t i o n s i ti st h es i m i l a r i t yo f a t t r i b u t e s o rr e l a t i o n s a n da no n t o l o g y - m a p p i n gf r a m e w o r k ( m u l t i w a yo n t o l o g ym a p p i n gf r a m e w o i k m o m f ) i sd e s i g n e d i ti sak i n do f h y b r i da r c h i t e c t u r e t h ef r a m e w o r kh a sf i v ec o m p o n e n t s : a p p l i c a t i o no n t o l o g y , r e f e r e n c el a y e r , s h a r e dd o m a i nv o c a b u l a r y , l o c a lo n t o l o g ya n dm a p p i n g m o d e l i na p p l i c a t i o no n t o l o g y , t h e r ei sa ne x i s t e dt o p - l e v e lo n t o l o g y t h i sd i s s e r t a t i o nu s e s w o r d n e t 。r e f e r e n c el a y e ro f f e r sam a t c h i n gt a b l eo f d a t at y p e sa n do t h e rr e l a t i v ei n f o r m a t i o n t h es h a r e dd o m a i nv o c a b u l a r yi sag l o b a lt e r mv o c a b u l a r yo ft h es h a r e dd o m a i n i ti s 山东科技大学硕士学位论文 摘要 c l a s s i f i e dw i t hw o r d n e t e a c hr o wo f t h ev o c a b u l a r ys t o r e st h e s a u r u s e so f at e r m u s e r sm a k e r e f e r e n c et ot h es h a r e dd o m a i nv o c a b u l a r yw h e nb u i l d i n gt h e i rl o c a lo n t o l o g y m a p p i n g m o d e li st h ec o r co fm o m f , w h o s et a s k sa r et oc o m p u t es i m i l a r i t i e so fc o n c e p t s a n dt h e m a p p i n g f i :a m e w o r ka n dm e t h o d sa l ev e r i f i e da n da n a l y z e db yt w ot e a c h e ro n t o l o g i e s a tt h ee n do ft h ed i s s e r t a t i o n , t h ej o b sa r es u m m a r i z e da n df u t u r ew o r ki sp o i n t e do u t f u r t h e r m o r e ,t h er e s e a r c hd i r e c t i o n sa n dd e v e l o p m e n tp r o s p e c t sf 6 ro n t o l o g ya n do n t o l o g y m a p p i n ga l em e n t i o n e d k e y w o r d s :o n t o l o g y ;o n t o l o g ym a p p i n g ;s e m a n t i cs i m i l a r i t y ;d e s c r i p t i v es i m i l a r i t y 声明 本人呈交给山东科技大学的这篇硕士论文,除了所列参考文献和世所公认 的文献外,全部是本人在导师指导下的研究成果。该论文没有呈交于其它任何 学术机关作鉴定。 研究生签名:英f 丽萍 日 期:2 0 0 5 矗j a f f i r m a t i o n id e c l a r et h a tt h i sd i s s e r t a t i o n ,s u b m i t t e di nf u l f i l l m e n to ft h er e q u i r e m e n t sf o r t h ea w a r do fm a s t e ro fe n g i n e e r i n g ,i ns h a n d o n gu n i v e r s i t yo fs c i e n c ea n d t e c h n o l o g y , i sw h o l l ym yo w nw o r ku n l e s s r e f e r e n c e do fa c k n o w l e d g e t h e d o c u m e n th a sn o tb e e ns u b m i t t e df o rq u a l i f i c a t i o na ta n yo t h e ra c a d e m i ci n s t i t u t e s i g n a t u r e = 邪丽萍牙j j f 明汗 d a t e : 2 0 0 5 6 i 山东科技大学硕士学位论文 1 绪论 1 1 课题提出 本体( o n t o l o g y ) - - 词来源于哲学领域,主要研究物质的性质及其内在关系。长期以 来,人工智能偏重于问题求解技能的研究,在一定程度上忽略了问题存在的领域。对于 问题求解技能的研究,它只考虑相关的领域知识,如专家系统,只对某一专业领域知识 进行处理,而没有涉及到多个领域共享知识的处理。随着计算机应用需求的不断增强, 知识库的应用范围不断扩大,大规模的知识模型共享、系统集成以及知识重用就显得越 来越重要。因此,在2 0 世纪8 0 年代,科研人员把本体引入人工智能领域,对赋予其新 的含义。最近几年,本体广泛应用在知识表示、知识共享、知识集成、知识重用和知识 管理等领域中。 许多学科的研究都使用本体这个概念,但却存在不完全相同的定义和理解。本体的 定义有许多种,定义之间的侧重点也各不相同,但本体的本质是对共享概念的一个正规 清晰的描述。在计算机领域,本体被定义为共享概念模型的形式化的规范说明【3 1 。本体 通常包含5 个建模原语:类( c l a s s e s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理( a x i o m s ) 和实例( i n s t a n c e s ) ,用这些建模原语可以构造和设计个本体。在构造和设计本体时有 相应的设计准则和具体的构造步骤。 科研人员在人工智能领域引入本体是为了便于进行知识的共享和复用。目前,本体 也应用在智能信息集成、协作信息系统、信息检索、电子商务和知识管理等领域。由于 本体可以描述数据的语义,所以在网络或传统数据库中的任何数据( 或元数据) 都可以 用本体来表示,以使不同的团体可以相互理解。 本体的应用领域越来越多,但应用的主要目的都是为了知识共享和复用。由于本体 自身的分散特性,不同的用户可以构造不同的本体,所以导致了在同一个或者重叠的领 域产生了许多不同的本体。即使个小的背景领域也可能出现许多不同的本体。在研究 生期间,我参加了国家自然科学基金项目“组织决策支持系统( o d s s ) 中基于本体论 的模型管理研究”( 7 0 3 7 1 0 5 2 ) 的研究,主要是决策本体的研究。在该项目中,需要对 一个o d s s 建立一个决策本体,以便于不同部门对决策模型进行复用。但不同的用户, 共同一个o d s s 建立的本体可能是不同的。这些本体间是异构的,它们之间不能进行互 山东科技大学硕士学位论文绪论 一 操作,用户之间也不能相互理解。类似的问题也出现在数据库中。在联合数据库中,单 个数据库或者成组的数据库之间有不同的模式结构,所以在联合数据库的应用中,存在 用户之间不能相互理解的问题。因为本体的构造是一个非常费时费力的过程,所以一个 用户在同一应用领域中同时建立多个不同的本体足不现实的。在同一领域内,要想实现 不同本体问的互操作就必须解决本体间的异构问题。 本体的异构一般可分为结构异构和语义异构。结构异构是指信息的表示不同,也称 为结构冲突。语义异构是指信息的意义不同。为了实现异构本体问的互操作,一般可采 用三种方法:( 1 ) 本体问建立包含关系,目标本体简单地包含源本体;( 2 ) 本体间建立映 射关系;( 3 ) 对本体进行台并,生成一个完整的公共本体。在这三种方法中,方法( 1 ) 的 缺点是源本体的信息只能被复用而不能被修改。方法( 3 ) 的难度较大,不易实现:方法( 2 ) 比较合适,所以一般都用本体的映射来解决本体间的异构问题。 1 2 本体映射的研究现状 随着本体应用领域的增多,如何解决本体间的互操作是一个比较棘手的问题。本体 映射能更好地解决本体异构问题。本体映射确定不同的本体怎样被映射或被相互关联。 它是奉体间概念和关系取得一致性的一个规范说明。现在本体映射经常面对错综复杂的 问题,不同的团体组织对“映射”的称谓也各不相同,如:a l i g n m e n t , m e r g i i l 舀f u s i o n , i n t e g r a t i o n ,m o r p h i s m ,c o m b i n i n g 。本体的集成是本体映射的另一种说法。在定意义上, 本体集成不仅仅包括本体映射,它还包括本体之间的包含。与本体映射相关的概念还有 本体翻译。它就是把一个本体中的数据集翻译成为另一个本体中的数据集。o n t o m e r g e 就是一个翻译系统 9 1 。它翻译d a m l 的数据集成为新的d a m l 数据集,但这两个数据 集在不同的本体中。 本体映射一般分信息本体化、相似性提取、语义映射、映射执行和映射后处理过程 共五步来进行。相似性提取是本体映射的一个重要步骤,它主要是进行相似度的计算, 并产生一个相似矩阵。对于相似度的计算,常用的基于实例的方法和利用启发规则的方 法都有自身的缺点。由于本体一般理解为概念、属性和关系的集合,属性是指概念的属 性,关系是指概念之间的关系,所以在本体映射中,只是对概念的相似度进行计算,而 没有考虑概念的属性和关系对概念的描述作用。在应用中,一般也只考虑两个本体闻的 映射,对多个本体间的映射没有进行深入地研究。即使在两个本体的映射中,一般也只 映射,对多个本体间的映射没有进行深入地研究。即使在两个本体的映射中,一般也只 2 山东科技大学硕士学位论文 绪论 考虑两个概念间的简单映射。 目前国外许多著名的大学和实验室都对本体映射进行了研究,并且一些具体的映射 系统和实现方法已经被开发出来,如华盛顿大学研究的g l u e 系统【2 2 】和本体代数方法。 本体代数方法是指利用斯坦福大学设计的本体代数来进行本体的映射。 1 3 主要研究内容 本文主要致力于研究本体映射中概念相似度的计算,并对多个概念和多个本体间的 映射进行讨论。主要内容包括: 设计一种改进的相似度计算方法 把基于实例的方法和启发规则方法进行结合和改进,生成一种新的相似度计算方 法,以使相似度的计算更加精确。 对概念相似度的计算进行改进 从两个方面来计算概念的相似度,并把概念的相似度分成语义相似度和描述相似 度。语义相似度是考虑概念自身的相似情况。描述相似度是考虑概念属性和关系的相似 情况。同时考虑这两个相似度可以使相似度的计算更加全面。描述相似度分成属性相似 度和关系相似度。由于一个概念会有多个属性,所以在计算属性相似度时,可以利用属 性的信息增益和属性的逻辑关系来确定属性的优先级和属性的相似情况。 - 设计一个本体映射框架 利用改进的相似度计算方法,设计一个改进的本体映射框架多方法本体映射框 架( m u l t i p l e - w a yo n t o l o g y m a p p i n gf r a m e w o r k ,m o m f ) ,该映射框架包括五部分: 应用本体:它包含w o r d n e t 系统,并提供了概念术语的同义词; 参考层:它提供概念术语的数据类型匹配表和一些相关信息; 共享领域词汇表:它是一个共享领域的全局术语词汇表: 各个局部本体:需要进行映射的本体; 映射模块:它的任务是利用改进的相似度计算方法进行相似度的计算。 对两个本体中多个概念之间的l :m 和n :l 的关系映射进行探讨 一对多个本体间的l :m ,n :l 及m - n 的关系映射进行探讨 _ 提出用语义归结和名称匹配方法来进行概念相似性的推导 本文的具体安排如下: 3 山东科技大学硕士学位论文绪论 第一章为绪论部分; 第二章阐述了本体的基本概念、用途、描述语言和应用领域等; 第三章阐述了本体映射的基本概念和应用现状; 第四章提出了改进的相似度计算方法,概念相似度计算的改进和m o m f 映射框架; 并提出其它些相似性的推导方法; 第五章主要以两个“教师”本体为例,说明概念相似度的计算和改进的映射框架; 第六章是本文的总结,并展望了下步的研究方向和内容。 4 山东科技大学硕士学位论文 本体概述 2 本体概述 随着社会的发展和计算机应用需求的不断增强,计算机的发展日新月异,然而在快 速发展的同时也面临着知识表示、信息的组织、软件复用等一些困难。特别是由于互联 网的快速发展,面对信息的海洋,如何组织、管理和维护海量的信息,并为用户提供有 效的服务成为一个难题。随着跨学科研究的增多,学科之间知识的共享和复用越来越频 繁。大规模的知识模型共享、系统集成以及知识重用也就显得越来越重要。因此,上个 世纪八十年代,科研人员把本体引入人工智能领域。后来,本体这个概念在其它计算机 领域也得到应用。 2 1 本体简介 2 1 1 本体的词源及科技译名 本体的概念最早来源于亚里士多德( 公元前3 8 4 3 2 2 年) 在形而上学方面对事 物存在本质的研究,后来成为哲学的研究分支【1 4 1 。在哲学中也有本体论,但本体和本体 论是不同的概念。本体论( o n t o l o g y :o 大写) 是研究客观事物存在的本质。它与认识论 ( e p i s t e m o l o g y ) 相对应,认识论研究人类知识的本质和来源。也就是说,本体论研究客 观存在,认识论研究主观认知。虽然本体论研究“存在”,但不是研究“存在”的本身, 而是对“存在”的一种描述、解释或认识。本体( o n t o l o g y :0 小写) 是形成现象的根本实 体( 常与“现象”相对) ,是指自然界中存在的实体。目前,小写开头的o n t o l o g y 是计算 机领域广泛使用的概念。 近些年来,随着信息技术的发展和互联网的广泛应用,o n t o l o g y 这个词经常会碰到。 目前该词的中文译名较多,如“本体论”、“本体”、“存在论”、“知识本体”、“概 念集”、“本体模型”等1 5 5 1 。在众多英汉字典中给出的译名都是“本体论”和“实体论”。 但在中文的哲学书刊中o n t o l o g y 一般称为“本体论”。由o n t o l o g y 在计算机领域的定义 和使用可以看到,o n t o l o g y 的本质是概念化。它表达的是概念及概念之间的关系,即术 语及术语间关系的表示被称为o n t o l o g y , l 园j l t 将o n t o l o g y 的科技译名定为本体较好。在本 文中o n t o l o g y 翻译为“本体”。 5 山东科技大学硕士学位论文 本体概述 2 1 2 本体的定义及相关概念 本体的研究及应用曰趋成熟,但在各种文献中,本体的定义却有许多种。在人工智 能领域,最早给出本体定义的是n e c h e s 等人【7 1 。n e h c s 认为:“本体定义了组成主题领 域词汇表的基本术语及其关系,以及利用术语和关系组合规则来定义词汇的外延。”也 就是说,本体不但包含明确定义的术语,还包括根据规则导出的术语,是术语的一个闭 包。后来在信息系统、知识系统等领域,越来越多的人研究本体,并给出了许多不同的 定义。 本体的几个代表性定义: ( 1 ) 本体是对于“概念化”的某一部分的明确的总结或表达【“。 ( 2 ) 本体在不同的场合分别指“概念化”或“本体理论”【2 1 。 ( 3 ) 本体是对于“概念化”的明确表达射。 ( 4 ) 本体是用于描述或表达某一领域知识的一组概念或术语。它可以用来组织知识 库较高层次的知识,也可以用来描述特定领域的知识n ( 5 ) 本体属于人工智能领域中的内容理论( c o n t e n tt h e o r i e s ) ,它研究特定领域知识 的对象分类、对象属性和对象间的关系,它为领域知识的描述提供术语i5 1 。 从以上定义可以看出:本体通过对于概念、术语及其相互关系的规范化描述,刻画 出某一领域的基本知识体系和描述语言。最著名并被引用得最为广泛的定义是在1 9 9 3 年由g r u b e r 提出的,即本体是对概念化的明确的规范说明”【8 】。1 9 9 7 年b o r s t 对g r u b e r 的定义作了改进:“本体是对共享的概念化的形式化的明确的规范说明”【”】。后来s t u d e r 等人对这两个定义进行了解释1 1 6 】:“概念化”是指在识别出与世界上某些现象相关的概 念后,得出关于这些现象的抽象说明;“明确的”意味着概念类型及概念的使用约束都 有明确的定义:“形式化”是指本体应当是机器可读的:“共享的”指本体捕获的是已 达成共同认可的知识,即本体不是个人私有的,而是一个组织所公认的。虽然关于本体 的定义有许多种,但本体的本质是对共享概念的正规清晰的描述。在计算机领域,本体 被定义为共享概念模型的形式化的规范说明。 随着本体应用范围的不断扩大,在实际应用中又产生了一些与本体相关的概念和术 语,如: 6 些查型垫查兰堡主兰堡丝苎 查竺塑望 本体理论( o n t o l o g i c a lt h e o r y ) :表达本体知识的逻辑理论。它是一种特殊的知识库, 是本体知识赖以存在的介质,主要强调具体的产品。 本体约定( o n t o l o g i c a lc o m m i t m e n t ) :对使用某一本体所定义词汇,并与其含义保持 相一致的承诺【l j 。 本体工程( o n t o l o g i c a le n g i n e e r i n g ) :知识工程的分支,它研究如何用本体论的原则 来构造本体理论 2 】。 2 1 。3 本体的特点 本体提供一组术语来描述某个领域,实际上是一组共享的具有公共理解的术语。即 某一领域内的一个专业术语表,以供需要共享一个领域内信息的研究人员使用。这些术 语问有不同的层次和关系。本体与知识库、数据库和语义网络都有相同和不同之处。 本体只包含一些术语及根据一些规则导出的术语,是术语的集合。而知识库是使用 某个领域内的术语来表达该领域的事实。例如:一个医药本体只会包含“自血病”、“皮 肤病”等疾病的具体定义;而知识库所要表达的内容则是具体疾病的诊断情况,即根据 疾病的基本特征来确定如何进行治疗。实际上,如果本体和知识库使用同一语言来表达, 两者之间并没有清晰的界限,区别仅仅在于知识库的哪一部分是可以共享和重用的,哪 一部分是针对特定应用的。这种区别往往还随着时间和背景变化【1 】。 本体和数据库有以下几点不同【1 0 】:( 1 ) 定义本体的语言比通常数据库所使用的语言 在语义、语法上更加丰富;( 2 ) 本体所描述的信息是半结构化的自然语言文本,而非列 表式的信息:( 3 ) 一个本体必须使用用于信息共享和交换的公用术语:( 4 ) 一个本体提供 的是一种领域理论,而不是一个数据容器的结构;( 5 ) 数据库模式并不能对数据提供清 晰的语义,而本体可以提供清晰和正式的语义;( 6 ) 数据库模式不能被共享和复用,模 式一般是对于一个特定的数据库来定义的,而本体能被复用和共享。 本体和语义网络有相同的知识表示形式。它们均可以通过带标记的有向图来表示, 适合于逻辑推理。本体和语义网络的区别有如下几个方面:( 1 ) 从描述的对象和范围来 看,本体是对共享概念模型的规范说明,即其概念在某个特定领域是公认的,是面向特 定领域的概念模型。而语义网络是一种带有标记的有向图,其节点用于表示物理实体、 概念或状态,边用于表示关系,但是对节点和边都没有特殊规定,所以描述的范围比本 体广。它最初用于表示命题信息,现在广泛用在专家系统中来表示知识。( 2 ) 从表示的 角度上看,本体有5 个建模原语,即类、关系、函数、公理和实例,它通过这5 个建模 7 些奎型苎查堂婴主兰竺丝苎 查笪塑垄 原语来严格、正确地刻画所描述的对象。语义网络在深度上不如本体,并且对建模没有 特殊的要求。( 3 ) 从建模条件上看,本体的建立必须有专家的参与,这也是本体目前的 主要缺点之一。语义网络的建立则不必有专家的参与。 2 1 4 本体的分类 根据本体不同方面的属性( 如形式化程度、目的和描述对象) 可以对本体进行不同的 分类 ”。如根据本体的形式化程度不同,可以把本体分为: ( 1 ) 高度非形式化的蝴- i n f o r m a l ) :用自然语言自由随意地表达; ( 2 ) 结构非形式化的( s t r u c t u r e d - i n f o r m a l ) :用受限定的结构式自然语言表达; ( 3 ) 半形式化的( s e m i f o r m a l ) 用人工定义的形式语言表达; ( 4 ) 严格形式化的( r i g o r o u s l yf o r m a l ) :用属性的形式语义、定理和证明严格、仔细地 定义术语,并使之具有正确性和完整性: 根据本体的描述对象不同,可以把本体分为特殊领域本体( 如医药、地理、金融等) 、 一般世界知识本体、问题求解本体和知识表示语言本体。 由于本体的分类方法很多,目前还没有能够被广泛接受的分类标准。以下几个概念 的定义意义明确,并从某种程度上提供了本体的分类方法: ( 1 ) 领域本体:以某一领域为描述对象的本体( 区别于领域的问题和任务) 。如 c y c 1 ”、w o r d n e t 等; ( 2 ) 问题求解模型:以问题的求解方法为描述对象的本体; ( 3 ) 表示本体:以知识表示语言为描述对象的本体。在表示本体中,类、对象、关 系、属性、槽等术语都经过严谨地分析和定义,但不对任何特定的领域作承诺。 g u a r i n o 提出以详细程度和领域依赖度作为本体的划分基础【3 6 1 。详细程度是指描述 或刻画建模对象的程度。它是一个相对的较模糊的概念。详细程度高的本体称为参考本 体。详细程度低的本体称为共享本体。依照领域依赖程度可以分为顶级本体、领域本体、 任务本体和应用本体四类,其中: ( 1 ) 顶级本体描述的是最普通的概念及概念之间的关系,如空间、时间、事件、行 为等等,与具体的应用无关。其它种类的本体都是该类本体的特例。 ( 2 ) 领域本体描述的是特定领域( 医药、汽车等) 中的概念及概念之间的关系。 ( 3 ) 任务本体描述的是特定任务和行为中的概念及概念之间的关系。 ( 4 ) 应用本体描述的是依赖于特定领域和任务的概念及概念之间的关系。 8 山东科技大学硕士学位论文 本体概述 1 9 9 9 年p e r e z 和b 锄i a m i n s 在分析和研究了各种本体分类法的基础上归纳出1 0 种 本体:知识表示本体、普通本体、顶级本体、元( 核心) 本体、领域本体、语言本体、 任务本体、领域任务本体、方法本体和应用本体口7 1 。该分类方法是对g u a r i n o 所提出 分类方法的扩充和细化。但这1 0 种本体之间有交叉,层次不够清晰。 2 1 5 本体的描述语言 本体语言是用来描述本体的。用户可以用本体语言给领域模型编写清晰的、形式化 的概念描述。本体的描述语言需要具备以下特点: 严格定义的语法( aw e l l d e f i n e ds y n t a x ) 严格定义的语义( aw d l d e f i n e ds e m a n t i c s ) 有效的推理支持( e f f i d e n tr e a s o n i n gs u p p o r t ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) 表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 在具体的应用中,本体语言主要分为四大类:非形式化语言、半非形式化语言、半 形式化语言和形式化语言剐。本体也可以用自然语言、语义网络、框架、逻辑语言等来 描述。 在过去十几年中,出现了许多传统的本体描述语言,如:o n t o l i n g u a 、l o o m 、o c m l 、 f l o g i c 、c a r i n e 。它们的语法大多包含无格式的文本【”】。o n t o h n g u a 是一种基于 k ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的语言。它能提供统一的规范格式来构建本体。 o n t o l i n g u a 的特点是;( 1 ) 为构造和维护本体提供统一的、机器可读的方式:( 2 ) 由它构建 的本体可以方便地转化为各种表示形式和推理系统( p r o l o g 、c l i p s 、l o o m 、k i f ) ,从 而使本体与使用它的系统相互分开。目前,o n t o f i n g u a 主要应用在本体服务器中,并作 为一种创建本体的语言。但也有一些项目把o n t o l i n g u a 作为一种实现本体的语言。l o o m 是o n t o s a n r u s 的描述语言,是一种基于一阶谓词逻辑的高级编程语言,属于描述逻辑 ( d e s c r i p t i o n l o g i c ) 体系。它具有如下特点:( 1 ) 提供有较强表达能力和声明性的规范说明: ( 2 ) 提供强大的演绎推理能力;( 3 ) 提供多种编程风格和知识库服务。后来l o o m 发展成 为p o w e r l o o m 语言。该语言是k 的变体。是基于逻辑的,并采用前后链规则( b a c k w a r d a n df o r w a r dc h a i n e r ) 作为推理机制。另外还有一些面向特定本体的本体规约语言,如 c y c l 。它是c y c 系统的描述语言,在c y c 知识库中使用。该语言在一阶谓词演算的基础 上,扩充了等价推理、缺省推理等功能,而且具备一些二阶谓词演算的能力,其语言环 9 坐壅型苎查兰堡主兰垡笙苎 查竺堡堕 境中配有功能很强的可迸行推理的推理机。有些本体语言并不是特别为表示本体而开发 的,如n r k i 。 最近出现了许多基于w e b 的本体语言:r d f s 、s h o e 、x o l 、o m l 、o i l 、d a m l + o 几 以及最新的o w l 1 7 - 2 0 。它们之间的关系如图2 1 所示: 圈2 1 基于w e b 的本体语言金字塔 f i g 2 1 t h e p y r a m i d o f o n t o l o g i c a l l a n g u a g e s b a s e d o n w e b s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i o n s ) 语言是一种基于知识本体的知识表示语 言m 9 。它通过一些表示原知识的标签来扩展h t m l 语言,并将这些标签同一个或多个 知识本体联系起来。这是一种与x m l 相一致的互联网知识表示语言。它使网页编辑者 可以用该语言对他们的互联网文档进行标注。 s h o e 语言是基于h t m l 语法,其它的几种语言都是基于x m l 语法的。x m l 是 一种描述任意文本结构的标记语言,而h t m l 仅仅能描述特殊的超文本文件。一个x m l 文本包含了一套可嵌套的开关标记,每一个标记可以有许多属性值。x m l 的词汇和它 们所允许的组合都不固定,但是可以在每一个x m l 的应用中进行定义。 r d f ( t h er e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 和r d fs c h e m a 合称为r d f ( s ) 。r d f 是 资源描述框架,可以描述对象、类和性质。它不仅描述数据框架,而且可以表示数据框 架。它为书写本体提供一个标准化的语法。 o i l ( t h eo n t o l o g yi n f e r e n c el a y e r o n t o l o g yi n t e r c h a n g el a n g u a g e ) 是一种针对本体 的基于互联网的表现和推理层。它广泛使用基于框架语言的建模原语,并通过描述逻辑 进行推理服务。o i l 提供一种通用的语义互联网标记语言。o i l 标记语言的语法源自 w 3 c 的这些标准。它把基于框架语言的建模原语、描述逻辑所提供的正式语义以及推 理服务结合起来。o i l 的使用比较广泛,支持o i l 的工具也很多,最著名的是o i l e d 。 o i l e d 是一个基于o i l 的本体编辑器。其它一些工具,如o n t o e d i t 、t h ef a c t ( f a s t c l a s s i f i c a t i o no f t e r m i n o l o g i 嚣) s y s t e r n 也都支持o i l 。 本体交换语言x o u o n t o l o g ye x c h a n g el a n g u a g e ) 由s r ii n t e r n a t i o n a l sa r t i f i c i a l 1 0 山东科技大学硕士学位论文 本体概述 i n t e l l i g e n c ec e n t e r ( a r c ) 的b i o i n f o r m a t i e sr e s e a r c hg r o u p 创建。它的语法建立在x m l 基础之上。它使用一般性的方法来定义本体,是一种简单通用的定义本体的方法。因此 x o l 定义的单个x m l 标签集合可阻描述全部本体。最初x o l 是应用在生物信息学领 域。现在它可以应用于各种领域。 o m l f o n t o l o g y m a r k u p l a n g u a g e ) 是在x m l 的基础上产生的一个本体标识语言。 d a m l + o i l a 船& a g e n tm a r k u pl a n g u a g e ) 是一种语义标识语言。它以早期的 w 3 c 标准,如r d f 和r d fs c h e m a 为基础,并用更丰富的建摸原语来扩展这些语言。 它提供了基于框架语言的常用的建模原语。d a m l + o i l 建立在最初d a m l 本体语言 d a m l - o n t 的基础上并合并了许多o i l 的语言成份。 o w l ( o n t o l o g yw e bl a n g u a g e ) 是w 3 c 在r d f ( s ) 和d a m l + 0 i l 的基础上提出的 w e b 本体描述语言。它的中心思想是向下兼容r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论