(系统工程专业论文)语义网中的本体构建技术.pdf_第1页
(系统工程专业论文)语义网中的本体构建技术.pdf_第2页
(系统工程专业论文)语义网中的本体构建技术.pdf_第3页
(系统工程专业论文)语义网中的本体构建技术.pdf_第4页
(系统工程专业论文)语义网中的本体构建技术.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(系统工程专业论文)语义网中的本体构建技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在语义网( s e m a n t i cw 曲) 研究中,本体( o n t o l o g y ) 占有极其重要的地位, 作为一种有效表现概念层次结构和语义的模型,本体被广泛地应用到计算机科 学的众多领域。 本体构建包括两个核心问题:一是如何支持本体构建,二是如何确保本体正 确构建。针对问题一,本文研究开发了本体构建系统o n t o m a n ,以人工的方式 支持本体构建;探讨基于知识元数据驱动本体自动构建。对于问题二,本文提 出了基于判别规则识别本体中不满足概念的最小不一致知识子集( m i n i m a l u n s a t i s f i a b i l i t y - p r e s e r v i n gs u b t b o x e s ,m u p s ) 以确保本体正确构建。 构建工具o n t o m a n 在实现基本的本体实体管理的基础之上,集成不满足概 念分析机制,协助本体建模人员构建本体。 将聚类算法与o d p ( o p e nd i r e c t o r yp r o j e c t ) 目录有机结合,给出了一种基 于知识资源元数据的本体自动构建方法。根据元数据对文档进行聚类形成本体 概念,将生成的概念分别映射到o d p 中确定概念间的层次关系,生成初始本体; 根据内聚性和相关性的变化进行自适应本体学习,实现本体更新和概念丰富。 实验结果表明了方法的有效性。 识别不满足概念c 的最小不一致知识子集是修复该不满足概念的前提。考虑 到不满足概念的传递性,将m u p s 分为三类:完全依赖于c ( m u p s f ) 、传递依 赖于c ( m u p s t ) 和不确定依赖于c ( m u p s u ) 。分析上述分类结果,本体建模 人员和领域专家可以明确下一步修复工作的方向和步骤。提出基于两个对等转 换,即公理细化和本体约简,并应用三个判别规则,识别不满足概念c 的m u p s 的方法。实验结果表明,所得分类结果对于从修复角度评价本体质量以及指导 修复工作都具有重要意义。 关键字:语义网本体构建最小不一致知识子集 i a b s t r a c t a b s t r a c t 1 1 1s e m a n t i cw e b r e s e a r c h ,o n t o l o g yi se x t r e m e l yi m p o r t a n t a sa p r o m i s i n gm o d e l f o rp r e s e n t i n gh i e r a r c h ya n ds e m a n t i cm e a n i n go f c o n c e p t s ,i ti sw i d e l yc o n c e r n e da n d e x t e n s i v e l ya p p l i e dt om a n yf i e l d si nc o m p u t e rs c i e n c ea n dt e c h n o l o g y t h ec o r ei s s u e so fo n t o l o g yc o n s t r u c t i o ni n c l u d et w o p o i n t s :f i r s t ,h o wt os u p p o r t o n t o l o g yc o n s t r u c t i o n ,t h es e c o n di sh o wt oe n s u r et h a tt h eo n t o l o g yc o n s t r u c t e di s c o r r e c t f o rt h ef i r s ti s s u e ,t h eo n t o l o g yc o n s t r u c t i o nt o o lo n t o m a ni sd e v e l o p e dt o s u p p o r tb u i l d i n go n t o l o g ym a n u a l l y , a n do n t o l o g ya u t o m a t i c a l l yb u i l d i n gi sd i s c u s s e d b a s e do nm e t a d a t ao fk n o w l e d g er e s o u r c e s f o rt h es e c o n do n e ,t h ea p p r o a c hf o r i d e n t i f y i n gm i n i m a lu n s a t i s f i a b i l i t y - p r e s e r v i n gs u b t b o x e s ( m u p s ) b a s e do n d i s c r i m i n a t i o nr u l e si sp r o p o s e dt oe n s u r ec o r r e c tc o n s t r u c t i o n t h eo n t o l o g yc o n s t r u c t i o nt o o lo n t o m a nn o t o n l ya c h i e v e st h eb a s i c m a n a g e m e n to fo n t o l o g ye n t i t y , b u ta l s oi n t e g r a t e st h em e c h a n i s mo fa n a l y z i n gt h e u n s a t i s f i a b l ec l a s s ,w h i c hh e l pt ob u i l do n t o l o g y a na u t o m a t i co n t o l o g yc o n s t r u c t i o na p p r o a c hb a s e do nm e t a d a t ao fk n o w l e d g e r e s o u r c e si sp r o p o s e db yi n t e g r a t i n gc l u s t e r i n ga l g o r i t h ma n do p e n d i r e c t o r yp r o j e c t ( o d p ) o n t o l o g yc o n c e p t sa r eg e n e r a t e db yc l u s t e r i n gd o c u m e n t sb a s e do nt h e i r m e t a d a t a , a n dc o n c e p th i e r a r c h yi sf o r m e db a s e do nt h eh i e r a r c h yo fm a p p e d c o n c e p t si no d ea d a p t i v eo n t o l o g yl e a r n i n gi sc o n d u c t e dt ou p d a t et h eo n t o l o g ya n d e n r i c ho n t o l o g yc o n c e p t sb a s e do nt h ec h a n g e so f c o h e s i o na n dc o r r e l a t i o no fc l u s t e r s e x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h ev a l i d i t yo ft h ea p p r o a c h t h ep r e m i s eo fr e p a i r i n gu n s a t i s f i a b l ec l a s sci st oa c q u i r em u p so fc c o n s i d e r t h et r a n s i t i v i t yo f u n s a t i s f i a b i l i t y ,m u p sa r ec l a s s i f i e di n t ot h r e e t y p e s ,f u l l yd e p e n d e n t o nc ( m u p s f ) ,t r a n s i t i v e l yd e p e n d e n to nc ( m u p s t ) a n d u n c e r t a i n l yd e p e n d e n to nc ( m u p s u ) b a s e do nt h ec l a s s i f i c a t i o nm o d e l e r sa n dd o m a i ne x p e r t sc a nh a v eac l e a r d i r e c t i o no nt h er e p a i rw o r k am u p si d e n t i f i c a t i o na p p r o a c hi sp r o p o s e db a s e do n t w oe q u i v a l e n tt r a n s f o r m a t i o n s ,t h a ti s ,a x i o ms p l i r i n ga n do n t o l o g yr e d u c t i o n ,a n d t h r e ed i s c r i m i n a t i o nr u l e s t h ee x p e r i m e n t ss h o wt h es i g n i f i c a n c eo ft h ec l a s s i f i c a t i o n i i a b s t r a c t f o r t h ee v a l u a t i o no ft h eq u a l i t yo fo n t o l o g i e sa n df o r t h er e p a i rw o r k k e yw o r d s :s e m a n t i cw e b ;o n t o l o g yc o n s t r u c t i o n ;m u p s i i i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:乙芝对 二一1 年争月 j 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:乏域 z 一年岁月f e t 南开大学学位论文电子版授权使用协议 ( 请将此协议书装订于论文首页) 论文系本人在 南开大学工作和学习期间创作完成的作品,并已通过论文答辩。 本人系本作品的唯一作者( 第一作者) ,即著作权人。现本人同意将本作品收 录于“南开大学博硕士学位论文全文数据库”。本人承诺:己提交的学位论文电子 版与印刷版论文的内容一致,如因不同而引起学术声誉上的损失由本人自负。 本人完全了解直五太堂图盘鱼羞王堡在! 焦旦堂焦途塞的筐堡查造滏! 同意 南开大学图书馆在下述范围内免费使用本人作品的电子版: 本作品呈交当年,在校园网上提供论文目录检索、文摘浏览以及论文全文部分 浏览服务( 论文前1 6 页) 。公开级学位论文全文电子版于提交1 年后,在校园网上允 许读者浏览并下载全文。 注:本协议书对于“非公开学位论文 在保密期限过后同样适用。 院系所名称: 作者签名: 学号: 日期:年月日 第一章绪论 第一章绪论 第一节研究背景与研究意义 互联网的出现使人类的信息环境发生了巨大的变化,对人类的信息利用和管 理方式产生了深刻的影响。2 0 世纪9 0 年代以来,互联网发生了一系列的演变, 新概念不断提出,新技术和新应用不断涌现。自1 9 9 8 年w e b 的创始人t i m b e m e r s l e e 提出语义网的构想和2 0 0 1 年正式提出语义网的概念以来,语义网己 经吸引了越来越多的研究者的注意。语义网技术成为当前w e b 技术研究的最热 点之一。 本体通过对概念的严格定义和概念之间的关系来确定概念精确含义,表示共 同认可的、可共享的知识。本体赋予w e b 上的信息以语义含义,因此本体作为 语义载体在语义网中起着核心的作用,是语义网中基于语义的互操作得以实现 的关键因素,是解决语义层次上w e b 信息共享和交换的基础【l 】。应用高质量的 本体是语义网项目成功的关键,特别是某些特定领域的本体,由于它的可操作 性强,受到人们的广泛关注。本文将主要对领域本体的构建问题进行探讨。 基于领域本体,可以对领域内的资源在语义层次上进行表述,使得领域内的 资源从内容级别上升到语义级别,使得资源的管理和利用更加有效和智能化。 然而,本体构建除了需要较强的开发能力外,更重要的是要对该领域具有丰富 的知识,否则很难建立起面向特定领域的本体模型。需要领域专家参与构建本 体,这也是目前限制语义项目发展的瓶颈之一。 通过以上的分析可见,本体作为语义网应用的基础,其研究具有深刻的理论 意义和广泛的应用前景,但由于其基于描述逻辑的推理特性,使得对这一领域 的研究面临着巨大的挑战,仍有许多重要的问题亟待解决。 第二节国内外研究现状 本体最早是一个哲学的范畴,是一种存在的系统化解释,用于描述事物的本 质。随着人工智能的发展,本体被人工智能界赋予了新的定义,这些定义也处 第一章绪论 在不断的发展变化中。本体旨在克服计算机系统之间“语义鸿沟 ,其概念源于 哲学,即“对世界上客观存在物的系统地描述。按照这个定义,它和具体某个 人对事物的理解以及描述的具体语言等无关。n e c h e s 等人将本体定义为“给出 构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这 些词汇外延的规则的定义,【2 1 。其他学者给出了不同的定义。最著名并被引用的 最为广泛的定义由g r u b e r 提出,“本体是概念模型的明确的规范说明 3 3 。文献 4 对该定义进行了引申,提出“本体是共享概念模型的形式化规范说明 。文献 5 认为本体的概念包括四个主要方面:( 1 ) 概念化( c o n c e p t u a l i z a t i o n ) :客观世 界的抽象模型;( 2 ) 明确( e x p l i c i t ) :概念及它们之间联系都被精确定义;( 3 ) 形式化( f o r m a l ) :精确的数学描述;( 4 ) 共享( s h a r e ) :本体中反映的知识是其 使用者共同认可的。s w a r t o u t 将本体定义为:“本体是一个为描述某个领域而按 层次关系组织起来的一系列术语,这些术语可以作为一个知识库的骨架 【6 】。 文献 7 定义“本体是以某一观点用详细明确的词汇表描述实体、概念、特性和 相关功能的理论”。从内涵上来看,本体是某个领域内不同主体( 人、机器、软 件系统等) 之间进行交流( 对话、互操作、共享等) 的一种语义基础,即由本 体提供一种明确定义的共识。本体的目标是捕获相关领域的知识,提供对该领 域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模 式上给出这些词汇( 术语) 和词汇间相互关系的明确定义。 2 0 世纪9 0 年代初,基于人工智能的本体描述语言被提出,代表性的有k i f 、 o n t o l i n g u a 、l o o m 、o c m l 、f l o 百c 等。其中,k _ i f 是基于一阶逻辑的,o n t o l i n g u a 、 o c m l 和f l o 西c 是基于框架和一阶逻辑,而l o o m 是基于描述逻辑。随着w e b 的发展,出现了一系列基于w e b 的本体描述语言,如s h o e 、x o l 、r d f r d f s 、 o i l 、o i l + d a m l 、o w l ,为本体在语义网研究领域的发展注入了活力。w e b 应用需通用的标准语言来表示,w 3 c 先后推荐了r d f r d f s ,d a m l + o i l 和 o w l 作为本体描述语言标准。 本体作为语义网中便于计算机相互理解的共同的标准的概念体系,在语义网 中处于一个核心地位,引起了人们越来越多的关注。人工智能、计算机科学、 信息资源管理等众多领域的研究人员从不同的角度对本体进行了研究。其中, 本体构建、本体学习和本体进化为本体研究领域的重点与热点之一。 2 第一章绪论 1 2 1基本概念 1 2 1 1本体 本体可以表示成一个五元组的集合:o = ( c ,r ,仃,a ,) ,其中c 为概念集合, 也称为类的集合;r 为概念之间关系的集合;盯为函数,实质上是一种特殊关 系,即通过其它关系可以唯一获得的关系;彳为本体中的公理集,用来说明函 数之间或关系之间存在的关联和约束;,表示本体中实例集合。一般人们最关心 的是本体中的概念、关系和实例。在概念关系中,i s a 关系又最为重要的,即两 概念是子概念与父概念的关系。在下文中,我们仅考虑概念、i s a 关系和实例, 将本体表示简化为o = ( c ,i s 一口,) 。 为了实现本体的共享和互操作,w 3 c 定义了语义网上本体描述标识语言。 目前两种主要的描述语言有r d f 和o w l 。 1 2 。1 2r d f r d f s r d f 是w 3 c 组织推荐使用的描述知识资源及其之间关系的语言规范,它 不仅是描述数据的框架,而且是表示数据的框架,r d f 利用不同命名空间的连 接和引用来表示x m l 的涵义。在语义网模型中,信息以r d f 句子的形式存储, 即以统一的方式来存储数据,便于机器理解。抽象的r d f 数据模型表示为一个 有向标记图。这个抽象模型是独立于现实的而且可以用x m l 来序列化。相对于 r d f 而言,r d f s 在建立特定领域本体方面作用更为重要。r d f s 是在r d f 的 基础上定义出的一套简单的模式语言,作为可清晰描述本体的元语集合,用来 建立类模型、属性层次以及其它可从r d f 模型中引申出的基本模式限制。r d f s 定义了一套简单的本体,可以控制r d f 文本的一致性。r d f ( s ) 仅为本体论对 象提供一些常见的模型限制,但是它作为基于w e b 的本体表示语言,为本体在 语义网研究领域的发展注入了活力。以r d f r d f s 为起点,在此基础上扩充的 o i l 、d a m l + o i l 、o w l 等都作为w 3 c 推荐的本体描述语言标准瞵】。 1 2 1 3o w l o w l ( w e bo n t o l o g yl a n g u a g e ) 是w 3 c 开发的一种网络本体语言,用于对 本体进行语义描述。由于o w l 是针对各方面的需求在d a m l + o i l 的基础上改 进而开发的,所以一方面要保持对d a m l + o i l r d f s 的兼容性,另一方面又要 3 第一章绪论 保证更加强大的语义表达能力,同时还要保证描述逻辑( d e s c r i p t i o nl o g i c ) 的 可判定推理,因此,w 3 c 的设计人员针对各类特征的需求制定了三种相应的 o w l 的子语言,即o w ll i t e 、o w ld l 和o w lf u l l ,而且各子语言的表达能 力递增。 o w ll i t e 是表达能力最弱的子语言。它是o w ld l 的一个子集,但是通过 降低o w ld l 中的公理约束,保证了迅速高效的推理。它支持基数约束,但基 数值只能为0 或1 。因为o w ll i t e 表达能力较弱,为其开发支持工具要比其他 两个子语言容易一些。o w ll i t e 用于提供给那些仅需要一个分类层次和简单约 束的用户。 o w ld l ( d e s c r i p t i o nl o g i c 描述逻辑) 将可判定推理能力和较强表达能力 作为首要目标,而忽略了对r d f s 的兼容性。o w ld l 包括了o w l 语言的所有 语言成分,但使用时必须符合一定的约束,受到一定的限制。o w ld l 提供了 描述逻辑的推理功能,描述逻辑是o w l 的形式化基础。 o w lf u l l 包含o w l 的全部语言成分并取消了o w ld l 中的限制,它将 r d f s 扩展为一个完备的本体语言,支持那些不需要可计算性保证( n o c o m p u t a t i o n a lg u a r a n t e e s ) 但需要最强表达能力和完全自由的r d f s 用户。在o w l f u l l 中,一个类可以看成是个体的集合,也可以看成是一个个体。由于o w lf u l l 取消了基数限制中对可传递性质的约束,因此不能保证可判定推理。 1 2 1 4o w l 的语法简介 o w l 在r d f ( s ) 基础上,利用r d f x m l 语法建立了一套自己完整的语 法, 其中“r d f 和“r d f s 前缀表示的术语是r d f ( s ) 中的术语,其它的则是 o w l 引入的。例如:o w l 继承了r d f ( s ) 中的r d f s :c l a s s ,r d f s :s u b c l a s s o f , r d f s :p r o p e r t y ,r d f s :s u b p r o p e r t y o f , r d f s :d o m a i n ,r d f s :r a n g e 等在内的一系列建 模原语。一个o w l 本体中的大部分元素是与类( c l a s s ) 、属性( p r o p e 啊) 、 类的个体( i n d i v i d u a l ) 以及这些元素之间的关系有关的。o w l 语法主要包括以 下几部分: 1 类和个体 一个类可以声明为其它类的子类,而且可以多次声明。定义一个简单的类 o w l c l a s s 和其子类r d f s :s u b c l a s s o f 分别如下: 4 第一章绪论 。 除了描述类之外,本体还需要描述类的成员即个体。要在本体中引入一个个 体,仅需要声明它是某个类的成员,可用r d f t y p e 为个体声明多个其所属的类。 2 属性 属性是一个二元关系,在o w l 中有两类属性:对象属性和数据类型属性, 分别表示类的个体之间的关系和类的个体与文字( r d f 文字或x m ls c h e m a 数 据类型) 之间的关系。对象属性用o w l :o b j e c t p r o p e r t y 定义,并可以r d f s :d o m a i n 和r d f s :r a n g e 声明它的定义域和作用域,如: u 缇 j a c k u j i l l o w l :s o m e v a l u e s f r o m ( p ,c ) j 尸c 3 h a s c h i l d a g a u g h t e r o w l :a l1 v a l u e s f r o m ( p ,c )飞p cv h a s c h f l d s o n o w l :h a s v a l u e ( p ,1 1 )j p 厶)3 h a s c h i m j i l l o w l :c a r d i n a l i t y ( p ,n ) = n p= 2 h a s p a r e n t o w l :m i n c a r d i n a l i t y ( p ,n ) n p 1 h a s d a u g h t e r o w l :m a x c a r d i n a l i t y ( p ,n ) ,z p2 h a s c h i l d r e n 1 2 2 本体构建的知识工程方法 构建领域本体的方法依赖于所采用的应用软件以及可以预见的扩展功能。本 体的开发和完善是一个反复的叠加过程。本体中的概念应该贴近于要研究的专 业领域中的客观实体( o b j e c t s ) 和关系法则( r e l a t i o n s h i p s ) 。对应于客观实体的 概念,其词性应该是名词;对应于关系法则的概念,其词性应该是动词【9 1 。 1 确定本体专业领域和范畴 通过确定专业领域和范畴作为开发领域本体的起点。首先,要明确构建的本 体将覆盖的专业领域、应用本体的目的、本体应该能回答哪些类型的问题以及 它的系统维护者与应用对象。这些问题可以随时调整,但是由于它们限制模型 6 第一章绪论 的范畴,所以需要相对稳定。确定本体范围的方法之一是列出基于本体的知识 库能够回答的问题清单。通过这些问题可以得到对这个本体是否包含回答这些 类型问题的足够的信息,问题的答案是否需要特定层次的详细信息或特定专业 领域的表达法,这些问题是否保留成为提纲形式,而不需要细化等的解释。 2 复用现有的本体 如果系统需要和其它的应用平台进行互操作,而这个应用平台又与特定的本 体或受控词表连锁在一起,那么复用现有的本体是行之有效的方法。许多现成 的本体,例如:o n t o l i n g u a 的本体文库、d a m l 的本体文库、u n s p s c 和d m o z 等, 可以导入到本体开发系统中,本体的格式转换也并不困难。 3 列出本体中重要的术语 列出一份所有术语的清单,这上面的术语是需要声明或解释的。首先,需要 一份最全的术语清单,而不要担心概念间会有属性及表达上的重复。 4 定义类和类的层次 建立一个层次体系有几种可行的方法。自顶向下法:由某一领域中最大的概 念开始,而后再通过添加子类将这些概念细化。自底向上法:由最底层、最细 小的类的定义开始,然后将这些细化的类组织在更加综合的概念之下。综合法: 首先定义很多非常显而易见的概念,然后分别将它们进行恰当地归纳和细化。 从一些顶层概念着手,将它们与一些中级概念关联起来。采取什么方法主要依 赖于开发人员对专业领域的个人观点。由于“中级概念在领域的概念中更具 代表性,所以综合法对本体开发者而言最便捷。如果想要收集到更多更广泛的 实例,那么自底向上的方法更加适合。无论选择哪种方法,都要从定义类开始。 选择描述独立存在的对象的术语,作为本体中的类,嵌入分类等级体系中。 5 定义类的属性插件( s l o t ) 除了定义类外,还必须描绘概念间的内在结构。例如,确定哪条术语是描述 哪个类的属性。这些属性会成为依附于类的属性插件。通常“内在的属性 ( i n t r i n s i cp r o p e r t i e s ) ,“外在的属性( e x t r i n s i cp r o p e r t i e s ) 都能成为本体中的属 性插件。如果对象是结构化的,那么它的一部分,可以是具体的或抽象的元素。 同时也要描述类中的个体成员与其它类之间的关系。除了最初确定的一些属性 之外,还需要添加一些其他的属性插件。任意类的所有子类都继承了该类的属 性插件。一个属性插件应该被附加在拥有该属性的最大的类上。 6 定义属性的插件分面 7 第一章绪论 属性插件可以有不同的分面( f a c e t s ) 来描述赋值类型( v a l u et y p e ) 、允许的 赋值( a l l o w e dv a l u e ) 以及赋值的基数( c a r d i n a l i t y ) ,属性插件可以接受的赋值 的其它特征。属性插件的基数( c a r d i n a l i t y ) 定义了一个属性插件可以有几个赋 值。有些系统仅仅能够区分单一基数( 只允许有一个赋值) 和多元基数( 允许 有任何数量的赋值) 。通过最大与最小基数的规范说明来描述属性插件赋值的个 数,使描述更加精确。最小基数n 是指一个属性插件至少有n 个赋值。将最大 基数定义为0 表示某一子类的属性插件不能有任何赋值。 赋值类型( s l o t s v a l u et y p e ) 的分面描述了某一属性插件的赋值类型。赋值 类型主要有字符型s t r i n gs l o t s ) 是象n a m e 名称这样的最简单的赋值类型;数值 型( n u m b e rs l o t s ) 包含浮点数( f l o a t ) 和整数( i n t e g e r ) ;布尔型( b o o l e a ns l o t s ) 只有单纯的y e s n o 标记;枚举型( e n u m e r a t es l o t s ) 是某个属性插件的赋值清单; 实例型( i n s t a n c et y p es l o t s ) 允许定义个体间的关系。相应的开发步骤见2 3 2 节。 当某一属性插件被添加在一个特定的类时,允许限制属性插件的范围。一个 属性插件所隶属的类集合,称为这个属性插件的域( d o m a i n ) 。确定一个属性插件 的域或范围的规则通常是相同的:在为一个属性插件确定它的域时,找出最大 的类或是分别能成为这个属性插件的域或范围的类。不要定义太过通用的域和 范围。如果定义某个属性插件的范围或域的类列表清单包含了某个类以及它的 子类,那么将子类去掉,因为它的存在并不会增加新的信息。如果定义某个属 性插件域或范围的类清单包含类a 中的所有子类,但是未包含类a 本身,那么 这一范围应该只包含类a ,而不是类a 的那些子类。如果该清单几乎包含了类 a 中的所有子类,仅有少数几个子类未包含在内,那么应该考虑是否需要重新调 整类a 的范围。 7 创建实例 定义某个类的一个实例需要确定一个类,创建类的一个实例和添加属性插件 的赋值。 1 2 2 1 定义类层次的原则 完善等级体系和定义概念属性( 属性插件) 是密不可分、互相交织的,二者 必须同时进行。这两个步骤在本体的设计进程中最为重要。等级体系的确定依 赖于本体的用途、应用平台、个性化特点,有时还要考虑和其它系统的兼容性。 8 第一章绪论 在定义大量新的类和逐渐形成等级体系过程中要随时检查是否符合下述原则。 1 分类等级的合理性 分类等级体系体现出“i s a 的关系:如果类a 中的每个实例也是类b 中的 实例,那么类a 是类b 的子类。例如a n i m a l 和c a t 的关系。一种建模过程中易 犯的通病是:在等级体系中,包含某一相同概念的单数和复数版本,而且把前 者作为后者的子类,出现等级体系中的“瞄n d o f ,关系,例如c a t 与c a t s 的关系。 等级体系关系具有传递性( t r a n s i t i v i t y ) ,父类子类的关系是具有传递性的。如 果b 是a 的子类且c 是b 的子类,那么c 也是a 的子类。例如a n i m a l 、c a t 、 m i m i ( 猫名) 的关系。有时,需要区别直接子类( d i r e c ts u b c l a s s ) 和间接子类 ( i n d i r e c ts u b c l a s s ) ,直接子类是与类关系最近的子类:二者之间不加杂其它的 类。例如a n i m a l 和c a t 就是直接类,a n i m a l 和m i m i 是间接类。 分类等级体系应考虑到专业领域的不断发展,体现兼容性和可维护性。区分 类和类名是极为重要的。类代表某一专业领域中的概念,而不是用于表示这些 概念的词汇w o r d 。对于不同的术语体系,类名是可以改变的,但术语t e r m 本 身却代表了存在于现实世界的客观实体。用于相同概念的同义词s y n o n y m s 不能 表示不同的类。同义词是一个概念或一条术语的不同名称。它们表示的是而且 只能是同一个类。许多系统允许将同义词、不同语种的译文,或同一个类的不 同名称表示的列表关联在一起。要注意避免类的循环,如果类b 是类a 的子类, 同时b 还是a 的父类,这个等级体系中就存在一种循环。这种循环相当于宣布 类a 就是类b ,a 的所有实例也是b 的实例,b 的所有实例也是a 的实例。 2 分类等级体系中的同属关系 分类等级体系中的同属关系( s i b l i n g ) 是指同一个类中的若干直接子类之间 的关系。等级体系中具有同属关系的类,应该是属于同一水平上的类。一个类 需要有多少个直接子类,并没有硬性规定。结构良好的本体的直接子类的数目 一般在2 1 2 个左右。如果有一个类只有一个直接子类,建模过程中就有可能出 现错误,或者就是本体不完整。如果某个类有多于1 2 个子类,那么应考虑需要 对它们做进一步的归纳。 3 多重继承关系 大多数知识表达系统都允许分类等级体系具有继承性,即一个类可以是若干 个类的子类。子类将继承父类的全部属性插件和分面。 4 新类的引入 9 第一章绪论 在构建本体的整个过程中,决定在何时引入一个新的类,或者在何时利用不 同的属性值来描述本质特征是最为困难的。某个类的子类通常有一些独特的而 且是它们的父类不具有的属性,或者拥有不同于父类的制约因素和限制条件。 换言之,当有些内容只是某个类具有,而它的父类并不具备时,才可以在等级 体系中引入一个新的类。实际上,应该为每一个子类添加新的属性插件,或者 定义新的属性插件赋值,或者删除已继承的属性插件的某些分面。即使没有任 何新的属性,有时也可以引入新的类。有些本体包含大规模的某一领域通用术 语的参考等级体系。术语学等级体系中的类是不需要引入新属性的。引入不含 任何新属性的新类也可以用于构建新的概念,利用新的概念,领域专家们就可 以简单地找出类和类之间的本质区别。另外,没有必要为了每一个额外的限制 条件创建子类。 5 新类与属性的赋值 在建模过程中,通常需要决定是否要找出一个本质区别作为属性赋值。构建 一个类,还是只简单创建一个类,然后为它的属性插件给予不同的赋值,取决 与所定义的本体的范围,及该概念在这个领域里的重要性。如果一个概念的不 同属性插件赋值对于别的类的不同属性插件来说变成了限制条件,那么应该针 对这一特征构建一个新的类。另外,还需要在属性插件的赋值中描述这种区别。 在开发细节完备的本体时,这种特征区别非常重要。如果在某一专业领域里存 在一个本质特征,而且认为对于这个特征而言,拥有不同赋值的对象,分属于 不同的类,那么应该针对这个特征构建新的类。每个类都会有一个特定的实例 从属于它,而这个类是不应该经常改变的。通常情况下,数量、色彩以及位置 只可以作为属性插件的赋值,不能作为构建新类的理由。 6 实例与类目 要确定一个特定的概念是本体中的一个类还是依赖于本体潜在应用平台的 单个实例并不容易。此外,还要决定类和实例的起始及表达的最低粒度水平。 这种粒度水平取决于本体的潜在应用平台。换言之,就是决定知识库中需要表 达的最为精确的术语。最小的单个实例是知识库中所表达的最精确的概念。如 果概念被组织成为自然的等级体系( h i e r a r c h y ) ,那么应该将这些概念表达为类。 只有在等级体系中才可以设置类,知识表达系统中并没有子实例( s u b i n s t a n c e ) 这样的概念存在。因此,如果术语中有一种自然的等级体系,应该将这些术语 定义为类,即使它们本身不包含任何实例。 1 0 第一章绪论 7 限制范围 在考虑本体定义的完整性时,应该注意到一个本体不可能包含某一专业领域 的所有信息。在应用平台上,没有必要演绎( 或归纳) 不需要的任何东西。同 样地,本体也不应该包含等级体系的类中所有可能的属性和本质区别。只需要 在本体中表达最为显而易见的属性就可以了。系统中所有术语间的关系也没有 必要全部添加到本体中来。 8 互不相关的子类 如果若干个类之间没有任何共同的实例,那么它们是互不相关的。不是互不 相关的类有很多共用的实例。明确两个类是否是互不相关的会使系统更好地验 证本体的性能和逻辑性。否则系统就会出现错误信息。 1 2 2 2 属性定义 一个属性插件的赋值可以由其它属性插件的赋值来决定。例如,如果某家厂 商生产了某种产品,也就是说这种产品是由这家厂商生产的。厂商和产品被称 为逆反关系( r e v e r s er e l a t i o n s ) 。在从知识获取的角度来看,具备正反两方面的 信息而且可以方便地获取。知识获取系统可以为逆反关系自动添加赋值,以确 保知识库的连贯性。 许多基于框架的系统( f r a m e b a s e ds y s t e m ) 都允许为属性插件定义缺省值 ( d e f a u l tv a l u e s ) 。如果类中的大多数实例都有一个相同的属性插件赋值,那么 就把这个赋值定义为这个属性插件的缺省值。一旦某个类中,又有新的包含这 个属性插件的实例加入,那么系统会自动将缺省值赋予这个属性插件。可以将 缺省值改变为分面允许的其它赋值。缺省值的存在是为了方便起见:系统不会 以任何方式为建模添加任何限制。缺省值是可以被更改的,这点与属性插件赋 值截然不同。属性插件赋值一旦被确定,就不可以改变。 1 2 2 3 命名 在本体中为概念定义命名规则并严格地遵循它们,不仅会使本体易于理解, 而且避免建模错误。规则的选择可能并没有什么特别的理由。不过命名规则一 旦定义了,就必须执行。在建立命名规则中应注意系统的命名空间( n a m es p a c e ) 对于类、属性插件和实例来说是否相同,系统对大小写的敏感性,单复数、前 后缀和分隔符的使用等问题。避免对概念名使用缩写,不要对概念名添加诸如 第一章绪论 “c l a s s 、“p r o p e r t y 、“s l o t s 这样

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论