(图书馆学专业论文)基于本体的知识组织问题研究.pdf_第1页
(图书馆学专业论文)基于本体的知识组织问题研究.pdf_第2页
(图书馆学专业论文)基于本体的知识组织问题研究.pdf_第3页
(图书馆学专业论文)基于本体的知识组织问题研究.pdf_第4页
(图书馆学专业论文)基于本体的知识组织问题研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 本体( o n t o l o g y ) 的概念起源于哲学领域,古希腊哲学家亚里士多德将本体定 义为研究“存在”的科学,即研究整个客观世界基本特征的科学。2 0 世纪9 0 年 代以来,人们将本体的概念引入人工智能、知识工程和图书情报领域,从而使本 体概念的内涵也随之发生了变化。这些领域中,一般来说,本体研究是关于知识 概念表示和知识组织体系方面的研究在图书情报领域,本体通常是指一套有关 某一学科或某一领域的术语词表,以及术语之间关系的规范和说明。近年来,关 于本体的研究与应用呈现出加速度发展的趋势,基础理论更为完善,应用领域更 为广泛,技术产品更为成熟与国外涌现的研究项目和研究成果相比,国内关于 本体的研究尚存在较大差距,国内图书情报领域关于本体的研究尚处于起步阶 段,尚未见到有关国内构建具有推理功能的学科或领域本体系统的报道 构建本体的意义在于: 首先,领域本体的目标是捕获相关领域的知识,确定该领域内共同认可的词 汇,并从不同层次的形式化模式上给出这些词汇之间相互关系的明确定义。从而 实现人们对同一客观事物的共识,形成一个统一的认识事物的标准。即为人类认 识活动构建顶层概念框架。 其次,本体更加突出知识共享的功能,尽管二者都对概念间等级关系、相关 关系进行了揭示,但本体更着眼于给出人类事物认识的知识( 或领域知识) 总框 架,因为在本体的一个实体中每个概念都有其属性信息、实例信息,而这些在词 表系列中则少有展示,很多己经涉及到专业词典中的知识,因此说一个本体是一 个人类知识( 或领域知识) 体系的汇总毫不夸张。 最后,本体的出现还是为了设计一种机器可以理解的语言。通过本体可以克 服计算机系统之间的语义鸿沟,实现某个领域内不同主体( 人、机器、软件系统 等) 之间的对话、互操作、知识共享等目的,因此它被认为是一种共享的概念模 型的形式化的规范说明。其中形式化就是指应该是机器可读( 可理解、可操作) 的意思,而这也成为了在计算机网络环境下应用研究的主题之一。 关键词;本体;领域本体;知识组织:本体语言;本体建模 a b s t r a c t o n t o l o g yo r i g i n a t e d i np h i l o s o p h y a r i s t o t l ed e f i n e d ”o n t o l o g y ”a ss c i e n c e a b o u t ”b e i n g ”i nt h ew o r l d s i n c e1 9 9 0 s o n t o l o g yh a sb e e ni n 仕o d u c e ai na r t i f i c i a l i n t e l l i g e n c e ,k n o w l e d g ee n g i n e e r i n ga n dl i b r a r y & i n f o r m a t i o ns c i e n c e s a n dt h e n t h ed e f i n i t i o no fo n t o l o g yh a sb e e nc h a n g e d o n t o l o g yl e a r n i n gi n c l u d e st h er e s e a r c h 0 1 1k n o w l e d g er e p r e s e n t a t i o na n dk n o w l e d g eo r g a n i z a t i o ni nt h ed o m a i n sm e n t i o n e d a b o v e i nl i b r a r y & i n f o r m a t i o ns c i e n c e , o n t o l o g yi sav o c a b u l a r yw i t ht h e s p e c i f i c a t i o no fr e l a t i o n s h i p s b e t w e 宅l lt e r m sa b o u tas p e c i a ld o m a i n o n t o l o g y l e a r n i n ga n dp r a c t i c i n gh a v eb e e nd e v e l o p i n gr a p i d l yt h e s ey e a r s 1 1 地t h e o r ya n d t e c h n o l o g yo fo n t o l o g yg e tm a t u r e rt h a nb e f o r e t h ea p p l y i n go fo n t o l o g yg e t sm o r e e x t e n s i v et h a nb e f o r e 1 1 r e s e a r c hl e v e lo fo n t o l o g yi nc h i n ai sn o ta sd e v e l o p e da s t h ew e s l e r nc o u n t r i e sn o w t h e r ei ss t i i in od o m a i n - o r i e n t e dt e n t a t i v eo rd e m os y s t e m b a s e do no n t o l o g yi nl i b r a r y & i n f o r m a t i o nf i e l d si nc h i n a t h ei m p o r t a n c eo f c o n s t r u c t i n gd o m a i no n t o l o g yi s : f i r s t , t h ea i m o fc o n s t r u c t i n gd o m a i no n t o l o g yi st oa c q u i r ek n o w l e d g eo f t h i s d o m a i n , a n dt od e f i n et h ea d m i s s i v ec o n c e p t sa n dt h er e l a t i o n s h i po ft h e s e c o n c e p t sa td i f f e r e n tl e v e li naf o r m a l i z e dm o d e a sar e s u l t , ac r i t e r i o no f u n d e r s t a n d i n gk n o w l e d g ei sd e v e l o p e d s o ,d o m a i no n t o l o g yo f f e r sat o p - l e v e l c o n c e p tf r a m e w o r ko f p e o p l e sc o g n i t i o n s e c o n d , o n t o l o g ye m p h a s i z e st h ef u n c t i o no fk n o w l e d g es h a r i n g a l t h o u g hb o t h o ft h et h e s a u r u sa n do n t o l o g ye x p r e s s e st h er e l a t i o n s h i po ft h ed o m a i nc o n c e p t s ,t h e o n t o l o g ys 廿e s s e s0 1 1p r o v i d i n ga f r a m e w o r ko ft h ed o m a i nk n o w l e d g e b e c a u s et h e c o n c e p to fo n t o l o g yh a si t so w na t t r i b u t e sa n di n s t a n g c sw h i c ha r en o td e m o n s t r a t e d i nt h et h e s a u r u s 。t h eo n t o l o g ya r eu s u a l l yc a l l e dac o l l e c t i o no f d o m a i nk n o w l e d g e n i i r d o n t o l o g yp r o v i d e sa m a c h i n el a n g u a g e ,w h i c hc a nb eu n d e r s t o o db yc o m p u t e r w ec a ng e to v e rt h ep r o b l e mo fs e m a n t i cg a pf r o md i f f e r e n tk i n d so fc o m p u t e r s y s t e m s a sar e s u l t , t h ec o n v e r s a t i o n , m u t u a l - o p e r a t i o na n dk n o w l e d g es h a l 妇go f d i f f e r e n te n t i t yc a nb er e a l i z e d t h eo n t o l o g yi sc o n s i d e r e da sa ne x p l i c i ts p e c i f i c a t i o n o ft h ef o r m a l i z e dc o n c e p t u a l i z a t i o n t h ef o r m a lm e a n st h eo n t o l o g yc a nb er e a db y t h ec o m p u t e r s k e yw o r d s :o n t o l o g y ;d o m a i no n t o l o g y ;k n o w l e d g eo r g a n i z a t i o n ;o n t o l o g yl a n g u a g e ; o n t o l o g ym o d e l i n g 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东 北师范大学或其他教育机构的学位或证书而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示 谢意。 学位论文作者签名:擞日期;坦五之! 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的 规定,即:。东北师范大学有权保留并向国家有关部门或机构送交学位论 文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北师范大学可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影 印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名;望题指导教师签名:学位论文作者签名;兰 :! 墼 指导教师签名: 日 期鸣吗相 期 学位论文作者毕业后去向: 工作单位: 通讯地址: 李旦娅 匈_ :弓) 电话: 邮编: 引言 新型的数字图书馆是利用现代管理理论与先进信息技术,对文献资料中的知 识进行组织与管理,并能向用户提供面向用户问题域的片段知识或主题知识,以 辅助用户决策与创新的图书馆。知识组织是知识的有序化。知识组织的目的就是 通过对知识的整合,序化,充分挖掘智力资源,促进知识的创新,这与知识型图 书馆传递科学知识,开展社会教育,开发智力资源的社会职能是一致的。但是。 目前由于知识信息量的无限剧增,对知识的组织能力成为评价一个数字书馆是否 先进的主要指标,而现有的信息组织方法,如分类主题法,文献索引方法,导航 系统,元数据等。已经不能满足目前大量异构信息的检索需求,这就需要在知识 组织领域研究更新型的,具有普遍适用性,可重复利用的知识组织形式,本体论 就是在这样的情况下应用而生的。 。 本体( o n t o l o g y ) 的概念最早起源于哲学领域,本体理论作为一个新颖的、起 点较高的论点,其理论上具备很多优越性和潜在功能。近年来,各个学科渐渐认 识到本体在解决知识概念表示和知识组织体系等方面起到的重要作用。都在积极 进行跨学科研究。目前本体理论的不断完善和本体技术的发展更为其它学科引入 本体理论及本体技术提供了先决条件。目前已经将本体的概念引入到人工智能、 知识工程、知识管理、面向对象分析和图书情报等许多领域。在图书情报领域, 关于本体理论的研究与应用呈加速发展的趋势,但是与国外情报学界涌现的研究 项目和研究成果相比,国内尚存在较大的差距,情报学者认识到,情报学专业要 寻求发展和刨薪,不能停留在原有的水平和层次上,应积极引进新的知识组织手 段和新的i t 技术。采用跨学科的研究方法进行研究,只有这样才会为情报学科注 入新鲜血液,使其焕发新的活力。2 0 0 3 年1 0 月3 1 日一1 1 月2 日,中国科学技术 情报学会理论方法与教育专业委员会和中国国防科技信息学会情报学术专业委员 会于南京理工大学联合召开了。信息构建( i a ) 与情报学理论方法的新发展”学 术研讨会“1 。本次会议收到几篇关于o n t o l o g y 的论文,代表们普遍认为本体理论 是目前的研究热点,将本体理论应用于情报界是一次有益的尝试。在这样的前提 下,作者将本体论与知识组织相结合的内容作为自己的研究方向,希望本文的探 讨能对该领域的研究贡献自己的力量。 如前文所述,本体的提出,是应知识组织和知识检索的需求而产生的,目前 认为,提高w e b 信息检索的质量包括两方面内容:一是如何在现有资源上设计更 好的检索技术,二是如何为w e b 上的资源加上计算机可以理解的内容。便于计算 机更好的处理,即给出一种计算机能理解的表示资源的手段。针对第二种情况, 在2 0 0 0 年的) 眦会议上,语义网( s e m a n t i cw e b ) 的概念正式提出。语义网的 目标是使得w e b 上的信息具有计算机可以理解的语义,满足智能软件代理 ( i n t e l l i g e n ta g e n t ) 对万维网上异构和分布式信息的有效访问和搜索。2 0 0 1 年,提出了经典的“基于语义的未来w e b 发展的体系结构图”( 见下图1 ) 2 , 其中,第一层是u n i c o d e 与u r i ,第二层是x 扎+ n s + x 地s c h e m a , 表示数据的内容 t r u s t p r o o f l o g i c 竺 皇 鲁 o n t o l o g yv o c a b u l a r y 与 口 一。p , d f + r d f s c h e m x l + n s + x m i s c h e m a 。 g n i c o d eu r i 图1 语义w e b 的体系结构图 和结构,第三层r d f 用于描述w e b 上的资源极其类型,第四层即为本体,用于描 述各种资源之间的联系,第五至七层,在以上四层的基础上进行逻辑推理操作。 根据该结构图可以看出,在语义网的框架中,本体位于底层的u n i c o d e 字符集和 x m l 语法结构之上,位于逻辑层和验证层之下,既是基于x m l 的,同时又为语义网 络的逻辑推理和验证功能提供基础结构。可以说,本体是语义网的关键部分。 从这次会议以后,在全世界范围内掀起了语义网和本体的研究热潮,较新、 较系统的文献大多在2 0 0 2 年上半年前出现,多是对本体的概念、相关理论及其相 关领域的系统性阐述。此后一直沉默,直到2 0 0 4 年上半年,有关本体的研究又重 新热了起来,研究热点具体体现在三个方面:理论深化研究;信息系统中的 应用,主要包括信息组织、信息检索和异构信息系统互操作问题; 本体作为一 种能在知识层面提高知识共享和复用的工具在语义网中的应用 3 。笔者所查阅 的资料显示,2 0 0 5 年至2 0 0 6 年两年间,研究的重点在理论深化的基础之上,更注 重特定领域的本体建模实践研究,先后出现了一些对建模理论、建模工具、建模 方法的探讨,可以说,目前对本体的研究,基本集中在“领域本体构建”这个分 支中。 本文的研究内容为。如何在知识组织系统中利用本体”,即将本体理论引入 2 到知识组织系统中,利用本体在语义理解方面的出色表现,完善目前信息检索系 统的检索功能。研究的重点放在检索系统中的“本体库构建”,这是因为,本体 作为知识的新型工具,它在检索系统中的应用方式并没有发生本质性交化,它的 根本优势在于本体库自身构建过程中对领域知识的充分理解和解释,而在本体库 构建完成后,被引入到检索系统中的过程,与现存叙词表等知识组织工具的工作 方式是基本相同的。 在这样的思路指引下,本文共分五个章节来研究基于本体的知识组织问题。第 一部分序论,介绍本文所研究的领域,研究背景,国内外研究现状;第二部分, 本体基本理论知识介绍,包括本体的基本概念,基本建模元语,基本类型,本体 的应用等;第三部分,重点分析领域本体的构建,由于领域本体在整个本体中处 于承上启下的关键地位,并且本体的应用也都是在具体的相关领域之中,领域本 体的构建就显得极为关键,本章从领域本体构建的方法,领域本体的表示语言, 现有领域本体构建工具等几方面,介绍了领域本体构建的方法论,为下一章领域 本体构建的实践奠定理论基础:第四章,是本文的重点,在前两章本体基本理论 介绍的基础之上,本章将进行领域本体构建的实例,目的是演示领域本体构建的 方法,并进一步证明本体在知识表示、知识组织中的优越性。本章选择了“汽车 消费”领域,为本文本体模型构建的研究领域,按照本体构建的基本方法,利用 斯坦福大学开发的本体构建工具p r o t 6 9 6 ,试验性的开发了本文的本体模型 “m a r k e tp o s i t i o n i n g ”第五章,基于本体的知识组织系统构建,介绍了知识组 织系统的基本理论,并比较了现有知识组织工具分类法和叙词表与本体的异 同点,并得出结论,本体在知识组织中的优势明显大于前两者;本章中还设计了 基于本体的知识组织系统的模型结构,由于技术条件限制,本文不能够开发真正 的基于本体的知识组织系统,但是,将本体的概念引入到该系统中,探讨本体在 系统中的工作原理、工作流程,以此为将来的本体检索系统研究作铺垫。 本文采取的研究方法有: 跨学科研究法,将哲学领域的概念引入的到图书情报学领域,从更高的理论 层面研究知识组织的方式方法,在实践过程中,又利用的计算机科学的技术,开 发构建本体模型:文献调查法,对国内外本体相关文献的大量调研, 比较分 析法,对比本体与原有分类法、叙词表的异同,本体构建法,实际构建了领域 本体模型等。 本研究的创新之处在于;在深入研究本体基本理论的基础之上,选择了某个领 域作为本体建模的范围,确定该范围内的主要术语和核心词汇,并利用本体构建 方法,实际开发了领域本体模型:将该领域本体引入到知识组织系统中,设计了 知识组织系统结构模型,并对该模型的工作流程原理进行剖析。 3 一、本体概述 第一章本体相关理论 ( 一) 本体基本概念 本体( o n t o l o g y ) 的概念起源于西方哲学,一方面研究存在的本质,另一方面 研究客体对象的理论定义,即整个现实世界的基本特征。现在哲学领域较多翻译 为。本体论”。近年来,人们将本体的概念引入人工智能、知识工程和图书情报 领域,用以解决知识表示、知识共享、知识重用和知识组织体系方面的有关问题。 这是由于本体论( 0 n t o l o g y ) 是研究实体存在性和实体存在本质等方面的通用理 论,它把现实世界中某个应用领域抽象或概括成一组概念及概念之间的关系,构 造出这个领域的本体,能够使计算机对该领域的信息处理大为方便。随着在人工 智能领域的应用发展,其定义也被赋予了更多的含义,为了表示区别,在计算机, 人工智能领域的本体论通常译为“本体”,一般泛指本体论的各个方面,具体特 指根据本体论构建的单个本体。 被引入人工智能领域后,各国学者对本体的概念下了很多不同的定义,( 如 下表所示) 川: 表0 n t o l o g y 概念表述演变 提出时甸,人定义 1 9 9 1 n e e h e j 等 1 9 9 3 1g r u b e r 1 9 9 7 b o r s t 1 9 9 8 s t r i d e r 2 ( 1 0 0 _ ,f e 瑚ld 给出构成相关领域词汇的基本术语和关系 以及利用这些术语和关系构成的规定这些词 汇外延的规则的定义 概念模型的明确的规范说明 共享概念模型的形式化规范说明 共享概糊的明确的形式化规范说明 特定领域中重要概念的共享的形式化的描述 2 0 0 3 m u s e h o l d关于共享的概念模型的协议 4 其中,使用最广泛的是斯坦福大学的g r u b e r 提出的定义( 如上表第二项) : 。本体是概念化的明确的规范说明。”四其后,b o r s tp i m 博士等对该定义作 了少许修正:认为本体o n t o l o g y 是共享概念模型的形式化规范说明。嘲将上述两 个定义合并后,表达如下: “i ti sa ne x p l i c i tf o r m a ls p e c i f i c a t i o no fas h a r e dc o n c e p t u a l i z a t i o n ”译为中文为,本体是一套得到大多数人认同的、关于概念体系的明确 的、形式化的规范说明。德国卡尔斯鲁厄大学的s t u d e r 等学者对上述两个定义 进行了深入的研究,认为本体的概念包含以下四层含义: 1 概念化( c o n c e p t u a l i z a t i o n ) :本体应该是客观世晃现象的抽象模型,该 模型是通过定义了这些现象的相关概念形成的,( 其表示的含义独立于具 体的环境状态) 。 2 明确( e x p l i c i t ) :被引用的概念所属的上位类与在使用此概念时的限制条 件应预先得到明确的定义和说明。 3 形式化( f o r m a l ) :本体应具有精确的数学描述,并具有机器可读性。 4 共享( s h a r e d ) :本体所反映的知识是其使用者共同认可的,是相关领域 中公认的概念集,应该被该领域整个群体所接受。1 7 】 总结国内外学者对本体的定义的观点并结合以上四个特征,可以发现,本体 本质上就是关于一个主题( 领域) 的知识的层次清晰的规范说明。它是一个已经 得到公认的形式化的知识表示体系,它包含词表,词表中的术语都是与该领域相 关的,词表中的逻辑声明用来描述那些术语的含义和术语间关系。因此,本体提 供了一个用来表达和交流某些主题知识的词表和一个关系集,关系集是词表中术 语间关系的集合哺l 。 ( 二) 本体建模元语 p e r e z 等人归纳出o n t o l o g y 的五个建模元语,即构建本体模型的最基本要 素:c - 概念,矗- 公理,r - 关系,f - 函数,i 一实例 1 p 概念( c o n c e p t ) 。又称为类( c o n c e p t ,c l a s s ) ,从语义上讲,它表示的是对 象的集合,其定义一般采用框架( f r a m e ) 结构,包括概念的名称,以及用自然 语言对概念的描述。 2 a 一公理( a x i o m ) ,无须再进行证明的逻辑永真式,如概念乙属于概念甲的范 围。 3 r - 关系( r e l a t i o n ) ,定义在概念集合上的关系集合,即领域中概念之间的交 互作用,从语义上讲,基本的关系有四种:p a r t - o f 、k i n d - o f 、i n s t a n c e - o f 、 a t t r i b u t e - o f ,在实际建模过程中,概念之间的关系可以根据领域的具体情况再 增加相应的关系。 4 f - 函数( f u n c t i o n ) ,函数是关系的特定表达形式。函数中规定的映射关系, 可以使得推理从一个概念指向另一个概念。 5 i 一实例( i n s t a n c e ) ,也称个体实例是本体中最小的对象,可以代入函数中 去进行运算,而函数的运算结果一定是另外一些实例或者是类【9 l 。 当然本体的建模语言并不是说必须参照这样完备的集合,对于一些轻量的本 体仅由c ,r ,i 组成。 ( - - - ) 本体的类型 根据应用领域的不同,可以大致将本体分为三大类,如图2 所示。涉及具有 普遍意义的客观世界的常识的本体称为顶级本体( t o p - l e v e lo n t o l o g y ) ,描述 最一般化的概念,如空间、时间、事件、行动等,独立于特定的问题与领域,作 为大众沟通的工具,可以认为是真实世界的常识性知识:涉及特定学科领域的本 体称为领域本体( d o m a i no n t o l o g y ) ,使用属性、关系进行定义与描述真实世 界中特定领域的知识,领域知识本体如同专家的专门知识,每一份专业知识都记 载领域中的事物;涉及问题求解的本体称为问题、方法本体或应用本体 ( a p p l i c a t i o no n t o l o g y ) 。 图2 本体分类示意图 具体来讲: 1 顶级本体,划分了存在于客观世界的实体的不同种类。具有普遍意义的观念在 这类本体中得到了表示,这些观念不依赖于特定的问题或学科领域。 2 领域本体( d o m a i no n t o l o g y ) 是专业性的本体。在这类本体中被表示的知识 是针对特定学科领域的,该本体提供了关于某个学科领域中概念的词表以及概念 之同的关系,或者该学科领域的重要理论。 3 应用本体( a p p l i c a t i o no n t o l o g y ) ,描述了既依赖于某个特定领域又依赖于 6 某个课题的知识。这类本体与解决问题的方法相关联。一个应用本体与用来描述 专业领域的概念相关联,这些概念是解决问题的方法体系的组成部分。 国内有学者从构建本体的目的的角度出发,认为不具备推理功能的本体,即使 涵盖的概念在多,充其量仍然不过是词表扩展后的加强版,从而将本体分为轻量 级本体,中级本体和重量级本体三类。 二、本体的应用 ( 一) 本体应用的三个主要领域 目前本体主要的应用领域如下图3 所示: 图3 本体应用的三个主要领域 由于o n t o l o g y 是关于某一领域概念的共识,它很自然地应用于人或组织之 间的通信交流,它像一座架在“语义鸿沟”( s e m a n t i cg a p ) 之上的桥梁,连接 在自然语言与形式化语言之间,即一端是实际的语法表达形式,而另一端是这种 表达的抽象概念模型( c o n c e p t u a l i z a t i o n ) 。 不仅如此,通过使用o n t o l o g y 作为交换格式,在不同的建模方法、算法、 语言和软件之间进行软换,能够实现系统间的互操作。 另外,在系统工程领域,o n t o l o g y 有以下多种作用:在用户问或软件代 理间达成对于信息组织结构的共同理解认识;可靠性( 形式化的表示,使自动的 致性检查成为可能,从而使软件更加可靠) 规范( o n t o l o g y 能够辅助一个i t 系统识别处理需求,定义各种规范) 。 在知识工程领域,本体主要用于复用专业领域知识,既本体的可重用性:本 体是领域中重要的实体、属性、处理过程和它们之间关系形式化编码的基础。这 种形式化的表示可以是软件系统中可重用的或共享的组成部分;另外,本体通过 断言的形式,使专业领域内的学术观点和假设变得更加明确,为后来的用户提供 7 清晰的专业概念或推理基础【埘。 ( 二) 本体论在数字图书馆中的应用 由于本体的最本质性质就是其在标引一个术语时使用的是该术语的明确的 概念化的规范说明( 见本体的定义) ,因而利用本体检索能够消除歧义,准确搜 寻所需要的文章,排除与主题无关的文章。 在基于本体的知识组织系统中,系统应该具有理解自然语言( 就目前的技术 水平来讲,限于半自然语言) 的能力,并且能够将检索需求中的自然语言( 主要 是名词和动词) 转换为本体库中的相应的概念,同时用该本体的表示语言表示出 来。 此外,本体具有良好的概念层次结构和对逻辑推理的支持,由于目前缺乏完 整的解决方案,解决分布式网络环境下系统或资源之间的互操作问题成了数字图 书馆技术的核心难题,而以本体论为核心的语义网正是为解决这一问题提供了途 径。本体的本质,就是领域知识的共享和复用,标准化和形式化的领域本体能够 为信息系统之间的高层互操作提供良好的基础。因此,本体在数字图书馆中有很 好的发展前景: 1 可提供资源库领域知识的规范描述 2 可提供描述型元数据有关语义描述的知识地图 3 可提供元数据映射方案,集成到数字图书馆体系中的元数据服务中,成为协议 的一部分 4 可提供智能代理与信息环境之间基于语义的理解机制 5 可创建跨平台、跨系统之间的通信中介 6 可提高分布环境下查询请求的语义理解、自动分发 7 可用于数字图书馆的数据挖掘 ( 三) 本章小绪 本章是本文研究内容的基础理论部分,介绍了本体理论的相关知识,包括:本体的基本 概念著名学者给出的相关定义;本体基本的建模元语,这是构建本体的基本要素;本体的 类型,按不同方法可以分成不同的类别;本体的应用,并重点详细介绍了本体在数字图书馆 中的应用 s 第二章领域本体的构建 依据本文前面对本体的分类介绍,本体的种类繁多,分类标准繁杂,不同分 类和不同层次下的本体,在进行本体应用过程中的作用有很大差别,所以本体种 类的选择是一个重要问题。图1 从层次角度将本体分类,作者认为值得借鉴,解 释如下: 1 顶级本体主要研究非常通用的概念,如,空间、时间、事物、对象、事件、 行为等,它们完全独立于特定的应用领域。因此,我们可以说,顶级本体可 以在一个很大的范围内共享; 2 处于第二层的领域本体研究与一个特定领域相关的术语或者词汇,如医学, 企业模拟等;在同一层次上的任务本体则定义通用任务和推理活动,如诊断 等。它们都可以引用顶级本体中定义的词汇来描述自己的词汇: 3 处于第三层次上的应用本体则描述特定的应用,它既可以引用所涉及的领域 本体中的概念,又可以引用任务本体中的概念。 可见,领域本体的层次处于本体论研究的过渡层,在本体论研究中起到了承 上启下的作用,在建立基于本体的知识组织系统中,领域本体具有一定优势,在 此层次的概念,更适合于知识组织体系,所以本论文选择领域本体作为应用重点。 一、本体的主要构建方法 构建本体的方法是当前研究中的热点问题,如果没有好的方法路线指导,就 难以在不同领域本体的构建中保持一致,也不利于本体的规模化和规范建设。本 体的构建多是面向特定领域,现行的本体构建方法都不是经权威标准化机构认证 的方法。m u s c h o l d 等在1 9 9 6 年试图制定出一套构建本体的方法。但正如他在 文章中指出的,他们并不是要给出一套规范的指南,只是要表示这种方法在他们 的研究环境下能很好的发挥作用。由于各自学科领域和具体工程的不同,构建本 体的过程各不相同。目前尚没有一套标准的本体构建方法。但是,g r u b e r 在1 9 9 5 年提出了5 条原则,现在已经是广泛认可的构建本体的最基本原则,后来的本体 构建多遵循该原则: 1 明确性和客观性:所构建的本体应该用自然语言对术语给出明确、客观的语义 定义。 9 2 完整性:所给出的定义是完整的,能表达特定术语的含义。 3 一致性:知识推理产生的结论与术语本身的含义不会产生矛盾。 4 最大单向可扩展性:向本体中添加通用或专用的术语时,通常不需要修改已有 的内容。 。 5 最少约束:对待建模对象应该尽可能少列出限定约束条件d 3 。 后来,学者们又在此基础上增加了一条:在构建领域本体的过程中,需要领 域专家的参与和协作。 以下,笔者选择了几种比较常见的,具有参考价值的本体构建方法,在最后 的本体构建中,吸收并借鉴了这些方法的思想。 ( 一) t 0 v e 法 t o r e 法,又称6 r u n i n g e r & f o x “评价法”。t o v e 是指多伦多虚拟企业( t o r o n t o v i r t u a le n t e r p r i s e ) ,专用于构建t o v e 本体,由多伦多大学企业集成实验室研 制。t o v e 本体包括企业设计本体、工程本体、计划本体和服务本体。( 见图5 ) 1 1 4 】 ( 二) 骨架法 图4 “t o v e ”流程 骨架法,又称e n t e r p r i s e 法,专门用来构建企业本体( e n t e r p r i s eo n t o l o g y , 是有关企业建模过程的本体) 嗍i ,由爱丁堡大学人工智能研究所发起开发。 1 确定本体应用的目的和范围 2 本体分析:定义本体内所有术语的意义及术语之间的关系。( 即定义“类一和 。关系”) 。 3 本体表示:用相应的表示语言( 又称置标语言) 来表示本体。 4 本体的评价:评价本体质量,评价标准如上文所示 5 本体的建立:对所有本体按4 的标准进行检验,符合要求的即可保存于本体 库中。 l o ( 三) i d e f 5 法 i d e f 5 法是美国k b s i 公司开发的用于描述和获取企业本体的方法。i d e f 5 法构建本体的5 个主要步骤:定义课题,组织队伍,收集数据,分析数据,本体 初步开发,本体优化与验证。在构建本体时,确定领域内的核心概念是首要的, 中心的任务,为了达到这个目标,必须完成三项工作:一是对领域内的术语进行 编目,二是获取用这些术语描述这一领域时的限制条件,三是建立一个模型,当 在模型中加入一条特定的描述时,就会产生“适当的”附加声明【1 6 】。 ( 四) 斯坦福七步法 由斯坦福大学医学院开发的七步法,是目前应用最广泛,步骤最详细,应 用领域较广的本体构建方法【1 7 l ,它的七个步骤分别是: 第一步,确定本体的专业领域和范畴。( 本阶段与以上方法所讲类似) 第二步,考查复用现有本体的可能性。如果自己的系统需要和其他应用平 台进行互操作,而这个应用平台又与特定的本体或受控词表结合在一起,那么复 用现有本体就是最行之有效的方法。如下文所介绍的本体构建工具o n t o li n g u a 中就带有大量本体库,供用户复用或参照 第三步,列出该领域本体的重要术语具体实施时可以先列出最全的术语 表,而不考虑概念间的交叉或重复,然后完善等级体系并定义概念属性,这是构 建本体最重要的步骤。 第四步,定义类( c l a s s ) 和类的等级体系( h i e r a r c h y ) 。完善等级体系可 以有以下几种方法:自顶向下法:由某一领域中最大的概念开始提取,然后逐 渐细化自底向上法:由底层最小的类开始定义,然后将这些细的类组织在一个 更加概括的综合的概念之下综合法:综合以上两种方法。 第五步:定义类的属性,即类之间的内在结构从术语列表中选择一些类, 其余的可能是这些类的属性。 第六步:定义属性的分面( f a c e t s ) 。一个属性由多个分面组成。属性的分 面就是属性取值的类型( v a l u et y p e ) ,容许的取值( a l l o w e dv a l u e s ) 等有关 属性取值的其他特征。 第七步:创建实例。 以上四种方法,是从目前比较流行的本体构建方法中选取应用最广泛,成熟 度相对较高的,并且为后文的本体构建提供了参照的四种构建方法。在利用这些 方法构建本体时,为了能够实现上文所述评价本体的质量标准,可以采用一些技 术手段: 1 领域分析:领域分析所得的领域概念应该是涵盖了该领域绝大部分知识重点 的一个最少量的概念集合。同时这些概念具有最小化的概念冗余。 2 本体合并:如果若干本体的上层分类体系相对一致。那么只需要在层次结构 的某一个或几个分支下增加概念,这样可以分别对不同领域进行本体设计, 然后组合在各自的分支下面。 3 概念增加:概念增加是本体构建中一个非常关键的方面,由于概念间的可能 的关联数量十分巨大,每增加一个概念都会增加很多新的关联,导致网络结 构的进一步复杂,因此控制本体中概念的数量,保证每一个新增概念都是不 可或缺的,并且有明确的,得到公认的定义,是十分重要的。 以上三点只是在构建本体时为了提高本体库质量,可以选择的途径或方法, 目前,对于本体构建,并没有明确的,统一的模式和方法可供借鉴,而且在实际 创建时,由于学科领域的不同,所适用的方法也不尽相同;同时,本体的开发和 完善是一个反复叠加的过程,不会一蹴而就,随着研究和实践的深入。会不断出 现更多更完善的本体构建方法和途径。 二、本体表示语言 、本体的标记语言,可称为置标语言,或构建语言、表示语言,作为表示本体 的工具,应该具有以下基本功能: 1 为本体的构建提供建模元语( m o d e l i n gp r i m i t i v e s ) ,即前文所讲的本体的 主要要素:类( c l a s s e s ) 或概念( c o n c e p t s ) ,关系( r e l a t i o n s ) 、函数 ( f u n c t i o n s ) 、公理( a x i o m s ) 和实例( i n s t a n c e s ) 。 2 为本体从自然语言的表示格式转化为机器可读的逻辑表达格式提供标引工 具。 3 为本体在不同系统之间的导入和输出提供标准的机读格式。 4 形式化语言表示,利用机器可读的形式化表示予以表示本体,可以直接被计 算机存储、加工、利用,或在不同的系统之间进行互操作。 2 0 0 4 年2 月1 0 日,w 3 c ( 万维两联盟) 发布了支持语义网的两个技术标准: r d f ( 资源描述语言) 和o w l ( w e bo n t o l o g yl a n g u a g e ,w e b 本体语言) ,r d f 和 o w l 作为语义网的标准为资源管理、企业间整合、w e b 的数据共享和再利用提供 了框架,规则化了跨应用程序、跨企业、跨社区的数据共享,让不同领域、不同 类型的用户可以共享同样的信息,这些正符合w 3 c 在2 0 0 0 年提出的语义网的目 标:使w e b 上的信息具有计算机可以理解的语义。 r d f 定义了一种用以描述资源及其相互作用关系的简单模型,是语义网实现的 关键技术之一,也是语义信息描述的有效手段。其基本数据模型包含三类对象; 资源、属性和陈述,资源之间的关系通过属性和值来描述,描述特定资源特定属 性的值,就构成r d f 中的一个陈述,通常可以用r d f 三元组 描述。其中,被描述的资源称为s u b j e c t ,描述资源的属性成为 p r e d i c a t e ,属性对应的值为o b j e c t r d f 建立在x m l 基础之上。 o w l 建立在r d f 之上,也以) a 儿为书写工具。主要用来表达需要计算机应用 程序来处理的文件中的知识信息,而不是呈递给人的知识。o w l 能清晰的表达词 表中各词条的含义及其之间的关系,这种表达就是本体【堋。这两种语言是目前 语义网的标准语言,本文后文所建本体就以这两种语言的格式导出一, 三、本体构建工具 本体的建立需要相应的编辑工具,作为本体的构建工具,有一些基本的功能, 如需要有清晰、兼容、稳定而且操作便捷的用户界面;能够通过解释指令的含义 向用户提供帮助;允许用户复用文本库中现有的本体;文本的输入输出,及不同 格式文本的转换等功能。下面简要介绍一下目前使用最为广泛的本体编辑软件 p r o t 6 9 6 。 p r o t 6 9 $ 由s t a n f o r dm e d i c a li n f o r m a t i c s ( 斯坦福大学医学院医学情报学 研究组) 开发研制。p r o t 6 9 6 - 2 0 0 0 是目前在全球拥有最广泛用户的本体编辑工 具之一,通过h t t p :p r o t e g e , s t a n f o r d , e d u ,用户可以登录该网站,并免费下 载使用该工具。p r o t 6 9 6 是在j a v a 环境下开发出来的,与其他系统相比,其优 势在于: 1 具有图形化的用户界面 2 支持u n i c o d e 字符集输入 3 可以免费下载安装系统软件与插件 4 支持d a m l + o i l 、o w l ,可以用o w l 、f , d f 、r d f s 等表示语言在系统外对本体进 行编辑和修改 本文所建本体正是利用该工具构建,因此对于该工具的具体使用见后文的 “m a r k e tp o s i t i o n i n g 领域本体的构建”。 四、本章小结 本章在第一章本体基本概念的基础上,着重介绍领域本体构建的相关知识。 因为领域本体是本体应用中最重要也是应用最广泛的部分,构建领域本体的关键 主要是构建的方法,构建利用的工具,以及本体表示语言。本章为介绍性讲解, 主要目的是为后文所建本体提供构建的方法。具体本体构建的实例在下一章中详 细介绍。 第三章一个领域本体构建实例及分析 一、本体构建基本流程 领域本体描述的是特定领域中的概念与概念之间的关系,比较具体,容易形式 图5 领域本体构建步骤图 化和共享,本文以下所指本体,均指领域本体。本文构建领域本体的基本过程如 1 4 上图所示( 该流程综合参考了上文所述“骨架法”和“斯坦福七步法”) : 1 确定本体应用的专业领域和范畴:根据所研究的领域或任务,建立相应的领 域本体。领域越大,所建本体越大,所以需要限制本体的领域

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论