(计算机应用技术专业论文)本体库的构建方法及应用研究.pdf_第1页
(计算机应用技术专业论文)本体库的构建方法及应用研究.pdf_第2页
(计算机应用技术专业论文)本体库的构建方法及应用研究.pdf_第3页
(计算机应用技术专业论文)本体库的构建方法及应用研究.pdf_第4页
(计算机应用技术专业论文)本体库的构建方法及应用研究.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)本体库的构建方法及应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文 m a s t e r st h e s i s 中文摘要 本体是使w e b 具有语义性的关键技术,自从2 0 世纪9 0 年代以来,本体已成 为知识工程、自然语言处理和知识表示等人工智能研究界的热点研究领域。近来本 体也越来越成为智能信息集成、信息协同系统、信息检索、电子商务和知识管理界 的热点研究问题。本体如此流行的原因是:它提供了一套对特定领域知识的共享和 共同认识,以便实现人机应用系统中的通讯。利用本体技术构建的领域知识库,不 仅可以清晰地描述领域中的概念及其关系,还可以实现领域知识的共享和重用, 且有利于领域知识库的管理和维护。 随着本体数量的增加以及跨领域信息集成的应用需求,维护和重新组织各种各 样的本体以利于知识的共享和重用正越来越成为挑战性的任务。随着网络的迅速发 展,许多应用都需要对多个领域的信息进行联合查询,用来进行数据分析,设计方 案等,这需要对多个领域本体进行存储和管理。 在基于本体的应用中,本体的存储和管理是一个重要的环节。目前,有两种方 式存储本体:关系数据库模式和纯x 札数据库模式。用纯) ( m l 数据库来维护和管理 本体,不能对本体里的数据信息进行很好的管理,仅仅是对整个) ( m l 进行管理。用 关系数据库存储和维护本体时,通过设计存储模式,对以数据为中心的本体,可以 实现很好的数据挖掘。 本文针对多本体应用需求,利用关系数据库来存储和管理本体,提出了一种改 进的本体存储模式一一完全存储模式,在此模式的基础上,研究了本体库的构建方 法,包括本体注册方法,本体库合并方法,本体提取方法,并且,运用上述方法, 构建了一个跨领域本体库c f o r 。本文针对完全存储模式下本体库的知识分布特性, 提出了基于本体库的信息检索框架,该框架改进了推理机的模式。本文基于c f o r 中的景点本体、酒店本体、交通本体和地区本体,研究了旅游路线方案的生成算法, 同时设计了“武汉一日游”旅游路线方案自动生成的实验,实验结果表明推理机能 够实现较高层次的应用。 关键词:领域本体;本体库;完全存储模式;信息聚合 a b s t r a c t o n t o l o g yi st h ek e yt i h 面q u et h a tu s e di ns e m a l l t i cw e b s i n c e19 9 0 s ,o n t o l o g y h a s b e c o m ea ni m p o r t a i l tr e s e a r c hf i e l d i ni n t e l l i g e n ta r t m c i a lr e s e a r c ha r e 如 s u c ha s k n o w l e d g ee n g i i l e e r i n g ,n a n a l l a n g u a g ep r o c e s s i n g ,l 【i l o w l e d g er e p r e s e n t a t l o n ,e t c l i l t h er e c e n ty e a r s ,o n t o l o g yh a sa l s ob e m eah o tr e s a r c hp o 血i ni n t e l l i g e n ti n f o h i l a t i o n i n t e 盯a t i o n ,i n f o 眦a t i o nc o o p e r a t i o ns y s t e m ,i 面r m a t i o nr e t r i e v a l ,e l e c t r o n i cb u s m e s s a n dk n o w l e d g em a n a g e m e n t t h er e a s o no ft h ep o p u l a r i 够o fo n t o l o g yi st h a ti tp r o v i d e s as h 撕n ga n dc o i i l 】 1 1 0 nr e c o g m t i o no ft h es p e c i f i cd o m a i nk n o w l e d g et or e a j i z et h e c o m m u n i c a t i o nb e “佗e nh 啪a i la i l dm a c l l i n e s t h e r e 、杭l lb em a n yb e n e f i t st 0c o n s 仇l c ta 面m a i nk n o w l e d g eb a s eb yu s i n go n t o l o g ) rt e c h n i q u e ,s u c ha sc l e d yd e s 嘶b em e c o n c e p t so ft h ef i e l d sa i l dr e l a t i o n s 锄o n gt h e m ,r e a l i z en l es h a r i n ga i l dr e u s i n go f d o m a i nk n o w l e d g e ,m a n a g e m e n ta n dm a i n t e n a i l c eo fd o m a i nk n o w l e d g eb a s e ,e t c a sm ei n c f e a s i n gm m l b e ro fo n t o l o g ya i l d 也ea p p l i c a t i o nd e m a 工n so fc f o s sf i e l d i i 怕衄a t i o ni n t e 野a t i o n ,“h a sb e e nb e c o m i n gam o r ea n dm o r ec h a l l e n g i n gt a s kt h a t m a i n t a i n i n ga 1 1 dr e o r g 越z i n gv 撕o u so n t o l o g yt os h 撕n ga n dr e u s i i l g1 ( 1 1 0 w l e 电e a s l e d e v e l o p m e n to fm en e t v 旧r k ,m a n ya p p l i c a t i o 璐n e e dt ou s e m u n i 一6 e l d s i b m l a t i o nt o d oc o m b i n 撕o nq u e 阱d od a t aa i l a l y s i s ,d e s i g i lp r o p o s a j s ,a 1 1 da l lt l l e s en e e dt os t o r ea n d m a n a g em m t i f i e l d so n t o l o g y i nm ea p p l i c a t i o nt h a tb a s e do no n t o l o g y ,s t o r ea l l dm a n a g eo n 协1 0 9 yi sa ni m p o 衄t p a r t r e c e n n y ,t h e r ea r e 伽m e t h o d st os t o r eo n t 0 1 0 9 y ,o n ei su s i n gr d b m s ,a i l d t h e o t h e ri su s i n gn a t i v e 一ld a t a b a s e ( n x i ) ) ni sn o tv e r yg o o dt om a n a g ed a :t a i n f o 咖a t i o no fo n t o l o g yb yu s i n gn x d , u s i n gr d b m s ,w h e nt h es t o r em o d e l d a t a - m i n e i n go fd a t a - c e n t e r e do n t o i o g y a i l di ti s j u s tt h em a i l a g e m e n to f x m lf i l e s b y i sb e 慨rd e s i 印e d ,i t 谢l lg e tg o o dr e s u ho f t bm e e tt l = i e 印p l i c a t i o nn e e d so fm u n i - o n t o l o g y ,a n 加p m v e do n t o l o g ys t o r em o d e l c a l l e dc o m p l e m e n ts t o r em o d e l ( c s m ) h a sb e e nb r o u g h tf o r w a r db yu s i n gr d b m s t 0 s t o r e 趿dm a n a g eo n t o l o 肼o nt h eb a s i so ft h em o d e l ,也ec o n s t n l c t i n gm e m o do f o n t o l o g yr e p o s i t o 巧h a sb e e nd i s c u s s e d ;i ti 1 1 c l u d e st l l er e g i s t e r i n go fo n t o l o g y ,t 1 1 e m e r g i n go fo n t o l o g yr e p o s i t o r y ,t h ee x t r a c t i o no fo n t o l o g y 矗i o mo n t o l o g yr e p o s l t o r y a n d a l lc r o s sf i e l do n t o l o g y - 印o s i t o 巧( c f o r ) h a sb e e nc o n s 仃u c t e db yu s i l l g 廿l e s em e t l l o d s af 啦n eo fi n f o 彻a t i o nr e t r i e v a lb a s e do no n t o l o g yr e p o s i t o 巧h a sb e e nb r o u g h tf o n v a r d t ot h el 【1 1 0 w l e d g ea l l o c a t i o ns p e c i a l 时o fo n t o l o g yr 印o s i t o r y 协m ec s m ,a i l di t i i i l p r o v e sm er e a s o n e r o nt h eo n eh a n d ,t h ei 仰e rm l eh a l sb e e ns 印a m t e d1 = r o m 1 e r e a s i o n e ra n db e c o m e sa 1 1i i l d e p e n d e n te x t e n s i v em l eb a s e ;a 1 1 do nt h eo t h e rh 锄d ,a n e x t e n s i v ec d m p u t a t i o i 谢i 1 1 f e r e n c em o d u a lh a sb e e na d d e di m ot 1 1 e r e a s o n e r a n 驾赛慧怠慧黑三霉竺e 幻h 尝mr o 蹴s ,a n 撼壤es 黝e ;溉抵;盟e d 鞠 嚣篡s 慧嚣黛黑,! 竺,? n e 一憾t i 蒜茹1 苫蠹芝麓 e 冲一酬w 衄r e a s o n c rc 砌d t 呻- 孟酬s 甚芸- 三恭。:;! ;嚣:= j 龇 脚肿眦然a 删竺,。? 1 。舒r e p o s i 呻,c o m p l e m c n t 咖m o d e l , h 吐。黝船o na g g r e g 砥o n 1 w 华中师范太学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 薪取褥的研究成果。除文中已经椽骥弓l 用的内容外,本论文不包食任何其他个人或 集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标鹈。本声鳎的法律结果由本入承担。 学链论文版权使用授权书 h 本学位论文作者完全了解学校有关保留、使用学位论文的擐定,即:学校有权 傈留并向国家有关部f l 或机构送交论文的复印件和电子舨,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 彳亍检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时授权 孛弱科学技术基息研究掰将本学位论文浚录到中量学位论文全文数攒库,著通 过网络向社会公众提供信息服务。 储始冶涉投 鹤期:沙髫年6 箕多舔 导师签名:询 霪襄泳伊 鏊 本人已经认真阅读诺融己薹s 藉校学位论文全文数据库发布章程挣,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程 中的 趣定享受穗关权益。粒塞途塞鬟变基澄蜃! 婆璺玺;璺左生壁三釜基盔e 作者签名: 铭沪,段 日期卅年月弓日 言薹一日 嘲:o 妒勿月乡日 硕士学位论文 m a s t e r st h e s i s 第一章绪论 1 1 论文的研究背景和意义 1 1 1 论文研究背景 w o r l dw i d ew e b ( w w w ) 改进了人类信息交流的方式,当前在w w w 上大约有三 十亿个文档,全世界约有三亿用户存取和访问这些文档,并且这些文档的数量仍在 迅速增加。由于当前w e b 页面主要使用格式化的表示语言( 如h t m l 和s g m l ) ,并且 主要以自然语言的方式来表示信息,导致w w w 上信息是人类可理解的,不能被机器 理解。w w w 上的海量数据已经使信息查找、存取和维护变得越来越困难。计算机在 存取和处理w e b 信息时仅仅能提供有限的支持。当前w e b 技术的状态严重地阻碍 了其进一步的发展,技术的简单性已经成为了查找、提取、维护和生成信息的瓶颈。 为了解决这些问题,需要实现机器自动处理信息。 t i mb e r n e r s l e e 提出的语义w e b 的目标是通过向数据中添加机器可理解的 语义和启发式信息实现机器自动处理信息,数据的语义加上领域理论( 即本体 o n t o l o g y ) 将使得w e b 提供更高质量的服务。定义一个基本的本体概念结构同语义 w e b 上的机器可处理的数据的思想密切相关。通过定义一个共享的和共同的领域理 论,本体帮助人们和机器实现准确的交流,这种交流不仅是语法上的而且是语义上 的。本体是使w e b 具有语义性的关键技术,自从2 0 世纪9 0 年代以来,本体己成 为知识工程、自然语言处理和知识表示等人工智能研究界的热点研究领域。近来本 体也越来越成为智能信息集成、信息协同系统、信息检索、电子商务和知识管理界 的热点研究问题。本体如此流行的原因是:它提供了一套对特定领域知识的共享和 共同认识,以便实现人机应用系统中的通讯。利用本体技术构建的领域知识库不仅 可以清晰地描述领域中的概念及其关系,还可以实现领域知识的共享和重用,且 有利于领域知识库的管理和维护。 由于企业界和学术界的需求,现已经开发出了多种本体,如w o r d n e t ,c y c , d u b l i nc o r e ,f r a m eo n t o l o g y 等。一方面,不同的领域积极开发自己领域的本体, 如金融本体乜1 、法律知识本体n 引、医药学本体h 5 f 、课程本体璐1 、电子政务本体口刳、 新闻本体、旅游本体、生物基因本体等。另一方面,对于同一领域,又出现两种情 况。其一、由于地域的差异,产生多个表示同一知识范畴的本体,每一个本体都是 该知识范畴的一个模型;其二、由于领域的概念结构庞大,逻辑结构复杂,产生多 个相互关联的本体,这些本体组合起来,共同表示某一领域的知识范畴。 硕士学位论文 m a s t e r st h e s l s 网上资源呈爆炸式的增长,但资源的查询方法在查全率、查准率却非常差。利 用元数据对网上资源进行标注,或利用元数据集,对网上资源进行语义关联抽取, 从而建立网上资源的本体库,利用本体库进行查询推理,从而定位用户所需信息都 是解决信息查准、查全的重要研究方向。 随着本体数量的增加以及跨领域信息集成的应用需求,维护和重新组织各种各 样的本体以利于知识的共享和重用正越来越成为挑战健的任务。由于缺乏成功的本 体共享和重用,阻碍了本体更大规模的发展,因此,本体技术的突破性发展需要有 效的方法和工具口。 作者在研究的过程中发现有些学者将“本体”和“本体库 的概念等同起来。 例如:文献 1 中的摘要中有这样的语句:“c s c w 中经常有多种本体库同时存在, 然褥这些本体库之阗相互独立,不利于协同工作的顺黎l 进彳亍,另夕 ,许多类似予框 架表示的本体库缺乏精确的语义。为解决此问题,提出了用上层本体将不同本体库 关联,并通过描述逻辑本体库为其它本体库提供精确的语义”,其实该文研究的“本 体库”就是单个“本体”。 文献 2 所涉及的“金融领域的本体库 ,其实是一个金融领域的大的本体,只 不过该本体包含的概念比较多,有大约2 0 0 个类、1 7 0 个属性和l o o o 个实例。 本文研究的本体库是指包含多个本体的知识库,这些本体可能是同一领域内 的,也可施是跨领域的。 1 1 2 论文的研究意义 近几年来,基于本体的应用成为研究的热点。但是,从研究的内容来看,基本 上都是基于针对某一领域的单个本体的应用。例如:文献 3 以城市交通为研究和 应耀背景,建立城市交通本体,并将其应用到城市交通语义查询系统中,实现城市 交通知识推理等功能。文献 4 将本体引入试题知识库的建模中,利用领域知识与 本体语言建立领域知识库本体模型,建立概念共享模型提供概念语义空闻,解决知 识表示、共享及重用问题。文献 5 以课程知识本体为基础,建立了课程关键词库 和f a q 库,借助本体在知识结构及相互关系表达上的特点,提高智能性和学习引导 性。 随着i n t e r n e t i n t r a n e t e x t r a n e t 的迅速发展,网络的开放性、熬享性和互 联程度不断扩大,耀上的信息激增。大量不露的信息源数据库、知识库、文档 集合共存于网上。许多应用需要对多个相关信息源进行联合查询,用于市场竞争分 析、趋势预测和行为分析等啪1 ,从单个信息源中查找数据已经远远不能满足毅的霈 求,这也导致了跨领域的多本体建设的应用需求。铡如,用户向旅行社咨询旅行方 2 硕士学位论文 m a s t r + st h e s ls 案,用户的要求是给定一个旅游的城市( 如武汉) 和打算旅游的时间段( 如3 天) , 旅行社给出几个参考的旅行方案,包括旅游路线,住宿安排等。旅行社要实现下这 样的需求,就必须综合各个城市的景点信息,旅馆的信息和交通信息等。 另外,用本体编辑工具构建的本体多以文件形式存储,当涉及的本体很多时, 这种方式会带来管理上的不便。因此,种思路就是构建本体库,对这些异构的本 体进行统一的管理。 构建本体库的目的是为了存储和管理本体,其首先面临的问题就是数据库的选 择。目前,可用来存储本体的数据库有关系数据库。蜘( x e d b 一瑚le n a b l e dd a t a b a s e ) 和纯) ( m l 数据库秘q ( n x d b n a t i v e ) ( m ld a t a b a s e ) 。x e d b 和n ) ( d b 各有特点圈,如下 表所示: 表1x e d b 和n x d b 的比较 优势劣势 无需将传统数据库中的原有数据 x m l 文档存入到数据库时需要将其分解并进行数 重新移植到新系统中,只需稍加扩据映射,取出时需要重新组合,开销大,且文档的 矮裁可以支持怼l 应用格式可能会改变,甚至丢失某些信惠 传统数据库技术,如并发控制、 x m l 文档和数据库之间的模式转换复杂,在前期 x e d b事务处理、结构化查询等鼹经很成开发阶段需要很大投入 熟 x m l 文档存取无需模式转换,存 在传统数据库技术方面比较薄弱,没有经过时间 取速度快的考验 n x d b 对格式复杂的瑚l 文档有很好的 知识比较新,相应的支持人员和文档资源都比较 支持 少 支持大多数最新镌飙技术标 应用藏露仅局隈在x 跹应用领域中 准:支持层次化的数据模型 对于“以数据为中心的瑚l 文档,x 确b 可以方便地将其中的数据抽取出来, 存储在传统数据库中,但是对于“以文档为中心的x m l 文档,x e d b 显得力不从心。 1 。2 国内外的研究现状 总的情况来看,隧前本体库的构建的研究较少。相关研究有以下几个方面: 1 2 1 国外几种典型的本体存储管理系统 ( 1 ) s e s 勰e 隗是针对r d f 数据管理提出酶一个遴用的系统框架,它是一个开 3 硕士学位论文 m a s t e r st h e s i s 源项目,提供了非常开放的a p i 接口,使得人们可以很方便地集成不同的存储系统、 推理引擎以及查询引擎等。它本身提供了基于关系数据( m y s q l ,p o s t g r e s q l , 0 r a c l e ) 、基于文件系统以及基于主存的存储系统的实现,提供了推理算法以及更 新算法的实现,支持自定义的查询语言s e r q l 以及r d q l 。s e s a m e 旨在提供一个 通用的系统框架,它不规定如何设计存储模式,也不规定如何实现推理,而是通过 定义一组接口来规定存储模块以及推理模块等应该完成什么样的功能,方便人们可 以集成不同的实现模块。 ( 2 ) j e n a 是由h p 实验室开发的综合系统。它包括了一个易于面向对象使用 操作r d f 的a p i ,一个a p rr d f ) ( m l 解析器,一个r d f x m l 输入器,可以使用r d q l 查询语言,支持d a m l ,即有持久稳定的存储能力。j e n a 的存储功能包含有a p i 的 三种执行方式:第一是存储它的数据在主要的存储器中;第二种是把数据存储到关 系数据库中;第三种是用s l e e p y c a t 软件的开源的植入式数据库b e r k e l e yd b 。关 系数据库的执行方式可以用任何支持j d b c 的数据库。配置表允许对一个特殊的数 据库进行特殊化的处理。如同关系数据库一样,b e r k e l e y 数据库也是持久稳固的, 尽管它缺乏关系数据库的事物处理支持能力,但它比关系数据库可以快一个数量 级。 ( 3 ) k a o n 8 1 ( t h ek a r l s r u h e0 n t 0 1 0 9 ya n ds e m a n t i c w e bi n f r a s t r u c t u r e )是 德国k a r l s r u h e 大学的一个科研项目。该项目致力于为语义w e b 提供所需的基础 本体系统和相关工具。它针对基于本体的上层商业应用的需求提供了一个开放的本 体管理软件,为本体的存储、创建和标识提供了一个全面的支撑平台。r d fa p i 采 用的是斯坦福大学的r d fa p i ,但做了相应的重写和扩展,为上层应用或k a o na p i 提供了本体的内存存储机制。目前,r d fa p i 不但包括了一个r d fp a r s e r 可解析 r d f 文件,还包括了r d fs e r i a l i z e r 可以将本体序列化到关系型数据库和文件中 去。k a o na p i 为应用屏蔽了底层的存储机制,但实际上它也可以通过多种方式访 问k a o n 本体,一种是通过r d fa p i ( 然后通过r d fs e r v e r ) ,另一种是直接通过 e n g i n e e r i n gs e r v e r 。k a o na p i 的定义有其合理性,例如它有o b s e r v a b l e 这个设 计范式,可以让应用自动得到本体修改或升级的消息。r d fs e r v e r 和e n g i n e e r i n g s e r v e r 都基于关系型数据库,可以提供并发控制和交易机制,它们还可以直接支 持e j b ( 可选) ,提供e n t i t yj a v ab e a n s 接口。 1 2 2 数据库到本体的转换 余霞等旧1 提出了一种基于规则的关系数据库到本体的转换方法,通过分析主键、 属性、引用关系、完整性约束和部分数据,将关系模式映射到相应的本体结构,集 4 硕士学位论文 m a s t e r st h e s i s 成信息,创建概念层次,然后将数据库中的数据映射到本体实例。该方法最大限度 地保持了关系模式的完整性,可自动化地进行转换,完成了基于本体的数据集成的 第一步工作创建本地本体。实现的系统可被用于多种语义数据集成环境中。 许卓明等在文献 1 0 中提出了一种从关系数据库学习o w l 本体的方法,该方法 的可行性基于以下事实:运用数据库逆向工程( d a t a b a s er e v e r s ee n g i n e e r i n g ) 方 法可从关系数据库模式提取e r 模式;e r 模式可语义保持地转换成0 w l 本体。因 此,可定义一组直接从关系数据库模式到o w l 本体的映射规则,基于这样的映射规 则可开发相应的本体学习器。 1 2 3 多个本体的集成 王真星等在文献 1 1 中研究了本体集成的步骤: ( 1 ) 将不同表示类型的本体库进行转换,形成相同表示类型d a m l + o i l ; ( 2 ) 用本体集成编辑工具o n t o i n t e g 输入各本体库,根据各局部本体库,对应 用程序所感兴趣的部分进行概念提取,进行集成工作,包括2 个步骤: 1 ) 全局本体库的创建:如果应用程序对局部本体库中同类概念比较关注,则必 须创建全局的本体库。全局本体库是局部本体库中相似概念的抽象,这些概念通过 和对应的上层本体中的概念建立映射来实现在相互之问建立语义关联。 2 ) 关联本体库的创建:如果应用程序对局部本体库中概念之间的相互影响和作 用比较关注,则还必须创建关联本体库。根据具体应用定义依赖名并对依赖的前提 条件进行设置。 ( 3 ) 将创建好的全局本体库和关联本体库用d a m l + 0 i l 输出。 1 3 本文研究的目的 通过上述介绍可知,本体的应用非常广泛,但这些应用都是基于单领域本体。 随着网络的迅速发展,许多应用都需要对多个领域的信息进行联合查询,用来进行 数据分析,设计方案等,这需要对多个领域本体进行存储和管理。众所周知,数据 库代替文件系统维护和管理数据,取得了极好的效果。借鉴此经验,用本体库来维 护和管理本体也会优于采用文件系统来维护和管理本体。 目前,一般用关系数据库系统来维护和管理本体,本体一般用) ( m l 表示。从x m l 文档模式到关系数据库模式的映射及其反操作是x e d b 中最核心的问题。这种转化 将发生在元素、属性和文本上,由于x e d b 注重的是数据而非格式,在这个过程中, ) ( m l 文档的大部分物理结构和一部分逻辑结构都将被忽略,而数据被保存,这种转 换可能会丢失信息,当一个x m l 文档存储到x e d b 中再取出来,很可能会变成另一 5 硕士学位论文 m a s t e r st h e s i s 种格式。用纯x m l 数据库来维护和管理本体,不能对本体里的数据信息进行很好的 管理,仅仅是对整个) ( m l 进行管理。 本文的研究目的是通过结合关系数据库在数据管理方面的优势,研究本体库的 构建方法,利用本体库来维护和管理多个本体,并在此基础上,研究基于本体库的 查询和推理等应用。 1 4 论文的结构 论文共分为五章,第一章为绪论,介绍课题的背景和意义、本体库构建的国内 外的研究现状以及本文的研究目的。 第二章介绍了本体、本体库、本体表示语言和本体构建工具的相关概念。 第三章讨论本体库的构建方法,包括本体库的存储模式、本体的注册方法、本 体库的合并以及本体库中本体的提取方法。 第四章主要讨论基于本体库的应用,包括基于本体库的信息检索框架,基于本 体库的查询推理和信息聚合,并讨论“武汉一日游 旅游路线方案的实现算法。 第五章对全文进行了总结,并对进一步的工作进行了展望。 6 硕士学位论文 m a s t e r st h e s i s 第二章相关概念 2 。1 本体的概念 在过去的十年中,已经出现了许多的本体定义,虽然表述不尽相同但是内容大 同小异,在这里采用文献 1 2 中的定义。 定义1 :一个本体是一种对共享概念化的形式化和明确规范。 人类、数据库和应用软件使用本体来共享领域知识( 一个领域是指一个特定的 学科范围或者知识范围,例如医药、设备制造、房地产、汽车修理以及财务管理等) 。 本体既包括一个领域内的知识也包括各种领域之间的知识,使用这种方式使知识被 重用隧1 。在构建一个知识库系统的时候,不同的本体扮演着不同的角色,现在对于 本体的分类法尚没有统一的标准,通常可以区分以下几种本体类型: ( 1 ) 领域本体:针对特定的应用领域抽象领域知识的结构和内容,包括各种 领域知识的类型、术语和概念,并对领域知识的结构和内容加以约束,形成描述特 定领域中具体知识的基础。 ( 2 ) 通用或常识性的本体:主要描述客观世界一般性的知识,如时间、空间、 状态和事件等,它们通常适用于几个领域。 ( 3 ) 应用型的本体:针对特定应用领域知识建模的抽象定义,如方法本体和 任务本体。它们是针对特定的任务和方法构建的本体。 ( 4 ) 表示本体:通常不限制于一个特定的领域,仅仅提供了一种表示实体的 方式但是没有规定必须表示什么。 通常在一个本体中主要定义以下几个组成部分: a 类:领域和任务中的概念,通常使用分类法组织在一起。 b 关系:领域概念之间的一种联系类型。 c 函数:一种特殊的关系,在关系的n 个元素中前n 一1 个元素决定了第n 个元素。 d 公理:一种关于事实的语句,如果s t u d e n t 选修了课程a 和b ,那么他是二年 级学生。 e 实例:表示特定的元素,如p e t e r 是学生的实例。 语义w e b 中的本体作为一种描绘文档语义的方式,使这些文档的语义能够被 w e b 应用和智能a g e n t 所使用。使用本体来构造和定义当今正在聚集和标准化的元 数据术语是非常有用的,明天的应用将是更加智能的,在这种意义上它们能够达到 人类的概念层次上。本体对于那些想要查找或者合并分散的信息的应用是非常关键 7 硕士学位论文 a 矗a s t e r st h e s l s 的。虽然煳ld t d s 和煳ls e h e 腿s 对于在两个遵守预先定义的协议的应用是足够 的,但是由于它们缺乏语义使得机器难以利用新的捌l 词汇来执行任务。同样的术 语在不同的上下文可以具有不同的意思,不同的术语可以被用来表达相同的意思。 髓f 和r d fs c h e 腿通过允许联系与标识符的简单语义来着手处理这个问题。使用 r d fs c h e m a ,一个人能定义具有多个子类和超类的类,定义具有子属性、领域和范 围酶属性。在这种意义上,r d fs e h e 撵a 是一种篱单的本体语言。然露,为了达至l 在众多独自发展和管理的模式之问的交互操作,丰富的语义是必需的。例如,r d f s c h e 腿不能定义p e r s o n 和c a r 类是不相交的,或者一支四重唱曲刚好有四个音乐 家作为成员的。这就是为什么必须在r d fs c h e m a 之上引入本体层的原因。 2 。2 本体的描述语言 2 2 1 传统的本体表示语言 0 珏专。圭量稳g 珏a 是一种基予k 王f ( k 瓣。霹王e d g e 王珏t e r c h a n g ef o r 隧t ) 和购( f r 锄e o n t 0 1 0 9 y ) 的语言,斯坦福大学人工智能实验室的0 n t 0 1 i n g u a 服务器就是采用 0 n t o lin g u a 作为其本体表示语言。 k if 【 箱秘3 3 是由斯坦福大学人工智能实验室专家在研究本体时提出的一种基于谓 词演算的形式化语言,主要功能包括解决知识表示语言的异质性,定义对象、函数 和关系,基于一阶谓词逻辑,并含有一个前缀符号,另外,它还可以表示元知识的 非单调推理规则,具有描述性语义,成为采用不同知识表示的程序之间通讯的桥梁。 由于题f 其实是一种互换格式,因此从本质上讲,用l ( 王f 来详细说明本体是菲常繁 琐的。而建立在k i f 基础之上的f o 是一种知识表示本体,它能够以框架的样式详 细描述本体,能够提供诸如c l a s s ,i n s t a n c e ,s u b c l a s s o f ,i n s t a n c e f 等项, 但它不能表示公理。因此,o n t o l i n g u a 讲k i f 表达式弓| 入基于f o 的定义内。 一般来说,o n t 0 1 i n g u a 可以用以下三种方式建立本体:( 1 ) 仅使用f 0 词汇( 不 能表示公理) ;( 2 ) 使震k 王f 表达式;( 3 ) 阕时使用上述两种方式。无论采用哪种 表示方法,0 n t 0 1i n g u a 都包括3 个组成部分:定义头部分、用自然语言描述的非形 式化定义部分、用l ( i f 或者鼬定义的转换器。这些o n t o 王主n g u a 转换器可将由 o n t 0 1 i n g u a 表示的本体转换为l 0 0 m 等语言。 目前,o n t o l i n g u a 已经开发出一个推理引擎,如果用户想要开发一个专用的推 理弓| 擎,就必须使用o k b c 应用程序接日。 0 k b c ( o p e nk n o w l e 曲eb a s ec o n n e c t i v i t y ) 协议,曾经被称为通用框架协议, 它具体描述了一个协议,蔼非一种语言。这个协议对其底层的知识表示系统作了假 8 硕士学位论文 m a s t e r st h e s i s 定,对于支持知识共享的语言是一个有力的补充。 g f p 知识模型是位于o k b c 底层的隐式表示方法,它能够用以对象为中心的方法 来表示知识,还提供了一组具有代表性的构件:常量、框架、槽、面、类、个体和 知识库,这些构件都常常出现在框架表示系统中。同时,它还提供了一个问答界面, 以便用o k b c 协议访问知识库,另外,它还定义了一些用类l i s p 语言编写的函数, 这些函数可以描述在知识库内部所进行的一些复杂的操作。目前,已经开发出完全 符合0 k b c 协议的0 k b c 一0 n t o l o g y ,并已应用到0 n t o l i n g u a 中。 o c m l ( 0 p e r a tio n a lc o n c e p t u a lm o d e1 in g l a n g u a g e ) 是一种基于框架的语言, 它能够表示诸如关系、函数规则、类和实例等项。为了使这种语言更为有效地执行, 它还另外增加了一些逻辑机制以增强推理的有效性。它也提供了一个问答界面,而 且可以将它作为阐明事实,检验0 c m l 模型内容的一种机制。在开发o c m l 的过程中 还考虑到许多实际因素,其中一个就是与标准( 比如0 n t 0 1 i n g u a ) 相容,而且它还 提供了理论证明和函数评价功能。因而0 c m l 也可以被看作是一种“实用的 o n t o l i n g u a 。 f l o g i c ( f r 锄el o g i c ) 综合了基于框架的语言和一阶谓词逻辑,它能够清楚 明白地说明面向对象和基于框架语言的大多数结构方面,例如,对象属性、合成对 象、继承、多态、查询方法、封装等等。在推理演绎方面,f l o g i c 有一个理论模型 和一个完整有效的基于决策的证明机制。 f 1 0 9 i c 的应用领域很广,从面向对象、推演数据库一直到本体。如果将它与其 他一些专门的逻辑( h i l o g ,事务l o g i c ) 结合起来,还可以利用本体中的信息改进 推理机制。 l 0 0 m 是一种高级编程语言,由美国南加州大学信息科学学院设计并实现,主要 是用来构建专家系统和其他一些智能系统。它是由k l o n e 衍生而来的,基于描述 逻辑,这种方法实现了基于规则和基于框架模式的紧密结合。 l o o m 提供了明确定义而且表达力较强的模型描述语言,能描述定义、规则、事 实和缺省规则等;提供了有效的推理机制,能利用前向推理、语义一致化和面向对 象的真值维护等技术实现推理;提供了编程范例、产生式规则范例和面向对象范例 等,并能方便地把范例集成到应用中。l o o m 还提供了知识库服务功能以方便用户对 知识库的操作和维护。目前,南加州大学又推出了l 0 0 m 的第二代p o w e r l o o m ,它集 成了l 0 0 m 的知识表示方法,并且它的推理引擎更为有效。 另外,非常重要的一点是:集中采用描述逻辑的方法来建立本体,它与上述各 种基于框架的语言的方法是不同的。用这种方法所下的定义可以产生一个有效的分 9 硕士学位论文 m a s t e r4 st h e s l s 类器,并鼹一组限制条件详细描述各个概念。 2 2 2h b 标准和骼c 推荐本体语言 x 鹾l ( e x t e 珏d e d 纽r k 疆pl a n g 毪a g e )是从s g 氇( s 专a n d a r dg e 秘e r a 王鹾a r k 毽p l a n g u a g e ) 发展而来的,由万维网联盟( w 3 c ) 的x m l 工作小组开发,现在它几乎 已经成为了一种标准。 瑚l 作为一种本体表示语言的基础,它的优点在予: 用d t d 定义通用句法规范; 用户锈够理解包含在猫l 内的信息; 由于) ( m l 可以嵌入网页中,因此它可以表示包含在多个页面中的分布式信息; 允许缺省x 娩标记符之闻的信息结构,这样,要在文档瘛部发现本体成分就 很困难; 由许多现成的分析和处理) ( m l 文件昀标准工具,但没有推理工具。为了用基于 蕊l 的语言进行推理,必须开发如新的工具。 ) ( m l 本身对于本体的规范并没有什么专门的特性,它只是提供了一个简单而有 效的方式来详缨指明本体表示语言的语法。 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 是一种基于x m l 的语言,w 3 c 为了创 建描述网络资源的元数据丽开发出这种语言。r d f 与碰l 之间的关系非常紧密,事 实上,他们是互为补充的,r d f 的一个目的就是以一种标准的、可共用的方式来描 述基于】( m l 数据的语义。 r d f 数据模型( 基于语义网络) 包含三种类型:资源( 主语) 有溯地址 表示的实体;属性( 谓语) 定义了用来描述资源的具体特征、属性和关系;声 明( 宾语) 为某个资源的一个属性赋值。叠髓有两个重要的贡献:为创建本 体提供了标准语法;一组建立诸如s u b c l a s s f ,i n s t a n c e o f 关系的标准集。 r d fs e h e m a ( r d f s ) 是一种定义r d f 模型盼语言,它其实就是一组标准r d f 姿 源和属性的集合。r d f s 为r d f 提供了基本的类型模式,可以定义对象、类和属性。 r d f s 的数据模型与面向对象编程中的数据模型是一样的,它可以定义属性和资源之 闻的关系,因而用户能够自己创建自澄的词库。 2 2 3 基于h b 的本体表示语言 x 观( 瑚卜b a s e do n t o l o g y e x c h a n g el a n g u a g e ) 是由美国s r i 研究院a i 中心 开发的本体交换语言,为交换本体定义提供了一种格式,因此,它并不能用来开发 本体,但却可以作为在不同数据库系统、本体开发工具和应用程序之闻转换本体的 l o 硕士学位论文 a d a s r r e r st h e s i s 中间语言。 x o l 用x m l 语法定义了一个o k b c 子集,称为o k b c l i t e 。相比而言,o k b c 为访 问基于框架的系统定义了协议,而x o l 更适合通过万维网交换不同系统之间的信息。 不过,x o l 有一个主要的障碍只能定义类、槽、方面,丽不能定义框架。西前, 已经有许多) ( m l 编辑工具可以生成x o l 文件。 s 随( s 主印圭e 鞭零溉魏毛。王o g ye x t e 廷s i o 摅) 最初只是 l 零溉的一个扩充,其圜 的是在h t m l 或其他w w w 文件中加入机器可理解的语义,使得a g e n t 能从网页和文 件中收集有用的信息,以改善搜索机制和信息收集。要达到这个目标需要经历两个 阶段:( 1 ) 定义一个本体来描述正确的对象类别以及对象之间的关系;( 2 ) 给h t 乩 页面加上描述其本身以及其他网页的注释。在s h o e 中,本体是一个i s a 的层次关 系,包括类、类之间的关系、推理撬则。除此之外,s 辩o e 的另

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论