(管理科学与工程专业论文)基于本体的信息检索系统研究.pdf_第1页
(管理科学与工程专业论文)基于本体的信息检索系统研究.pdf_第2页
(管理科学与工程专业论文)基于本体的信息检索系统研究.pdf_第3页
(管理科学与工程专业论文)基于本体的信息检索系统研究.pdf_第4页
(管理科学与工程专业论文)基于本体的信息检索系统研究.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(管理科学与工程专业论文)基于本体的信息检索系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于本体的信息检索系统研究 摘要 目前大多数信息检索系统是基于语法层上机械式的关键词匹配检索技术, 缺乏语义处理能力,存在信息的误检、漏检等缺陷。本体从本质上讲就是对客 观存在的概念及其相互之间关系的描述,所以基于本体的信息检索系统是基于 语义的检索系统,弥补了传统关键词检索系统的不足,从而使系统在查准率和 查全率上有了更好的保证。 本文首先分析信息检索系统的现状,提出目前基于本体的信息检索系统研 究存在的主要问题。然后在阐述本体与信息检索相关理论的基础上提出一种基 于本体的信息检索模型和系统框架,并详细阐述了系统的功能和检索流程。该 模型能够利用本体得到具有语义的索引项,并生成较好的文档逻辑视图和用户 需求逻辑视图,从而可以使检索性能大大提高。 其次深入研究基于本体的信息检索系统的关键技术,包括本体的建设方法、 基于本体的查询预处理和语义处理三个方面。提出了一种结构化的本体建设方 法,为系统的实现提供理论支持。 最后给出本文的实验思路,设计基于保险领域本体的信息检索系统,用实 例说明保险领域本体建模及其过程。 关键词:本体,本体建模,信息检索,语义检索 r e s e a r c ho no n t o l o g y - b a s e di n f o r m a t i o nr e t r i e v a ls y s t e m a b s t r a c t m o s to ft h ei n f o r m a t i o nr e t r i e v a ls y s t e m sa r eb a s e do nm e c h a n i c a lr e t r i e v a l t e c h n i q u ei nt h es y n t a xl a y e r t h es y s t e mm a ym i s ss o m ei n f o r m a t i o nt h a tu s e r s r e a l l yw a n ta n dr e t u r ns o m ei n f o r m a t i o nt h a tu s e r sd o n tw a n t i ne s s e n t i a l l y , o n t o l o g yi st h ed e s c r i p t i o no ft h er e l a t i o n sb e t w e e no b j e c t i v ee x i s t i n gc o n c e p t s ,s o t h eo n t o l o g y 出a s e di n f o r m a t i o nr e t r i e v a ls y s t e mp r o v i d e ss e m a n t i cr e t r i e v a lw h i c h m a k e su pf o rt h ef l a wo ft h et r a d i t i o n a lk e y w o r d s b a s e di n f o r m a t i o nr e t r i e v a l s y s t e m i ti sb e t t e ra tr e c a l la n dp r e c i s i o no ft h er e t r i e v a lr e s u l t f i r s t l y ,t h ep a p e rg i v e ss o m ea n a l y s i st oa c t u a l i t yo fi n f o r m a t i o nr e t r i e v a l , p u t sf o r w a r dt h ep r i m a r yi s s u eo fs t u d yo no n t o l o g y - b a s e di n f o r m a t i o nr e t r i e v a l s y s t e m t h e nb a s e do ne x p o u n d i n gt h et h e o r yo fo n t o l o g ya n di n f o r m a t i o nr e t r i e v a l , a no n t o l o g y b a s e di n f o r m a t i o nr e t r i e v a lm o d e la n ds y s t e mf r a m e w o r ka r ep r o p o s e d a n dt h ef u n c t i o na n dr e t r i e v a lp r o c e s sa r ee x p o u n d e di nd e t m l - i nt h em o d e l s e m a n t i ci n d e xt e r m sc a nb ea c q u i r e db yo n t o l o g y t h el o g i c a lv i e w so fd o c u m e n t s a n du s e r si n f o r m a t i o nn e e d s ,g e n e r a t e di nt e r m so ft h e s es e m a n t i ci n d e xt e r m s ,c a n r e p r e s e n td o c u m e n t sa n du s e r si n f o r m a t i o nn e e d sw e l l s ot h ep e r f o r m a n c eo f i n f o r m a t i o nr e t r i e v a lc a nb ei m p r o v e de f f e c t i v e l y s e c o n d l y ,t h ep a p e rm a k e sad e e p l yr e s e a r c ho nt h ek e yt e c h n o l o g i e s o fs y s t e m ,i n c l u d i n go n t o l o g yc o n s t r u c t i n gm e t h o d ,o n t o l o g y b a s e dq u e r yp r - e t r e a t m e u tt e c h n o l o g ya n ds e m a n t i cp r o c e s s i n gt e c h n o l o g y as t r u c t u r a lm e t h - o do fc o n s t r u c t i n go n t o l o g yi s p r o p o s e da st h et h e o r e t i cb a s i so fs y s t e m f i n a l l y ,t h ep a p e rp r o v i d e st h es t e p so fe x p e r i m e n t ,d e s i g n si n s u r a n c e o n t o l o g y b a s e di n f o r m a t i o nr e t r i e v a ls y s t e ma n du s e st h ee x a m p l et oe x p l a i n o n t o l o g ym o d e l i n g k e y w o r d s o n t o l o g y , o n t o l o g ym o d e l i n g ,i n f o r m a t i o nr e t r i e v a l , s e m a n t i cr e t r i e v a l 插图清单 图1 1 传统w e b 信息检索系统的组成结构l 图2 1 基于w e b 的本体描述语言的发展1 0 图2 2 语义网语言栈1 3 图3 1 系统基本框架图2 4 图3 2 系统处理流程2 6 图4 1 本体设计和评价过程2 9 图4 2 结构化建设领域本体3 l 图4 3 问题处理流程3 4 图4 4 两个概念图g 1 ,g 2 的交集g o 3 6 图4 5 关系相似度的计算3 6 图5 1 系统结构图4 l 图5 2 r d f 的三元组描述示意图4 l 图5 3 金融保险的u m l 片段4 2 图5 4 保险领域本体片段4 3 表格清单 表2 1g u a r i n o 对本体的种类划分7 表2 2 目前广泛使用的本体8 表2 3 语义网络栈描述1 3 独创性声明 本人卢明所节交的学 7 :论文是本人在导师指导i - 进行的研究一i :作及取得的研究成果据我所 知,除了文中特别加以标忠和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果 也不包含为获得金筵e 些厶堂 或其他教育机构的学位或证二栉而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 躲7 砂移磅加,日 学位论文版权使用授权书 本学位论文作者完全了解金胆! :韭厶堂有芙保留、使用学位论文的规定,有权保留并向 国家有天部门或机构送交论文的复印仆和磁盘,允许论文被戎阅或借阅。本人授权盒目b 量些去 ! l 可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印,缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文住解密后适川本授权书) 学位论文者签辄7 多 导师签名: 兽物,名拾 签字日期:z 荔7 年么月日 签字日期:加7 年6 月胆日 学位论文作者毕业j i 亓玄向: 工作单位: 通讯地址: 电话: 邮编: 致谢 本论文是在导师梁昌勇教授和俞家文副教授的悉心指导下完成的,无论从 论文的选题到最后论文的定稿都得到了两位老师的谆谆教诲,使我在学术研究 中取得了十足的进步,尤其是两位导师渊博的知识、严谨的学风、求实的态度 都为学生树立了典范。值此论文完成之际,谨向两位导师致以最崇高的敬意和 忠心的感谢! 感谢管理学院网络所蒋翠清、丁勇、陆文星、何宏贵等老师对我的关心和 指导,使我的论文得以不断的改进和完善。 在读研的三年里,我得到了陈增民、吴坚、张俊岭、陆青、高立群、陈空 军、张亮、李劳、钱炜源、陈龙、张玉、王红星、徐璐、叶春森、李华好、张 静、幸龙潮、张健、惠光伦、刘同军、陈小芳、陈晓军、方治国、张恩桥、马 坤、叶锋华、李有为、陈坤等同学的关心和帮助,在此对他们深表感谢。 感谢我的父母和家人,正是他们多年来默默的支持和无私的关怀,使我完 成了学业。 感谢对论文进行评审和提出宝贵意见的各位老师。 最后,感谢所有关心和帮助过我的人们。借此机会祝愿网络所所有老师家 庭幸福、事业有成,祝愿网络所所有的师兄弟姐妹前程似锦,祝愿所有关心和 帮助过我的人万事如意、一生平安l 作者:汪晨 2 0 0 7 年6 月3 日 第一章绪论 信息检索( i n f o r r a a t i o n r e t r i e v a l i r ) 是从用户出发,帮助用户从信息源中 检索并返回用户所需要信息的过程,包括对信息项进行表示、存储、组织、查 询和对查询结果进行处理等各个方面。从联机检索到网络搜索引擎,信息检索 技术随着信息源的变化和用户需求的提高而不断发展。与此同时,i n t e r n e t 上 的数据表达方式也发生了巨大变化,以h t m l 语言方式组织和表达的页面信息, 主要面向用户直接阅读,没有将信息的表现形式、内在结构及表达内容相分离, 使得计算机无法在基于h t m l 的数据表达上迸行概念和语义层次上的处理,这是 目前信息检索面临问题的原因所在。传统的直接基于关键词的信息检索方法已 不能满足用户对信息检索的要求,寻求新的方法已经成为目前研究的热点。其 中本体是信息检索领域研究的热点之一。 1 1 问题提出 当前主流i n t e r n e t 信息检索系统一般由r o b o t 、搜索引擎、索引数据库和查 询服务模块四部分组成。整个信息检索系统的组成结构如图1 1 所示: r o b o t 是用于自动在w w w 上漫游、搜索数据、下载网页的机器人程序。 搜索引擎负责管理和协调r o b o t 工作,对下载的w e b 页面进行索引与组织, 建立文档索引数据库是检索站点的核心。 索引数据库用来存储采集后经过处理和组织的w e b 页面索引和数据。 查询服务模块收集用户的查询请求,按要求检索数据库,并将结果排序后 返回给用户。 图1 1 传统w e b 信息检索系统的组成结构 整个信息检索工作流程如下:1 、系统在空闲时间段内,搜索引擎模块指派 一个或组r o b o t ,从一个或一组不同类别的被访问频率高的u r l 开始,下载所 有的h t m l 文档。同时,r o b o t 将记录该u r l 所指h t m l 文件中所有的超链接,按照 搜索算法对w w w 进行遍历,直到没有新的超链接为止。搜索引擎对取到本地的h t m l 文件进行预处理,并按一定的策略对其进行表示、组织、存储和访问,其中 可用于查询的部分,如网页内容、网页地址、标题、摘要、关键字、特定字等 存储到数据库中,形成本地查询数据库。2 、用户在系统提供的用户接口处输入 所要查询的关键词,查询服务模块在前一阶段产生的本地查询数据库中依据该 关键词条件按一定的匹配算法查询出相关信息,而后再根据一定的排序算法对 查询结果进行排序返回给用户。 可以看出,目前信息检索系统大多采用在语法层次上基于关键词匹配检索 的方式,缺乏语义匹配的能力,存在以下较为显著的问题: 1 、由“词汇孤岛”引发的问题。在人的大脑中,概念并非孤立存在而是 和其他概念由各种各样的关系联系在一起的,但目前i n t e r n e t 资源主要是以 h t m l x m l 形式表示,计算机很难对这些资源之间的语义关系进行理解,从而在 信息检索过程中不能保证检索的查全率。 2 、由用户表达差异引发的问题。由于自然语言具有很灵活的表达能力,对 同一概念用户表达的方式有很多种。一义多词( 同义词) 现象的普遍存在,导 致检索的查询率降低;同时,一词多义( 多义词) 现象则会导致检索结果中包 含大量的无效信息,使得检索的查准率降低。在外文中,还存在词形变化的情 况( 时态、单复数变化等等) ,这些都是基于关键词的检索算法中所无法避免 的问题。 3 、查询时机械匹配引发的问题。基于关键词匹配的信息检索方法依靠单纯 的字符,仅仅从字型上来标识关键词,却不能从字意、词意上来标识,这样也 就无法提供基于语义的智能检索。例如,以“本体”作为关键词进行检索,检 索结果中出现了“以人为本体现”的文档,而这篇文档其实与“本体”概念 根本不相关。 4 、i n t e r n e t 信息资源特点引发的问题。i n t e r n e t 信息资源主要以h t m l x - 札形式组织,计算机对这些非结构化半结构化信息很难在语义层上进行推理, 也就无法检索出隐含在网页内容中或者其他相关网页中的一些重要信息。例如 某条信息是“a 是b 的老师”,经过简单推理就可以知道“b 是a 的学生”,但是 目前的搜索引擎还不能完成这样简单的推理工作,因而不能检索出i n t e r n e t 信 息资源中隐含的信息。 本体是现实世界的抽象模型,客观地反映了现时世界中的概念和概念之间 的相互关系。通过本体模型机器可以对信息资源在语义层次上进行处理。目前 已经有许多研究者对基于本体的信息检索系统展开研究,主要研究问题有: 1 、如何有效建设本体。 2 2 、如何利用本体对用户检索式进行语义处理,解决一词多义和一义多词的 问题,从而使检索系统真正理解用户的检索意图,提高系统的查准率和查全率。 1 2 国内外研究现状 目前国外本体应用在信息检索中的著名项目包括( o n t o ) 2 a g e n t ”1 、 o n t o b r o k e r 0 1 和s k c n 。这3 个项目也分别代表了3 个方向。( o n t o ) 2 a g e n t 的目的 是为了帮助用户检索到所需要的w w w 上已有的本体,主要采用参照本体。参 照本体是以w w w 上已有的本体为对象建立起来的本体,它保存了各类本体的 元数据。o n t o b r o k e r 面向的是w w w 上的网页资源,目的是为用户检索到所需要 的网页,这些网页含有用户所关心的内容。s k c 是一个正在进行的项目,其目 标是解决信息系统语义异构的问题,实现异构的自治系统之间的互操作。该项 目系统通过在本体上建立一个代数系统,用这个代数系统来实现各本体之间的 互操作,从而实现异构系统之间的互操作。 国内对本体的研究起步比较晚,主要研究内容包括产品信息建模、虚拟企 业建模哺,、常识知识库1 等。如中科院计算所的大规模知识系统研究n ,、中科院 数学所常识知识库的研究哺1 、浙江大学人工智能研究所基于本体的产品信息集 成研究等。 其中比较有影响的有中科院数学所陆汝钤研究员领导的常识知识的实用性 研究。主要目的是建立一个大规模的常识知识库p a n g u ,并探讨利用常识知识来 解决一些实际问题( 如,机器翻译和自然语言理解等) 。p a n g u 知识库采用a g e n t 和本体来表达知识,其中a g e n t 强调包装和继承,重视事物之间的纵向联系, 而本体主要进行常识知识的横向联想,因此本体论方法是面向a g e n t 方法的一个 很好的补充。在p a n g u q b ,一个本体描述分成3 部分:静态本体元的集合( s t a t i ce x t e n s i o n ) 、动态本体元的集合( d y n a m i ce x t e n s i o n ) 、本体网( o n t o n e t ) , 后者也是一个语义网络,由从属于该本体的所有a g e n t 构成。每个本体表述( o n t o l o g y ) 从属于某个a g e n t 的b e l i e f 部分,本体网的全体形成了该知识库的本体 结构。有关常识本体的详细描述可参照文献“”。 1 3 本文主要研究内容及章节安排 本文主要研究内容如下: 在综合分析当前信息检索系统存在问题以及本体技术的基础上,给出了一 种基于本体的智能信息检索模型和系统框架,并详细阐述系统各个功能模块的 功能和工作流程。在系统关键技术的研究中,着重从核心领域本体建设方法、 查询预处理及语义处理三方面研究基于本体的信息检索技术。在前人的基础上 提出了一种结构化的领域本体建设方法,该方法能够更有效、更合理地建设一 个领域本体;其次阐述基于本体的查询预处理技术及本体概念相似度、相关度 计算方法。 本文章节安排如下: 第一章绪论:问题提出,阐述基于本体的信息检索的国内外研究现状,提 出本文主要的研究内容。 第二章本体与信息检索:详细阐述了本体的相关理论,包括本体的概念、 分类、建模、描述语言等,重点余绍了o w l 语言;阐述两个经典信息检索模型 的原理以及各自的特点和不足;阐述本体在信息检索中的作用,并提出一种基 于本体的信息检索模型,该模型能够利用本体得到具有语义的索引项,并生成 较好的文档逻辑视图和用户需求逻辑视图,从而可以使检索性能大大提高。 第三章基于本体的信息检索系统:依据智能信息检索系统的设计耳标,给 出一种基于本体的智能信息检索系统框架,并详细阐述系统的功能和工作流程。 第四章系统关键技术研究:提出一种结构化的领域本体建设方法,分析基 于本体的查询预处理过程,最后从相似性和相关性两个角度详细阐述基于本体 的语义处理技术。 第五章实验系统设计与本体建模实例:对基于保险领域本体的信息检索系 统进行设计,包括系统的结构设计和领域本体的存储设计;其次用实例说明保 险领域本体建模及其过程。 第六章总结与展望:对本文进行总结,并对未来研究工作提出一些展望。 4 第二章本体与信息检索 基于本体的信息检索系统能够更好地提高查询效率,更好地满足用户对信 息的需求。本章首先对本体的相关理论研究进行概述,内容包括:本体的基本 概念,分类,构建原则和描述语言,分析各描述语言的特点与不足,重点阐述 了利用o w l 语言及其支持本体建模的语言特性。接着对当前信息检索的相关理 论进行阐述:比较分析两个经典信息检索模型的各自特点;介绍信息检索系统 效率的评价指标。最后提出一种基于本体的信息检索模型。 2 。l 本体 2 1 1 本体的概念及分类 近十年来,本体( o n t o l o g y ) 和本体工程( o n t o l o g i c a le n g i n e e r i n g ) 在知识 工程及其相关的应用领域获得广泛的关注。本小节将介绍关于本体的概念及其 分类。 2 1 1 1 本体的概念 本体的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士 多德( 3 8 4 - 3 2 2b c ) 。它在哲学中的定义为“对世界上客观存在物的系统地描 述,即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的 抽象本质“”。 在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本体定义为“给 出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定 这些词汇外延的规则的定义”h ”。n e c h e s 认为1 :“本体定义了组成主题领域 的词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的 规则。”。随着人们对本体认识的逐渐完善,这些定义也在不断变化之中,比 较有代表性的定义有以下几个: 1 、本体是对于“概念化”的某一部分的明确的总结或表达“”。 2 、本体在不同的场合分别指“概念化”或“本体理论”“”。 3 、本体是对于“概念化”的明确表达“”。 4 、本体是用于描述或表达某一领域知识的一组概念或术语。它可以用来 组织知识库较高层次的知识抽象,也可以用来描述特定领域的知识“”。 5 、本体属于人工智能领域中的内容理论( c o n t e n tt h e o r i e s ) ,它研究 特定领域知识的对象分类、对象属性和对象间的关系,它为领域知识的描述提 供术语【1 6 】。 后来在信息系统、知识系统等领域,越来越多的人研究本体,并给出了许 多不同的定义。其中最著名并被引用得最为广泛的定义是由g r u b e r 提出的,“本 体是概念化的明确的规范说明”,f e n s e l 对这个定义进行分析后认为o n t o l o g y 的概念包括四个主要方面“”: 1 、概念化( c o n c e p t u a l i z a t i o n ) :客观世界的现象的抽象模型: 2 、明确( e x p l i c i t ) :概念及它们之间联系都被精确定义; 3 、形式化( f o r m a l ) :计算机可理解的精确的数学描述; 4 、共享( s h a r e ) :本体中反映的知识是其使用者共同认可的。 与本体相关的概念和术语: 本体论( o n t o l o g y ,o 大写) :特指哲学的分支学科“”。 本体( o n t o l o g y ,o 小写) :在不同的场合分别指“概念化”或“本体理 论“。 概念化( c o n c e p t u a l i z a t i o n ) :指某一概念系统所蕴涵的语义结构,它 是对某一事实结构的一组非正式的约束规则“。它可以理解为一组概念( 如实 体、属性、过程) 及其相互关系的定义过程“”。概念化的定义是前面所述本体 定义1 、2 和3 的基础。 本体理论( o n t o l o g i c a lt h e o r y ) :表达本体知识的逻辑理论,它是一种 特殊的知识库,是本体知识所赖以存在的介质,强调的是具体的产品( d e s i g n e d a r t i f a c t ) 。而“概念化”强调的是语义结构本身,是从具体的产品中抽象出 来的对应的语义成分( s e m a n t i c a lc o u n t e r p a r t ) “。 本体工程( o n t o l o g i c a le n g i n e e r i n g ) :知识工程的分支,它研究如何 用本体的原则来构造本体“”。 尽管本体这个概念有很多不同的定义方式,但是从内涵上来看,不同研究 者对于本体的认识基本是统一的,都把本体当作是领域( 可以是特定领域的, 也可以是更广的范围) 内部不同主体( 人、机器、软件系统等) 之问进行交流 ( 对话、互操作、共享等) 的一种语义基础,即由本体提供一种明确定义的共 识。 进一步,本体提供的这种共识更主要的是为机器服务,机器并不能像人类 一样理解自然语言中表达的语义,而在目前计算机也只能把文本看成字符串进 行处理。因此,在计算机领域讨论本体,就要讨论本体究竟是如何表达共识的? 也就是概念的形式化问题。这就涉及到本体的描述语言、本体的建设方法等具 体研究内容。 2 1 1 2 本体的分类 根据本体不同方面的属性( 如形式化程度、目的和描述对象) ,可以对本 体进行不同的分类。 如根据本体的形式化程度不同,可以把本体分为高度非形式化的( h i g h l y i n f o r m a l ) 、结构非形式化的( s t r u c t u r e d - i n f o r m a l ) 、半形式化的 ( s e m i f o r m a l ) 和严格形式化的( r i g o r o u s l yf o r m a l ) 1 5 】。根据本体的描述 对象不同,可以把本体分为特殊领域本体( 如医药、地理、金融等) 、一般世 6 界知识本体、问题求解本体和知识表示语言本体等“”。 由于本体的分类方法很多,目前还没有统一的分类标准。为了对本体进行 有效的分类,g u a r i n o 提出以详细程度和领域依赖度两个维度对本体进行划分。 详细程度是相对的、较模糊的一个概念,指描述或刻画建模对象的程度。详细 程度高的称作参考本体,详细程度低的称为共享本体。依照领域依赖程度,可 以细分为顶级本体、领域本体、任务本体和应用本体4 类“”。如表2 1 所示: 表2 16 u a r i n o 对本体的种类划分 维度说明分类级别 描述或刻画建模对象高的称作参考( r e f e r e n c e ) 本体 详细程度 的程度低的称作共享( s h a r e ) 本体 顶级( t o p l e v e l ) 本体描述的是最普遍 的概念及概念之间的关系,如空间、时 间、事件、行为等,与具体的应用无关, 其他本体均为其特例。 领域依赖 领域( d o m a i n ) 本体描述的是特定领域 中的概念和概念之间的关系。 程度 任务( t a s k ) 本体描述的是特定任务或 行为中的概念及概念之间的关系。 应用( a p p l i c a t i o n ) 本体描述的是依赖 于特定领域和任务的概念和概念之间的 关系。 1 9 9 9 年,p e r e z 和b e n j a m i n s 在分析和研究了各种本体分类发的基础上,归 纳出1 0 种本体旺”:知识表示本体、普通本体、顶级本体、元( 核心) 本体、领 域本体、语言本体、任务本体、领域一任务本体、方法本体和应用本体。这种分 类方法是对g u a r i n o 所提出分类方法的扩充和细化,但是这l o 种本体之间有交 叉,层次不够清晰。 目前广泛使用的本体列表如表2 2 所示: 本文主要采用领域本体来描述现实世界各领域的抽象模型。 7 2 2 目前广泛使用的本体 名称描述 w o r d n e t 基于心理语言规则的英文词典,以s y n s e t s ( 在特定的上下文 环境中可互换韵同义词的集合) 为单位组织信息。 f r a m e n e t 英文词典,采用称为f r a m es e m a n t i c s 的描述框架,提供很 强的语义分析能力。目前发展为f r a m e n e t i i 。 g u 醵 面向自然语言处理,支持多语种处理,包括基本概念及独立 于各种具体语言的概念组织方式。 s e n s u s面向自然语言处理,为机器翻译提供概念结构,包括7 万多 概念。 m i k r o k m o s 面向自然语言处理,支持多语神处理,采用一静语言中间的 中间语言t m r 表示知识。 2 1 2 本体的建模原语与建模原则 传统知识库系统的开发采用的是概念化建模方法,但这种普通开发k b s 的 逢模方法不能完全适用于本体建模。因为开发知识本体的目的是用于人类、计 算机对知识的共享和重用,它是相对稳定的,独立于具体应用。因此在这种情 兄下,p e r e z 等研究学者归纳出了用于描述本体建模的5 个基本建模原语 ( m o d e l i n gp r i m i t i y e s ) 驯: l 、类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲, 它表示的是对象的集合,其定义一般采用框架( f r a m e ) 结构,包括概念的名称, 与其他概念之间的关系的集合,以及用自然语言对概念的描述。 2 、关系( r e l a t i o n s ) 在领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子集:r :c , c 。c 。如子类关系( s u b c l a s s - o f ) 。在语义上关系对应于对象元组的 巢合。 3 、函数( f u n c t i o n s ) 一类特殊的关系。该关系的前n 1 个元素可以唯一决定第n 个元素。形式化 疗定义为f :c 。c 2 c - i c 。如m o t h e r - o f 就是一个函数,m o t h e r o f ( x ,y ) 蓖示y 是x 的母亲。 4 、公理( a x i o m s ) 代表永真断言,如概念乙属于概念甲的范围。 5 、实例( i n s t a n c e s ) 代表元素。从语义上讲实例表示的就是对象。 建模基本的语义关系共有以下4 种: 1 、p a r t - o f :表达概念之间整体与部分的关系。 8 2 、k i n d o f :表达概念之间的继承关系,类似于面向对象中父类与子类的 关系。 3 、i n s t a n c e - o f :表达概念实例与概念之问的关系,类似面向对象中对象 与类之间的关系。 4 、a t t r i b u t e - o f :表达某个概念是另一概念的属性。 在实际建模过程中,概念之间的关系不限于上面列出的4 种基本关系,可 以根据领域的具体情况定义相应的关系。 本体作为通讯、互操作和系统工程的基础,必须经过精心的设计,实际上i 本体的构造是一个非常费时费力的过程。目前已有的本体都是出于对各自问题 域和具体工程的考虑,本体建模的过程也是各自不同的。由于没有一个标准的 本体建模方法,不少研究人员出于指导人们构造本体的目的,从实践出发,提 出了不少有益于构造本体的标准。t r g r u b e r 在参考文献【1 7 l 中提出了指导本 体建模的5 个准则,即: 1 、清晰( c l a r i t y ) :本体必须有效的说明所定义术语的意思。定义应该 是客观的,与背景独立的。当定义可以用逻辑公理表达时,它应该是形式化的。 定义应该尽可能的完整。所有定义应该用自然语言加以说明。 2 、一致( c o h e r e n c e ) :本体应该是一致的,也就是说,它应该支持与其 定义相一致的推理。它所定义的公理以及用自然语言进行说明的文档都应该具 有一致性。 3 、可扩展性( e x t e n d i b i l i t y ) :本体应该为可预料到的任务提供概念基 础。它应该可以支持在已有的概念基础上定义新的术语,以满足特殊的需求, 丽无须修改已有的概念定义。 4 、编码偏好程度最小( m i n i m a le n c o d i n gb i a s ) :概念的描述不应该依 赖于某一种特殊的符号层的表示方法。因为实际的系统可能采用不同的知识表 示方法。 5 、本体约定最小( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) :本体约定应该最 小,只要能够满足特定的知识共享需求即可。这可以通过定义约束最弱的公理 以及只定义通讯所需的词汇来保证。 当前对本体建模的方法及其性能评估还没有一个统一的标准,不过在构造 特定领域本体的过程中,有一点是得到大家公认的,那就是需要该领域专家的 参与。 2 1 3 本体的描述语言 自上个世纪9 0 年代以来,一些基于a i 的本体描述语言陆续被提出,如k i f 、 o n t o l i n g u a 、c y c l 、l o o m 、o c m l 等。后来随着w e b 的发展,又出现了一系列基 于w e b 的本体描述语言,也称为本体标记语言,如s h o e 、x o l 、r d f 、r d f s 、 o i l 、d a m l 、d a m l + o i l 、o w l 等。图2 ,l o ”给出了基于w e b 的o n t o l o g y 描述 9 语言的发展历程和相互关系。 图2 1 基于w e b 的本体描述语言的发展 下面逐一介绍重要的本体描述语言: 1 、k i f k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a l ) 是由美国斯坦福大学开发的,是基于 一阶逻辑的语言。它的主要目的不是和人交互,也不是在一个计算机系统内部 作为知识的表现方式,只有在不同的计算机系统之间需要交互知识的时候,它 们把各自的内部表现方式转换成k i f ,交互后再转换成各自的方式。其主要特 点为: ( 1 ) 有公开的语义:它不再需要专门的解释器。 ( 2 ) 在逻辑上是全面的:它可以对任意的逻辑语句进行表达。 ( 3 ) 提供对元知识的表现。 2 、o n t o l i n g u a 2 砌 o n t o l i n g u a 是一种基于k i f ( k n o w l e d g ei n t e r c h a n g ef o r m a t ) 的,提供统一规 范格式来构建本体的语言。其特点是:为构造和维护本体,提供了统一的、计 算机可读的方式;由其构造的本体可以方便地转换到各种知识表示和推理系统 ( p r o l o g 。c o r b a 的 d i c l i p s ,l o o m 等) ,从而将本体的维护与使用它的目 标系统分离。 3 、c y c l c y c 系统的描述语言,一种体系庞大而非常灵活的知识描述语言。其特点 是:在一阶谓词演算的基础上扩充了等价推理、缺省推理等功能;具备一些二 阶谓词演算的能力;其语言环境中配有功能很强的可进行推理的推理机。 1 0 4 、l o o m l o o m 是一种基于一阶谓词逻辑的高级编程语言,属于描述逻辑体系。其特 点是:提供表达能力强、声明性的规范说明语言;提供强大的演绎推理能力; 提供多种编程风格和知识库服务。该语言后来发展成为p o w e r l o o m 语言。 5 、o c m l o c m l ( o p e r a t i o n a tc o n c e p t u a lm o d e l l i n gl a n g u a g e ) 是由英国o p e n u n i v e r s i t y 的k m i ( k n o w l e d g em e d i ai n s t i t u t e ) 实验室开发的。它被称为一 种可操作的0 n t o l i n g u a 。实际上,o c m l 中的定义类似于o n t o l i n g u a 。o c m l 建模 语言通过几种具体的构件来支持知识模型的建模架构。该语言使得对函数、关 系、类、实例和规则的形式化操作成为可能。另外它还包括定义本体及问题解 决方法的机制。k m i 的w e b o n t o 编辑器是基于o c m l 的。 6 、s h o e 嵋” s h o e ( s i m p l eh t m lo n t o l o g ye x t e n s i t i o n s ) 作为h t m l 的本体扩展,是马 里兰大学开发的。它是基于框架和规则的。它使用不同于h t m l 的一些标记,使 得可以在h t m l 文档中插入文本。当x m l 产生并成为w e b 上交换信息的标准后,s h o e 的语法被修改为基于x m l 。目前,马里兰大学已经停止研究s h o e ,他们有关 o n t o l o g y 的研究项目开始使用o w l 和d a m l + o i l 作为o n t o l o g y 的描述语言。 7 、x o l ”1 x o l ( o n t o l o g ye x c h a n g el a n g u a g e ) 是s r ii n t e r n a t i o n a l 的人工智能中 心( a i c ) 开发的。它是种简单通用的定义o n t o l o g y 的方法。其目的是在不同 的数据库、0 n t o l o g y 开发工具、或者其它应用程序之间交换o n t o l o g y 。x o l 设计 之初是为生物信息学领域o n t o l o g y 的交换,但是它可以应用于各种领域。 8 、r d f ,r d f s r d f ( 资源描述框架,r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 、r d f s ( r d f s c h e m a ) ,是w 3 c 在x m l 的基础上推荐的一种标准,用于表示任何的资源信息。 r d f 提出了一个简单的模型用来表示任意类型的数据。这个数据类型由节点和节 点之间带有标记的连接弧组成。节点用来表示w e b 上的资源,弧用来表示这些资 源的属性。因此,这个数据模型可以方便的描述对象( 或者资源) 以及它们之 间的关系。r d f 的数据模型实质上是一种二元关系的表达,由于任何复杂的关系 都可以分解为多个简单的二元关系,因此r d f 的数据模型可以作为其它任何复杂 关系模型的基础模型。r d fs c h e m a 为r d f 资源的属性和类型提供定义良好的词汇 表。w 3 c 推荐以r d f 标准来解决x m l 的语义局限。 9 、o i l o i l 是一种针对o n t o l o g y 的基于互联网的表现和推理层。o i l 以r d fs c h e m a 为起点,用更为丰富的o n t o l o g y 建模原语对r d p s c h e m a 进行扩充o i l 将框架系 统、描述逻辑和w e b 标准( x m l 和r d f ) 这三个不同领域的优点结合起来,提供了 种通用的语义w e b 的标记语言。 1 0 、d a m l d a m l ( d a r p a a g e n tm a r k u pl a n g u a g e ) 是d a r p a 计划第一阶段所创建的一种 语言。d a r p a ( a g e n tm a r k u pl a n g u a g e ) 项目始于2 0 0 0 年8 月,目标是开发一种 若言和一组工具,为语义w e b 提供支持。d a m l 扩展了r d f ,增加了更多更复杂的 类、属性等定义。它一度很流行,直到d a m l 的研究者和o i l 的研究者开始合作, 提出了d a m l + 0 1 1 语言,成为w 3 c 研究语义w e b 中o n t o l o g y 描述语言o w l 的起点。 l l 、o w l o w l ( w e b o n t o l o g y 语言,w e bo n t o l o g yl a n g u a g e ) 是w 3 c 推荐的语义w e b 中 o n t o l o g y 描述语言的标准。它是从一些科研机构的一种结合性的描述语言 d a m l + o i l 发展起来的,其中d a m l 来自美国的提案d a m l + o n t ,o i l 来自欧洲的一种 o n t o l o g y 描述语言。在w 3 c 提出的o n t o l o g y 语言栈中,o w l 处于最上层。关于o w l 的详尽论述参见下一小节。 2 1 4o w l 语言及其支持本体建模的语言特性 1 、o w l 语言简介 语义网。”是当前计算机网络领域的研究热点,它实现的手段是在现有网页 的基础上对其进行语义标注,增加描述网页信息的元数据,从而使网页浏览者 和计算机能同时理解网页的内容。对元数据中的领域术语及术语之间的关系, 则以w e bo n t o l o g y 形式存储。o w l 是w 3 c 推荐的语义网络“栈”。”中的一部分, 从表2 ,3 语义网络栈、图2 2 语义网体系结构及语义网技术实现手段上可以看出, 语义网在底层上依赖于o w l 技术。o w l 是基于描述逻辑的w e b o n t o l o g y 描述语言, 由于描述逻辑是可判定的故计算机可在o w l 描述的o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论