(管理科学与工程专业论文)基于本体论的智能检索研究.pdf_第1页
(管理科学与工程专业论文)基于本体论的智能检索研究.pdf_第2页
(管理科学与工程专业论文)基于本体论的智能检索研究.pdf_第3页
(管理科学与工程专业论文)基于本体论的智能检索研究.pdf_第4页
(管理科学与工程专业论文)基于本体论的智能检索研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(管理科学与工程专业论文)基于本体论的智能检索研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着全球网络化、信息化的发展,应用系统中数据量急剧增长。 但建立在关键词基础上的全文检索、数据检索等传统信息检索,对 语义匹配的支持能力较差,所提供的信息检索查全率和查准率难以 令人满意。因此支持知识、语义匹配的基于本体论的智能信息检索 成为信息检索的重点。 通过查阅大量外文资料,作者跟踪研究了国外关于本体论的概 念理论、构建原则、构建方法及描述方法,并对不同的方法进行分 析比较。在此基础上,根据基于本体论的智能检索系统的实施过程, 为每一步骤选出了合适的开发方法、工具,使系统的实施思路更加 清晰。最后设计了该系统的结构,并按本体构建、本体描述、本体 存储和能力查询的顺序开发了一个小型的原型系统员工能力查 询系统,把本文提出的系统实施方法应用到实际系统的开发。 作者在d o m i n o 中开发了一个代理程序( a g e n t ) ,该a g e n t 通过 x o l ( x m l _ b a s e do n t o t o g y e x c h a n g el a n g u a g e ) 文档向d o m ( d o c u m e n t o b j e c tm o d e l ) 模型映射,实现了基于x o l 的本体论数 据、本体论结构在面向对象数据库d o m i n o 中的存储,使智能检索 系统具有自动适应本体扩充的能力。 本文提出的基于本体论的智能检索系统的实施方法,对类似系 统的开发具有一定的指导和借鉴意义。 关键词本体沦,智能检索系统,d o m i n o ,x m l a b s t r a c t w i t hm ed e v e l o p m e n to fi n t e m e ta 1 1 dt h ei n f o r m a t i o ns y s t e m ,t h e a m o u n to fd a t ai n s y s t e m i n c r e a s e d r 印i d ly b u tt h et r a d i t i o n a l i n f o m l a t i o nr e t r i e v a lm e t h o d ss u c ha st e x tr e t r i e v a l ,d a t ar e t r i e v a la r e b a s e do nk e y w o r d s ,w h o s ea b i l i t yo nt h es e m a n t i cr e t r i e v a li ss ow e a k t h a tt h er e c a l la n dp r e c i s i o no f 出eq u e r yr e s u l ta r en o ts a t i s f i e d i ti s b e c a u s et h e o n t o i o g y i n f o r m a t i o nr e t r i e v a lm e t h o d si sb a s e do n k n o w l e 姑e a n ds e m a n t i ct h a tb e c o m i n gm e r e s e a r c h i n ge m p h a s i s t h i sa n i c l em a k e sad e e p l yr e s e a r c ho n 也e c o n c e p t s ,c o n s t r u c t i n g m l e s ,c o n s t m c t i n gm e t h o d s ,d e s c r i b i n g m e t h o d so f o n t o i o g y a n d c o m p a r e dt h e mw i t he a c ho t h e fb yr e f e r r i n g t oal o to fe n 蚤i s ha r t i c l e s f o j l o w i n g ,as u i 诅b l em e t 王1 0 d o rt o o li ss e l e c t e df o re v e r ys t 印o ft h e s y s t e mi m p l e m e n tp r o c e s s ,w h i c h m a d et h e i m p l e m e n t a t i o np r o c e s s m o r ec l e a rt h a nb e f o r e f i n a l l y ,t h es y s t e ms t m c t u r ei s d e s i g n e da n da p r o t o t y p es y s t e m ,t h eq u e r ys y s t e mf o rt h ef a e u l t i e so fe m p l o y e e ,i s d e v e l 叩e d i nm i sa r t i c l e ,t h ed e v e l o p m e n ti si n t r o d u c e di ns e q u e n c eo f c o n s t r u c t i n g ,d e s c r i b i n 岛s t o r i n go n t o l o g ya n dr e t r i e v i n gt h ef a c u h l e so f e m p l o y e e t h ed e v e l o p m e n t i sa p r o c e s s 丘d mt h e o r y t op r a c t i c e i ti st h ea g e n td e v e l o p e di nd o m i n or e 乱i z e dt h es t o r a g eo fx o l ( x m l 出a s e d0 n t o t o g ye x c h a n g el a n g u a g e ) d o c u m e m i no b j e c to r i e n t e d d a t a b a s es u c ha sd o m i n o 出瞳a b a s e b ym a p p i n gx o ld o c u m e mt o d o m ( d o c u m e n to b j e c tm o d e l ) t h ex o ld o c u m e n td e s c r i b e d t h e o n t o l o g yd a aa n ds t r u c t u r e b ys e t t i n gt h er u n n i n gt i m eo ft h i sa g e n t , t h e s y s t e m h a sa c 印a b i l i t y t os u i tt h e e x p a n s i o n o f o n t o l o g y a u t o m a t i c a l l y t h ei m p l e m e n tm e t h o d so fi n t e l l i g e mr e t r i e v a i s y s t e mb a s e do n o n t o l o g yp u t f 0 刑a r di nm i sa r t i c l ec a nh a v es o m e g u i d a n c e a n d r e f e r e n c ee f 话c to nt h ed e v e l o p m e n to fs j m i l a r s y s t e m s k e y w o r d :o n t o o g y ,i n t e l l i g e n tr e t r i e v a ls y s t e m ,d o m i n o ,x m l 原创性声明 本人声明,所呈交的学位论文是本人在导帅指导下进行的研究 工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢 的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得r f l 南大学或其他单位的学位或证书而使用过的材料。与我 同t 作的同志对本研究所作的贡献均已在论文中作了明确的说明。 作者签i 塑! ! 堡日期:堡年上月互 关于学位论文使用授权说明 本人了解中南大学有关保留、使用学位论文的规定,即:学校 有权保留学位论文,允许学位论文被查阅和借阅;学校可以公布学位 论文的全部或部分内容,可以采用复e 1 j 、缩印或其它手段保存学位论 文;学校可根据国家或湖南省有关部门规定送交学位论文。 作者签名越导师签名 i l zr 日 堡堂堡笙塞 笙二兰! 童垄 1 1 引言 第一章综述 1 1 1 问题提出 传统的信息检索包括全文检索、数据检索两种技术l l 】。命文检索( t e x t r e t r i e v a l ) 把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求和 文件语义上的匹配。虽然可以保证查全率,但是查准率大大降低。数据检索( d a t a r e i 矗e v a l ) 要求数据库中的数据都遵循一定的格式,具有一定的结构,允许对特 定字段检索。它需要有标识字段的方法,性能取决于所使用的字段标识方法和 用户对方法的理解,具有很大的局限性,对语义匹配的支持能力较差。 总之,两种检索技术都建立在关键词的基础之上,对计算机而占,关键词 几乎没有任何语义,这也是目前信息检索技术存在的缺陷。目前,尽管在关键 词的基础上对检索技术做了许多改进,但仅仅是算法上的改进,并没有添加处 理语义方面的机制,检索的性能不能得到本质的提高,所提供的信息检索查伞 率( r e c a l l ) 和查准率( p r e c i s i o n ) 难以令人满意。 以目前互联网上搜索引擎普遍采用的索引模型倒排文件模型为例,来 体会缺乏语义处理能力的模型在检索查全率和查准率方面存在的问题。 倒排文件是一个由文件集合中的单词及其在文档中的位置构成的列表。考 虑表1 1 中的倒排表。 表1 1 倒排表 单词文档语义 家用电器5 8 9 电冰箱7 9 8 洗农机92 1 电视机91 1 7 如果用户提出一个查询请求:“找出所有有关家用电器的信息”。那么按照 表1 - 1 ,可能只给出文档5 ,却漏了文档7 9 和文档9 。显然文档7 9 和文档9 也 涉及到家用电器。 本体论从本质上讲是一个或几个领域的概念以及反映这些概念间的关系的 集合。关系反映了概念间的约束和联系。因此,本体是许多主体协定的对某个 堕堂丝堡奎 堑二皇! 查堕 领域共享理解的表示。这种协定有助于减少或消除概念及术语的混乱,精确内 容意义,同时又促进系统的交互式操作、共享、重用等。 基于本体论的知识检索( k n o w l e d g er e t r i e v a l ) 是基于知识的、语义上的 匹配,在查准率和查全率上有更好的保证,它是信息检索的重i ,成为信息检 索的一个新的发展方向。 1 12 研究背景 1 、系统数据量急剧增氏 随着全球网络化、信息化的发展,网络上的信息越来越多。据统计,i n t e m e t 用户己达到几亿人,网页数量有几f 亿。但目前的搜索引擎存在着不少局限性, 最突出的表现为查询返回结果太多,用户难以快速找到所需信息。 现代企业愈来愈向大型化、集团化发展,同时随着信息技术的发展,企业 信息化程度也大大提高,各类信息系统广泛应用,信息化渗透到了企业各个方 面。目前最为流行的e r p 系统,可对企业的整个生产流程进行有效组织和科学 管理,其次还有c r m ,s c m ,o a ,m i s ,d s s 等各类信息系统。这使得企业 数据量日益增多,信息系统数据库逐渐增大。而传统信息检索的局限性,使得 它所提供的信息检索查全率和查准率难以保证。 2 、x m l 技术发展促进了本体论的应用 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 具有可扩展性,强调形式描述与内容描 述的分离,并赋予标记一定的语义,加强了对内容的描述。它具有很强的网络 交互性,是不同系统间交换数据的标准格式。基于x m l 可以通过网络,甚至 应用程序实现数据共享。 “l 文档作为显式结构化的文本文档,能被应用程序方便的访问,这为构 建信息的语义表示奠定了良好的语法基础。再者,基于x m l 语法的x o l 、o m 语言的出现,使得本体的描述和存储更加简便。这都促进了本体论的应用实践。 3 、w 曲语义网络的兴起 w 曲语义网研究的主要目的,就是扩展当前的w w w ,使网络中尽可能多 的信息都是具有语义的,是计算机能够理解和处理的,便于人和计算机之阎的 交互与合作。其研究重点就是如何把信息表示为计算机能够理解和处理的形式, 即带有语义。t i mb e m e r s l e e 给出了语义网中的层次关系基于x m l 和 r d f r d f s ,并在此之e 构建本体和逻辑推理规则,以完成基于语义的知识表 示和推理,从而能够为计算机所理解和处理。w e b 语义网络的建立和检索焉要 本体论和基于本体论的智能检索做基础,因此w e b 语义网络的兴起促进了本体 论和基于本体论的智能检索的研究进展。 堡堂堡堡塞 笙二兰簦丝 1 2 国内外研究现状 本体论的研究和应用在国外异常活跃,研究领域较广,在许多领域得到了 广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和语义w 曲、w e b 上异构信息的处理等。 本体论的理论研究包括概念和概念分类、本协= 论卜的代数。最有代表性的 是g u 碰n o 等人对概念的分类所做的深入和细致的研究1 2 ) j ,他们从一般的意义 上分析了什么是概念、概念的特性、概念之问的关系以及概念的分类,提出了 一套用于指导概念分类的可行理论。基于这个理论,他又提出了本体论驱动的 建模方法,在理论上为建模提供了一个通用的模式。 g u a r i n o 认为概念之问的差别不仅体现在概念的定义上,同时也体现在概念 的某些特性上。从这些特性出发,归纳出概念的元特性( 最基本的特性) ,从而 用公式给出元特性的严格的形式定义。概念的基本元特性包括:持久特性、非 持久特性、反持久特性、半持久特性、载体标识特性、支持标识特性、外部依 赖特性等。在此基础上,他们又讨论了元特性之间的关系和约束,最终把研究 结果作为概念分类的基本理论工具并提出一套完成的概念分类体系结构。 本体具有良好的概念层次结构和对逻辑推理的支持,在处理信息组织、信 息检索和异构信息系统互操作问题中有广泛应用。文【l 一】给出了基于本体论的智 能检索的实现思路。该思路可以作为基于本体论智能检索实旋的指导方针。 目前本体论应用在信息检索中的著名项目包括( o m o ) 2 a g e m 【5 、o m o b r o k e r l 6 】 和s k c 【”。这3 个项目分别代表了3 个方向。( o n t o ) 2 a g e n t 的目的是为了帮助 用户检索到所需要的w w w 上已有的本体论,主要采用了参照本体论。参照本 体论是以w w w 上已有的本体论为对象建立起来的本体论,它保存有各类本体 论的元数据。o n t o b r o k e r 面向的是w w w 上的网页资源,目的是为用户检索到 所需要的网页,这些网页含有用户所关心的内容。s k c 是一个正在进行的项目, 其目标是解决信息系统语义异构的问题,实现异构的自治系统之问的互操作。 该项目希望通过在本体论上建立一个代数系统,用这个代数系统来实现各本体 之间的互操作,从而实现异构系统之| 日j 的互操作。 在文献悼j 中,p e r e z 等人认为可以按分类法来组织本体,并归纳出5 个基本 的建模元语:类或概念、关系、函数、公理、实例。另外,从语义上讲,p e r e z 认为概念问的基本关系共有4 种:p a n o f 、k i n d o f 、i n s t a n c e o f 、a t t r i b u t e o f 。 1 9 9 5 年,t r g r u b e r 在文h 中提出了指导本体构建的5 个准则,即:清晰、 硕十学位论文 第一章综述 一致、可扩展性、编码偏好程度最小、本体约定最小。为了说明以上准则,g m b e r 还在此文中分析了两个具体本体( t 程数学本体和图书信息本体) 的构建实例。 山丁:本体l :程到目前为止仍处于相刈不成熟的阶段,每一个i :程拥有自己 独立的方法。文探讨了m i k eu s c h o l d & k i n g 的“骨架”法,文1 1 l 探讨了 g m n i n g e r & f o x 的“评价法”,文【1 2 探讨了k a c t u s 工程的b e m e m s e ta 1 方法, 文1 1 3 ,1 4 探讨m e m o n t o l o g y 方法,文【吲探讨了s e n s u s 方法,文综合比较了这 五种方法。 不管何种方法,都本着提供共享和翻译 二具的原则,允许系统问的互操作, 但也没有一种方法是完全成熟的。 本体的具体表示需要用描述语言来实现。目前有多种基于一阶逻辑的本体 描述语占,如o n t o l i n g u a 、l o o m 等。对于w e b 上的应用程序而言,需要一个 通用的标准语言来表示本体,以避免在各种描述语言之| 、日j 的转换。由于x m l 已被认为是w e b 上数据交换的标准语言,因此,一些研究人员开发了基于x m l 语法的描述语言。这些语言包括【”j :s h o e 、o m l 、x o l 、r i b o w e b 、r d f s 和 0 i l 、o w l 。文 1 8 ,19 】定义了x o l 的d t d ,s c h e m a ,并阐述了x o l 描述本体的 具体方法。 国内对本体研究已经逐渐兴起,但多侧重于应用研究。国内基于本体的信 息检索还处于实验原型阶段,未能真正进行商业化实施。 文i ”川都在总结现有系统的基础上设计了一个基于本体论和多智能体的智 能信息枪索系统的体系结构。它们都以本体论技术为核心,建立领域语义模型, 为信息源提供语义标注信息,为用户提供领域范围内的语义查询,能够动态适 应网络中信息的动态变化。浚结构侧重于本体论在语义w e b 的应用。语义w e b 的目标是使得w 曲上的信息具有计算机可以理解的语义,满足智能体对w w w i 二异构和分布信息的有效访问和检索。文【3 9 1 提出了一种基于本体沦的信息检索 系统的简易结构,并没有对系统实现进行深入简易的探讨。 此外,国内并没有论文对本体论的应用作系统介绍,冈此,本文将主要研 究基于本体论的智能检索系统的实施方法,进而提高信息检索的查全率和查准 率。具体包括以1 i 方面: 1 、跟踪本体论的国内外研究现状,并加以综合比较 进入九十年代以来,本体和本体工程的价值被发现,在信息共享、系统集 成、基于知识的软件丌发等方面得到了广阔的应用。本文将对本体论这一新兴 学科分支的概念、方法及研究和应用现状作深入的跟踪研究。 2 、提出基于本体论的智能检索系统的实施方案,以对类似系统的) 】:发起到 硕十学位论文 第一章综述 一定的指导和借鉴 本体论在数据查询中的应用j 调0 刚丌始,本文将从系统结构开始,介绍了 本体的构建、描述、存储、查询等系统开发的各个阶段,并加以具体实现。 1 3 本文研究的关键技术和方法 1 3 1 本体论的概念 l 、本体论的定义 本体论( o 呲o l o g y ) 最早是一个哲学上的概念,从哲学的范畴来说,本体论 是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。在人工 智能界,最早给出本体论定义的是n e c h e s 等人,他们将本体论定义为“给出构 成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些 词汇外延的规则的定义”【2 2 】。1 9 9 3 年,g n l b e r 给出了本体论的一个最为流行的 定义【2 3 】,即“本体论是概念模型的明确的规范说明”。后来,b o r s t 在此基础匕, 给出了本体论的另外一种定义 “】:“本体论是共享概念模型的形式化规范说明”。 s t u d e r 等对上述两个定义进行了深入的研究,认为本体论是共享概念模型的明 确的形式化规范说明。这包含4 层含义【2 5 】:概念模型( c o n c e p t u a l i z a t i o n ) 、明 确( e x p l i c i t ) 、形式化( f o r n l a l ) 和共享( s h a r e ) 。 1 ) “概念模型”指通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概 念而得到的模型。概念模型所表现的含义独立于具体的环境状态。 2 ) “明确”指所使用的概念及使用这些概念的约束都有明确的定义。 3 ) “形式化”指本体论是计算机可读的( 即能被计算机处理) 。 4 ) “共享”指本体论中体现的是共同认可的知识,反映的是相关领域中公认 的概念集,即本体论针对的是团体而非个体的共识。 本体论的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确 定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术 语) 和词汇间相互关系的明确定义。 一般来说,本体提供一组术语和概念来描述某个领域,知识库则使用这些 术语来表达该领域的事实。例如医药本体可能包含“白血病”、“皮肤病”等术语 的定义,但它不会包含对某一病人患某一疾病的诊断,而这正是知识库所要表 达的内容。实际上,如果本体和知识库用同一语言表达的话,两者之间并没有 清晰的界限。区别仅仅在于知识库的哪一部分是可以共享和重用的,哪一部分 是针对特定应用的。这种区别往往还随着时问和具体的背景变化。 婴! :兰堡笙皇兰童型 2 、本体论的相关概念和术语 卜面简要介绍与本体相关的概念和术语。 1 ) 本体论( o n t 0 1 0 9 y ,o 大写) :特指哲学的分支学科。 2 ) 概念化( c o n c e p t u a l i z a t i o n ) :指某一概念系统所蕴涵的语义结构,它是 对某事实结构的一组非正式的约束规则。它可以理解和或表达为一组概念 ( 如实体、属性、过程) 及其定义和相互关系。 3 ) 本体理论( o n t o l o g i c a lt h e o r y ) :表达本体知识的逻辑理论,它是一种特 殊的知识库,是本体知识所赖以存在的介质,强调的是具体的产品( d e s i g n e d a n i 矗l c t ) 。而“概念化”强调的是语义结构本身,是从具体的产品中抽象出来的对 应的语义成分( s e m a n t i c a lc o u m e r p a n ) 。 4 ) 本体约定( o n t o l o g i c a lc o m m i t m e n t ) :对使用某一本体所定义词汇并与 其含义保持一致的承诺。 5 ) 本体工程( o m 0 1 0 9 i c a le n g i n e e r i n g ) :知识工程的分支,它研究如何用本 体论的原则来构建本体理论。 1 3 ,2 本体论的分类 根据本体不同方面的属性( 如形式化程度、目的和描述对象) ,可以对本体 进行不同的分类【2 6 l 。 如根据本体的形式化程度不同,可以把本体分为高度非形式化的( h i g h l y i n f 0 珊a 1 ) 、结构非形式化的( s t r u c t u r e d i n f o 硼a 1 ) 、半形式化的( s e m i f o 舯a 1 ) 和严格形式化的( r i g o r o u s l yf 0 h n a l ) 。 根据本体的描述对象不同,可以把本体分为特殊领域本体( 如医药、地理、 金融等) 、一般世界知识本体、问题求解本体和知识表示语言本体等。 由于本体的分类方法很多,目前还没有能够被广泛接受的分类标准。但以 卜f 几个概念的定义意义明确,并从某种程度上提供了本体的分类方法: 1 ) 领域本体( d o m a i no n t o l o g y ) :以某一领域为描述对象的本体( 区别于 领域的问题和任务) 。 2 ) 问题求解模型( p r o b l e ms o l v i n gm o d e l ) :以问题求解方法为描述对象的 本体。 3 ) 表示本体( r e p r e s e n t a t i o n0 n t o l o g y ) :以知识表示语言为描述对象的本体。 在表示本体中,类、对象、关系、属性、槽等术语经过严谨的分析和定义。 1 3 - 3 本体论的作用 总的来说,构建本体的目的都是为了实现某种程度的知识共享和重用。b c h a n d r a s e k a r a n 等人认为本体的作用主要有以下两方面【2 7 】: 硕十学位论文 第一章综述 1 ) 本体的分析澄清了领域知识的结构,从而为知识表示打好基础。本体可 以重用,从而避免重复的领域知识分析。 2 ) 统一的术语和概念使知识共享成为可能。 m i k eu s c h o l d 更具体的总结了本体的作用【2 8 】,即通讯( c o m m u n i c a t i o n ) 、 互操作( i n t e f 。o p e r a b i l i t y ) 和系统工程( s y s t e m se n g i n e e i i n g ) 。具体阐述如下: 1 ) 通讯:主要为人与人之间或组织与组织之问的通讯提供共同的词汇。 2 ) 互操作:在不同的建模方法、范式、语占和软件 :具之间进行翻译和映 射,以实现不同系统之间的互操作和集成。m i k eu s c h o l d 用图1 1 描述其具体 趔程。 图卜1 应用冬体实现系统互操作示倒 3 ) 系统工程:本体分析能够为系统工程提供以下方面的好处: 重用( r e u s a b i l 时) :本体是领域内重要实体、属性、过程及其相互关系 形式化描述的基础。这种形式化描述可成为软件系统中可重用和共享的组件 ( c o m p o e n t ) 。 知识获取( 1 ( i l o w l e d g ea c q u i s i t i o n ) :当构建基于知识的系统时,用已有 的本体作为起点和基础来指导知识的获取,可以提高其速度和可靠性。 可靠性( r e i i a b i l i t y ) :形式化的表达使得自动的一致性检查成为可能, 从面提高了软件的可靠性。 规范描述( s p e c i 6 c a t i o n ) :本体分析有助于确定i t 系统( 如知识库) 的 需求和规范。 硕十学位论文 第一章综述 1 4 本文研究的内容与结构 通常,基于小体论的信息检索按以下步骤实施: 1 、在领域专家的帮助下,建立相关领域的本体; 2 、收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格 式存储在元数据库中; 3 、对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转 换成规定的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合; 4 、检索的结果经过定制处理返回给用j 1 t 。 因此,本文以此实现步骤组织内容与结构。 第一章,综述。介绍了本体论的概念、方法等研究现状,并在此基础上提 出文章的研究内容。鉴于国内本体论研究彳网0 刚兴起,对本体论概念不很熟悉, 本章专门用一小节的篇幅介绍了本体的定义、常用术语、分类、作用。 第二章,本体的构建和描述。本体的构建阐述了本体构建的建模元语和构 建原则,综述并比较分析了本体构建的五种常用方法。奉体的描述首先解释了 采用x m l 描述本体语义的优势和方法,然后详尽的介绍了基于x m l 的本体交 换语占x o l ( x m l - b a s e do n t o l o g ye x c h a i l g el a n g u a g e ) 。 第三章,基于本体论的智能检索系统设计。本章首先设计了一种基于本体 论的智能检索系统的体系结构,接着提出了采用d o m 映射模型存储x 0 l 文档 的方法,用以实现本体的描述文档x o l 文档在面向对象数据库中的存储。最后 本文阐述了检索系统中的一种查询算法。 第四章,员工能力查询系统开发分析。这章是本文的实证部分,作者按本 体构建、本体描述、本体存储和能力查询的顺序实际开发了一个功能简便但囊 括了基于本体论的智能检索系统开发全过程的实验原型系统员工能力查询 系统。 第五章,结束语。对本文的主要成果及创新进行了总结,指出了进一步的 研究方向。 堡! :堂堡堡兰 笙= :童查笪塑:! ! ! ! 垄至! 茎堕 第二章本体的构建和描述 基于本体论的智能检索系统中最基础的部分是本体论。因此,本章首先介 绍本体论的构建,然后用x o l 语言描述建立好的相关领域本体。 2 1 本体论的建模元语 p e r e z 等人用分类法组织了本体论,归纳出5 个基本的建模元语( m o d e l i n g p r i m i t i l 陀s ) 【8 j : l 、类( c l a s s e s ) 或概念( c o n c e p t s ) 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲, 它表示的是对象的集合,其定义般采用框架( f r 锄e ) 结构,包括概念的名称, 与其他概念之间的关系的集合,以及用自然语言对概念的描述。 2 、关系( r e l a t i o n s ) 在领域中概念之问的交互作用,形式上定义为n 维笛卡尔积的子集:r : c l c 2 c n 。如子类关系( s u b c j a s s o f ) 。在语义上关系对应于对象元组的集 合。 3 、函数( f u f l c t i o n s ) 一类特殊的关系。该关系的前n 1 个元素可以唯一决定第n 个元素。形式 化的定义为f :c 】c 2 c 。1 - c n 。如m o t l l e r - o f 就是一个函数,m o t i l e r - o f ( x , y ) 表示y 是x 的母亲。 4 、公理( a x i o m s ) 代表永真断占,如概念乙属于概念甲的范围。 5 、实例( i n s t a n c e s ) 和代表元素。从语义上讲实例表示的就是对象。 另外,从语义上讲,本体概念问的基本关系共有4 种,如表2 1 : 表2 1 本体概念间的基本关系 1关系名关系描述 1p a r t - o f 表达概念之间部分与整体的关系 lk i n d o f 表达概念之间的继承关系,类似于面向对象中的父类与子类之间的关系 li n s 协n c e o f 表达概念的实例与概念之间的关系,类似面向对象中的对象和类之间的关系 【a nr i b u t e o f 表达某个概念是另一个概念的属性。如“价格”是桌子的一个属性 9 堡= i 兰堡笙茎 笙二三里垒笪塑塑垡型蕉堕 在实际建模过程中,概念之间的关系不限于卜而列出的4 种基本关系,可 以根据领域的具体情况定义相应的火系。 2 _ 2 本体的构建准则 本体作为通讯、互操作和系统工程的基础,必须经过精心的设计,实际上, 本体的构建是一个非常费时费力的过_ = 早。本节介绍本体构建的准则、方法和i : 具。t r g m b e r 在1 9 9 5 年提出了指导本体构建的5 个准则一j ,即: 1 ) 清晰( c l a r i t v ) :本体必须有效的说明所定义术语的意思。定义应该是客 观的,与背景独立的。当定义可以用逻辑公理表达时,它应该是形式化的。定 义应该尽可能的完整。所有定义应该用自然语言加以说明。 2 ) 一致( c o h e r e n c e ) :本体应该是一致的,也就是说,它应该支持与其定 义相一致的推理。它所定义的公理以及用自然语言进行说明的文档都应该具有 一致性。 3 ) 可扩展性( e x t e n d i b i l i t y ) :本体应该为i j 丁预料到的任务提供概念基础。 它应该可以支持在已有的概念基础上定义新的术语,以满足特殊的需求,而无 须修改已有的概念定义。 4 ) 编码偏好程度最小( m i n i m a le n c o d i n gb i a s ) :概念的描述不应该依赖于 某一种特殊的符号层的表示方法。因为实际的系统可能采用不同的知识表示方 法。 5 ) 本体约定最小( m i n i m a lo n t o i o g i c a lc o m m i t n l e n t ) :本体约定应该最小, 只要能够满足特定的知识共享需求即可。这可以通过定义约束最弱的公理以及 只定义通讯所需的词汇来保证。 2 3 本体的构建方法 由于本体工程到目前为l 仍处于相对不成熟的阶段,每个工程拥有自己 独立的方法。本文参照i e e e1 0 7 4 1 9 9 5 ( i e e es t a 】1 d a r df o rd e v e l o p i n gs o r w a r e l i f ec ”l ep r o c e s s e s ) 提出的软件开发生命周期法来对比分析五种得到承认的方 法。 2 3 1 i e e e1 0 7 4 1 9 9 5 内容简介 i e e e1 0 7 4 1 9 9 5 提出的软件生命周期模型主要确定开发步骤及各步骤执行 的先后次序,其主要步骤如下: 硕十学位论文 第一章本体的构建和描述 1 ) 一r 程管理阶段:系统规划,控制,质量管理等。 2 ) 软件开发阶段: 开发前期:环境研究,可行性研究。 开发阶段:需求分析,没计,执行。 开发后期:安装,操作,支持,维护。 3 ) 本体论集成的阶段:评价,文档,配置管理,训练。 2 3 2 本体论开发方法 1 、m i k eu s c h o l d & k i n g 的“旨架”法( u s c 9 5 ) 嘲 该方法只提供开发本体的指导方针,其流程如图2 1 。 圉2 1 “骨架”法流程图 1 ) 确定本体应用的目的和范围。根据所研究的领域或任务,建立相应的领 域本体或过程本体。研究领域越大,所建本体越大,因此需要限制研究的领域 范围。 2 ) 本体分析。定义本体所有术语的涵义及其之间的关系。该步骤需要领域 专家的参与,对该领域越了解,所建本体就越完善。 3 ) 本体表示。一般采用语义模型表示本体。 4 ) 本体评价。建立本体的评价标准是清晰性、一致性、完善性、可扩展性。 清晰性就是本体中的术语应被无歧义的定义;一致性指的是术语之间关系逻辑 上应一致:完整性,本体中的概念及关系应是完整的,应包括该领域内所有概 念,但现实中这种要求很难达到,只能在以后不断完善;可扩展性,本体应用 能够扩展,在该领域不断发展时能加入新的概念。 5 ) 本体的建立。对所有本体按以上标准进行检验,符合要求的以文件的形 式存放,否则转第二步。 2 、g r u n i n g e r & f o x 的“评价法”( 又称1 d v e ) 1 这个方法用于构建多伦多虚拟企业本体工程,由多伦多大学企业集成实验 室研制,使用一阶逻辑进行集成,其流程如图2 2 。t 0 v e 本体包括企业设计本 硕十学位论文 第一章本体的构建和描述 体、t 程本体、计划本体和服务本体。 尉2 2t o v e 流程图 1 ) 定义直接可能的应用和所有解决方案,提供潜在的非形式化的对象和关 系的语义表示。 2 ) 能力问题作为约束条件,包括能解决什么问题和如何解决。这罩的问题 用术语表示,答案用公理和形式化定义l 回答。由于是在没有形式化本体论之前 进行的,所以称为非形式化的能力问题。 3 ) 术语的规范化。从非形式化能力问题中提取非形式化的术语,然后用小 体论形式化语言进行定义。 4 ) 形式化的能力问题。一旦能力问题脱离了非形式化,本体论术语已定义, 则能力问题自然形式化了。 5 ) 形式化公理。术语定义所遵循的公理用一阶谓词逻辑表示,包括定义的 语义或解释。 6 ) 完全公理。此步骤要求问题的解决方案必须是完全的。 3 、b e m e r a se ta l i a 方法( k a c 9 6 ) 这种本体开发方法由应用开发控制,所以每一个应用都有相应的表示该应 用所需的本体。这些本体既能重用其他的本体,也能被后继应用集成,此方法 主要应用于电子网络的丌发。具体的开发过程如下: 1 ) 应用的说明。提供应用的上下文和应用模型所需的组件。 2 ) 相关本体论范畴的初步设计。搜索己存在的o n t o l o g i e s ,进行提炼、扩 充。 3 ) 本体的构建。在此,应用最小关联原则来确保模型既相互依赖,又尽 - u 能一致,以至得到最大同构。 k a c t u s 是欧洲的e s p 砌t 项目,支持e x p r e s s 和o n t o l i n g u a ,目的是关 于技术系统生命周期过程中的知识重用,用c m l 语言描述,c m l 是k a d s1 : 程的非形式化语言,不能被程序执行。 4 、m e t h o n t o l o g v 方法4 1 硕士学位论文 第一二章本体的构建和描述 这神方法山马德里大学 _ ? 艺分校开发人 + 智能图书馆使用。它分为三个不 同的阶段: 1 ) 管理阶段:这一阶段的系统规划包括任务进展情况、资源需求、质量保 证等问题。 2 ) 开发阶段 开发阶段又细分为:规范说明概念化 形式化 执行+ 维护。 3 ) 维护阶段:包括知识获取、系统集成、评价、文档 兑明、配置管理。 用这种方法开发的本体有( o n t o ) 2 a g e n t :基于本体论的w w w 代理,关于 本体论使用参考本体论作为知识源进行一定约束条件的蓬新知识获取; c h e m i c a io m o a g e n t :基于本体论的w w w 化学教育代理,允许学生学习化学, 自测该领域的技巧;o n t o g e n e r a t i o n :使用域本体( 化学家) 和语言本体来产生 西班牙文本描述,来作为对学生关于化学领域问题查询的回答。 5 、s e n s u s 的描述 这个本体论用于自然语言程序,由i s i ( 信息科学研究所) 自然语言组7 :发, 它企图为机器翻译提供广泛的概念结构,共有5 0 ,o o o 多个概念( 电子类知识) 。 为了能在s e n s u s 基础上构建特定领域的本体论,必须把不相关的术语从s e n s u s 中剪除掉。具体过程如下: 1 ) 定义“叶子”术语( 和s e n s u s 无关) ; 2 ) 把叶子术语手工地和s e n s u s 术语相连: 3 ) 找出叶子节点到s e n s u s 根的“路”: 4 ) 增加和域相关并且没有出现的概念; 5 ) 用启发式思维找出全部的特定的域的术语:对于某些有两条以上路经过 的节点必是一棵子树的父节点,那么这棵子树上的所有节点都和该域相关,是 要增加的术语。对于高层节点通常有多条路经过,则很难判断。 其构建方法和图示如图2 3 ,2 ,4 。 二) s e n s u s 术语 亡:= 叶子口子树的父符点 。到根的路么= 7 子树术语 图2 3se _ n s u s 图示 硕+ 学何论文 第二章本体的构建雨l 描述 图2 4s e n s u s 术语构建 使用s e n s u s 构建的用于军事领域的本体论现在包括武器、原油、飞机等领 域。 2 3 3 五种方法和i e e e l 0 7 4 1 9 9 5 的比较分析 这五种本体论的开发方法与i e e e l 0 7 4 1 9 9 5 标准的比较如图2 2 。 表2 2 各种方法与 e e e1 0 7 4 1 9 9 5 标准的一致性比较 工程管理开发需求 设计 执 开发后期统一阶段 阶段前期分析行 u s c h o l d没有没有有没有有没有不全,没有训练 k i n g 和环境学习年l | 配置管理 g r u n i n g c r 没有没有柏有有没有不令,没有训练 & f o x和环境学习和 配置管理 b e r n a r a s没有没有有有有没有没有 e ta l i a m e t h o n t o不全,没有没有有有有不全,没有安不全,没有训练 l o g y建立工群 装、操作、支持、乖j 环境学习 环境阶段维护、训练阶段 s e n s u s 没有没有有没有 有没有没有 在此对五种开发方法作一个小结,如表2 3 所示。 表2 3 五种方法小结表 与i e e e 标准的本体论的应方法的 生命周期相关技术 一致性 用细节 u s c h o l d k i n g 没有不完全一致不确定1 个域很少 g r u n i n g e r & f o x不是真l f 的 不完全一致不确定1 个域少 生命周期 b e m a r 孙e ta 1 1 a 没有不完全一致不确定1 个域很少 m e t h o n t 0 1 0 9 y有不完全一致有,不全多个域详细 s e n s u s 没有不完全致不确定多个域般 1 4 硕卜学位论文 第:章率体的构建和描述 从上两表中“,以看出: 1 ) 和i e e e 标准相比较没有一种方法是完全成熟的,五种方法的成熟性 为图2 5 所示。 m e t h o n t o l o g y g n i n j n g e r & f o x u s c h o l d k i n g s e n s u s b e m a r a se ta l i 8 j成熟程度 i l 图2 - 5 五种方法成熟度比较 2 ) s e n s u s 是和别的方法完全不一样的; 3 ) 五种方法所建本体都允许系统间的互操作; 4 ) 不管何种方法,都本着两个原则:即提供共享和翻译工具。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论