




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在以数字化信息为资源、互联网交互为动脉的2 1 世纪,快速、有效地获取有用信 息变得越来越困难,其根本原因在于现有数据缺乏语义信息。针对这种情况,在语义 和知识层面上描述领域概念模型的本体,具有良好的概念层次结构和对逻辑推理的支 持,可以为信息查询提供较好的语义支持,来实现信息的语义查询。 本文通过对传统信息检索的发展现状、基本原理及其技术等方面的分析研究,结 合语义w e b 的具体特点,即实现对数据语义的描述,对语义信息检索中涉及的若干关 键技术进行了深入的分析研究,提出了有效的解决方案,为语义信息检索系统的顺利 实现奠定了良好的基础。这些关键技术包括:领域本体构建、推理扩展查询和语义包 装。 本文提出了基于本体的交通网络信息检索系统结构,详细描述了语义信息检索系 统的设计思想和检索流程,并开发了在语义w r e b 环境下基于本体的交通网络信息检索 原型系统,其目的主要是探索基于本体实现语义检索的路径和形式,重点在于原型语 义推理过程的内部实现机理,为实现可用于实际应用的语义检索系统积累相关理论和 技术经验。 关键词:本体语义检索语义推理信息检索语义扩展查询界面 a b s t r a c t i nt h ed i g i t a li n f o r m a t i o nr e s o u r c e so ft h ei n t e m e tf o ri n t e r a c t i v ea r t e r yo ft h e21s t c e n t u r y , r a p i da n de f f e c t i v ea c c e s st ou s e f u li n f o r m a t i o nh a sb e c o m ei n c r e a s i n g l yd i f f i c u l t , s i m p l yb e c a u s eo ft h e i rl a c ko f a v a i l a b l ed a t as e m a n t i ci n f o r m a t i o n i nv i e wo ft h i ss i t u a t i o n , o n t o l o g yw h i c hc a nd e s c r i b et h em o d e lo fd o m a i n sc o n c e p t sh a sg o o dh i e r a r c h i c a l s t r u c t u r e o fc o n c e p t sa n ds u p p o r t sf o rl o g i c a li n f e r e n c e ,c a np r o v i d es e m a n t i cs u p p o r tf o ri n f o r m a t i o n q u e r y , f o ra c h i e v i n gt h es e m a n t i ci n f o r m a t i o nq u e r y a na i ma tk e yt e c h n i q u e so fs e m a n t i cr e t r i e v a ls y s t e m ,t h ed i s s e r t a t i o n g i v e so u r s o l u t i o n sw h i c he s t a b l i s ht h et h e o r yb a s i sf o ri m p l e m e n t a t i o no ff ls e m a n t i cr e t r i e v a ls y s t e m t h e s ek e yt e c h n i q u e si n c l u d ed o m a i no n t o l o g yc o n s t r u c t i o n ,i n f e r e n c ee x p a n s i o nq u e r ya n d s e m a n t i cp a c k a g i n g t h ed i s s e r t a t i o np r o p o s e saf r a m e w o r ko fr e s e a r c ho no n t o l o g y - b a s e dt r a n s p o r t i o n n e t w o r ki n f o r m a t i o nr e t r i e v a l i ta l s od e s c r i b e sd e s i g ni d e aa n dp r o c e s so ft h es e m a n t i c i n f o r m a t i o nr e t r i e v a ls y s t e mi nd e t a i l ,a n dd e v e l o p sar e s e a r c ho n o n t o l o g y b a s e d t r a n s p o r t i o nn e t w o r ki n f o r m a t i o nr e t r i e v a lp r o t o t y p es y s t e mw h i c hi sb a s e do no n t o l o g y u n d e rt h es e m a n t i cw e be n v i r o n m e n t ,i t sg o a li sm a i n l yt h ee x p l o r a t i o no fr e a l i z i n gs e m a n t i c r e t r i e v a l ,a n da c c u m u l a t i n gc o r r e l a t i o nt h e o r i e sa n dt e c h n i c a lf o rr e a l i z i n gp r a c t i c a ls e m a n t i c r e t f i e v a ls y s t e m k e yw o r d s : o n t o l o g y s e m a n t i cr e t r i e v a ls e m a n t i cd e d u c t i o n i n f o r m a t i o n r e t r i e v a ls e m a n t i ce x p a n s i o n q u e r yi n t e r f a c e 长春理工大学硕士学位论文原创性声明 本人郑重声明:所呈交的硕士学位论文,基于本体的交通 网络信息检索技术研究是本人在指导教师的指导下,独立进行 研究工作所取得的成果。除文中已经注明引用的内容外,本论文 不包含任何其他个人或集体已经发表或撰写过的作品成果。对本 文的研究做出重要贡献的个人和集体,均已在文中以明确方式标 明。本人完全意识到本声明的法律结果由本人承担。 作者签名:主主丝丝塑冶! 三月丛日 长春理工大学学位论文版权使用授权书 本学位论文作者及指导教师完全了解“长春理工大学硕士、 博士学位论文版权使用规定 ,同意长春理工大学保留并向国家 有关部门或机构送交学位论文的复印件和电子版,允许论文被查 阅和借阅。本人授权长春理工大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等 复制手段保存和汇编学位论文。 作者签名:魍 塑! 年上月盟日 指导导师签名:年月 日 1 1 研究目的和意义 第一章绪论 随着i n t e m e t 的出现并得到广泛应用以来,当今社会已经步入了信息社会时代。 i n t e m e t 与信息技术的发展使得w e b 成为一个巨大的信息源,w e b 呈指数式增长,并成 为全球范围内传播信息的最主要渠道之一。网络信息资源数量飞速增长,网络信息资 源组织呈现多种模式并存的局面。传统的交通网络信息检索系统是在数据库系统的基 础上发展起来的,国内在这方面有许多成功的例子,但随着交通服务信息和服务需求 信息的快速增长,基于传统的交通网络信息查询已经不能适应需求者对交通信息的快 速多变的需求增长。因此,本文的主要研究目的是希望通过在交通网络信息系统中增 加机器可理解的语义内容,来解决传统信息检索过程中所存在的问题,以提高检索的 质量和效率。 目前,信息检索技术已经成为很多人生活中的必不可少的工具,能帮助人们从浩 瀚的数据中抽取对用户有用的信息,从而极大地节省用户的查询时间。调查数据显示, 目前有6 8 2 的人经常使用搜索引擎,它是目前仅次子电子邮件的网络应用;另有4 1 的人通过搜索引擎进入购物网站,8 4 6 的新网站通过搜索引擎被发现;同时,科学证 明,搜索引擎是未知状态下发现有效信息的最有效方式。随着全球网络化、信息化的 发展,网络上的信息越来越多,对信息检索手段的有效性要求也越来越高,但是,目 前的搜索引擎基本都采用基于关键字匹配的全文检索技术,查询经常出现检索不全、 答非所问的结果。语义检索f 是突破了机械式匹配局限于表面形式的缺陷,从词语所 表达的语义层次上来认识和处理用户的检索请求。语义信息检索方法更符合人类的思 维习惯,可克服传统检索方法造成的信息冗余或信息丢失的缺点,其查询效果更为合 理可用。这足以表明,语义信息检索技术对于网民和商业用户来说,都极具实用价值。 信息检索作为信息学领域最活跃的研究分支之一,其涉及到多学科领域的交叉合 作,主要包括:信息的组织、存储、索引、异质数据源的集成和人工智能等技术。信 息检索技术的研究与发展和这些相关领域的发展是息息相关的,同样,对语义信息检 索的研究也能推动相关科研领域的发展。因此,语义信息检索研究还具有较高的学术 理论意义。 1 2 国内外研究现状 传统信息查询由于其自身固有的缺陷,已经越来越不能满足用户的信息查询需求。 由于本体( o n t o l o g y ) 能提供对“数据 含义理解的良好支持,因此,利用本体来支持 信息查询的研究得到了广泛的关注,其中较多的研究与应用出现在语义信息集成领域。 现有语义信息查询的主要技术和方法主要有:a r q f “1 技术、o q p 疆、s e a l 硌3 方法等。 1 a q r f 技术 a q r f ( a p p r o x i m a t eq u e r yr e f o r m u l a t i o nf r a m w o r k ) 研究通过利用预定义的本体概 念之间的映射关系,实现将基于一个本体词汇的查询语句重写为基于另一个本体词汇 的查询语句的方法。a q r f 主要研究了本体概念间的层次关系( 即包含关系,概念的上 涵与下延) 映射,在重写查询语句方面,采用了两种策略:最小包含重写与最大包含重 写,其中最小包含重写策略只对本体概念做下延推理,而最大包含重写策略对本体概 念做上涵与下延推理。 2 o q p 方法 o q p ( o n t o l o g yb a s e dq u e r yp r o c e s s i n g ) 研究了利用本体实现关系数据库查询重写 的方法。o q p 研究:( 1 ) 定义了特定领域中本体概念间的三种语义关系,i s a 关系、s y n o f 关系及p a r t o f 关系,利用这三种关系,构建语义推理扩展规则、增长规则及缩减规则, 用于对用户查询的语义推理扩展处理;( 2 ) 定义了本体与关系数据库之间元素的映射关 系,并在此基础上实现查询语句的重写。 3 s e a l 方法 s e a l ( s e m a n t i cp o r t a l ) 方法使用本体技术来支撑网站管理和w e b 信息集成。它映 射底层数据源( x m l 、h t m l 、r d b m s ) 蛰j 通用语义模型( 即本体) ,如r d f 。在s e a l 中,采用了混合本体的系统结构,其中,应用本体是根据其共享本体来进行构建的。 本体利用模式信息支持导航视图,以支持对多个数据源的查询。 由于语义信息查询的主要技术方法都存在着不同程度的优缺点,所以近年来,人 们开始将各种算法组合起来进行研究,以扬长避短,达到最优查询的目的。把语义信 息查询的主要技术方法应用到各种领域中并开发出各种原型系统已经成为一种潮流。 代表性的有:o n t o g r a t e 3 系统原型、基于本体的智能查询系统、基于本体的异构数据 集成等。 信息检索经历了手工检索、计算机检索到目前网络化、智能化检索等多个发展阶 段。检索的工具也由通用的搜索引擎如g o o g l e ,y a h o o 发展到如今高度专业化、应用 领域相关的专业化检索工具。目前,基于关键词的检索方法在结构化的信息检索领域 中已经具有很好的表现能力,但是这种检索方式的性能取决于所使用的字段标识方法 和用户对方法的理解,随着信息化程度的发展以及用户检索需求的不断提高,局限性 不断地显现出来,如何让计算机真正“理解”用户的检索需求,成为新一代智能化信 息检索系统急需解决的严峻问题。 目前,国外已有很多组织和研究机构丌始了该领域的相关研究工作。英国 h u d d e r s f i e l d 大学建立了语义丰富的文档信息本体,并对网页信息进行语义标注,用户 通过检索存储在数据库中的语义元数据匹配检索相关的信息、巴西p u c r s 大学通过建 立t - l e x 语义词典来扩展信息检索系统,美国加利福尼亚技术学院开发了基于本体的 生物文献检索系统t e x t p r e s s o 瞄1 ,该系统建立了c a e n o r h a b di t i sg e n e t i c sc e n t e r 约6 0 2 的遗传生物文献的语义分类体系,并为c e l e g a n s 检索系统构建了丰富的摘要描述信息, 从而实现了可被计算机理解的提问式检索,同本九州大学通过构建w r e bs i t ec a p a b i l i t y 本体,使用m y p o r t a l 实现本体个性化语义w e b 信息检索。 国内也有一些相关的研究工作,香港理工大学正在研究如何对r d f 标注的资源 w o r d n e t 实现基于语义的信息检索,中科院计算研究所成立了大规模内容处理与知识挖 掘研究小组,其中信息检索组主要进行问答式检索、分布式检索、跨语言检索等基于 语义的智能化检索技术研究,目前已开发了国内信息检索系统j n s e a r c h ,该系统能够 对用户的检索需求进行关键词之间的组合关系、距离关系进行语义理解,从而进行概 念层次的语义检索,浙江大学正在网格平台上开发基于语义的中医药数据库检索系统 d a r t g r i di i ,该系统币在把基于p 2 p 平台的中医药数据库检索系统d a r t g r i di 移植到语 义网格平台上以实现基于语义的智能化检索系统d a r t g r i d i i ,目前已建立了相关的中 医药方剂本体和疾病本体,并实现了全国超过1 0 个中医药数据库相当部分数据的语义 标注,在此基础上正在开发语义网格下基于语义浏览的信息检索系统。 这些组织和机构在对信息检索智能化研究中的共同点是:通过引入本体技术,把 信息检索提高到概念层次。通过相关的语义信息,形成一个知识体系或概念网络,实 现信息检索中对检索需求的语义理解。 目前,虽然存在着很多的原型系统,但是现有的原型系统仍然存在着缺陷和不足: 1 从用户查询界面来看,由于查询界面是用户与系统交互的主要部分,其设计的 好坏对查询系统有重要影响。现有技术方法及系统对语义查询界面的研究还不够深入。 2 ,从本体技术的角度来看,不同的本体描述语言的表达能力和推理能力有所差 别。现有语义信息查询技术方法及系统原型大多采用r d f d a m l 本体描述语言,但相 对o w l ( w 3 c 推荐的标准本体语言) ,不仅标准化程度低,而且语言表达能力和推理 能力都有所欠缺埔。 3 由于采用的本体描述语言表达与推理能力较弱,现有研究利用本体实现的推理 规则较为简单,主要支持简单的等价关系与包含关系推理。 1 。3 主要研究内容 本体应用于信息检索中,克服了传统检索技术中因对语义理解过少而不能很好获 得用户查询真正需求的缺点。这种基于本体的检索技术证是目前信息检索领域研究的 一个热点。 本文提出了基于语义的交通网络信息服务的构建,并在系统中增加机器可理解的 语义内容,实现语义信息的推理查询,有效地提高了交通网络信息查询的广度和准确 度。其主要研究内容如下: 1 本体的创建。本文使用本体编辑工具p r o t 6 9 6 口3 和本体描述语言o w l ,构建本 系统相关的本体。在构建本体的过程中,从语义和内容上描述了概念的相关属性和概 念之间的各种关系,这样通过本体的概念描述,能够为用户检索需求的语义扩展提供 基础。 2 设计系统整体框架。首先利用本体构建基于本体的语义扩展查询界面,为用户 提供一个友好的查询界面;然后利用j e n a 推理机对本体进行推理扩展:最后进行语义 包装返回给用户。 3 在系统框架的基础上,实现基于本体的交通网络信息检索原型系统,并对实验 结果进行演示。 1 4 论文组织安排 论文的组织结构如下: 第一章为绪论。本章首先介绍了基于本体的信息检索的目的和意义,着重分析了 目前国内外信息检索技术的研究现状,针对信息检索领域尚存的问题,提出了本文的 研究内容。 第二章基础理论。介绍了语义w e b 、本体和本体构建的语言,并详细地介绍了j e n a 框架的组成和使用。 第三章为交通网络信息本体的构建。详细对本体进行了分析,并给出本体结构图 和具体实现过程。 第四章为系统设计和实现。介绍了原型系统的系统结构和关键技术的设计与实现, 并对其功能进行了演示。 第五章为结论。对全文工作进行总结,并对将来的工作进行了展望。 4 2 1 语义w e b 第二章基础理论 弟一早圣口函璀y 匕 经过近二十年的迅速发展,今天的w 曲已成为一个庞大的、而且越来越大的信息 仓库。当前w e b 可以被称为第二代w e b ,第一代w e b 是手写的h t m l 页,第二代w e b 一些网页可以由机器生成,称之为动态w e b 页。h t m l 以及后来发展起来的动态w e b 页都缺乏对内容的处理能力,计算机仅限于传送和表示信息,并不能真正帮人类处理 信息。知识的表现形式越规范化、形式化,机器就越容易理解。 语义w e b 由t i mb e m e r s l e e 在2 0 0 0 年第一次提出聃1 ,其目标是创建一个具有丰 富元数据的资源w e b ,这些元数据不仅仅用来描述如何显示( h t m l ) 或者语法结构 ( x m l ) ,而且可以描述资源的含义。该语义w e b 的体系结构如图2 1 所示啤1 。 t i u s t p r o o f l o g i c d i g i t a l o n t o l o g yv o c a b u l a r y r d f + r d f s c h e m a x m l + n s + x m l s c h e m a u n i c o d eu r l 图2 1 语义w e b 层次图 语义w 曲通过x m l 、r d f 、o m o l o g y 这三层来实现w e b 信息语义描述。可以将 语义简单地看作是数据( 符号) 所代表的概念的含义,以及这些含义之间的关系,是对数 据的抽象或者更高层次的逻辑表示。对于计算机领域来说,语义一般是指用户对于那 些用来描述现实世界的计算机表示的解释,即用户用来联系计算机表示和现实世界的 途径引。语义w e b 各层含义如下: 第一层是统一字符编码( u n i c o d e ) 和统一资源标识符( u n i f o r mr e s o u r c e l d e n t i f i e r s , 简称u r i ) ,作为整个语义w e b 的基础,提供从w e b 资源编码、资源及资源间关系的 唯一标识,其中u n i c o d e 处理资源的编码,u r i 负责标识资源。 第二层是可扩展标记语言( x m l ) 、命名空间( n a m e s p a c e s ) 和x m l 模式 ( x m l s c h e m a ) ,表示数据的内容和结构,将w e b 上资源信息的结构、内容与数据的表 现形式进行分离,确保了语义w 曲的定义。 第三层是资源描述框架( r d f ) 和r d f 模式( r d f s c h e m a ) ( 统称为r d f ( s ) ) ,用于描 述w e b 上的资源、资源类型以及资源间的联系,是语法互操作性的基础。 第四层是本体词汇( o n t o l o g yv o c a b u l a r y ) ,在更具表达力的知识形式化描述层上提 供语义互操作性,能够对词汇的变迁提供支持。 第五层是逻辑( 1 0 9 i c ) ,提供公理和逻辑推理规则,为机器对具有语义的数据进行推 理提供基础。 第六层是证明层( p r o o f ) ,注重于提供认证机制,执行逻辑层产生的规则,并结合 信任层的应用机制来评判是否能够信赖给定的证明。 第七层是信任( t r u s o ,注重于提供信任机制,以保证用户代理进行个性化服务和彼 此间交互合作时更加安全可靠。 语义w e b 研究的重点就是如何把w e b 内容表示为机器可解释处理的形式,即带有 语义。本体在创建这种机器可处理的w e b 内容中扮演着关键的角色,被认为是语义 w e b 的关键技术。 2 2 本体( o n t o l o g y ) 2 2 1 本体的定义 本体最早是一个哲学的范畴,后来随着人工智能的发展,被人工智能界给予了新 的定义。最初人们对本体的理解并不完善,这些定义也在不断的发展变化中,比较有 代表性的如表2 1 所示。 表2 1 本体定义 范畴 提出时间提山人定义 哲学 计算机 1 9 9 1 n e c h e s 等 客观存在的一个系统的解释和说明,客观现 实的一个抽象本质” 给出构成相关领域词汇的基本术语和关系, 以及利用这些术语和关系构成的规定这些 词汇外延的规则的定义引 概念模型的明确的规范说明“钉 共享概念模型的形式化规范说明副 共享概念模型的明确的形式化规范说明刚 关于最后一个定义的说明体现了本体的四层含义: i 概念模型( c e r p t u a l i z a t i o n ) 通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型,其表示 的含义独立于具体的环境状态。 2 明确( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义。 6 姗删嘶 淼一 3 形式化( f o r m a l ) 本体是计算机可读的。 4 共享( s h a r e ) 本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对 的是团体而不是个体。 本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定该领 域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之 间相互关系的明确定义。 2 2 2 本体的基本组成要素 本体的定义虽然有诸多表述,但有关它的必要条件基本能在定义中得到体现。本 体作为知识组织的重要手段应该具有以下要素n : 1 概念( c o n c e p t ) 概念原本是思维科学的一个术语,是“思维的基本形式之一,反应客观事物的一 般的、本质的特征”。在本体中,概念扮演着非常重要的角色,是人与机器交互的桥梁: ( 1 ) 概念是人类对现实世界理解的表意符号:( 2 ) 概念是机器操作的主要对象;( 3 ) 在人类 和机器之间,需要建立一个数学模型使得人类能理解并控制机器的运作,而概念又是 数学模型主要的构成元素。本体中,概念又称为类( c l a s s ) ,是相似术语所表达的概念的 集合体。 2 关系( r e l a t i o n ) 本体中的关系表示概念之间的一类关联,典型的二元关系如概念之间的i s a 关系, 它形成了概念之间的逻辑层次分类结构。 3 属性( s l o t 、a t t r i b u t e 或p r o p e r t y ) 概念的属性是指概念的一些描述方面,具有限制类中的概念和实例的功能,属性 是区分类的标准,属性具有继承性,一个属性必须具有相应的属性值,在概念层上没 有属性值。例如,概念“疾病”有属性“病因”。 4 公理( a x i o m ) 本体中公理是公认的事实( 或推理规则) ,是用来知识推理的。 5 函数( f u n c t i o n ) 函数是关系的特定表达形式。函数中规定的映射关系,可以使得推理从一个概念 指向另一个概念。 6 概念的个体实例( i n d i v i d u a li n s t a n c eo f c o n c e p t ) 概念的个体实例是逻辑层次最低的概念,它的外延只有自身,因此称为概念的个 体实例,也简称实例。实例是本体中的最小对象。它具有原子性,即不可再分性。如 果某个实例还可以再进行划分,那么它就是一个类,而不是实例。实例可以代入函数 7 中去进行运算,而函数的运算结果一定是另外一些实例或者是类。类包含实例,而每 个实例都有不属于其它实例的属性,这是区分不同实例的唯一标识。 2 2 3 本体类型 为了对本体进行有效的分类,g u a r i n o 提出以详细程度和领域依赖度两个维度作为 对本体划分的基础。详细程度是相对的、较模糊的一个概念,指描述或刻画建模对象 的程度。详细程度高的称作参考( r e f e r e n c e ) 本体,详细程度低的称为共享( s h a r e ) 本体。 依照领域依赖程度,可以分为顶级( t o pl e v e l ) 、领域( d o m a i n ) 、任务( t a s k ) 和应用 ( a p p l i c a t i o n ) 本体四类8 1 。 顶级本体( 上层本体或通用本体) 描述的是最普通的概念及概念之问的关系,如 空间、时间、事件、行为等等,这些观念不依赖于特定的问题或学科领域,与具体的 应用无关,其他种类的本体都是该类本体的特例。 领域本体描述的是特定领域中的概念及概念之间的关系,是专业性的本体。在这 类本体中被表示的知识是针对特定学科领域的。这类本体描述的词表,关系到某一学 科领域,如医药卫生、化学元素周期表等。它们提供了关于某个学科领域中概念的词 表以及概念之间的关系,或者该学科领域的重要理论。例如,g e n eo n t o l o g y 是关于基 因和基因产物的本体。 任务本体描述的是特定任务或行为中的概念及概念之间的关系。任务本体提供了 用于解决与特定任务相关联问题的术语集合。因此,任务本体与解决问题的方法相关。 在问题判断过程中,任务本体的术语必然包括“观狈l j ( o b s e r v a t i o n ) 、“假设( h y p o t h e s i s ) ” 和“目标( g o a l ) ”等。 应用本体描述的是依赖于特定领域和任务的概念及概念之间的关系。一个应用本 体与用来描述专业领域的概念相关联,这些概念是解决问题的方法体系的组成部分。 它们明确表示出在特定的解决问题的方法体系中,专业领域的概念所起的作用。 虽然上述分类在知识工程领域中得到了普遍认同,但还是存在其它的分类方案。 例如,m i z o g u c h i 等人建议按照本体的内容划分类别,认为本体应分为三类:领域本体、 通用本体和任务本体吼。 p e r e z 和b e n j a m i n s 在研究了多种本体分类方案的基础上,归纳出1 0 种类型,分别 是:知识表示本体( k n o w l e d g e r e p r e s e n t a t i o no n t o l o g y ) 、通用本体、顶级本体、核心本 体( 或称元本体m e t a c o r eo n t o l o g y ) 、领域本体、语言本体( l a n g u a g eo n t o l o g y ) 、任务 本体、领域任务本体( d o m a i n t a s ko n t o l o g y ) 、方法本体( m e t h o do n t o l o g y ) 和应用本体。 这种划分方法是对g u a r i n o 分类方法的扩充和细化,但这十类本体之间的界限比较模 糊,彼此又有交叉,层次不够清晰”。 2 3 4 常见本体构建方法 构建本体的方法是当前研究中的热点问题,由于本体的构建多是面向特定领域, 所以每一个工程都有自己独立的方法。现行的本体构建方法都不是经权威标准化机构 认证的方法,目前尚没有一套标准的本体构建方法。比较成熟的本体构建方法大体包 括:m i k eu s c h o l d d e d e & k i n g 的“骨架法”、 g r u n i n g e r & f o x 的“评价法”、 m e t h o n t o l o g y 法和七步法。斯坦福大学医学院开发的七步法乜,主要用于领域本体的构建, 本文也正是用这种方法构建本体。七步法将在后续的章节结合本文作详细的介绍。 2 3 本体构建语言 2 3 1r d f ( s ) r d f ( s ) 是r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 和r d fs c h e m a 的合称。它是由 w 3 c 自1 9 9 9 年开始着手开发的,目的是为了创建描述w e b 资源的元数据。r d f 是表 述对象及对象之间二元关系的语言规范。其简单的模型可表示任意类型数据。数据类 型由节点和节点之间带有标记的连接弧组成。节点表示w e b 资源,弧表示资源属性。 模型可方便描述对象及r d f ( s ) ,是语义w e b 的基础。已有的许多语言,如o i l , d a m l + o i l 和o w l ,都是对r d f ( s ) 的扩展。 r d f 与x m l 比2 1 之间的关系非常之紧密。事实上,它们之间是互补的:r d f 的作 用之一是以一种标准化的、具有互操作性的模式为基于x m l 的数据规定语义。r d f 的目标是为描述资源定义一种机制,这些资源既不是关于某一特定应用领域的假设 ( a s s u m p t i o n s ) ,也不是包含信息的一篇文档的结构。r d f 是一种元数据模型,而x m l 是一种语法格式( s y n t a x ) 。r d f 数据模型可以用x m l 表示,同时r d f 数据模型也可以 用其他语法格式描述。r d f s c h e m a 则是基于x m l 对r d f 的一种实现。数据模型分成 通用( g e n e r a l ) 模型和专用( a p p l i c a t i o n s p e c i f i c ) 模型。目前有很多通用模型,包括x m l i n f o r m a t i o ns e t ( 定义了x m l 数据模型) ,r d fd a t am o d e la n ds y n t a x ( 定义了r d f 数据模 型) ,这两种数据模型是平级的。同样,x m ls c h e m a 和r d fs c h e m a 分别基于不同的 模型,它们不相同也没有必要合并。 基本的r d f 是一个与任何特定语法无关的抽象的表述模式。r d f 模型的基础要素 是三种类型的对象心4 1 :( 1 ) 资源( r e s o u r c e s ) ,它标识实际的以网络为基础的资源,比如网 页和网络应用程序。统一资源标识符( u r j ) 用来标识资源。每一个u r i 指向一个特定 的网页或网络应用程序。可以用r d f 模型罩的u r i s 来指向被描述的资源。( 2 ) 属性 ( p r o p e r t i e s ) ,指定特定资源的属性或特性。( 3 ) 声明( s t a t e m e n t s ) 是资源和属性的下一级 延伸。 每个r d f 声明用x m l 来表述。结合了u r i s 和属性的声明用r d f x m l 语法来序 9 列化。序列化是把r d f 模型包装为一系列x m l 声明的处理过程。每个声明通过标识 资源和被描述的特性提供了网络资源的描述。如将描述同一个资源的众多特性的有序 对集结起来,即成为r d f 的声明。 总之,r d f 规范用来生成网络资源的描述。这些资源使用对象模型被描述为资源、 属性和声明。属性和资源可以聚合到容器( c o n t a i n e r ) 中,容器由一系列的特性和资源组 成。r d f 描述使用r d f x m l 规范被序列化并作为x m l 来传输。r d f 虽然具有如上 许多优点,但它所提供的建模原语非常基础,只是提供了一个模型,因此需要对其作 进一步扩展。r d fs c h e m a 在r d f 基础上增加了许多语义原语,用来更进一步增加对 资源语义上的描述能力,如类、属性、类和属性之间的隶属关系等。 核心类包括r d f s :r e s o u r c e 、r d f :p r o p e r t y 以及r d f s :c l a s s 。 核心特性包括r d f :t y p e 、r d t s :s u b c l a s s o f 和r d f s :s u b p r o p e r t y o f o 核心约束包括r d f s :c o n s t r a i n t r e s o u r c e 、r d f s :c o n s t r a i n t p r o n e t y 、r d f s :r a n g e 和 r d f s :d o m a i n 。 这些描述机制是单纯的r d f 所不具备的。 r d fs c h e m a 提供了r d f 模型中使用的一个基本类型系统,但是从r d f s 的原语 上,r d f s 的表达能力还是非常有限。 2 3 2d a m l + o i l 2 0 0 0 年8 月,美国d a r p a 启动了一个为期六年的计划,目的是发展一系列技术 使软件a g e n t 能够对信息资源进行动态地确认和理解,并为a g e n t 之间提供基于语义 上的互操作能力。d a ml ( d a r p a a g e n tm a r k u pl a n g u a g e ) 是这个计划第一阶段所创建 的一种语义w r e b 语言,它允许用户在其数据上标记语义信息,从而使计算机能对所标 注的信息资源进行“理解”。在这个成果基础上,d a m l 工作组又迅速致力于o i l ( o n t o l o g yi n f e r e n c el a y e r ) 的研究工作,用于在d a m l 语言的框架上实现智能化推理。 2 0 0 0 年1 2 月,美国和欧洲两个组织成立联合委员会将d a m l 和o i l 合并,命名为 d a m l + o i l 瞳5 1 ,并提交给w 3 c 讨论,使其成为未来语义w e b 标准描述语言的基础。 d a m l + o i l 也是在w 3 c 早期的标准如r d f 和r d fs c h e m a 基础上建立起来的,并 且用丰富的建模原语对它们进行了扩展。 d a m l + o i l 知识基础是r d f 三元组的集合。d a m l + o i l 使用自己的词汇给 r d f 三元组以具体的意思表述。d a m l + o i l 将整个世界划分为两个不相交的部分。 一部分是由属于x m ls c h e m a 数据类型( d a t a t y p e ) 的值所组成的,称作数据类型域。另 一部分则是由( 单个) 对象所组成的,这些对象应被看作是d a m l + o i l 或( r d f ) q h 所 定义的类的成员,此部分称作对象域。 o w l 汹1 ( w e bo n t o l o g yl a n g u a g e ) 将在后续的章节中结合本文作详细的介绍。 l o 2 4j e n a 语义网框架 2 4 1j e n a 简介 j e n a 由h pl a b s ( h t t p :w w w h p l h p c o m ) 开发的j a v a 丌发工具包用于s e m a n t i c w e b ( 语义网) 中的应用程序开发。j e n a 是开源的,在下载的文档中有j e n a 的完整代码。 它的第一个版本是j e n a l ,发布于2 0 0 0 年。j e n a 2 修改了前一个版本的内部架构,又提 供了一些新功能,于2 0 0 3 年8 月发布啪剐。语义网推荐规范中的本体描述语言的核心 是r d f 图( g r a p h ) ,这是全球通用的数据结构。一个r d f 图是由一组三元组( p ,s ,o ) 组 成,p 是( s ,o ) 的一个二元谓词关系。j e n a 2 同样是围绕g r a p h 作为核心接口,然后来构 建其他的组件。 j e n a l 的主要贡献是为处理r d f 图提供了丰富的用于m o d e l 类的a p i 。围绕着这 些a p i ,j e n a l 提供了大量的工具,包括对模型( m o d e l ) 的多种方式的输入输出i 0 ( r d f x m l ,n 3 ,n - t r i p l e ) ,r d f 查询语言r d q l 。使用这些a p i ,用户可以选择将r d f 图存 储在内存中或者是持久性存储( 文件或数据库方式) 。j e n a l 还提供了附加的用于处理 d a m l + o i l 数据的a p i ,但是j e n a l 并不支持o w l 。 后来,在很多用户的反馈中建议j e n a 更好的整合对d a m l + o i l 和对r d f 的支持, 以求达到更强的功能,例如存储d a m l 数据模型到数据库中。对于j e n a l 来说实现起 来很困难,因为m o d e l 类的a p l 已经很多了,无法再继续实现更多的a p i 。 为了解决这些问题,j e n a 2 采用了更好的系统架构。以求达到两个关键目标:( 1 ) 对于应用丌发者可以提供多种灵活的表现r d f 图的方案。这需要允许用户可以使用更 高层接口或使用底层接1 2 1 的不同方式访问处理r d f 图数据。( 2 ) 提供一种r d f 图的最 简单的视图方式三元组方式,主要便于系统级程序开发人员处理数据。这对基于 r d f s 和o w l 推理是非常有用的。第一点实际上是建立在第二点的基础上的。两个 关键目标都是为系统程序员提供扩展的功能点。r d f 图的表现方式不仅是现有的 m o d e la p i 而且是新的o n t o l o g y a p i ( 用于o w l ,d a ml + o i l ,r d f s 等) 的基础。而 在r d fg r a p h 的表现层应该允许新三元组源的开发,包括存储在数据库或内存的三元 组以及运算处理过程中动态产生的一些三元组( 比如推理过程中产生的数据源) 。 j e n a 2 支持基于r d f s 和o w l 等语义推理。j e n a 支持一种语义网查询语言:r d q l 。 j e n a 2 还拥有一种表现层接口是r d fw 曲a p i 。它能提供w e b 客户端查询r d f 图。这 种基于w e b 查询的数据获取方式当然也可以为系统和应用程序员提供接口。这种方式 有可能是j e n a 的以后的发展方向。 j e n a 被设计成一个具有三层( l a y e r ) 架构和多种视图( v i e w ) 的语义网开发框架 ( f r a m e w o r k ) 。它有很多应用程序开发接口提供给系统级和应用级的丌发人员。因此 它具有很高的灵活性。j e n a 主要由6 大部分组件构成:a r p 、r d fa p i 、持久性存储、 推理子系统、o n t o l o g ya p i 和r d q l 。 2 4 2j e n a 的三层架构 j e n a 2 的系统架构【3 0 1 【3 l 】分成三层:g r a p h 层,e n h g r a p h 层,m o d e l ( o n t o l o g y ) 层。j e n a 2 的完整系统架构图如图2 2 所示。 田 o n t o l o g ym o d e l j j it 一一 i u u c il 4 y a p l a y e r m o d e lr e s o u r c e j e n a lc o m p a t i b i l i t y s t a t e m e n t e n h g r a p hl a y e r 1r r n o d e si nc o n t e x t b n h g r a p he n h g r a p h n1 r u i y i u r p n l s i l l e q u a l i t y m a t e r i a l i z e dg r a p h sv i r t u a lg r a p h s 固 图2 2 系统结构图 j e n a 2 系统架构的核心就是r d f 图( 由节点组成的三元组的集合) 。这可以从g r a p h 层中体现出来。这一层采用r d f 的语法,并且采用最小限度的设计,仅实现最简单功 能,而其他可能的功能就由其他层来实现。这样就允许对g r a p h 层实现很多扩充的功 能,比如在内存中或持久的实现三元组存储。 1 2 e n h g r a p h 层是建立各种a p i 的基石。在j e n a 2 中,这层所提供的功能可以用于实 现j
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025旅行社合规执行旅游合同
- 保健品代理商加盟协议
- 2025标准设备供应合同范本示例
- 2025版权输出合同样本
- 2025年民用爆破器材租赁合同范本
- 2025年合同研究组织项目建议书
- 捣蛋小孩受罚记800字13篇
- 六年级散文静待花开750字13篇
- 周期循环计算题目及答案
- 新兴文化命名策略-洞察及研究
- 音视频通话业务体验指标及评估方法
- 酸枣仁介绍课件
- 高考英语词汇3500词精校版-顺序版
- 社区公共卫生护理考核试卷
- DBJ43-T 315-2016 现浇混凝土保温免拆模板复合体系应用技术规程
- 鲁教版初中英语单词总表
- MOOC 理解马克思-南京大学 中国大学慕课答案
- 《医疗卫生机构安全生产标准化管理规范(修订)》
- 如何辅导初中数学差生
- 《病史采集》课件
- 康复治疗大厅规划方案
评论
0/150
提交评论