




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)基于本体的语义查询系统的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在信息化时代,数字化的信息数据正在以前所未有的速度增长着,信息查询工具已 经成为人们日常生活中不可缺少的工具。目前,互联网上已经出现了众多的搜索引擎, 为广大的用户提供了方便快捷的信息查询工具,但是这些建立在传统信息查询技术的搜 索引擎很难摆脱诸如缺乏语义理解和难以进行知识查询等方面的缺陷,他们在面对如此 海量的数据的时候己经逐渐不能适应时代的发展,而且用户对智能化、语义化的查询应 用的要求也越来越高。 为了适应技术和用户需求的不断发展,一种基于语义网技术的查询机理应运而生。 借助于本体在描述知识和语义关系方面的优势,以本体为基础的语义查询技术正得到了 越发广泛的关注与应用。 本文在对本体技术理论进行了深入的研究和探讨基础上,设计并初步实现了一种面 向游戏数据的查询系统。在本系统中以w 3 c 标准中的o w l 语言作为本体的描述语言 实现对本体的描述,以r d f r d f s 作为资源标记语言实现对数据的语义化标注,并借助 j e n a 作为工具,实现了针对特定领域知识的本体推理和数据查询,成功地实现了语义化 的信息查询工具。 关键词:语义网本体本体映射语义查询 a b s t r a c t a tc u r r e n ti n f o r m a t i o na g e ,d i g i t a l i z e dd a t ah a sb e e ni n e r e a s i n ga ts u c ha h i g hs p e e d , s oi n f o r m a t i o nq u e r yt o o l sh a sb e c o m ei n d i s p e n s a b l et o o l si n d a i l yl i f c n o w a d a y s , m a n ys e a r c he n g i n e sh a v ea p p e a r e do ni n t e r n e t ,w h i c hc a np r o v i d eh a n d ya n df a s tq u e r yt o o l s t ou s e r s b u tt h e s es e a r c he n g i n e sb u i l to nt r a d i t i o n a lq u e r yt e c h n i q u es t i l lc a nn o tg e tr i do f t h e i rl i m i t a t i o no ns e m a n t i cu n d e r s t a n d i n g f a c i n gt h eg r e a ta m o u n to fd a t a ,r a d i t i o n a ls e a r c h e n g i n e sa r eg r a d u a l l yg e t t i n gb e h i n dt h i sh i g hs p e e dd e v e l o p i n gt i m e u s e r s d e m a n df o r i n t e l l i g e n t i z e da n ds e m a n t i cq u e r yi sg e t t i n gg r e a t e rt h a na n yb e f o r e s e m a n t i cw e bt e c h n o l o g yi s p r o p o s e dn o wt o m e e tt h eu s e r s d e m a n da n dn e w t e c h n o l o g y q u e r yt e c h n i q u eb a s e d o no n t o l o g yh a ss o m ea d v a n t a g e so n k n o w e d g e d e s e r i p t i o na n ds e m a n t i cr e l a t i o n , s oi ti sg e t t i n gm o r ea n dm o r ea t t e n t i o na n da p p l i c a t i o n n o w a d a y s o n t o l o g yt e c h n o l o g yi ss t u d i e da n dd i s c u s s e di nt h i st h e s i s b a s e do nt h es t u d yo n o n t o l o g y , aq u e r ys y s t e mo ng a m ed a t ai sd e s i g n e da n dr e a l i z e d i nt h es y s t e m w 3 c s t a n d a r do w li sc h o o s e da st h eo w l d e s c r i p t i o nl a n g u a g e ,r d f r d f si st h es e m a n t i c l a b e l i n gl a n g u g e ,a n dj e n ai sa st h em a i nt 0 0 1 o n t o l o g yr e a s o n i n ga n dd a t aq u e r yf u n c t i o ni s r e a l i z e di nt h es y s t e m ,a n das e m a n t i cq u e r yt o o li si m p l e m e n t e ds u c c e s s f u l l y k e yw o r d s :s e m a n t i cw e b ,o n t o l o g y , o n t o l o g ym a p p i n g ,s e m a n t i cq u e r y 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取 得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他 人已经发表或撰写过的研究成果,也不包含为获得天津理工大至或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名:奉l 砭认 签字日期:加y 年fz 月叫日 学位论文版权使用授权书 本学位论文作者完全了解 墨逮墨墨太堂有关保留、使用学位论文 的规定。特授权墨盗墨墨盘堂 可以将学位论文的全部或部分内容编入 有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编, 以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复本和电子 文件。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:皋陇及 签字日期:伊8 年胁月3 1 日 导师签名: 签字日期:埘年c 蝴多f 日 第一章绪论 第一章绪论 1 1 课题研究背景、目的及意义 随着计算机技术的不断发展成熟和互联网的迅速普及,万维网从其诞生的1 9 8 9 年 到如今的十余年间得到了突飞猛进的发展,现在已经成为人们日常工作学习不可或缺的 重要工具之一。万维网对于用户来说从最初的仅用于获得各种信息的目的,已经发展到 现在的电子商务、电子政务、电子学习,网格计算。万维网不仅仅用来发布各种数据和 信息,它还应该能够自动地处理各种信息,建立更好的用户界面,更生动地发布与显示 不同类型的数据以满足不同的需求。 但是与此同时,在不断迅速扩大的各种互联网应用中,无论是用户还是服务的提供 者都产生了海量级的,内容繁杂,组织松散的信息资源。处在当今这个信息爆炸的时代, 用户们在面对信息海洋的时候,就需要尽可能以最少的花费检索到较为精确的信息,既 要确保其中所含冗余信息最少,同时又要确保信息的查准率、查全率。 为了便于用户查询相关信息,万维网上出现了多种用于信息检索的搜索引擎,并已 经成为网络应用的基本工具,为用户提供了一种可以方便快捷地检索到自己所需信息的 途径。但是,目前的搜索引擎主要是基于关键词的全文匹配或是基于主题分类( 例如 y a h o o ) 进行检索的。结果往往会返回大量无关的链接,使得用户将大量的时间耗费在 排除无关信息上。同时,用户和网络文档对同一概念的表述形式往往会有差异,导致无 法接收到有用信息。 在传统的信息检索模型中,由于文档逻辑视图和用户信息需求逻辑视图不能有效地 表达文档和用户信息需求,所以尽管根据逻辑视图的特点选取了合适的排序函数,但检 索性能总是不能令人满意。鉴于传统检索机制的局限性,常规的直接基于关键词的信息 检索技术已不能满足用户在语义上和知识上日益增长的需求,而本体( o n t o l o g y ) 由于 具有良好的概念层次结构和对逻辑推理的支持,因此在检索过程中应该导入概念的内容 表述一语义,使检索过程由原来的关键词( 组) 匹配进化为内容匹配,以克服上述仅有 表达形式上的匹配所带来的种种缺点。因而,本体在信息检索,特别是在基于知识的检 索中得到了广泛的应用。 1 2 课题研究现状 1 2 1 语义网 f lx i mb e m e r s l e e 于19 9 8 年提出了语义w e b ( t h es e m a n t i cw e b ) 的概念之后,就一 第一章绪论 直成为人们讨论与研究的热点。当前国际上关于语义w e b 的研究刚刚处于起步阶段,而 我国对语义w e b 的研究不论是从标准规范、系统试验、研究深度,还是从规模层次、具 体应用方面都相对落后。令人欣慰的是,我国学者已经认识到了语义w e b 及其相关技术 对未来互联网发展的影响,并开始着手研究语义w e b 及其相关的关键技术与应用i l j 。 语义w e b 是当前互联网技术研究的热点,为推动语义w e b 的发展,w 3 c 成立了专门 的工作组并对各种相关技术进行标准化。这些工作组中较为活跃的是r d fc o r e i 作组1 2 列和w 曲o n t o l o g y 4 5 】工作组。这两个工作组对实现语义w 曲的一些基础技术进行开发和 标准化。r d fc o r e - r 作组致力于修订r d f 模型和语法的推荐标准,完成r d f 模式规范, 并在规范中提供与x m l 模式中的数据类型规范紧密结合的支持。w 曲o n t o l o g y - i - _ 作组致 力于创建一种语言,以定义结构化的、基于w e b 的本体。 t i mb e m e r s l e e 提出的语义w e b 模型还只是一个理想化的模型,其中的一个重要思 想就是以本体来表示语义信息,通过在语义w e b 中引入本体层来实现语义信息的共享, 从而提高网络信息服务的智能化与自动化。这一思想得到了众多语义w | e b 研究者的认 同,当前的许多项目都致力于在语义w 曲中引入本体层【6 ,7 】的研究,其中有代表性的为 o n t o - k n o w l e d g e 、k a o n 和c o h s e 项目。 o n - t o k n o w l e d g e 是欧洲i s t ( i n f o r m a t i o ns o c i e t yt e c h n o l o g i e s ) 【8 9 j 计划中的一个项 目。该项目通过在信息中应用本体来提高大型分布式系统的知识管理水平。本体可以明 确的表示半结构化信息的语义,这样就可以为信息的获取、保存和访问提供复杂的自动 化支持。为了达到这一目标,该项目组开发了基于本体的工具和环境。这些工具和环境 分为3 个级别:最低级是信息级,其作用是处理非结构化的信息资源,从中提取出机器 可处理的元信息;中间级是表示级,作用是利用元信息来提供对这些信息资源的自动化 访问、创建和保存;最高级为访问级,作用是利用先进的技术来进行信息访问,通过基 于代理技术、查询技术和可视化技术,可以利用形式化的标记帮助用户访问信息。在所 有级别中,本体都是实现功能的关键。采用这样的方法,可以使用这些工具在信息源和 用户所需信息间建立联系,解决因它们之间的差别而带来的信息处理上的困难。 k a o n ( t h ek 州s r u h eo n t o l o g ya n ds e m a n t i cw e bi n f r a s t r u c t u r e ) 1 0 ,】是德国k a r l s r u h e 大学的一个以商业应用为目标的开源的本体管理基础项目。该项目对t i mb e r n e r s l e e 所 提出的语义网模型的实现进行了探索,创建了一系列工具,包括本体的创建工具、管理 工具来为基于本体的应用提供基础。k a o n 关注的重点是传统的本体管理和应用技术与 商业应用技术( 如关系数据库) 的集成。在k a o n 项目中,本体和元数据在实现语义w e b 中具有重要地位,r d f 被用来作为本体和元数据的核心数据模型。该项目中开发了处理 r d f 的工具集,并提供专用的工具和服务来实现本体和元数据的开发、管理和表示。这 些工作以组件化的方式来完成,使k a o n 系统具有较好的可扩展性和灵活性。利用 k a o n 提供的这些工具,可以很方便地创建语义w | e b 应用。 c o h s e ( c o n c e p t u a lo p e nh y p e r m e d i as e r v i c e se n v i r o n m e n t ) 1 2 j 项目的目标是大幅 第一章绪论 度提高检索互联网上各种文档的效率和有效性。c o h s e 是由英国e p s r c ( t h e e n g i n e e r i n ga n dp h y s i c a l s c i e n c e sr e s e a r c hc o u n c i l ) 的d i m ( d i s t r i b u t e di n f o r m a t i o n m a n a g e m e n t ) 计划提供基金,南安普顿大学与曼彻斯特大学合作开展的。该项目开发了 一个从开放的概念化超媒体系统中集成表示符的系统。在实现这一系统时采用了3 种前 沿技术:1 ) 用本体化的推理服务;2 ) 基于w e b 的开放式超媒体链接服务;3 ) 本体服 务与开放式超媒体链接服务的集成。c o h s e 利用本体来表示文档术语的概念化模型及这 些术语间的关系,利用超媒体链接服务来提供链接工具,而本体服务与开放式超媒体 链接服务的集成则形成了一个概念化的超媒体系统。用元数据来描述文档的内容,在 文档之间产生了概念化的链接。当前,本体被限制为百科全书中的术语及术语间的关系。 通过为文档加入概念化链接,c o h s e 系统为现有的网页提供了附加的信息和链接。 1 2 2 本体研究技术现状 近年来,本体( o n t o l o g y ) 的研究和应用受到了知识工程及相关应用领域的广泛关 注。当前的计算机正在从单一的设备向进行信息交换和事务处理的世界范围网络转变。 因此,支持数据、信息和知识的交换、重用和共享成了当今计算机技术要迫切面临的任 务。所以在知识工程、自然语言处理、信息检索系统、智能信息集成和知识管理、信息 交换和软件工程等等领域有越来越多的科研人员在研究和发展本体。 本体的研究与应用主要包括3 方面1 1 3 】: ( 1 ) 理论上的研究,主要研究概念及其分类、本体上的代数; ( 2 ) 在信息系统中的应用,主要包括处理信息组织、信息检索和异构信息系统互操 作性问题; ( 3 ) 本体作为一种能在知识层提供知识共享和重用的工具在语义w e b 中的应用。 国内对于本体的研究已有很多年的时间了,比较有影响的有中科院数学所陆汝铃研 究员领导的常识知识的实用性研究,中科院计算技术研究所曹存根研究员主持的大规模 知识系统的研究,以及中科院数学研究所金芝研究员研究的基于本体的软件需求获取方 法等。 由于本体的概念是由国外最先开始研究的,所以在国外本体的研究要比国内热烈而 成熟。最初本体的概念是由人工智能的专家从哲学理念引入计算机领域,并给出在信息 领域早期的本体定义。随着关注于本体研究的人越来越多,对本体的各种不同定义不断 出现,并且催生了多种不同的描述语言,如r d f ,r d f s ,o i l ,d a m l 等等,并由w 3 c ( w o r l dw i d ew r e bc o n s o r t i u m ) 于2 0 0 4 年发布了本体描述语言o w l ,为本体理论的发 展提供了标准化的描述语言。w w w 的发明人还在本体理论的基础上提出了语义网 ( s e m a n t i cw e b ) 的概念,为万维网展现了一个光明的未来。 第一章绪论 1 3 主要研究工作 通过对已有的本体推理系统的使用和分析,发现尽管它们都提供了对本体的最基本 的查询和推理能力,但还都存在一些有待提高的地方,如用户界面、推理能力、执行速 度、导出导入格式等,因此通过借鉴它们在设计和实现方面的一些成功经验,本论文深 入研究了有关在本体驱动下的语义查询的关键技术,为信息查询用户提供了一种更加合 理高效,准确便捷的语义化信息查询服务系统。 本文主要对如下的几个问题进行了研究和探讨: 第一章:绪论,主要介绍了本课题的研究背景、目的和应用中的重大意义,并对本 体及本体应用的现状进行了简单介绍。最后,概述了本论文的主要工作。 第二章:本体相关研究,先介绍了语义及本体的概念,说明了基于语义的优势,在 信息查询中的重要性及发展前景。然后对本体的描述语言进行了总结概括, 比较出各自的优势,接着分析了如何构造本题和构造本体的原则。最后介 绍了基于本体的信息查询的基本思想及发展优点。 第三章:本章讨论了在本系统中最核心的算法,本题映射是本系统中很重要的一个 环节,直接影响到本系统中的查询效率,因此,将会重点讨论。 第四章:语义查询系统的总体设计将论述本系统的总体流程和设计思想。各个部分 所具有的功能和作用,给读者一个清晰的概念。 第五章:语义查询系统的实现具体讲述本系统如何实现,以及采用哪些插件,如何 调用。推理的实现,最终查询的实现。 第六章:结论与展望,总结本文的研究成果和指出今后的发展方向。 第二章本体相关研究 2 1 本体及语义的概念 2 1 1 本体 第二章本体相关研究 o n t o l o g y 是近年信息科学界最热门的词汇之一国内一般将其译为“本体”。在各种 信息交互与集成、知识表示与获取的应用中,全球众多研究者都热衷于这个词汇的使用。 本体是一个哲学概念,用于描述事物的本质。知识工程学者借用这个概念,是为了 解决知识共享中的问题。人们发现,知识难以共享常常是因为大家对同一件事用了不同 的术语来表达。于是人们提出,如果能找出事物的本质,并以此统一知识的组织和知识 的表达,使之成为大家普遍接受的规范,就有可能解决知识共享中的问题。基于本体的 知识表示是本体的理论和方法在实践中的应用。1 9 9 1 年n e c h e s 等人最早给出本体在信 息科学中的定义:“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关 系构成的规定这些词汇外延规则的定义 。后来在信息系统、知识系统等领域,随着越 来越多的人研究本体,产生了不同的定义。1 9 9 3 年g r u b e r 定义本体为“概念模型的明 确的规范说明 。1 9 9 7 年b o r s t 进一步完善为“共享概念模型的形式化规范说明 。s t u d e r 等人在对上述两个定义进行了深入研究后,认为本体是“共享概念模型的明确的形式化 规范说明,这也是目前对本体概念的统一看法。 s t u d e r 等人的本体定义包含四层含义【1 4 】:概念模型( c o n c e p t u a l i z a t i o n ) 、明确 ( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。“概念模型 是指通过抽象出客观世界中一些 现象( p h e n o m e n o n ) 的相关概念而得到的模型,其表示的含义独立于具体的环境状态;“明 确是指所使用的概念及使用这此概念的约束都有明确的定义;“形式化 是指本体是 计算机可读的,也就是计算机可处理的;“共享 是指本体中体现的是共同认可的知识, 反映的是相关领域中公认的概念集,它所针对的是团体而非个体。本体的目标是捕获相 关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不 同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义,通过概念 之间的关系来描述概念的语义。在计算机领域讨论本体,就要讨论如何表达共识,也就 是概念的形式化问题。 虽然不同研究者对本体有不同的描述,但是从内涵上来看,他们对本体的认识是一 致的,都是把本体当作某个领域内( 可以是特定领域的,也可以是更广的范围) 不同主体 第二章本体相关研究 ( 人、代理、机器等) 之间进行交流( 对话、互操作、共享等) 的一种语义基础,即由本体 提供明确定义的词汇表,描述概念和概念之间的关系,作为使用者之间达成的共识。因 此,本体的用途包括交流、共享、互操作、重用等等。一般来说,在知识工程领域应用 本体一个很重要的目的就是知识的重用与共享:本体是对领域知识进行形式化编码的基 础,而这些形式化代码可以用于软件系统的重用或作为共享的组件。本体技术在知识工 程领域j 下获得日益广泛的应用,主要表现在以下几个方面:知识检索、知识整合( 知识 的重用与共享) 、知识的存储和维护、知识的衍生。 目前广泛使用的本体有:w o r d n e t 、f r a m e n e t 、g u m 和s e n s u s 等。对于本体的分 类则有着不同的标准。详细程度和领域依赖度是两个常用的对本体进行划分的准则。详 细程度是为了描述或刻画建模对象的程度,高的称作参考( r e f e r e n c e ) o n t o l o g y ,低的称 作共享( s h a r e ) o n t o l o g y 。而根据依赖程度则可以分为4 类【”】:顶级( t o p - l e v e l ) o n t o l o g y 描述的是最普遍的概念及概念之间的关系,如空间、时间、事件、行为等,与具体应用 无关,其他o m o l o g y 均为其特例;领域( d o m a i n ) o n t o l o g y 描述的是特定领域中的概念和 概念之间的关系:任务( t a s k ) o n t o l o g y 描述的是特定任务或行为中的概念及概念之间的 关系;应用( a p p l i c a t i o n ) o n t o l o g y 描述的是依赖于特定领域和任务的概念和概念之间的 关系。 2 1 2 语义 给出语义的精确解释很困难,尤其当这个概念被不同领域所引用的时候,它的含义 往往存在着一些差异。我们可以将语义简单地看作是数据( 符号) 所代表的概念的含义, 以及这些含义之间的关系,是对数据的抽象或者更高层次的逻辑表示。对于计算机领域 来说,语义一般是指用户对于那些用来描述现实世界的计算机表示的解释,即用户用来 联系计算机表示和现实世界的途径。例如,在关系数据库中,学生数据存储在表中。这 时,对于表中的每一列数据所构成的集合,其所隐含的意思就是该列数据所要表达的对 应的概念,这个概念往往体现为设计人员对该列数据对应的属性所给定的名称,如姓名、 性别等。这些属性之间的关系就相当于数据对应的概念之间所存在的关系,它们都是学 生这个实体的属性。数据库表中的属性和关系都可以看作数据的语义信息。 当然,语义并不是这么简单,它代表的关系可能更为复杂,甚至超过e r 模型等数 据库建模语言的表达范围。其实,语义并不是i t 领域的新概念。数据库长期以来已经 在用语义来区分模式和数据,并作为数据库建模、查询和事务管理技术的一部分,语义 是保证数据管理系统达到可扩展性、高效性和健壮性要求的一个关键因素。 数据交换所要达到的真正目的是得到所交换数据所代表的含义,实现数据在含义上 的交换,而不是单纯的数据形式的交换,这同人与人之间的信息交换类似。对于人类来 说,我们可以通过相同的语言进行交互,交互双方以共同遵守的语法对所要表达的信息 含义( 相当于语义) 进行组织才能使对方理解。人与人之间信息的传达并不需要非常严格 的语法,即便是对方在语言表达上存在着一定的错误,我们仍然可能理解对方所要表达 第二章本体相关研究 的意思。但对于计算机之间的信息交换来说,语法与语义缺一不可。正确的语法表达是 保证计算机之间能够进行数据交换和处理的前提,而数据语义的描述则是数据可被计算 机正确理解和推理的基础。 2 2 本体描述语言 本体语言使得用户能够为领域模型编写清晰的、形式化的概念描述,因此它应该满 足以下要求【16 】: 1 ) 良好定义的语法( aw e l l d e f i n e ds y n t a x ) 2 ) 良好定义的语义( aw e l l d e f i n e ds e m a n t i c s ) 3 ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 4 ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) 5 ) 表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言,有r d f 和 r d f s 、o i l 、d a m l 、o w l ( 注:d a m l + o i l 不再单独列出,认为它是一个过渡,直接 介绍o w l ) 、k i f 、s h o e 、x o l 、o c m l 、o n t o l i n g u a 、c y c l 、l o o m 。 本文简单把它们归类如下: 1 ) 和w e b 相关的有:r d f 和r d f s 、o i l 、d a m l 、o w l 、s h o e 、x o l 。其中 r d f 和i m f s 、o i l 、d a m l 、o w l 、x o l 之间有着密切的联系,是w 3 c 的本体语言 栈中的不同层次,也都是基于x m l 的。而s h o e 是基于h t m l 的,在h t m l 的一个 扩展。 2 ) 和具体系统相关的( 基本只在相关项目中使用的) 有:o n t o l i n g u a 、c y c l 、l o o m 。 3 ) k i f 己经是美国国家标准,但是它并没有被广泛应用于互联网,作为一种交换格 式更多的应用于企业级。 下面分别介绍描述语言。 2 2 1r d f r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 资源描述框架【1 7 1 ,是w 3 c 在x m l 的基础上 推荐的一种标准,用于表示任何的资源信息。r d f 提出了一个简单的模型用来表示任意 类型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。节点用来表示 w e b 上的资源,弧用来表示这些资源的属性。因此,这个数据模型可以方便地描述对象 ( 或者资源) 以及它们之间关系。r d f 的数据模型实质上是一种二元关系的表达,由于任 何复杂的关系都可以分解为多个简单的二元关系,因此r d f 的数据模型可以作为其他 任何复杂关系模型的基础模型。w 3 c 推荐以r d f 标准来解决x m l 的语义局限。 r d f 和x m l 是互为补充的。 第二章本体相关研究 首先,r d f 希望以一种标准化,互操作的方式来规范x m l 的语义。x m l 文档可 以通过简单的方式实现对r d f 的引用。 其次,由于r d f 是以一种建模的方式来描述数据语义的,这使得r d f 可以不受具 体语法表示的限制。但是r d f 仍然需要一种合适的语法格式来实现r d f 在w e b 上的应 用。将r d f 序列化为x m l 表示可以使r d f 获得更好的应用可处理特性,并使得r d f 数据可以像x m l 数据一样的容易使用、传输和存储。 因此r d f 是定制x m l 的良伴,而不只是对某个特定类型数据的规范表示,x m l 和r d f 的结合,不仅可以实现数据基于语义的描述,也充分发挥了x m l 与r d f 的各 自优点,便于w e b 数据的检索和相关知识的发现。 与x m l 中的标记( t a g s ) 类似,r d f 中的属性( p r o p e r t i e s ) 集也是没有任何限制的。 也就是说存在同义词现象和一词多义现象。r d f 的模型不具备解决这两个问题的能力, 而r d fs c h e m a 虽然可以为r d f 资源的属性和类型提供词汇表,但是基于r d f 的数据 语义描述仍然可能存在语义冲突。为了消解语义冲突,我们在描述数据语义的时候可以 通过引用o n t o l o g y 的相关技术,对语义描述结果作进一步的约束。幸运的是, r d f s c h e m a 在提供了简单的机器可理解语义模型的同时为领域化的o n t o l o g y 语言( o i l , o w l ) 提供了建模基础,并使得基于r d f 的应用可以方便地与这些o n t o l o g y 语言所生 成的o n t o l o g y 进行合并。r d f 的这一特性使得基于r d f 的语义描述结果具备了可以和 更多的领域知识进行交互的能力,也使基于x m l 和r d f 的w 曲数据描述具备了良好 的生命力。 2 2 2r d f s 资源描述框架( r d f ) 定义了一个简单的模型,通过指定的性质和相应的值描述了资 源之间的关系。r d f 性质可以看作是资源的属性,从这种意义来看相当于传统的属性一 值对。r d f 性质还可以表示资源之间的关系。因此,r d f 数据模型可以表示一个实体 关系图。 然而,r d f 数据模型本身并没有提供专门的机制来描述这些性质,也没有提供任何 的机制来描述这些性质与其他资源之间的关系。也就是说,r d f 本身对语法是无知的, 它只是提供了一个表达元数据的模型。r d f 并没有定义任何一个特定领域的语义,即没 有假定某个论域,它只是提供了一个领域无关的机制来描述元数据。还需要使用其他工 具来描述领域相关的语义。 这正是r d f 词汇描述语言r d fs c h e m a ,简称r d f s ,所要实现的目标。r d f s 是 对r d f 的一种补充。r d f s 定义了类和性质,这些类和性质可以用来描述其他的类和性 质,从而增强了r d f 对资源的描述能力。 简而言之,r d f s 上要完成了以下两个工作:一,描述类与它的子类之间的关系, 第二章本体相关研究 可用于定义某个特定领域的分类方法;二,定义类的性质。 也就是说,r d f s 提供了一些建模原语,用来定义一个描述类、类与类之间关系的 简单模型。这个模型就相当于为描述网上资源的r d f 语句提供了一个词汇表、可以这 么说,l m f s 是r d f 的类型系统,它解决了r d f 的问题,提供了一种机制来定义领域 相关的属性以及用于使用这些属性的资源类。 2 2 3o w l o w l ( w e bo n t o l o g yl a n g u a g e ) 适用于这样的应用,在这些应用中,不仅仅需要提供 给用户可读的文档内容,而且希望处理文档内容信息。o w l 能够被用于清晰地表达词 汇表中的词条( t e r m ) 的含义以及这些词条之间的关系。而这种对词条和它们之间的关系 的表达就称作o n t o l o g y 。o w l 相对x m l 、r d f 和r d fs c h e m a 拥有更多的机制来表达 语义,从而o w l 超越了x m l 、r d f 和r d fs c h e m a 仅仅能够表达网上机器可读的文 档内容的能力。这几种表达方式在功能上的比较,如表2 1 【l8 】所示。 表2 1 本体描述语言 名称描述 x m l结构化文档的表层语法,对文档没有任何语义约束。 x m ls c h e m a定义x m l 文档的结构约束的语言。 对象( 或者资源) 以及它们之间关系的数据模型,为数据模型提供 r d f 了简单的语义,这些数据模型能够用x m l 语法进行表达。 描述r d f 资源的的属性和类型的词汇表,提供了对这些属性和 r d fs c h e m a 类型的普遍层次的语义 添加了更多的用于描述属性和类型的词汇,例如类型之间的不 相交性( d i s j o i n tn e s s ) ,基数( c a r d i n a l i t y ) ,等价性,属性的更丰富 o 、l 的类型,属性特征( 例如对称性,s y m m e t r y ) ,以及枚举类型 ( e n u m e r a t e dc l a s s e s ) 。 语义网( s e m a n t i cw 曲) 是对未来网络的一个设想,在这样的网络中,信息都被 赋予了明确的含义,机器能够自动地处理和集成网上可用的信息。语义网使用x m l 来 定义定制的标签格式以及用r d f 的灵活性来表达数据,下一步需要的就是一种o n t o l o g y 的网络语言( 比如o w l ) 来描述网络文档中的术语的明确含义和它们之间的关系。 针对不同的需求,o w l 有三个子语言:o w ll i t e ,0 w ld l 和o w lf u l l 。分别描 述如下: o w ll i t e :用于提供给那些只需要一个分类层次和简单属性约束的用户。 第二章本体相关研究 o w ld l :支持那些需要在推理系统上进行最大程度表达的用户,这里的推理系统 能够保证计算完全性( c o m p u t a t i o n a lc o m p l e t e n e s s ,即所有地结论都能够保证被计算出来) 和可决定性( d e c i d a b i l i t y ,即所有的计算都在有限的时间内完成) 。它包括了o w l 语言的 所有约束,但是可以被仅仅置于特定的约束下。 o w lf u l l :支持那些需要在没有计算保证的语法自由的r d f 上进行最大程度表达 的用户。它允许在一个o n t o l o g y 在预定义的( v _ d e 、o w l ) 词汇表上增加词汇,所以所有 的推理软件都不能支持o w lf u l l 的所有特性。这三种子语言间以及子语言和r d f 存在如下关系: 这三种子语言之间的关系是: 每个合法的o w ll i t e 都是一个合法的o w ld l 。 每个合法的o w ld l 都是个合法的o w lf u l l 。 每个有效的o w l l i t e 结论都是乞众套效的o w ld l 结论。 每个有效的o w ld l 结论都是一个有效的o w lf u l l 结论。 用户在选择使用哪种语言时的主要考虑是: 选择o w ll i t e 还是o w l d l 主要取决于用户需要整个语言在多大程度上给出了 约束的可表达性。 选择o w ld l 还是o w lf u l l 主要取决于用户在多大程度上需要r d f 的元模型机 制( 如定义类型的类型以及为类型赋予属性) 。在使用o w lf u l l 而不是o w ld l 时,推 理的支持不可预测,因为目前还没有完全的o w lf u l l 的实现。 这三种子语言与r d f 的关系是: o w lf u l l 可以看成是r d f 的扩展。 o w ll i t e 和o w lf u l l 可以看成是一个约束化的r d f 的扩展。 所有的o w l 文档( l i t e ,d l ,f u l l ) 都是一个r d f 文档。所有的r d f 文档都是一个o w l f u l l 文档。只有一些r d f 文档是一个合法的o w ll i t e 和o w ld l 文档。 2 3 本体的构造 本体作为通讯、互操作和系统工程的基础,必须经过精心的设计,实际上,本 体的构造是一个非常费时费力的过程。本节介绍本体构造的准则、方法和工具。 2 3 1 本体的构造准则 t r g n l b e :在参考文献中提出了指导本体构造的5 个准则f 1 9 1 ,即: 清晰( c l a r i t y ) :本体必须有效的说明所定义术语的意思。定义应该是客观的,与背 景独立的。当定义可以用逻辑公理表达时,它应该是形式化的。定义应该可能的完整。 第二章本体相关研究 所有定义应该用自然语言加以说明。 一致( c o h e r e n c e ) :本体应该是一致的,也就是说,它应该支持与其定义相一致的推 理。它所定义的公理以及用自然语言进行说明的文档都应该具有一致性。 可扩展性( e x t e n d i b i l i t y ) :本体应该为可预料到的任务提供概念基础。它应该可以支 持在已有的概念基础上定义新的术语,以满足特殊的需求,而无须修改已有的概念定义。 编码偏好程度最d , ( m i n i m a le n c o d i n gb i a s ) :概念的描述不应该依赖于某一种特殊的 符号层的表示方法。因为实际的系统可能采用不同的知识表示方法。 本体约定最小( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) :本体约定应该最小,只要能够满 足特定的知识共享需求即可。这可以通过定义约束最弱的公理以及只定义通讯所需的词 汇来保证。为了说明以上准则,g r u b e r 还在此文中分析了两个具体本体( - r 程数学本体 和图书信息本体) 的构造实例。 2 3 2 本体的构造方法 由于各自学科领域的特点和具体工程的应用不同,构建本体的过程也不尽相同,当 前主要有如下几种构建本体的方法,t o v e 法、m e t h 本体法、构架法、k a c t u s 工程 法、s e n s u s 法、i d e f s 法,任何一个构建本体的方法都由一个总体的流程和各步的操 作规则构成,只有设计出科学合理的流程和准确、可控的操作细节及原则,才能更好地 揭示领域知识。尽管本体的功能已经被认识,并逐渐得到应用,但目前对本体创建方法 论的研究才刚刚起步。下面简单介绍几种方法【2 0 】: ( 1 ) u s c h o l d 的本体建立方法。这个模式是爱丁堡大学从开发e n t e r p r i s e 本体的经验 中产生。 ( 2 ) g r u n i n g e r & f o x 的本体建立模式,又称t o v e 。这个方法也是从一个具体的本 体构造过程中总结出来的,用于构造多伦多虚拟企业本体工程,由多伦多大学企业集成 实验室研制,使用一阶逻辑进行集成。该本体包括企业设计本体、工程本体、计划本体 和服务本体。 ( 3 ) m e t h 本体方法。这种方法由马德里大学工艺分校开发人工智能图书馆使用。它 分为三个不同的阶段:管理阶段,开发阶段,维护阶段。用这种方法开发的本体有 ( o n t o ) a g e n t :基于本体的w w w 代理,关于本体使用参考本体作为知识源进行一定约 束条件的重新知识获取;c h e m i c a lo n t o a g e n t ,基于本体的化学教育代理,允许学生学 习化学,自测该领域的技巧;o n t og e n e r a t i o n ,使用域本体( 化学家) 和语言本体来产生西 班牙文本描述,来作为对学生关于化学领域问题的查询的回答。 ( 4 ) b e m e r a s e t a l 方法( k a c t u s 工程) 。这种方法开发本体由应用开发控制,所以每 一个应用都由相应的表示该应用所需的o n t o l o g y 。这些本体既能重用其它的o n t o l o g y , 又能被后继应用集成,应用于电子网络的开发。以上这些方法都是具体领域本体开发过 第二章本体相关研究 程中总结出来的,因此应用领域很有限,方法细节比较粗,而且相关技术比较少,因此 有着一定的局限性。 2 4 基于本体的信息查询的基本思想及优点 自上世纪9 0 年代以来,随着计算机在人类社会和生活的各个方面的广泛应用,数 字信息的共享和利用已不再是研究人员的专利,大众对数字信息的需求也越来越强烈, 众多的信息系统被开发出来,为用户提供其感兴趣的内容。数字信息一方面为人们的日 常工作和生活带来了帮助,另一方面,大量的信息又使人们不知所措。如何组织和提供 信息就成为信息系统要解决的关键问题。而本体因为所具有的良好的概念层次结构和对 逻辑推理的支持,因而在信息查询,特别是在基于知识的查询中得到了广泛地应用,成 为研究热点。基于本体的信息查询的基本设计思想 2 1 1 可以总结如下: ( 1 ) 在领域专家的帮助下,建立相关领域的本体。本体的质量是知识检索的灵魂。 构建的本体越完善,越能保证检索效率。确定本体的应用范围,在领域专家的帮助下, 确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和 词汇间相互关系的明确定义,这些定义应该是明确的、无二义性的,是一组描述领域内 实体及其属性和行为以及实体关系的词汇、定义、公理、定理的集合。建立的本体应该 具备清晰性、一致性、完整性、可扩展性。清晰性,就是本体中的术语无歧义地定义; 一致性,就是术语之间关系逻辑上应一致;完整性,是指本体中的概念及其关系应是完 整的,应包含该领域内所有概念,但往往很难达到,需不断完善;而可扩展性,即本体 应该能够扩展,在该领域不断发展时能加入新的概念。 ( 2 ) 收集信息源中的数据,并参照已建立的本体,把收集来的数据按规定的格式 存储在元数据库( 关系数据库、知识库等) 中。 (
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025仓库租赁合同书【闲置仓库租赁合同书】
- 2025新版小额借款合同范本
- Unit 1(人与社会:良好的人际关系与人际交往)【同步拓展阅读】(答案与解析)
- 2025合作协议的内容
- 2025租房终止合同4篇
- 《二次根式》单元测试2
- 2025年初级经济基础知识真题及解析
- 2024年评标专家考试题及答案
- 2025合同收益与合同成本分析
- 广南县幼儿园年度自检自查报告
- 耳尖放血课件完整版
- 手术病人病情观察能力培养业务学习专家讲座
- GB/T 14715-2017信息技术设备用不间断电源通用规范
- 起重设备安装安全事故应急预案
- 教研组、备课组新学期教研组长会议课件讲义
- 物流网络规划与设计课件
- JB∕T 5245.4-2017 台式钻床 第4部分:技术条件
- 鞘膜积液的护理查房
- 《水工监测工》习题集最新测试题含答案
- 部编版三年级上册道德与法治第一单元第1课《学习伴我成长》课件
- 组合式塔吊基础施工专项方案(117页)
评论
0/150
提交评论