(计算机系统结构专业论文)基于本体技术的旅游信息语义查询系统研究.pdf_第1页
(计算机系统结构专业论文)基于本体技术的旅游信息语义查询系统研究.pdf_第2页
(计算机系统结构专业论文)基于本体技术的旅游信息语义查询系统研究.pdf_第3页
(计算机系统结构专业论文)基于本体技术的旅游信息语义查询系统研究.pdf_第4页
(计算机系统结构专业论文)基于本体技术的旅游信息语义查询系统研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机系统结构专业论文)基于本体技术的旅游信息语义查询系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网信息的快速增长,信息检索的应用越来越广泛。目前信息检索的方式大 多采用基于关键字的匹配,然而这种方式无法解信息资源的内在含义和联系,导致检索 结果的查全率、查准率都不高。针对这个问题,本文将本体的查询扩展与推理技术结合 来改善检索的查全率、查准率和智能性。主要研究内容包括: 1 针对传统信息检索的不足,利用本体来描述领域概念之间的层次与关联。本文以 旅游领域为研究题材,通过对领域内核心概念、关系的分析,利用本体论工程,构建了 一个旅游领域本体。 2 提出了一个语义概念扩展算法。利用概念之间的层次关系,通过算法对概念对查 询进行扩展,形成一个扩展后的概念集合,用来扩展用户的查询。采用这种方法可以提 高查全率。 3 提出了一个结合语义扩展与推理的检索模型。将语义查询扩展与语义推理相结 合,对用户的查询进行广度和深度的扩展。不仅提高了查全率、还提高了查准率。克服 了传统检索的语义信息缺失问题,而且可以为用户提供智能化的信息查询。 4 最后设计和构建了一个基于本体的旅游信息查询系统:o t r s ( o n t o l o g yb a s e d t r a v e lr e s e a r c hs y s t e m ) 。采用文中提出的检索方法对用户的查询进行扩展与推理,结合 j e n a 框架和推理机等技术,使用s p a r q l 查询语言对本体库中扩展和推理匹配之后的 实例进行查询。通过对一些检索的返回结果的对比,得出了本文提出的检索方法的查全 率、查准率和智能性都优于传统方法的结论。 关键字:本体,语义推理,o w l ,j e n a a b s t r a c t w i t ht h er a p i dg r o w t ho fi n t e r n e ti n f o r m a t i o ni nt h ew o r l d ,p e o p l ec a nf i n di n f o r m a t i o n m o r ec o n v e n i e n tt h a nb e f o r e ,b u tc u r r e n ti n f o r m a t i o nr e t r i e v a la r eb a s e do nk e y w o r d m a t c h i n g ,s o i tc a l ln o tu n d e r s t a n dt h em e n a n i n go fi n f o r m a t i o nr e s o u r c e sa n dt h e i r r e l a t i o n s h i p s ,t h er e c a l lr a t i oa n dp r e c i s i o nr a t i oi sv e r yl o w t os o l v et h i sp r o b l e m ,t h i sp a p e r p r e s e n t sa no n t o l o g y - b a s e dr e a s o n i n ga n dc o n c e p t e x t e n t i o nm e t h o dt oi m p r o v es e a r c hr e c a l l r a t i o ,p r e c i s i o na n di n t e l l i g e n c e ,t h em a i nc o n t e n t si n c l u d e : 1 f o rt h el a c ko ft r a d i t i o n a li n f o r m a t i o nr e t r i e v a l ,o n t o l o g y - b a s e dr e s e a r c hi m p r o v et h e t r a d i t i o n a lr e s e a r c hs y s t e mb yu s i n go n t o l o g yt od e s c r i b et h el e v e la n dr e l a t i o n s h i pb e t w e e n c o n c e p t s t h i sp a p e ri sb a s e do nt h ef i e l do f t r a v e li n f o r m a t i o nr e s e a r c h ,u s i n gt h eo n t o l o g y e n g i n e e r i n gt oc o n s t r u c t i o nat r a v e lo n t o l o g y 2 t h i sp a p e rp r e s e n t sas e m a n t i cc o n c e p te x t e n s i o na l g o r i t h m ,u s i n gt h er e l a t i o n s h i p b e t w e e nt h ec o n c e p t s u s i n gt h es i m i l a rc o n c e p tc l u s t e rt or e a s o n i n gw i t ho n t o l o g y t h i s m e t h o dc a ni m p r o v et h er e c a l lr a t e 3 t h i sp a p e rp r e s e n t sac o m b i n a t i o nm e t h o do fs e m a n t i ce x t e n s i o na n dr e a s o n i n g r e t r i e v a lm o d e l ,c o m b i n es e m a n t i ce x t e n s i o nw i t ht h eo n t o l o g yr e a s o n i n g ,w ec a i le x p a n dt h e r e s e a r c hb r e a d t ha n dd e p t h ,i m p r o v et h er e c a l lr a t ea n dp r e c i s i o nr a t e ,n o to n l yt os o l v et h e p r o b l e mo fs e m a n t i ci n f o r m a t i o nl o s s ,b u ta l s o t op r o v i d eu s e r sw i t hi n t e l l i g e n tt o u r i s m i n f o r m a t i o nr e s e a r c h 4 f i n a l l y , t h i sp a p e rb u i l tat r a v e li n f o r m a t i o nr e t r i e v a ls y s t e mb a s e do no n t o l o g y c o m b i n ew i t hj e n af r a m e w o r k ,u s i n gt h es p a r q lq u e r yl a n g u a g et os e a r c ht h er e s u l t c o m p a r e dw i t ht h er e s u l t ,w ec a nf i n dt h a to t r sp r o v i d e dm o r er e c a l lr a t i oa n dp r e c i s i o n r a t i ot h a nt r a d i t i o n a ls e a r c hs y s t e m s a n dh a st h ea d v a n t a g e so fi n t e l l i g e n t k e y w o r d s :o n t o l o g y , s e m a n t i cr e a s o n i n g ,o w l ,j e n a 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许 论文被查阅和借阅。本人授权西北大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。同时授权中国科学技术信息研究所等机构将本学位论 文收录到中国学位论文全文数据库或其它相关数据库。 保密论文待解密后适用本声明。 学位论文作者签名:耋竖焦塑 指导教师签名:蕴迂雄 如p 年月2 上日弘io 年名月2 ,l 日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及 取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,本 论文不包含其他人已经发表或撰写过的研究成果,也不包含为获得西北大 学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对 本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:轧彳磐锦 弘口年月二日 西北大学硕士学位论文 1 1 研究背景与意义 第一章绪论 自从i n t e m e t 诞生以来,互联网的普及以及知识经济的快速发展,网络已经渗透到 人们日常生活的各个方面,给人们获取信息带来了极大的方便。网络已经成为人们获取 信息的重要渠道。网络上充斥着许多的资讯内容。网络上信息的爆炸式增长,随之带来 的是如何在浩如烟海的信息中找到用户自己想要的信息的问题。目前人们通过搜索引擎 所搜寻回来的资料都非常的庞大和杂乱无章,增加使用者辨别信息的负担。因此如何有 效的使用户更快捷和方便的获得分布在网络各处的资源和信息尤为重要。 网络信息查询已成为现阶段人们查找信息主要手段。根据统计,目前我国用户上网 的最主要目的中,信息查询获取的比例位居榜首,有超过百分之九十以上的人表示通过 互联网来获取信息,其中有百分之七十以上的人是通过搜索引擎 1 】来查找相关网站的。 w 曲已成为人们获取信息的一个重要途径。随着国际网络信息的日益增长,人们不得不 花费大量的时间去搜索浏览自己需要的信息。但是,目前大多数的信息检索方式提供的 服务还不能令用户满意,尤其是检索结果难以满足用户的需求,因为目前的检索系统大 部分还是采用的是基于关键字的匹配检索技术【2 】。其查准率、查全率并不高,返回的大 部分都是用户不需要的垃圾信息,只有少部分是完全符合用户需求的。因此,信息检索 的智能化成为当前的一个重要研究课题。 随着近年来旅游业的发展,越来越多的用户需要在通过互联网来查找旅游业的相关 信息,然而用户最关注的就是旅游出行信息查询,因此出现了很多旅游地图和交通信息 查询的网站,但是这些网站也只是停留在基于关键字精确匹配,因此查全率和智能性都 不高,会使检索用户感到无所适从。目前的旅游网站查询主要存在的问题主要有:1 、 采取字面匹配的检索方式,即采用关键字匹配方式,对语义相近的词语无法判定其概念 上的相似性,例如检索概念相同但表述不同的同一个概念,那么系统的检索结果就完全 不同,这就带来了很大的问题;2 、检索结果只是简单罗列,大多数目前的旅游网站查 找结果都是简单的罗列,用户往往要在很多的信息中寻找想要的信息,很难实现与用户 的交互,也缺乏关联智能性;3 、缺乏推荐和启发式关联机制,系统的检索结果往往只 是特定的,如果用户想查找相关的其他信息则必须重新构想检索关键字,必须经过二次 检索才能获取信息,因此需要提高检索的关联机制。因此如何改进传统方法的不足成为 第一章绪论 目前信息检索研究的一个热点。 语义w e b 的出现很好解决传统信息检索语义缺失的问题,语义w e b 倡导赋予万维 网上所有资源统一的标识【3 】,并在资源之间建立起机器可以处理的各类语义关联。语义 w e b 的核心就是本体论,将本体论引入到智能搜索中,利用本体可以从领域的角度明确 的描述概念显式和隐式的关系【4 1 ,使得资源之间的关系明确,之后结合本体语言和规则 进行推理,完成资源之间和资源与检索者之间的智能化匹配,使得相同的知识对于不同 目的的检索者具有智能的选择性,从而达到更好的检索出结果的目的。针对传统信息查 询的不足,采用基于本体的语义检索主要有以下意义: 1 为计算机和用户提供了一种对概念的通用化理解 本体采用形式化的方法描述概念,在各领域内形成对知识的共同理解,知识的共享 大大增强了用户和检索系统的交互能力。 2 使信息搜寻可以进行语义概念扩展 利用本体描述领域内的概念和其属性,通过概念及其属性关联扩展,这样检索的时 候可以不拘泥于输入的关键字,用户检索的要求语义相近的资源也可以被检索到,大大 提高了查全率。 3 为知识复用和共享提供了可能 由于本体是通用的概念描述方法,因此在不同的系统问可以基于同一个本体来达到 一致的交互协同,从而实现异构领域的知识共享。 4 增强了用户检索需求的表述能力 不管是基于字段还是通过关键字的逻辑组合来提交检索请求,表达能力都非常的不 足,而在基于本体的语义检索中可以大大提高用户的查询表达能力,用户提出的模糊性 检索需求系统也是可以接受的。 5 使得检索具有语义推理的能力,达到智能化、个性化信息推荐的目的 语义检索不仅可以查询到检索需求的直接结果,还可以经过推理得出间接隐含结 果,也就是推理得出新的概念、关系,这是本来系统中没有的,因而提高了查全率和智 能性。 1 2 国内外研究现状 近年来,基于本体论的信息检索已经在国内外学术界和企业界中引起了广泛的关 注。本体( o n t o l o g y ) 是近年来计算机及相关领域普遍关注的一个研究热点,作为一种能 2 西北大学硕士学位论文 在语义和知识层次上描述信息系统的概念模型建模工具,已被广泛应用于知识工程、系 统建模、信息处理、数字图书馆、自然语言理解等领域之中。2 0 世纪9 0 年代以来,研 究人员从各自的专业角度出发对本体的理论和应用进行了深入研究,取得了丰富的研究 成果。 1 国外研究现状 国外对语义网的研究主要是应用在人工智能、情境感知、知识工程、智能检索方面, 随着本体应用的广泛,相关的各方面研究也越来越多,万维网联盟w 3 c 在本体和语义 网方面做了大量的研究工作,制定了一系列相关的标准,特别是对本体表达语言上,先 后制订了x m l 、r d f 、d a m l + o i l 、o w l 、s w r l 等本体描述语言,并且开发了很多 本体的推理引擎,例如r a c e r 、j e s s 、j e n a 等【5 1 ,这些研究为本体进行信息检索以及推理 提供了应用的前景和统一的标准。 国外很多相关机构已经尝试将本体应用于信息检索、自动分类、信息集成、数字图 书馆的智能导航、信息过滤等,但基本处于实验或小范围的验证阶段,目前这些技术都 还不成熟,相关机构的专家也在努力研究新的技术期待新的发展。 国外基于本体的信息检索有很多成功的应用系统,例如o n t o b r o k e r 、o n t o s e e k 、s k c 等。 o n t o b r o k e r ,面向w w w 上的网页资源,目的是帮助用户检索所需的网页,这些网页 含有用户关心的内容。o n t o b r o k e r 是用来处理h t m l ,x m l 和r d f 格式的信息源和信 息源语义描述的系统。提供信息检索、查询和维护支持服务。核心是用形式化本体描述 背景知识,并明确化w e b 文档的语义,以便综合利用本体的表达能力和推理机制。 o n t o s e e k 是一个基于内容从在线黄页和产品目录中进行检索的系统,把本体用作有 语义信息的领域词汇表,将本体驱动的内容匹配机制与一个表示形式化系统相结合,试 图将本体和大词典库相互集成,以便提供一个可以用领域内任意词汇进行交互式语义查 询的系统。这些系统都可以达到智能化语义搜索的目的。 s k c 用来解决信息系统语义异构的问题,实现异构的自治系统间的互操作。希望通 过在本体上的一个代数系统来实现本体之间的互操作,从而实现异构系统之间的互操 作。 2 国内研究现状 国内对于语义检索的研究无论是在理论研究、实证研究,还是在技术手段的实现和 应用方面都相对落后,与国外高水平的研究相比存在很大差距。目前主要的研究集中在 3 第一章绪论 本体的理论研究,例如本体映射、本体相似度计算、异构本体集成等。在项目方面,有 清华大学的k e l 、北京大学医学部的心血管疾病知识库,此外东南大学、浙江大学等在 语义网和本体方面有国家自然科学基金立项,农科院信息文献情报中心希望针对农业叙 词表引入本体相关技术,国土资源部考虑在土地重新分类时利用本体相关技术改造数据 库。国内基于本体的应用主要集中在信息检索、主题分类、知识集成等方面,其知识表 示采用的形式包括描述逻辑、x m l 、d t d 、r d f 、o i l 等。并没有采用概念层次的和推 理层次的扩展,并且本体语义检索方面的实际性研究还很少,尤其是针对某一个特定领 域信息检索的研究,这一现状决定了国内本体语义检索方面的研究的一个重点方向。 1 3 本文的主要工作 1 首先在语义网和本体的理论研究基础上,通过对传统信息检索的不足分析后发现 其查全率、查准率低下的原因主要是由于采用基于关键字的匹配的方式,因此将语义信 息引入检索过程中才能从根本上解决传统信息检索的不足。 2 以旅游领域为研究背景,将本体引入旅游信息检索中。在分析了现有本体构建方 法的基础上,给出了一个适合旅游领域的本体构建方法。在本体构建过程中,从语义和 内容上描述了概念的相关属性和关系,包括本体构建规则,构建方法,如何利用o w l 对本体进行描述等。 3 由于目前存在的语义检索系统只能进行查询扩展而不能结合推理。因此本文改进 了目前语义检索的不足,提出了一个结合语义概念扩展和本体推理的信息检索模型。采 用领域本体间的概念层次关系对用户的查询要求进行语义概念扩展,并提出了一个具体 的概念扩展算法,通过算法的扩展得到相似概念聚类集,通过相似度排序,将相似度高 于语义阈值的实例进行推理,推理出隐含概念。这种方法相对于目前的语义检索系统能 提高查全率和查准率。并且能够利用推理提高查询的关联智能性。 4 在语义推理方面,将本体推理规则进行扩展,传统的推理只是按照有限的属性关 系进行,因而限制了本体推理的范围,本文在结合领域知识的基础上,对基本r d f 规 则进行了扩展,自定义了若干规则用于推理,这些规则都是根据领域内的实际情况提出 的。 5 对使用j e n a 语义网框架结合自定义规则来进行语义推理扩展进行了研究,并且选 择s p a r q l 语言和语法对本体实例进行查询。 6 结合实际构建了一个旅游信息语义查询系统,并且对系统的性能进行了分析和评 4 西北大学硕士学位论文 价。 1 4 论文的组织结构 第一章:绪论。 简要介绍了本文的研究背景与意义,本文的研究内容、研究方法、本文的组织结构 等。 第二章:语义网和本体理论研究。 介绍了语义w e b 和本体的理论基础、本体论工程、领域本体的构建原则、本体论 描述语言r d f 、r d f s 、o w l 等。着重研究了本体描述语言o w l ,利用o w l 来构建 本文的领域本体。 第三章:领域核心概念本体构建。 对旅游领域的本体构建技术进行了研究,主要研究了领域本体的概念模型、核心函 数集。对旅游本体中的概念关系、函数关系、属性关系进行了详细的描述。 第四章:本体概念扩展与推理关键技术研究。 首先提出了一个概念扩展算法,将用户的查询进行相似概念扩展,得到扩展后的概 念集合。之后研究了语义推理中的规则扩展,将r d f 规则与领域知识进行结合。最后 提出了一个结合语义概念扩展与推理的信息检索模型。利用扩展后的概念集选择相关度 大于语义阈值的实例进行本体推理,并采用j e n a 框架对本体实例进行处理与查询。 第五章:原型系统o t r s 设计与评价。 设计与实现了一个基于领域本体的旅游信息查询系统o t r s ,采用本文所提出的方 法,结合语义扩展与本体推理进行旅游领域信息智能查询。在一个实际构建的领域本体 基础上,对查询过程进行了实验,最后对系统的查询结果进行了分析与评价,得出了 o t r s 查询效果优于目前同类检索系统的结论。 第六章总结了本文所做的工作,并对下一步研究方向进行了展望。 5 第二章语义w e b 和本体论 第二章语义w e b 和本体论 本文的研究内容主要是以本体论和语义网为背景,本章主要介绍语义网的概念和相 关理论基础。分析了语义网的基本结构,本体论的理论基础、构建元语、本体描述语言 等内容。为本文的模型研究设计奠定了理论基础。 2 1 语义w e b 概要 国际互联网的出现改变了人们交流的方式,随着i n t e m e t 信息的剧增,人们被淹没 在浩如烟海的信息海洋中,急需要一个可以理解网上信息的机器。因此语义网应运而生。 语义网诞生于1 9 9 8 年,发明人t i mb e m e r s l e e 将语义网定义为一个可以被机器所理解 的网站,同时也是一个信息的集合体【6 】。既然语义网的目标是让机器达到理解的目标, 这种理解在某种程度上十分接近推理的含义,因为这些信息能被机器所理解,故能推论 出新的知识,这是单纯的关键字信息比对是无法做到的。语义网主要的概念是以现有的 网络架构延伸,将网络上的信息内容结构化,由共享的、通用的本体论的构建,使得网 络上的资源或者服务更容易查询或者分享。它的出现使得w e b 的内容能够被机器理解的 构想得以实现。如果把全球网络上的信息变成电脑可以理解的信息形态,使之能理解人 类所输入信息的真正内涵,让信息不只能被人类理解和处理,也能通过电脑自动化的产 生有意义的信息,进而提供更好,更方便,查找结果更精确的信息互联网络【7 】。 为了达到语义网的目的,采用本体论定义不同领域所用到的知识,这些知识包括概 念和关系。本体论以x m lb a s e d 的方式表达资源以方便网络信息的存取和交换。语义 网中的本体论( o n t o l o g y ) 运用在网络的信息表达,可以达到两个功用:分类和推理。分 类为了把不用类别的信息区别开来,并可将之视作阶层化的表示,而推理结合类别与阶 层属性的关系,将隐性的知识挖掘出来【8 】。 语义网的最终目的是为了让电脑能够看懂语义文件及信息的前提下,并具备一定的 智能化推理能力。构成s e m a n t i cw e b 需要使用以下技术: 1 全球命名模式( u 刚) ; 2 采用一种标准的语法来描述资源( i f ) ; 3 采用一种标准的方法来描述资源的属性( r d fs c h e m a ) ; 6 西北大学硕:上学位论文 4 采用一种标准的方法来描述资源之间的关系( 使用o w lw e bo n t o l o g yl a n g u a g e 定义的本体) 。 2 1 1 语义w e b 的体系结构 语义网的体系结构框架如图1 所示: t m s t p r o o f 2 苗 l o g i c c 璺9 o n t o l o g yv o c a b u l a r y - 一 皇 。面 r d f ,r d fs c h e m a q x m l ,n s ,x m ls c h e m a u n i c o d e嘲 图1 语义w e b 体系结构 该体系中从低层到高层分别为:u n i c o d e 和u r i ,x m l ,r d f , o n t o l o g y , l o g i c ,p r o o f , t r u s t 。同时,d i g i t a ls i g n a t u r e 贯穿全过程【9 】。语义w e b 的核心层为x m l ,r d f 和o n t o l o g y 。 1 第1 层u n i c o d e 和u r i 是整个语义w e b 的基础。u n i c o d e 是一种字符编码标准,用于 资源的编码,u r i 负责无二义地标识w e b 上的任意一个资源。 2 第2 层x m l + n s + x m ls c h e m a 是语法层,用于表示数据的内容和结构。x m l 可视 为一种文件资料交换的标准,实现了文档结构与文档表现形式的分离。x m ls c h e m a 是 约束x m l 文档结构的语言。x m l 可视为一种文件资料交换的标准。 3 第3 层r d f + r d fs c h e m a 是数据层,用于描述w e b 上的资源及其类型。r d f 用来表 述互联网的资源与其相关性的描述 1 们。r d f 数据模型提供了简单的语义,r d f 属性可以 看作是资源的属性,同时又表达了资源之间的关系。r d f s 建立在r d f 之上,在r d f s 中, 通过类,继承,属性等建立类别系统。 4 第4 层o w l 本体层,用于描述各种资源之间的联系。o w l 是延伸自x m l 、r d f 以及r d f s 所产生的,而o w l 的语法是以d a m l + o i l 为基础。在o w l 中,除了在r d f s 上的i s a 关系描述外,多增加了一些关系的描述,使得语义描述更为丰富。 5 第5 层至第7 层l o g i c 、p r o o t 3 c l t m s t ,是在下面4 层的基础上进行的逻辑推理操作, 包括公理和推理规则、认证机制及信任机制。 7 第二章语义w e b 和本体论 通过语义网的层级结构可以发现,语义w e b 的实现依赖于三大技术:x m l 、r d f 和o n t o l o g y 。x m l 、r d f 作为一种规范用来表示数据,而本体用来提供概念化表述。 表l 说明了语义网各层之间的依赖关系。 表1 语义w e b 各层的依赖关系 茭 层数 名称描述 第一层 u n i c o d e 和u r i 整个语义网络的基础,u n i c o d e 处理资源的编 码,u r i 负责标识资源。 第二层宰x m l + n s +用于表示数据的内容和结构。 x m l s c h e m a 第三层r d f + r d f s c h e m a用于描述w e b 上的资源及其类型。 第四层 o n t o l o g yv o c a b u l a r y用于描述各种资源之间的联系。 望 第五层 l o g i c 在下面四层的基础上进行的逻辑推理操作。 第六层 p r o o f 第七层 t r u s t 2 2 本体论的理论基础 2 2 1 本体论定义 本体论( o n t o l o g y ) 源自于哲学领域,它在哲学领域被定义为:对世界上客观存在物 的系统地描述,即存在论。一般而言,本体论常利用树状结构及关联的方式来表达现实 世界中所有的事物,并描述这些事物之间的规则【l l 】。随着人工智能的发展,本体的发展 已经由原本这些的范畴扩展到其他学科领域,其中包括情境感知、人工智能、知识管理、 信息检索等领域。 在计算机科学领域中,最为广泛的定义是由g r u b e r 于1 9 9 3 年提出的定义:“本体 是针对特定领域所指定可分享概念化的正规且明确规格说明。 简单来说,本体清楚描 述一个领域内的概念和与概念有关的属性( a t t r i b u t e ) 和特征( p r o p e r t i e s ) ,加上对这个属 性的限制( c o n s t r a i n t ) ,和采用这种方法建立的的实体( i n s t a n c e ) b 2 。f e n s e l 对这个定义进 行分析后,认为本体的本质表现在如下4 个关键词上: 1 概念抽象化( c o n c e p t u a l i z a t i o n ) 指o n t o l o g y 将真实世界的现象提出抽象化的模 型,以对概念提供结构性知识的描述,便利该领域的成员相互沟通。而针对某个特定领 域的本体又称为领域本体( d o m a i no n t o l o g y ) 。 2 共享( s h a r e d ) 指o n t o l o g y 所描述的知识是团体共享的知识,并不是拘泥于个人的 知识,提供能让计算机理解的条理化语意,所有领域可认可的这表示本体的标准化,因 为标准,所以可以轻易的沟通。 8 西北大学硕士学位论文 3 明确( e x p l i c i t ) 指将经过概念化后得到的概念加上属性和限制条件,本体论的概念 形态及限制以明确的方式表述出来。其表示可以供及其方便的解读( i n t e r p r e t ) 和处理 ,、 k p r o c e s s ) o 4 正式化( f o r m a l ) 是指本体论是计算机可读的,可理解的。它是一群规格化的概念 集合。并且以清楚的语义定义和数学符号所形成的语言来描述。 简单来说,一个本体通常就是清楚的描述一个领域内的概念和描述概念有关的特征 以及属性的限制和产生的实体。 本体论目前最大的作用就是改进信息查询的精确度,语义搜索引擎可以比较精确的 查询结果,而不只是收集含有一般模糊关键字的网页。以这个方式可以克服网页之间术 语的差异。此外,本体论的检索方法,让我们可以进行深度和广度的查询。相对于目前 基于关键字的检索方法,采用本体论可以进行语义概念层面检索,推理出信息可能相关 的概念。因此采用基于本体的语义检索方法除了可以查询信息所描述的语意,弥补传统 关键字匹配带来的语义缺失,更可以利用推理系统发现所隐含的知识。 目前本体论在查询系统上的应用主要有:l 、逻辑化描述领域知识的架构和关系;2 、 查询词汇语意与概念推导;3 、推理出资源所隐含的知识:4 、不同领域结构资讯的整合。 2 2 2 领域本体的组成元素 领域本体是将领域知识中的抽象概念,以正规化的形式提供人与机器分享的方法 【13 1 ,在领域本体中包含三个组成元素: 1 类( c l a s s ) 类是用来描述某个领域中的概念,它是由多个类组成的集合,这些集合能够作为一 个概念性的描述,描述出主体的基本范围。例如d a t a b a s ec o m p o n e n t 类,其下还可以再 分为d a t a b a s eb l o c k s 、d a t a b a s ef i l e s 、m e m o r ys t r u c t u r e 等子类。 2 属性( p r o p e r t y ) 属性是一组用来详细描述类的性质或者描述类与类之间关系的资讯,属性又可分为 对象属性和数据类型属性。 3 关系( r e l a t i o n s h i p ) 关系用来描述类与类之间的联系。概念之间最常见的联系是阶层性关联。例如概念 的上下位词关联等。 9 第二章语义w e b 和本体论 2 2 3 本体论工程 本体论工程研究的是本体的构建方法。本体的建置耗时且费力,因此需要一种通用 并且规格化的构建方式,因此可以借由本体论工程的协助开发领域本体【1 4 , 1 5 】。在本体论 工程中领域本体的构建主要分为以下几个步骤: 1 将本体的作用域和领域范围确定 主要描述了本体论构建的实际应用范围,可以依据几个基础问题来确定这个本体的 领域与范围,例如:这个领域本体要涵盖哪些范围,谁将会使用和维护此本体,构建此 本体的目的是为了解决哪个领域的问题等。 2 考量可延伸引用的本体 本体论虽然是具有w 3 c 所发布的标准格式,但是特定的领域本体却没有统一的标 准内容,因此相同的领域可能会出现不同的本体论描述,因此我们在确定了一个本体的 领域方向之后,可以引用和参考已经建立好的本体,达到和本体论之知识共享和再利用 的目的。 3 列举本体中的词汇 本阶段列举领域本体内所有会用到的词汇,如果有专用名词及其同义字等。 4 定义本体类及类的阶层化关系 根据上次阶段所列举的词汇,定义这些词汇于本体类别间的阶层关系上。有几种不 同的方法可以定义类别间的阶层关系:例如自下而上( b o t t o n u p ) 、自上而下( t o p d o w n ) 、 及结合( c o m b i n n a t i o n ) 。表2 列出了这几种定义阶层关系方法的区别: 表2 定义类不同的方法 方法定义 t o p d o w n 从领域一般概念开始,将概念作具体描述,由上一阶段所列举的词 汇中选择相关的类别及子类别,从而建立本体的各个类别之间的层 次结构 b o m m u p 由上一阶段所列举的词汇中,定义本体的类别与子类别,以及之间 的层次关系,最后依据类别的特性进行分类,将相同特性的群组起 来,依此产生领域的一般概念。 c o m b n p 口i o n 即前两种方法的综合,采取两种方法并行的方式构建 5 定义类的属性及其限韦u ( a x i o m ) 上一部分定义了类的层级关系架构,本阶段则针对类的内部结构做详细定义,因为 仅定义本体的词汇和层次关系,并不能完全表达词汇更复杂的语义关系,因此必须通过 1 0 西北大学硕士学位论文 属性的建立,以此达成目的。 6 建立知识实体 当类的层次与属性关系建立完成之后,本阶段主要目的是将现实生活中的对象以领 域本体所定义的架构加以描述,并将其存入知识库中,即为知识实体。 2 3 本体对领域知识的表达 一个领域的知识是由许多个概念组合而成的,概念与概念之间又有着某些关系,比 如a 是b 的一部分,或者a 是b 的先导知识等,为了让计算机能够处理这些语义资讯, 一般常用的就是使用本体描述语言来将概念之间的关系转换为计算机可处理的语言。 目前有许多的本体描述语言( o n t o l o g yl a n g u a g e ) 已经被开发出来,例如: o m l ( o n t o l o g ym a r k u pl a n g u a g e ) 、d a m l + o i l ( d a r p aa g e n tm a r k u pl a n g u a g e + o n t o l o g yi n f e r e n c el a n g u a g e ) 、x o l ( x m l - b a s e do n t o l o g y - e x c h a n g el a n g u a g e ) 1 6 1 7 ,18 1 。其 均有x m l 的特性,而d a m l + o i l 和o w l 是以r d f 为基础的延伸,下面对相关语言 进行探讨。 2 3 1r d f ( 资源描述框架) 与r d fs c h e m a 1 一种用来描述资源的标准语法r d f 资源描述框架r d f 是一种规范,它为表示世界而定义了一个模型,并且采用一些语 法来对这个模型进行序列化和交换。w 3 c 已经为r d f 开发了一系列的x m l 。r d f x m l 是s e m a n t i cw e b 上r d f 所采用的一种标准交换格式,但是这不是唯一的一种 格式。 r d f 提供了一种一致的、标准的方法来描述和查询互联网资源,称作t r i p l e ( 三元组) 这个模型由点和点以及弧线所连接而成。点用来表示任何形态的资源,弧线表示资源之 间的关系。这些都是使用( 对象一属性一值) 三元组来表示的,它将所描述的事物称为 资 源 ( r e s o u r c e s ) ,用来描述资源的特定特征或关系称为 特性 ( p r o p e r t i e s ) ,描述资源的属 性则成为 值 ( v a l u e ) ,描述资源特性的表示式则称为 叙述 ( s t a t e m e n t ) ,并可用图形来 呈现,如图2 所示: 第二章语义w e b 和本体论 。u 一 v a l u e s u b j e c to b j e c t s t a t e m e n t 图2r d f 有向图 叙述中的主词( s u 场e 、述词( p r e d i c a t e ) ,受词( o b j e c t ) ,分别达标资源、特性、 值,可表示成一个三元式 p r e d i c a t e ,s u b j e c t ,o b j e c t ) ,或者简写成 p , s ,o ,其含义为一资源 s 有一个属性p ,其值是o 。 2 一种用来描述资料属性的标准方法r d fs c h e m a r d fs c h e m a 是r d f 的一个语义扩展。它提供了一些机制来描述相关的资源组, 以及这些资源之间的关系。r d fs c h e m a 提供r d f 的规范,在其中定义了r d f 的类别和 属性提供规范。r d f s 的作用主要体现在: ( 1 ) 描述类另l j ( c l a s s e s ) 和它的子类别之间的关系,也就是定义出某个特定领域的分类 的方法。 ( 2 ) 定义类别所拥有的属性。 r d f 和r d fs c h e m a 是基于x m l 和x m ls c h e m a 的。用来描述资料( r d f ) 和 资料属性( r d fs c h e m a ) 的方法有一定的不足,这使我们能够开发一组可用的工具来从 多个资料读取取并利用资料。不同应用程序可以共用和利用资料的程度有时就称为 s e m a n t i ci n t e r o p e r a b i l i t y ( 语义协作能力) 。w 3 c 为此特地提出r d fs c h e m a 来定义怎样 用r d f 来描述词汇集,也就是说r d fs c h e m a 是定义r d f 词汇集的词汇集。 2 3 2 语义w e b 本体描述语言o w l r d fs c h e m a 虽然提供r d f 的类别和属性的规范,但是r d f r d f s 缺乏描述类之间 关系的语法,因此w 3 c 提出了o w l ( o n t o l o g yw 如l a n g u a g e ) t 1 9 它弥补了r d f 、r d f s 的缺乏描述类别关系的不足,o w l 主要是由d a m l 和o i l 所结合演变而来,o i l 是第 一个结合描述逻辑的本体论描述语言,o i l 中提供良好的对应方式,使语义可以用过 s h i qd e s c r i p t i o nl o g i c 呈现。并且也支持r d f 语法。主要目的的为了描述类别与类别 之间的关系。 本研究使用o w l 来进行领域本体中概念和关系的表示。o w l 是用来明确表示词 汇表中术语的含义以及术语间的关系。在表达语义的方面,o w l 比r d f 有更为强大的 1 2 西北大学硕士学位论文 表达手段。图3 表示了o w l 与r d f 以及d a m l + o i l 之间的关系。 d f 纪 d a m l 广s 1, j d a m l - r d a m l o i l d a m l - ( ) n to i l r d f ( s ) x o l t o p i cm a p s s m i lr d f h 盯皿, x m l + n s + ) 0 d ls c h e m a u n i c o d cu r l 图3 本体论语言架构 由于o w l 良好的特性和对推理的支持,o w l 的支持的表达能力主要有:1 、申明 概念的相异性和等价性;2 、提供了基数约束;3 、申明类的不相交声明;4 、提供了属 性的对称,传递,等属性的表示;5 、提供了通过属性约束来定义类的机制。在o w l 中通过通过s u b c l a s s o f , s u b p r o p e r t y o f 申明概念的层次化结构,通过s a m e p r o p e r t y a s 、 s a m e c l a s s a s 申明概念的同义语义关系,通过i n t e r s e c t i o n o f 、u n i o n o f , e o m p l e m e n t o f 申明概念间的逻辑组合关系。这些关系都是通过d o m a i n 、h a s v a l u e 、r a n g e 进行约束, 通过t r a n s i t i v e p r o p e r t y 、f u n e t i o n a l p r o p e r t y 、d i s j o i n t w i t h 对概念及其关系的公理进行定 义【2 0 1 。 因此本文使用o w l 来进行本体的描述语言。w 3 c 为了对应不同的有效率推理的支 援和表达的方便性的需求,将o w l 定义成三个不同的子语言:o w ld l 、o w ll i t e 和 o w lf u l l 、其表述能力依次增强,但可计算性依次下降,o w l 三个子语言的主要区别 如下: o w l f u l l :提供最丰富的表达能力和最大的r d f 语法自由度,支持o w l 的全部语 法结构,但没有可计算性保证。o w l 允许本体扩大与定义词汇的含义,但不能完全 支援电脑自动推理。 o w ll i t e :它提供最小的表达能力和最强的语义约束。 1 3 o w l d l :以描述逻辑为基础,位于其他两者之间,兼顾表达能力和可计算性。 2 f 33 本体的构建工具p r o t 咄 目前有许多的本体构建工具软件,木文在本体构建中采用了美国史丹佛大学医学资 讯中心开发的p r o t 醇,p r o t 6 酣采用j a v a b a s e d 图形化应用程式,开放式架构,用于建 立、存取、维护和显示本体论与知识库,p m t 6 9 6 的程序界面如图4 所示 j 1 一q “ i * j 抽 一_ 一 4 ,j1,_ i i !f l t 一 q td - - l 圈4p r o t e g e 3 41

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论