(计算机软件与理论专业论文)基于本体的语义网技术研究与应用.pdf_第1页
(计算机软件与理论专业论文)基于本体的语义网技术研究与应用.pdf_第2页
(计算机软件与理论专业论文)基于本体的语义网技术研究与应用.pdf_第3页
(计算机软件与理论专业论文)基于本体的语义网技术研究与应用.pdf_第4页
(计算机软件与理论专业论文)基于本体的语义网技术研究与应用.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机软件与理论专业论文)基于本体的语义网技术研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 捅要 当前互联网的规模越来越大,而且网络资源缺乏统一的语义描述,用户越来 越难从海量的数据中查找到自己需要的资源,w 3 c 组织倡导的基于本体的语义网技 术为解决这一问题提供了出路,语义网通过获得词汇的语义使w e b 应用不但能够表 示信息,而且能够理解信息,还可以在此基础上依据一定的规则对信息进行推理。 本文首先简要地介绍了语义网相关知识背景,然后针对语义网体系模型中定 义语义的资源描述框架层和本体层进行研究,在介绍本体的基本特性和一般形式 的基础上,提出了基于本体的语义建模思路和方法,重点研究了使用本体描述语言 构建本体的方法,并分析这些方法的特点和优势,详细探讨了资源描述框架形式推 演系统,最后提出了一个基于本体的语义门户模型,适用于解决如何帮助用户快 速准确地获取信息资源的问题。 本文所进行的研究能够对语义网本体构建和语义信息检索的发展起到一定的 促进作用。 关键字:本体语义网语义建模资源描述框架语义门户 a b s 订a c t a b s t r a c t w e bi se n o r m o u sa n d g r o w i n g a ta s t a g g e r i n g r a t e ,t h ei n f o r m a t i o nl a c k sau n i f o r m s e m a n t i cd e s c r i p t i o n ,s oi ti si n c r e a s i n g l yd i f f i c u l tt of i n d ,o r g a n i z e ,a c c e s sa n dm a i n t a i n t h ei n f o r m a t i o nr e q u i r e db y u s e r s o n t o l o g y - b a s e ds e m a n t i cw e bt e c h n o l o g yp r o p o s e d b yw 3 c i n d i c a t e saw a yt os o l v et h i sp r o b l e m w e ba p p l i c a t i o n sc a nr e p r e s e n ta n d u n d e r s t a n dt h ei n f o r m a t i o n b yo b t a i n i n gt h es e m a n t i co f t h ew o r d s ,e v e nt h o u g hi n f e r f r o mt h ei n f o r l t l a t i o nb a s e do ns o m er o l e s t h i sp a p e rb e g i n sw i t hab r i e f i n t r o d u c t i o no f s e m a n t i cw e bf u n d a m e n t a l s f o l l o w e d b y t h er e s e a r c ho f t h er d f r d f sa n do n t o l o g yl a y e rw h i c hb o t hd e f i n e di n t h es e m a n t i cw e ba r c h i t e c t u r e o nt h eb a s eo f t h e p r e s e n t a t i o no f o n t o l o g y ,a m e t h o do f o n t o l o g y - b a s e ds e m a n t i cm o d e l i n g i sg i v e nw i t he m p h a s i so n o n t o l o g yb u i l d i n gb y u s i n go w l a t l a s tam o d e lo f o n t o l o g y - b a s e ds e m a n t i cp o r t a li sp r e s e n t e d t om a k ei t e a s y f o ru s e r st oa c c e s st h er i g h ti n f o r m a t i o nw h i c h t l l e y w a n t t h er e s e a r c ho f t h i sp a p e rc o u l db e h e l p f u l t op r o m o t et h ed e v e l o p m e n to f o n t o l o g ym o d e l i n ga n di n f o r m a t i o n s e a r c h k e y w o r d :o n t o l o g y s e m a n t i cw e bs e m a n t i cm o d e l i n gr d fs e m a n t i cp o r t a l 创新性声明 y6 9 5 4 9 0 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或 其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做 的任何贡献均己在论文中做了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名 芝季i 囤壅 日期 塑堕:! :丛 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。本人保证毕 业离校后,发表论文或使用论文工作成果时署名单位仍然为西安电子科技大学。 学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。( 保密的论文 在解密后遵守此规定) 本学位论文属于保密在一年解密后适用本授权书。 本人签名 导师签名 日期翌! :! 尘:! 日期域:2 l ! f 第一章绪论 第一章绪论 今天,万维网技术的发展和普及使得社会信息化的程度空前提高,极大地缩 短了人与人之间的距离,增进了人类的相互了解,而与此同时各个应用领域所积 累的信息量也在急速增长,整个万维网的规模急剧膨胀。由于信息资源的载体多 种多样,加之所处的平台及其使用的语言和标准并不一致,这就给各个领域信息 资源的管理和使用带来诸多困难: 如何对w e b 上海量的异构的信息进行有效地分类和管理,使用户可以准确 迅速地找到需要的信息; 如何使应用程序能够理解信息所蕴涵的语义,实现信息处理过程的自动 化; 如何根据语义实现各种异构系统中的相关信息的集成和协作; 基于传统门户技术的信息发布、检索和使用方式难以满足上述应用的需求。 语义万维网( s e m a n t i cw e b ) 的提出为解决这些问题提供了出路,语义网相关技术 致力于解决当前w e b 应用中所出现的种种问题,通过定义严格的语义模型来实现资 源的共享和互操作性,因而被认为是下一代的w e b 技术。本章将分析目前w e b 的主 要技术基础和应用中带来的种种问题,阐述论文研究的背景,明确本课题主要研 究目的、内容和论文的组织。 1 1 论文研究背景 万维网的思想可以追溯到t i mb e r n e r s l e e 于1 9 8 9 年3 月在c e r n ( e u r o p e a n l a b o r a t o r yf o rp a r t i c l ep h y s i c s ,欧洲粒子物理实验室) 写的一个关于信息管理的项目 建议书 1 】。该建议书提出了分布式超文本系统的设想,旨在将c e r n 已有的几个信 息服务器一体化,并提供一个简单的用户界面来存取各种形式的信息。1 9 9 0 年w e b 浏览器和w e b 服务器技术相继在c e r n 实现,b e r n e r s l e e 和他的合作伙伴成功引 入了构成w e b 体系结构的基本元素:w e b 服务器、w e b 浏览器、浏览器与服务器之 间的通信协议h t t p 、写w e b 文档的语言h t m l 、以及用来标识w e b 上资源的l j r l 。 1 9 9 3 年,美国伊利诺斯大学国家超级计算应用中心n c s a 的m a r ca n d r e e s e n 及其 合作者发布了称为m o s a i c 的浏览器,这是第一个较健壮的易用的浏览器,具有完 善的图形用户界面。从此,w e b 迅速成长为全球范围内的信息宝库。1 9 9 4 年,w 3 c 联盟在t i mb e r n e r s l e e 的领导下成立,该组织通过制定技术规范与提供参考软 件来发展w e b 的技术标准并促进w e b 产品之间的互操作性。 w e b 产生之后的十余年间,网络技术飞速发展。从应用模式的角度来看,w e b 应用基本上经历了两个阶段:浏览( 包括静态、动态页面) 阶段和超浏览阶段。 基于本体的语义蚓技术研究与应用 浏览模式最初是静态页面阶段,w e b 提供的信息主要以w e b 页面形式提供给人,例 如新闻网站、文件、b b s 等;其后,浏览模式发展到了动态页面阶段,w e b 为用户 提供了与网站交互的功能,即通过通用网关接口( c g i ) 或a s p 、j s p 技术从后台的 数据库中动态生成页面返回给用户。 2 0 0 0 年以后,w e b 开始进入超浏览阶段。这一阶段体现出来的核心思想是资源 共享与协作。资源包括网络上的硬件、软件、数据、信息等多个层次上的资源, 协作则是采用智能代理等技术对网络上提供的服务进行动态组装。超浏览阶段的 代表性研究热点包括:w e b 服务、智能a g e n t 、点对点技术( p e e r t op e e r ,p 2 p ) 、 语义网( s e m a n t i cw e b ) 等。 应用模式的转变表明w e b 的初始设计已经无法满足应用不断增长的实际需求。 w e b 的初始设计具有一定的局限性,它主要针对人类浏览信息而不是针对自动化应 用来处理信息,因此难以实现对海量信息的准确检索以及对异构信息的集成和协 作。 由于w e b 的初试设计不是面向机器理解的,所以仅仅依靠一种统一的w e b 语言 从语法上实现信息的交换和共享是不够的。比如两个都采用x m l 作为信息交换格式 的应用系统,怎么能够保证它们表述的是同一个意思,标记语言中元素的关系, 是超类与子类的关系还是组成关系,计算机能否加以区分,这就需要一种机制, 使得计算机不但能读数据,还能够理解和区分数据的语义,实现w e b 信息语义层次 的互操作。 为了实现面向机器理解的w e b ,t i m b e m e r s l e e 于2 0 0 1 年正式提出了语义万 维网概念【2 1 。语义网是当前w e b 的扩展,扩展之后,w e b 上的信息具备良好定义的含 义,可以帮助人类和计算机更好地协同工作。语义网的思想就是利用元数据 ( m e t a d a t a ) 语言对w e b 信息资源的内容进行语义上的描述,从而使计算机能够利 用这些语义信息对资源的内容进行理解和处理,在此基础上实现更高层的、基于 知识的智能应用。 要在语义层次实现信息的互操作,需要对信息的含义有一个共同一致的理解。 语义网采用了本体论( o n t o l o g y ) 的思想,本体是对应用领域概念化的显示的解 释说明,为某领域提供了个共享通用的理解,从而无论使人还是应用系统之间 都能够有效地进行语义上的理解和通讯。语义网的基本结构如图1 1 所示: 第一章绪论 器 层数名称描述 第一层u n i c o d e 和u r i整个语义网络的基础,u n i c o d e 处理资源的编 码,u r i 负责标识资源。 第二层+x m l + n s +用于表示数据的内容和结构。 x n l ls c h e m a 第三层+r d f + r d fs c h e m a用于描述w e b 上的资源及其类型。 第四层+ o n t o l o g yv o c a b u l a r y 用于描述各种资源之间的联系。 7第五层 l o g i c 在下面四层的基础上进行的逻辑推理操作。 卫 第六层p r o o f 局 第七层 t h s t 图1 1 语义网层次结构( 表不核心层) 语义网体系结构包括七层,各层的基本功能和相互关系如下: u r i s 和u n i c o d e :w e b 环境下的信息中大多都是对w e b 上资源的描述,因此, 首先应该考虑采用什么方式来标识这些资源。语义潮采用统一资源标识符 ( u n i f o r m r e s o u r c ei d e n t i f i e r s ,u r i ) 来标识资源及其属性,u r i 是一个i n t e r n e t 标准,它泛指所有以字符串标识的网络资源,包含了u r l 和u r n 。另外语义网采用 u n i c o d e 作为字符的编码方案,这样就统一了信息的编码格式。这一层是整个语义 网的基础,解决了w e b 上资源定位和字符编码统一标准格式的问题。 x m l 、n a m e s p a c e 、x m l s c h e m a : 在u r i 和u n i c o d e 之上,是x m l 及相关的 技术层,用于表示数据的内容和结构。x m l 允许用户根据需要自定义一些“有意义 的”标签,对信息的内容进行标记,并使用文档类型定义( d o c u m e n tt y p e d e f i n i t i o n ,d t d ) 或x m ls c h e m a 来约束标签的结构 3 】。因为x m l 标签可以由用户根 据自己的需要来定制,这样可能造成标签同名的情况,为了避免命名冲突,w 3 c 采 用了名空间n a m e s p a c e 【4 1 机制。 r d f 、r d fs c h e m a : 在x m l 层之上是资源描述框架( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ,r d f ) 年h r d fs c h e m a ,用于描述资源及其类型。r d f 是一个用于表达w e b 资源的语言,可用于表达关于任何可在w e b 上被标识的事物的信息,它提供了一种 用于表达信息、并使其能在应用程序间交换而不丧失语义的通用框架。r d fs c h e m a 规范用r d f 进一步定义了建模原语f 5 】,提供7 r d f 模型中使用的一个基本类型系统。 o n t o l o g y :处于r d f r d f s 之上的是本体层,本体层可以看作是对r d f r d f s 层的扩展,用于描述各种资源之间的联系。知识本体逐渐引起人们重视的原因在 于知识本体能够在人们和应用系统之间达成对术语含义的共享和共同理解,而对 同一概念的语义共享和共同理解恰恰是构建语义网的关键。 l o g i c 、p r o o f 、t r u s t :利用r d f r d f s 以及些本体描述语言( 女n o w b 、x o l ) 可以对w e b 上的资源内容做出描述,但基于语义的w e b 应用还需要根据特定的规则 从这些描述性的知识中进行推理。逻辑层的目标就是提供一种方法来描述这些推 理的规则忡j ,使得语义网应用在事实的基础上,通过应用逻辑推理,得出可以信赖 桀于本件的语义网技术研究与应用 的结论。 目前,虽然具有一定应用需求的推动,语义网技术距离实际应用尚有一段差 距。实现语义网所面临的主要问题体现在: 缺乏有效的知识本体构造方法和工具。目前知识本体的开发主要采用的还 是手工和半手工的方式开发,仍然需要领域专家和信息专家的共同参与。 缺乏知识本体概念关系分析的方法。指导知识本体的! g l 标是实现知识重用 和共享,如何针对具体应用来量化分析概念和概念之间的关系,目前还缺 少具体的指导方法。 缺乏示范性的应用。知识本体驱动的应用理论研究比较活跃,但是缺少实 际的支撑性应用。这种状况一方面体现了理论研究与实际应用的脱节,另 一方面也反映出技术理想与现实环境之间仍有差距。 1 2 论文研究目的和成果 从指导思想来说,本文研究的总体目标是获取促进网络环境下领域知识重用、 信息资源共建共享和应用协作的技术与方法,改善目前信息资源管理中利用传统 技术难以检索相关资源的状况; 从技术方面来说,本文研究着眼于探索可高度重用的领域知识表示理论和方 法,提出开发基于领域知识的语义门户系统的框架。 本文内容和成果如下: 本文首先全面介绍了语义网和本体论等相关知识背景,进而详细介绍了最新 的语言网语言o w l ,探讨了基于本体的语义建模方法。 r d f r d f s 是一个完整的形式化系统, 式语义,是一个完备可靠的形式化系统, 具备b n f 形式语法以及基于模型理论的形 本文论证了r d f 描述语义推理的形式正确 性,最后,提出了一个基于本体的语义门户的模型,适用于解决如何使得用户快 速准确地获取信息的问题。 1 3 论文的组织 正文主要分为三个部分:第一部分( 1 、2 章) 阐述了本课题提出的背景、研 究目的、和研究内容,深入分析了本体的内涵以及语义网的架构。第二部分( 3 、 4 、5 章) 研究了本体的开发原则、语言,r d f 模型及其推理机制,同时提出了基 于本体的语义门户设计框架。第三部分( 第6 章) 作为对全文主要思想的概念验证, 对研究工作进行了,c a , 结,对未来重点研究方向和发展前景作出了展望。 第二辛奉体与语义i 刊 第二章本体与语义网 2 1 关于本体 2 1 1 本体的概念 本体的概念最初起源于哲学领域,可以追溯到公元前古希腊哲学家亚里士多 德。其在哲学中的定义为“对世界上客观存在物的系统地描述,即存在论”,是客观 存在的一个系统的解释或说明,关心的是客观现实的抽象本质。 在人工智能界,最早给出本体定义的是n e c h e s 等人,他们将本体定义为“给出 构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些 词汇外延的规则的定义”【7 。n e c h e s 认为:“本体定义了组成主题领域的词汇表的基 本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则。 后来随着人工智能的发展,这些定义也出在不断的发展变化中,比较有代表 性的定义列表如下: 范畴提出时间提出人定义 客观存在的一个系统的解释和 哲学 说明,客观现实的一个抽象本质 1 9 9 1 n e c h e s 等给出构成相关领域词汇的基本 术语和关系,以及利用这些术语和关 系构成的规定这些词汇外延的规则 的定义 计算机 1 9 9 3 g r u b e r概念模型的明确的规范说明 1 9 9 7 b o r s t共享概念模型的形式化规范说 明 1 9 9 8 s t u d e r共享概念模型的明确的形式化 规范说明 表2 1 本体的代表性定义 上表中s t u d e r 的定义 8 1 说明体现了本体的四层含义: 概念化( c e r p t u a l i z a t i o n ) 通过抽象出客观世界中一些现象( p h e n o m e n o n ) 的相关概念而得到的模型,其 表示的含义独立于具体的环境状态 明确( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义 形式化( f o r m a l ) 本体应是计算机可读的。 基于本体的语义咧技术研究与应用 共享( s h a r e ) 知识本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集, 它所针对的是团体而不是个体。本体的目标是捕获相关的领域的知识,提供对该 领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模 式上给出这些词汇和词汇之间相互关系的明确定义。 尽管定义的方式有多种多样,但是从内涵上来看,不同研究者对于本体的认 识是统一的,都把本体当作是领域( 可以是特定领域的,也可以是普遍范围的) 内部不同主体( 人、应用系统等) 之间进行交流( 对话、互操作、共享等) 的一 种语义基础,即由本体提供一种明确定义的共识。 目前,本体提供的这种共识更主要的是为机器服务,而机器并不能像人类一 样理解自然语言中表达的语义。目前的计算机也只能把文本看成字符串进行处理, 因此,在计算机领域讨论本体,就要讨论本体究竟是如何表达共识的,也就是概 念的形式化问题。这涉及到本体的描述语言、本体的建设方法等具体研究内容, 与此同时,可以认为构造本体的目标是捕获相关的领域的知识,提供对该领域知 识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给 出这些词汇和词汇之间相互关系的明确定义。 2 1 2 本体的描述语言 目前在具体应用中本体的表示方式主要有4 类: 非形式化语言 半非形式化语言 半形式化语言 形式化语言 可以用自然语言来描述本体,也可以用框架、语义网络或逻辑语言来描述。本 体语言使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该满足_ 以 下要求: 良好定义的语法( w e l 卜d e f i n e ds y n t a x ) 良好定义的语义( w e l l 一d e f i n e ds e m a n t i c s ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 充分的表达能力( s u f f i c i e n te x p r e s s i r ep o w e r ) 表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 大量的研究工作者活跃在该领域,因此诞生了许多种本体描述语言,有r d f 和 r d f s 、o i l 、d a m l 、o w l ( d a m l + o i l 不再单独列出,而认为它是一个过渡) 我们简 第二二章本体与语义嘲 单把它们归类如下: 和w e b 相关的有:r d f 和r d f s 、o i l 、d a n 。、o w l 、s h o e 、x o l 。其中r d f 和 r d f s 、o i l 、d a m l 、o w l 、x o l 之间有着密切的联系,是w 3 c 的本体语言栈中的不 同层次,也都是基于x m l 的。而s h o e 是基于h t m l 的,是h t m l 的一个扩展。 和具体系统相关的( 基本只在相关项目中使用的) 有:o n t o l i n g u a i 铆、c y c l 1 州、 l o o m ”】。k i f 1 2 1 已经是美国国家标准,但是它并没有被广泛应用于互联网,作为一 种交换格式更多的应用于企业级。 目前普遍使用的方法列表如下 名称描述特点 一种基于k i f ( k n o w l e d g e为构造和维护o n t o l o g y 提 i n t e r c h a n g ef o r m a t ) 的供了统一的、计算机可读的 提供统一的规范格式来构方式; 建o n t o l o g y 的语言。 由其构造的o n t o l o g y 可以 方便地转换到各种知识表示 o n t o l i n g u a和推理系统( p r o l o g 、c o r b a 的i d l 、c l i p s 、l o o m 、e p i k i t 、 a l g e r n o n 和k i f ) ,从而将 o n t o l o g y 的维护与使用它的 目标系统隔开; 主要用于o n t o l o g y 服务器。 c y c 系统的描述语言,一在一阶谓词演算的基础上扩 种体系庞大而非常灵活的充了等价推理、缺省推理等 知识描述语言。功能; c y c l 具备一些二阶谓词演算的能 力; 其语言环境中配有功能很强 的可进行推理的推理机。 o n t o s a u r u s 的描述语言,提供表达能力强、声明性的 一种基于阶谓词逻辑的规范说明语言; 高级编程语言,属于描述提供强大的演绎推理能力; 逻辑体系。后来发展为 提供多种编程风格和知识库 l o o m p o w r l o o m 语言( 采用前后服务。 链规则( b a c k w a r da n d f o r w a r dc h a i n e r ) 作为推 理机制) 。 表2 2 普遍使用的本体表述语言列表 2 1 3 现有本体及其分类 目前广泛使用的o n t o l o g y 列表如下: 基于本体的语义网技术研究与应用 f o r d n e t 基于心理语言规则的英文词典,以s y n s e t s ( 在特定的上 下文环境中可互换的同义词的集合) 为单位组织信息。 f r a m e n e t 4 英文词典,采用称为f r a m es e m a n t i c s 的描述框架,提供 很强的语义分析能力,目前发展为f r a m e n e t l i 。 g u m ( 1 5 】面向自然语言处理,支持多语种处理,包括基本概念及独 立于各种具体语言的概念组织方式。 $ e n s u s t l 6 】面向自然语言处理,为机器翻译提供概念结构,包括7 万 多个概念。 表23 比较常用的o n t o o g y g u a r i n o 提出以详细程度和领域依赖度两个维度对本体进行划分,见表2 4 维度说明分类级别 描述或刻画建模对象较高的称作引用本体 。详细程度 的程度较低的称作共享本体 顶级本体描述的是最普遍的概念及概念 之间的关系,如空问、时间、事件、行为 等,与具体的应用无关,其他o n t o l o g i e s 均为其特例。 领域依赖 按依赖程度由低到高 领域本体描述的是特定领域中的概念和 程度概念之间的关系。 任务本体描述的是特定任务或行为中的 概念及概念之间的关系。 应用本体描述的是依赖于特定领域和任 务的概念和概念之间的关系。 表2 4 对本体的划分 2 2 本体的研究和应用 本体的研究和应用主要包括以下3 方面: 理论上的研究,主要研究概念及其分类,本体上的代数等: 信息系统中的应用,主要包括处理信息组织、信息检索和异构信息系统互操作 问题; 本体作为一种能在知识层提供知识共享和重用的工具在语义w e b 中的应用。 2 2 1 本体的理论研究 本体的理论研究包括概念、概念分类和本体上的代数。最有代表性的是 g u a r i n 。等人对概念的分类所做的深入和细致的研究,他们从一般的意义上分析了 什么是概念、概念的特性、概念之间的关系以及概念的分类,提出了一套用于指 第二章本体与语义网 导概念分类的可行理论。基于这个理论,他又提出了本体驱动的建模方法,在理 论上为建模提供了一个通用的模式。 g u a r i r e 认为概念之间的差别不仅体现在概念的定义上,同时也体现在概念 的某些特性上。从这些特性出发,归纳出概念的元特性( 最基本的特性) ,从而用 公式给出元特性的严格的形式定义。在此基础上,他们又讨论了元特性之问的关 系和约束,最终把研究结果作为概念分类的基本理论工具并提出一套完成的概念 分类体系结构。 概念分类理论的基础是概念的元特性。以概念的元特性为出发点,按照一定 的规则,把具有相同元特性组合的概念归为一类,进而给出一般意义上的概念分 类体系。概念的基本元特性包括:持久特性、非持久特性、反持久特性、半持久 特性、载体标识特性、支持标识特性、外部依赖特性等。 以下是对各种特性的说明: 名称描述举例 持久特性严格定义为 :p e r s o n 具有持久性,而 s t u d e n t 不具有持久性。 v z o ( 工) o ( 工) 。 o 代表某个概念,o ( z ) 代表x 是中的一个实例,o 表示其后 的断言永远为真。 非持久特性对某个概念而言,存在某些实s t u d e n t 具有非持久性。 例不会永远属于该概念。 反持久特性对概念的任何一个实例,这个y o u t h 具有反持久性。 实例不会永远属于该概念。 半持久特性非持久性和反持久性的差集。 载体标识特性如s t u d e n t 具有载体标识 特性,因为学生之间的区 别不是靠学生,而是作为 人来区分的。 支持标识特性每个实例相互之间是可以区分p e r s o n 具有支持标识特 的。性,人和人之间可由标识 ( 人的指纹) 来区分。 外部依赖特性一个概念对另外一个概念的某p a r e n t 外在依赖于 种依赖关系。概念a 对概念bc h i i d ,某人的父母蕴涵 的外在依赖关系表现为概念a他( 她) 有小孩,而他的 中的任何一个实例a 必蕴涵属小孩当然不是他身体的 于概念b 的实例b ,而b 不是a一部分。 的一部分。 表2 5 本体概念的特性 接十本体的语义网技术研瓮与应用 2 2 2 本体在信息系统中的应用 目前信息检索技术的分类和对他们的描述列举如下 分类特点缺点 全文检索( t e x t把用户的查询请求和全文中的虽然可以保证查全率,但是 r e t r j e v a l ) 每一个词进行比较,不考虑查询查准率大大降低。 请求和文件语义上的匹配。 数据检索( d a t a查询要求和信息系统中的数据性能取决于所使用的字段 r e t r i e v a l ) 都遵循一定的格式,具有一定的标识方法和用户对方法的 结构,允许对特定字段检索。需理解,具有很大的局限性, 要有标识字段的方法。支持语义匹配的能力较差。 知识检索基于知识的、语义上的匹配,在 ( k n o w l e d g e 查准率和查全率上有更好的保 r e t r i e v a l ) 证。是信息检索的重点,特别是 面向w e b 信息的知识检索的重 点。 表2 6 信息检索技术分类 本体具有良好的概念层次结构和对逻辑推理的支持,在知识检索中有广泛应 用。基于本体的信息检索的基本思想有: 在领域专家的帮助下,建立相关领域的本体; 收集信息源中的数据,并参照已建立的本体把收集来的数据按规定格式存储在 元数据库中: 对用户检索界面获取的查询请求,查询转换器按照本体把查询请求转换成规定 的格式,在本体的帮助下从元数据库中匹配出符合条件的数据集合; 检索的结果经过定制处理返回给用户。 关于本体的表达,主要分为两种情况进行处理: 检索系统如不需要太强的推理能力,本体可用概念图的形式表示并存储,数据 可以保存在般的关系数据库中,采用图匹配技术完成检索; 如要求较强的推理能力,一般需要一种描述语言( l o o m 等) 表示本体,数据 保存在知识库中,采用描述语言的逻辑推理能力完成检索。 目前本体用于信息检索的项目列举如下: 项目名称 说明 ( o n t o ) a g e n t为了帮助用户检索所需要的瓣w 上已有的o n t o l o g y ,主 要采用参照o n t o l o g y ,即以w w w 上已有的o n t o l o g y 为对 象建立起来的o n t o l o g y ,保存各类o n t o l o g y 的元数据。 o n t o b r o k e r 1 7 1面向w w w 上的网页资源,目的是帮助用户检索所需的网 页,捩磐网页含有用户关心的内容。 s k c 1 8 】 解决信息系统语义异构的问题,实现异构的自治系统间 第二章奉体与语义网 的互操作。希望通过在o n t o l o g y 上的一个代数系统来实 现o n t o l o g y 之间的互操作,从而实现异构系统之问的互 操作。 表2 7 使用本体的信息检索项目 2 3 本体与语义网 基于给出一种计算机能够理解的表示资源的手段考虑,b e r n e r s l e e 在2 0 0 0 年1 2 月1 8 的x m l 2 0 0 0 的会议上提出了语义w e b 。语义w e b 的目标是使得w e b 上的 信息具有计算机可以理解的语义,满足智能软件代理( a g e n t ) 对w w w 上异构和分 布信息的有效访问和检索。 下面是b e r n e r s l e e 为未来w e b 发展提出的基于语义的体系结构语义w e b 体系结构: 图2 1 语义网体系结构图 目前使用x m l 和r d f ( 资源描述框架) 都能为所表述的资源提供一定的语义。 但是x m l 中的标签( t a g s ) 和r d f 中的属性( p r o p e r t i e s ) 集都没有任何限制。 举一个例子: x m l 可以用“ t o m ”表示t o m 是教师; r d f 片断“ o r al a s s i l a ”描述了w e b 页的创建者问题。 而上面的a u t h o r 和c r e a t o r 完全可以用w r i t e r 来代替。这就产生了二义性, 所以,x m l 和r d f 在处理语义上存在的问题是: 同一概念有多种词汇表示; 同一个词汇有多种概念( 含义) 。 基于本体的语义刚技术研究与应用 本体通过对概念的严格定义和概念之问的关系来确定概念精确含义,表示共同 认可的、可共享的知识,从而解决上面的问题。因此在语义w e b 中,本体具有非 常重要的地位,是解决语义层次上w e b 信息共享和交换的基础。 为了便于w e b 上应用程序使用方便,还需要有一个通用的标准语言来表示本 体,就像x m l 作为标准的数据交换语言一样。目前正在开发中的语言有:o w l 、s h o e 、 o m l 、x o l 、r i b o w e b 、r d f s 和o i l 。其中o w l 语言是w 3 c 提出的标准规范,本文将 在以后的章节中做出进一步的分析。 第三章基于本体的语义建模 第三章基于本体的语义建模 由于互联网本身以极快的速度膨胀,而网上信息所处的平台及所使用语言和 标准并不一致,相对于用户和相关程序而言,快速和有效地获得互联网提供的信息 和服务就变得越来越困难。被称为下一代w e b 的语义网( $ e m a n t i cw e b ) 通过获 得词汇的语义使得w e b 应用不但能够表示信息,而且能够理解信息,还可以在此 基础上依据一定的规则对信息进行推理。 在语义网中,本体( o n t o l o g y ) 具有非常重要的地位,是解决语义层次上w e b 信息共享和重用的基础。基于本体论的信息描述与获取是一种目前较为合理的语 义数据建模方法,该方法是对数据的一种概念化的显式说明,是对客观存在的概 念和关系的描述。由于本体论采用精确的形式语言、句法和明确的语义,使得问 题域中的概念与概念、概念与对象、对象与对象之间的关系更加明确,这就大大 减少了对问题域中概念和逻辑关系可能造成的误解。 基于本体论的语义信息模型可以解决系统间的通信、重用、交互操作和共享, 在本体建模时应当遵循相应的标准、指导原则和可操作性强的方法,同时,要有一 套统一的形式化的语言来对本体进行编码。 3 i 本体建模方法 3 1 i 本体的构造规则 出于对各自问题域和具体工程的考虑,构造本体的过程各不相同,现在还没 有一个标准的本体构造方法,而且主要还是采用手工的方式构建本体。一般来讲, 在构造领域本体模型时需要领域专家的参与,在构造具体的本体时应注意满足以 下的一些基本规则: 明确性和客观性:本体应该对所定义的术语给出明确、客观的语义定义。 完整性:所给出的定义是完整的,完全能表达所描述的术语的含义。 一致性:由术语得出的推论与术语本身的含义是相容的,不会产生矛盾。 最大单调可扩展性:向本体中添加通用或专用的术语时,不需要修改已有的内 容。 最小承诺:对待建模对象给出尽可能少的约束。 建一个知识本体首先需要明确几个问题,包括本体的程度、本体的层次、本 体的用途、采用什么样的开发工具等,还包括构建本体的原则、评价标准、实现 语言等。 明确这些问题后,可以选择一种本体构建的开发环境或者自行开发环境着手 基于奉体的语义网技术研究与戍用 构建本体,对构建环境的选择常常决定了本体表示语言的选择,也就决定了对本 体的语义标注( s e m a n t ica n n o t a t i o n ) 和语义的推理等。 3 1 2 本体的建模元语 p e r e z 等人用分类法组织了本体,归纳出5 个基本的建模元语f 1 9 1 ( m o d e l i n g p r i m i t i v e s ) : 类( c a s s e s ) 或概念( c o n c e p t s ) 指任何事务,如工作描述、功能、行为、策略和推理过程。从语义上讲,它表 示的是对象的集合,其定义一般采用框架结构,包括概念的名称、与其他概念 之间的关系的集合、以及用自然语言对概念的描述。 关系( r e l a t i o n s ) 指领域中概念之间的交互作用,形式上定义为n 维笛卡儿积的子集:r :c c : x c 。如子类关系( s u b c l a s s o f ) 。在语义上关系对应于对象元组的集合。 函数( f u n c t i o n s ) 一类特殊的关系。该关系的前n 一1 个元素可以唯一决定第n 个元素。形式化 的定义为f :c c :x c 。一c 。如m o t h e r o f 就是一个函数,m o t h e r o f ( x ,y ) 表示y 是x 的母亲。 公理( a x i o m s ) 代表永真断言,如概念甲属于概念乙的范围。 实例( i n s t a n c e s ) 代表元素。从语义上讲实例表示的就是对象。 另外,从语义上讲,基本的关系共有4 种: 关系名关系描述 p a r t o f表达概念之间部分与整体的关系。 k i n d o f表达概念之间的继承关系,类似于面向对象中 的父类与子类之间的关系。 i n s t a n c e o f表达概念的实例与概念之间的关系,类似于面 向对象中的对象和类之间的关系。 a t t r i b u t e - o f表达某个概念是另一个概念的属性。如“价格” 是桌子的一个属性。 表3 1 本体的基本关系 在实际建模过程中,概念之间的关系不限于上面列出的4 种基本关系,可以根 据领域的具体情况定义相应的关系。 第三章基于本体的语义建模 3 1 3 本体的建模过程 本体建模的生命周期从总体上来说可分为规约制定、概念化和实现三个阶段。 在规约制定阶段,主要是以文档的形式说明开发本体的目的和领域;在概念化阶段 要确定领域概念以及概念之间的关系;在实现阶段主要使用形式化语言对概念化 阶段产生的领域概念模型进行编码,使计算机能够理解和处理概念模型。 概念化阶段作为本体建模的核心阶段,将对领域概念化分析的结果以适当的 形式明确地记录下来。概念化的分析过程涉及到本体的四个基本性质,即同一陛、 完整性、严格性和依赖性。在具体分析过程中可以从这四个基本性质入手,澄清分 类关系,识别层次结构,生成更为合理的本体。 本文通过借鉴软件工程领域模型的构建方法,提出通过反复迭代的方法逐步 建立和完善本体模型的方法,在遵循本体构造规则的基础上,通过抽象总结出一 套领域本体模型构建方法: ( 1 ) 确定本体的领域与范围 明确构建的本体涉及的专业领域、本体的目的和作用,以及本体的开发,维 护和应用对象,这些因素和领域本体的建立过程有着很大的关系,所以应当在开 发本体前加以明确。 ( 2 ) 建立本体框架 枚举出系统想要陈述的或想要向用户解释的全部概念。对于枚举出的概念按 照一定的逻辑规则进行分类,形成不同的领域,使在同一领域的概念有较强的相 关性。此外,对领域中的每一个概念进行重要性评估,选出关键性概念,摒弃不 必要或者超出领域范围的概念,尽可能准确而精简,从而形成领域本体的框架结 构。 ( 3 ) 细化概念和概念间的关系 由于主要使用类的形式来定义概念,所以概念和概念之间的关系主要体现在 类和类之间的层次关系。 首先要确定哪些属性是用来描述概念的。由于父类的所有子类都继承了其属 性,所以属性应被定义在拥有该属性的最大的类上。除了概念,还要定义概念之 间的关系。在确定类及其层次结构时,应当注意子类与父类是“k i n d - o f ”还是“i s a ”关系;由同一类派生出的各予类应具有相同的泛化程度等: ( 4 ) 对领域本体编码实现 选用合适的本体描述语言对上述建立的领域本体进行编码实现。w 3 c 组织已 经提出了本体描述语言( o w l ) 的规范以支持本体建模。本体模型的形式化可以提 供比自然语言更严格的格式以增强机器的可读性,便于本体模型自动进行逻辑推 理及检验。 摧于本体的语义嘲技术研究与廊用 ( 5 ) 本体的评估 本体的编码实现后,是否满足提出的需求,是否满足构造准则,本体的定义 是否清晰完整,这些都需要我们在本体建立后进行进一步的评估,目前这里要有 领域专家的参与。 本体是对现实世界的模拟,本体工程的开发应该是一个反复迭代的过程,即 特定领域的本体建立后,反复地将其应用到实际系统中或与领域专家交流,出现 问题后及时反馈,使用上面的过程加以改进,直至达到完善。这个迭代的过程贯 穿于本体的整个生命周期。 本体构建完成,除了在本信息系统中进行应用,可在一些提供本体注册的服 务器上进行注册以便于本体的共享与重用,即在类似“本体图书馆”中进行登记, 如斯坦福大学知识系统实验室的o n t o l i n g u a 即提供免费的注册服务。 3 2o w l 本体建模语言 基于本体的语义模型表示的支持对于编码语言的选择,目前较为合理的是w 3 c 组织定义的o w l 语言。o w l 是本体论w e b 语言( o n t o l o g yw e bl a n g u a g e ) 的字母 缩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论