(计算机软件与理论专业论文)基于关系数据库的owl本体建模技术的研究.pdf_第1页
(计算机软件与理论专业论文)基于关系数据库的owl本体建模技术的研究.pdf_第2页
(计算机软件与理论专业论文)基于关系数据库的owl本体建模技术的研究.pdf_第3页
(计算机软件与理论专业论文)基于关系数据库的owl本体建模技术的研究.pdf_第4页
(计算机软件与理论专业论文)基于关系数据库的owl本体建模技术的研究.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(计算机软件与理论专业论文)基于关系数据库的owl本体建模技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

jj1、j ad i s s e r t a t i o ni nc o m p u t e rs o f t w a r ea n d t h e o r y r e s e a r c ho no w l o n t o l o g ym o d e l i n g u s i n gr e l a t i o n a ld a t a b a s e s b yw a n gy u x i s u p e r v i s o r :p r o f e s s o rm az o n g m i n n o r t h e a s t e r nu n i v e r s i t y d e c e m b e r2 0 0 7 r jlr i1 ? d j 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表 或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了 明确的说明并表示谢意。 学位论文作者签名:耽 日期:z 口凹辜旧 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 ( 如作者和导师不同意网上交流,请在下方签名;否则视为同意。) ,- 学位论文作者签名:导师签名: 签字日期:签字日期: j 誓 j j l 东北大学硕士学位论文 摘要 摘要 语义w e b 是新一代互联网标准,实现语义w e b 需要大量的领域本体。把目 前w w w 上数量巨大的数据库中的数据转换成本体形式,是构建语义w e b 本体 的重要途径之一。用手工的方法实现这种转换,既费时又容易出错,而在数据库 与本体之间建立映射关系,实现前者到后者之间的自动转换,对于快速增加语义 w e b 上的本体数量具有重要意义。基于结构化数据的本体学习技术可以从数据库 系统中自动提取本体,在基于关系数据库的本体学习方法中,对关系模式的本体 建模是一项基础工作。现有的方法中存在以下问题:一是对关系模式所包含的语 义表达不充分;二是仅在数据模式与本体之间建立映射关系,没有考虑元组转换 的语义保持问题。 本文提出了两种互补的从关系数据库到o w l 本体的转换方法:语义分析转 换法和直接描述转换法。语义分析转换法从关系数据库中读取出关系模式,应用 逆向工程技术方法将其转换成e e r 模型,再将e e r 模型的语义要素映射成o w l 语义要素。对于关系模式的一些语义要素在o w l 中不能直接表达的,自定义语 义要素与之对应。在完成关系模式的转换的基础上再进行元组的转换。在关联表 元组的迁移过程中,分别处理关联关系和自身属性两种语义。直接描述转换法用 o w l 对关系数据库的层次结构进行描述,形成的本体是对数据库的多层描述。 对抽象关系数据库的描述为第一层,对关系模式和元组的描述分别为二、三层。 这种方法还描述了关系数据库的结构约束,保证了原系统的数据完整性。这两种 方法既研究了关系模式转换又研究了元组的转换。本文最后通过原型系统验证了 两种方法的转换规则的有效性。 关键词:语义w e b ,本体,本体学习,o w l ,关系数据库 | i i 东北大学硕士学位论文摘要 东北大学硕士学位论文摘要 r e s e a r c ho no w l o n t o l o g ym o d e l i n g u s i n gr e l a t i o n a ld a t a b a s e s a b s t r a c t t h es e m a n t i cw e bi san e ws t a n d a r do fi n t e r n e t t or e a l i z et h es e m a n t i cw e b , an u m b e ro fd o m a i no n t o l o g i e sa r en e e d e d i ti sa ni m p o r t a n tw a yo fc o n s t r u c t i n gt h e s e m a n t i cw e bo n t o l o g i e sf o ro n e st ot r a n s l a t eal a r g en u m b e ro ft h ed a t ai nd a t a b a s e s o nt h ew e bi n t ot h ef o r m a to fo n t o l o g y s u c ham a n u a lt r a n s l a t i o ni st i m e - c o n s u m i n g a n dm a n ye r r o r sm a ya r i s e b ym e a n so ft h er u l e so fm a p p i n gb e t w e e nd a t a b a s e sa n d o n t o l o g i e s ,d a t a b a s e sc a nb et r a n s f o r m e di n t ot h eo n t o l o g i e sa u t o m a t i c a l l y i ti sv e r y i m p o r t a n tf o rt h eq u i c ki n c r e a s eo ft h eo n t o l o g i e s i nt h es e m a n t i cw e b t h e t e c h n i q u e so fo n t o l o g yl e a r n i n gb a s e do ns t r u c t u r a ld a t ac a ng e to n t o l o g i e sf r o m d a t a b a s e sa u t o m a t i c a l l y i nt h eo n t o l o g yl e a r n i n gb a s e do nr e l a t i o n a ld a t a b a s e s , o n t o l o g ym o d e l i n go fr e l a t i o n a ls c h e m ai st h ef i r s ts t e p b u tt h ee x i s t i n ga p p r o a c h e s h a v et h ef o l l o w i n gp r o b l e m s :o n ei st h a t t h es e m a n t i c si n r e l a t i o n a ls c h e m ac a n n o tb e e x p r e s s e da d e q u a t e l y ;a n o t h e ro n e i st h a tt h em a p p i n gf r o mr e l a t i o n a ls c h e m at ot h e o n t o l o g i e si s c o n s i d e r e do n l y , a n dt h es e m a n t i c s - p r e s e r v i n gm i g r a t i o no ft u p l e s r e c e i v e sf e wa t t e n t i o n t h i st h e s i sp r o p o s e st w oc o m p l e m e n t a r ya p p r o a c h e st h a tc a nt r a n s l a t er e l a t i o n a l d a t a b a s e st ot h e o n t o l o g i e s ,n a m e l y ,s e m a n t i c s - a n a l y z i n g t r a n s l a t i o na n d d i r e c t l y d e s c r i b i n gt r a n s l a t i o n f o rt h ef o r m e r , t h er e l a t i o n a ls c h e m ai sf e t c h e df i r s t l y f r o mt h er e l a t i o n a ld a t a b a s ea n di sf u r t h e rr e c o v e r e dt oe e rm o d e lu t i l i z i n gt h e 4 t e c h n o l o g yo fr e v e r s ee n g i n e e r i n g t h e nt h es e m a n t i ce l e m e n t si nt h ee e r m o d e la r e m a p p e di n t ot h ee l e m e n t si nt h eo w l f o rt h es e m a n t i ce l e m e n t si nt h er e l a t i o n a l s c h e m at h a tc a n n o tb er e p r e s e n t e dd i r e c t l yb yt h eo w l ,s o m es e m a n t i ce l e m e n t sa r e p a r t i c u l a r l yd e f i n e di nt h eo w l o nt h eb a s i s ,t h et u p l e sa r et r a n s l a t e d ,i nw h i c ht h e s e m a n t i c so fb o t hp a r t i c i p a t i o na n da t t r i b u t e so ft u p l e sa r ec o n s i d e r e d f o rt h e d i r e c t l y d e s c r i b i n gt r a n s l a t i o n ,t h es t r u c t u r eo fr e l a t i o n a ld a t a b a s e si sd e s c r i b e da n d v 东北大学硕士学位论文目录 目录 独创性声明i 摘要i i i a b s t r a c t v 第l 章绪论1 1 1 课题背景及意义1 1 2 基于关系数据库系统的本体学习方法及研究现状4 1 3 本文研究内容和组织结构5 第2 章o w l 相关概念及语法规范7 2 1 语义w e b 概念及相关技术“。7 2 2o w l 的一般概念11 2 3o w l 中表达类、属性及个体的语义要素一1 3 2 4o w l 中的其它语义要素1 6 第3 章语义分析转换法1 9 3 1 提取关系模式的语义1 9 3 2e e r 模型与o w l 之间的语义映射规则2 2 3 3 从关系数据库元组到o w l 个体的数据迁移规则2 9 3 4 小结3 0 第4 章直接描述转换法和本体互操作3 3 4 1 基于本体技术的数据库之间的语义互操作一3 3 4 2 直接描述转换法的转换规则3 4 4 3o w l 本体之间的语义映射模式和语义互操作能力4 0 4 4 小结4 2 第5 章原型系统的设计与实现4 5 5 1 原型系统的总体设计4 5 5 2 语义分析转换法的关系模式转换算法及数据结构4 7 5 3 语义分析转换法的元组迁移算法及数据结构5 0 5 4 直接描述转换法的转换算法和数据结构5 3 5 5 原型系统的图形界面和输出结果5 5 5 6 j 、结6 0 第6 章结论6 3 参考文献6 7 致谢7 1 v i i 东北大学硕士学位论文 目录 v i l l 东北大学硕士学位论文第1 章绪论 1 1 课题背景及意义 第1 章绪论 万维网( w o r l dw i d ew e b ,w w w ) 技术在世界范围内应用和普及以来,人们的 通讯方式和生活方式发生了深刻的变化。人们越来越离不开w w w 了,它已经 成为人们工作生活的一部分。但是随着时间的推移,w w w 上已经积累了巨大数 量的信息,并且还正以惊人的速度增加着。用传统的技术,在如此巨量的信息里, 进行信息查询,其精度之低,是可想而知的。为了能够在w w w 上实现精确查 询,t i mb e m e r s l e e 等人提出的语义w 曲( s e m a n t i cw e b ) 【l 】的技术已经越来越受 到重视,并逐渐在一定范围内开始得到应用。 语义w 曲是在当前w w w 技术的基础上提出来的一个新的概念。正如它的 创始人所说:“语义w e b 是现有w e b 的扩展,信息被赋予定义良好的含义,更 便于计算机和人的协同。一一t i mb e m e r s l e e ,j a m e sh e n d l e r , o r al a s s i l a , t h e s e m a n t i cw e b ,s c i e n t i f i ca m e r i c a n ,2 0 01 年5 月。它是w 3 c 领导下的协作项目, 有大量研究人员和业界伙伴参与。这个概念最具创新性的特点就是要使计算机可 以“阅读”w 曲上的数据,即所谓的“机器可读 。在语义w | e b 上,各领域的信 息以新的数据格式存储,形成诸多领域本体( d o m a i no n t o l o g i e s ) 。新的数据格式 确保了语义w e b 上的信息“机器可读 ,并在语义w e b 提供的通用的框架内, 允许跨越不同应用程序、企业和团体的领域共享和重用这些数据。语义w | e b 技 术将在许多领域发挥重要作用。例如: ( 1 ) 对当前w w w 的积极作用。万维网是有史以来创建的最大的信息仓库, 而且各种语言和各个知识领域的内容还在不断增长。但是,从长远看,让这种内 容有意义是极端困难的。搜索引擎可能会帮助找到包含特定词语的内容,但是内 容可能并不是您确切想要的。那么缺少什么呢? 搜索是基于页面内容的,而不是 基于页面内容或页面信息的语义。一旦实现语义w e b ,它就能够提供为w e b 内 容做标记的能力,可以描述各部分内容是关于什么的,并给内容的项目提供语义。 这样,搜索引擎会变得比现在更有效率,用户也会精确地找到所要寻找的信息。 提供不同的服务的组织可以给这些服务标记上意义;使用基于w e b 的软件代 1 东北大学硕士学位论文第1 章绪论 理,就可以动态地发现这些服务,并利用它们或让它们与其他服务协作。 ( 2 ) 在商业软件开发方面的作用。i t 系统用关系数据模型、扁平文件、面向 对象模型或专用的数据模型来组织信息的语义。变化的业务需求不断地要求向关 系数据模型或面向对象模型中添加新实体和关系。而且,如果组织采用了许多由 不同开发商提供的应用程序,那么可能要在应用程序的数据库之间重复相同的模 型。例如,银行公司提供了不同的产品,以服务不同类型的客户。企业客户可能 需要欺诈检测功能,而普通客户可能只使用在线银行功能。一般会有多个开发商 为银行提供应用程序,但是每个应用程序都会在应用程序特定的数据库中重复同 样的公共信息一一帐号、客户,等等。当组织增加产品以满日益增长的业务需求 时,相同的冗余信息就散落在整个企业中。对于所有这些正在开发的应用程序来 说,绝对有许多服务是公共的一一例如查看银行交易和电汇。每个服务都要用每 种应用程序特定的方式重复,从而导致点对点的集成。如果银行采用了本体驱动 的方式,那么银行就可以用一种语言中立的形式来捕捉并表示它整体的产品知 识,并把知识部署到中央仓库。使用这种共享的、适应性的本体,组织可以跨越 应用程序,提供简单统一的数据视图。这种统一的视图支持信息的精确检索和无 缝的企业集成,同时业务过程和不同的数据源可以通过一个公共的元模型彼此相 互映射。这样,共享的本体就消除了点对点集成,并简化了应用程序的集成,减 少了数据冗余,在应用程序之间提供了相同的语义,从而方便了银行应用程序的 维护与升级。 ( 3 ) 在面向服务架构( s o a ) 中的作用。面向服务架构s o a ( s e r v i c e o r i e n t e d a r c h i t e c t u r e ) 是一种架构模型和一套设计方法学,其目的是最大限度地重用应用 程序中立型的服务以提高i t 适应性和效率。要想正确地建模和管理面向服务的 架构,企业架构师必须维护企业可用服务的活动表示。具体来说,要发现和组织 他们的服务,架构师就必须采用最佳实践,用元数据来建模和组织他们的服务, 把业务逻辑封装在元数据中进行动态绑定,并用元数据进行管理。本体提供了非 常强大和灵活的方式,可以聚合、可视化和规范化这个服务元数据层。本体就是 概念、关系和约束的网络,为数据、信息以及过程提供了上下文。本体增强了服 务发现、建模、汇集、协调和语义互操作性。它们改善了人们浏览、探索复杂的 元数据空间以及和它们交互的方式。业务本体是业务概念和它们之间关系的正式 东北大学硕士学位论文 第1 章绪论 规范,促进了机器的推理和判断。业务本体用元数据把系统捆绑在一起,非常像 数据库把离散的数据片断绑在一起。这一抽象提供了敏捷性和灵活性,因为接口 可以改变,新的资源和订阅者可以容易地加入,即使系统正在运行也可以。语义 是面向服务集成的未来。语义技术提供了超越现有i t 技术的抽象层,它支持跨 越业务和i t 领域之上的数据、内容和过程的沟通与互联。最后,从人类交互的 角度来说,语义技术添加了新一级语义门户,比起目前使用的传统的点对点集成 方式的基于门户的信息发布,提供了更加智能、更加相关、上下文更敏感的交互。 目前,虽然支持语义w e b 的技术已经很成熟,但是由于网络上还缺乏足够 数量、被描述成本体的数据,因而造成语义w e b 还没有完全实现和普及。过去 的六、七年里,围绕实现语义w e b 这个目标,出现了大量的领域本体和支持语 义w e b 的工具。例如,p r o t 6 9 6 【2 j 就是一款本体编辑器,允许用户按自己的要求 生成领域本体。p e l l e t t 3 j 是一个推理工具,可以检测到本体中的错误,并详细汇报 错误产生的原因。g l u e 4 1 系统利用多重机器学( m u l t i p l em a c h i n el e a r n i n g ) 技术,能够发现本体间的映射关系,等等。其中的诸如p r o t 6 9 6 这样的本体构建 工具也日趋成熟。这些工具提供了友好的图形化界面和一致性检查机制。借助这 些工具,用户可以把精力集中在本体内容的组织上,而不必了解本体描述语言的 细节,而且避免了很多错误的发生,方便了本体的构建。但是,这些工具提供的 仅仅是本体编辑功能,支持的仍然是手工构建本体的方式。即使使用这些本体编 辑工具,用户依然需要逐个地输入和编辑每个概念的名字、约束、属性等内容。 现有的大部分系统,都是靠手工输入大量的知识,然后才能基于这些知识进行推 理或获取新的知识。由于手工方法费时、费力,使得本体的构建成为一项艰巨的 任务。因此,如何利用知识获取技术来降低本体构建的开销是一个很有意义的研 究方向。目前,国外在该方向的研究很活跃,把相关的技术称为本体学习 ( o n t o l o g yl e a r n i n g ) 技术,其目标是利用机器学习和统计等技术自动或半自动地 从已有的数据资源中获取期望的本体。由于实现完全自动的知识获取技术还不现 实,所以,整个本体学习过程是在用户指导下进行的一个半自动的过程。 现实世界中的数据种类很多,例如纯文本以及x m l 、h t m l 、d t d 等,大 部分都可以作为本体学习的数据源。针对不同类型的数据源,需要采用不同的本 体学习技术。根据数据源的结构化程度,可以将本体学习技术分为3 大类:基于 东北大学硕士学位论文 第1 章绪论 结构化数据的本体学习技术、基于非结构化数据的本体学习技术和基于半结构化 数据的本体学习技术。将目前网上大量存在的数据库系统中的数据转换成本体就 属性于结构化本体学习。随着数据库在信息管理领域的广泛应用,大量的数据通 常存储在数据库中。l a w r e n c e 和g i l e s 在1 9 9 8 年时估计互联网上有8 0 的内容 存储在h i d d e nw e b 中。所谓的h i d d e nw e b 中的数据就是存储在数据库中,而且 这些数据一般都是面向主题( 领域) 的。因此,如何利用数据库中丰富的数据构建 本体是一个很有意义的研究课题。 1 2 基于关系数据库系统的本体学习方法及研究现状 关系数据库采用的是关系模型,它是对领域信息建模的一种经典模型。这种 模型结构简单,二维关系表格形式容易被理解,关系代数理论强有力地支持了关 系模型,使得关系数据库得以广泛应用。现有的应用大多采用关系数据库来组织 和存储数据。在关系模型中,关系( r e l a t i o n ) 是元组的集合:而关系模式( r e l a t i o n s c h e m a ) 是用来描述关系的结构的,即它由哪些属性构成、这些属性来自哪些域 以及属性和域之间的映像关系。所以说,在关系数据库中,关系模式是型,元组 集( 即关系) 是值。与关系模型相比,本体是一种具有更多语义、结构更为复杂的 模型。所以,这类本体学习的主要任务就是分析关系模型中蕴涵的语义信息,将 其映削到本体中的相应部分。在关系模型中,实体以及实体间的联系都是用表来 表示的。所以,无论是概念的获取还是概念间关系的获取,首先必须区分出哪些 表是用来描述实体的,哪些表是用来描述实体间的联系的,然后才能将实体信息 映射为本体中的概念,将联系信息映射为本体中的关系。 实际上,早在2 0 世纪9 0 年代,研究者们就已经开始关注如何自动分析关系 模型的语义了。当时的研究动机是他们认为关系模型所能描述的语义信息太少, 即它不能用一张表模型表示出复杂对象的语义,从而不适合于对数据类型繁多而 语义复杂的领域信息系统的建模。所以,他们提出了将关系模型重新设计成更复 杂的结构( 例如面向对象模型) 。在此期间,他们给出一系列技术来获取关系模型 的语义结构,并对其重新设计,这些技术被称为关系数据库的逆向工程( r e l a t i o n m d a t a b a s er e v e r s ee n g i n e e r i n g ) 。由于已有的关系数据库的逆向工程技术都没有考 虑到如何将关系模型直接转换成本体,因此s t o j a n o v i c 5 1 等人通过考察数据库中 东北大学硕士学位论文第1 章绪论 的表、属性、主外键和包含依赖关系,给出了一组从关系模型到本体的映射规则。 基于这些规则能够直接得到一个候选本体,然后可以进一步对该候选本体进行评 价和精炼,生成最终的本体。另外还有其它一些在数据库与本体之间建立语义映 射问题方面的研究工作【6 】【7 】,其中有一些工作专门研究关系数据库与本体之间的 映射9 】。为了弥补关系模式语义不足,k a s h y a p 1 0 】提出首先根据关系模式得到 一个初步的本体,然后基于用户查询进一步丰富该本体中的概念和关系。由于用 户查询具有很大的随机性,所以很难保证结果的质量。a s t r o v a 1 1j 还提出通过对 元组的分析,获取关系模式中没有表达的语义。但是数据库系统规模都比较大, 这种对元组的分析的工作量将是巨大的。 在以上这些方法中,对关系模式的本体建模是一项基础工作。但这些方法对 关系模式所包含语义的提取不充分,而且没有考虑元组转换的语义保持问题。 1 3 本文研究内容和组织结构 本文给出两种从关系数据库到o w l 本体的转换方法。一种是语义分析转换 法,一种是直接描述转换法,这两种方法是互补的关系。语义分析转换法用o w l 描述数据库真实语义,转换成相关的领域本体,适合于跨领域的本体间的互操作, 转换方法复杂;直接描述转换法用o w l 直接描述数据库的层次结构,转换成数 据库领域本体,适合于以同样方法生成的数据库领域本体间的互操作,转换方法 简单。 语义分析转换法深入地提取了关系数据库所包含的现实世界的语义。首先把 关系模式还原成概念模型,在这个过程中,关系模式中的关系( 表) 被划分为一 般实体表、关联关系表、子类关系表、依赖关系表。通过这种详细分类,可以完 整地提取关系数据模式所包含的所有语义。接下来把关系模式的语义要素映射到 o w l 语义要素。在映射过程中,大部分关系模式的语义要素都能够直接在o w l 中找到对应语义要素;在o w l 中不能直接找到语义要素的,本文根据o w l 语 法规则自定义了语义要素与之对应,确保不丢失语义。在处理元组数据的迁移过 程中,对于一些隐含的语义关系,如一些关联表所表达的语义,采取两遍数据迁 移的方法,使这种语义在o w l 本体中有明确的表达。所有这些过程,确保能够 把所有的关系数据库所包含的语义尽量多地转换过来。本方法对关系数据库进行 东北大学硕士学位论文第1 章绪论 了假设,假设作为数据源的关系数据模式是符合3 n f 。这不是苛刻的条件,因为 大部分关系数据库在设计时都要求其规范化程度在3 n f 以上,否则就不是一个 很好的数据库系统。 直接描述转换法是用o w l 对关系数据库系统的结构分层次地进行描述,生 成的本体是对关系数据库的多层次的描述。第一层是对抽象的关系数据库所涉及 的概念及属性的描述。第二层是对具体的某个关系数据库的关系模式的描述,其 中包括具体数据库的名称,数据库中包含所有关系( 表) 的描述。第三层是对数 据库中包括的每个关系( 表) 的所有元组的描述。为了确保转换后系统数据的完 整性,这种方法还描述了数据库系统的结构约束。 除此之外,本文还介绍了针对两种方法开发的原型系统。另外还介绍了通过 建立语义映射,实现本体间语义互操作的概念,以及在建立语义映射过程中,解 决语义冲突的两种模式,直接转换模式和传递转换模式。 本文内容是这样按排的: 第1 章介绍了本文的研究背景,研究分析了基于关系数据库的本体学习的几 种方法; 第2 章介绍语义w e b 的概念和技术,以及o w l 的概念和语法规范; 第3 章介绍通过分析和描述关系数据库中的数据所包含的语义的方式,将关 系数据库转换成o w l 本体的方法,即语义分析转换法; 第4 章介绍通过直接描述关系数据库层次结构的方式,将关系数据库转换成 o w l 本体的方法,即直接描述法,同时介绍通过建立语义映射实现本体间语义 互操作的概念,以及两种解决语义冲突的方法; 第5 章介绍针对本文提出的两种转换方法开发的原型系统; 第6 章是对本文的总结和对未来工作的展望。 东北大学硕士学位论文第2 章o w l 相关概念及语法规范 第2 章o w l 相关概念及语法规范 语义w e b 就是建立一个以本体为基础的具有语义特征的网络,使计算机能 够“阅读 并“理解”数据的语义。本体语言对于语义w e b 具有至关重要的作 用。o w l 是w 3 c 推荐的目前表达能力非常强的一种本体的语言。本章主要介 绍o w l 相关的一些概念及其抽象语法规范。 2 1 语义w e b 概念及相关技术 语义w e b 是在当前w w w 技术的基础上提出的一个新概念。它的基本构想 是,首先在要表达的信息里加上该信息的属性即元语,使机器可以“阅读 这些 信息;然后规定元语的语义,使语义w e b 上的信息有共同的语义基础;再在应 用程序中使用形式逻辑技术实现自动推理。本节主要介绍语义w e b 的一些相关 技术和概念,包括元语、本体、形式逻辑、代理机等。最后,因为语义w e b 所 采用的技术大多来自人工智能领域,本节还介绍了语义w e b 与人工智能的关系。 ( 1 ) 元语( m e t a d a t a ) 当前w e b 上的绝大多数信息是以超文本的格式存储的。用以编写超文本格 式网页的语言h t m l 是一种预控制的语言。由于h t m l 中标记符号是用来规定 信息的显示格式的,所以当前w e b 上这些以超文本格式存储的信息适合于人浏 览,但不适合机器“阅读”。对于这种超文本格式的网页,在进行基于关键词 ( k e y w o r d b a s e d ) 的搜索时,机器能够识别的信息非常有限,因而查询结果的精 度非常低。l k o n ,在网上输入关键字,通过搜索引擎进行查询时,结果会返回成 千上万条结果,用户还需要进行大量的辨别工作。 语义w e b 最基础的一项技术变革就是对于要表达的信息进行分解细化,使 网页本身就携带上机器可以“阅读 的信息。x m l 是一种比较简单的编写携带 机器可“阅读 信息网页的语言。与h t m l 一样,x m l 也是一种标记语言。但 与h t m l 不同的是,在x m l 中标记符号不是用来说明显示格式,而是用来说明 信息的属性,也就是数据的性质,即所谓的元数据。语义w e b 上的信,i , d h 上元 语,是实现机器可“阅读”最基本的一项工作。目前一些大的组织已经开始在自 东北大学硕士学位论文 第2 章o w l 相关概念及语法规范 己的知识管理系统、b 2 b 电子商务系统中采用x m l 语言。这虽然只是实现语义 w e b 的第一步,但非常重要。语义w e b 的真正实现取决于其技术的广泛应用。 ( 2 ) 本体( o n t o l o g y ) 在给网页信息加上元语的基础上,语义w e b 要解决的第二个技术问题就是 如何规定这些元语的语义。例如在x m l 文档中,用标记“ ”标识的一段 信息,可以解释为“医生”,也可以理解为“博士”。x m l 这种语言无法区别元 语所要表达的语义。在语义w e b 中,规定元语语义的工作是由本体实现的。 “本体”一词来源于哲学领域,其本意是指构成现实物质世界和人类精神世界 的根源和本质。在语义w e b 中,用本体描述领域内的资源,包括其中的所有概 念或对象,以及这些概念和对象之间的关系。语义w e b 中“本体 的正规定义 是:“共享概念模型的形式化规范说明”【l2 1 。在哲学领域本体是一个抽象名词,但 在语义w e b 中它是一个可数名词,可以说“一个本体”、“多个本体”。 一个本体既要描述领域内的概念,又要描述这些概念之间的关系。其中描述 概念比较简单,描述概念之间的关系比较复杂。本体能够描述的概念之间的关系 包括以下几种类型( 以一个学校本体为例) : 层次( h i e r a r c h y ) 关系:两个概念存在子类关系。比如“教工是员工的子 类”,或“员工包括教工”。 属性( p r o p e t i e s ) :两个概念通过属性连接在一起。比如教工教课。“教” 是一个属性,连接着两个概念“教工”和“课程”。 取值限制( u er e s t r i c t i o n s ) 。比如只有教工才能教课( 职工不能教课) 。 声明不相交( d i s j o i n m e s ss t a t e m e n t s ) 。比如教工和职工是不相交的。 概念间逻辑关系限制。比如每个系必须有1 0 名以上教工。 从总体上看,本体的结构可以归纳为一个五元组o := c ,rh e ,r e l ,a o 引。 c 和r 是两个不相交的集合,其中c 中的元素称为概念( c o n c e p t ) ;r 中的元素称为 关系( r e l a t i o n ) ;h 。表示概念层次,即概念间的分类关系( t a x o n o m yr e l a t i o n ) ;r e l 表 示概念间的非分类关系( n o n t a x o n o m yr e l a t i o n ) ;a o 表示本体公理( a x i o m ) 。 在语义w e b 上,不同领域本体之间不是相互孤立的,它们可以通过映射 ( m a p p i n g ) 实现互操作,即本体具有语义互操作的能力。两个组织间的本体的词 汇表示法( t e r m i n o l o g y ) ,可能会有所不同。比如,相同的语义用不同的术语表达, 东北大学硕士学位论文第2 章o w l 相关概念及语法规范 或者相同的术语表达不同的语义。这两个本体进行互操作时,可以采取词汇映射 的方法来解决这些问题。可以把这两个本体都映射到第三个本体上,也可以在这 两个本体之间直接建立映射。 ( 3 ) 形式逻辑( l o g i c ) 形式逻辑是语义w 曲用到的另一项重要的技术。形式逻辑是研究概念推理 机制的基本工具,包括规范的语言、通用的语义和推理过程三部分内容。其中规 范语言( f o r m a ll a n g u a g e s ) 是用来描述所要表达的知识;通用的规范化的语义 ( w e l l u n d e r s t a n df o r m a ls e m a n t i c s ) 为推理过程提供通用的语义基础;推理过程是 通过自动推理机从已知的知识中推出结论,使含混的知识清晰化。谓词逻辑 ( p r e d i c a t el o g i c ) 的知识表示和推理过程一般是下面这种形式: 条件:教授( x ) 教- c ( x ) ,教工( x ) 专员- c ( x ) ,教授( 张三) 结论:教工( 张三) ,员工( 张三) ,教授( x ) 员i ( x ) 语义w e b 中的本体描述概念之间关系的信息也是以类似这种形式逻辑的形 式存在的。通过逻辑推理,可以发现本体中没有明确给出的知识,也可以找出概 念之间不是很明确的关系,还可以找出上下文定义中相互矛盾的地方。在语义 w e b 中,除了可用于本体层以外,形式逻辑还被应用于智能代理机中。由于形式 逻辑可以提供解释( e x p l a n a t i o n s ) ,用户可以通过验证这些解释信息,更加确信语 义w e b 代理机所得出的结论,为正确决策或选择行动提供根据。 一般来讲,形式逻辑能够应用于所有机器“可识别”的数据。在x m l 水平, 由于没有语义的支持,形式逻辑仅可以得到初步使用。在r d f 、d a m l + o i l 或 o w l 水平,形式逻辑能够得到更进一步的使用。 ( 4 ) 代理机( a g e n t s ) 代理机是语义w r e b 上的应用程序。下面仅以实现网上查询功能为例,说明 未来语义w e b 上的代理机的工作特点。图1 1 示意了现在基于关键字查询,和未 来代理机查询两种工作模式。在现代的基于关键字的查询工作模式中,用户输入 关键字,搜索引擎查询w w w 文档,在w e b 浏览器上显示结果。在未来的代理 机工作模式中,代理机从用户处接受任务和参考信息,到网上搜寻资源,与其他 代理机通信,与用户的需求和参考进行比较,优选结果,给出最佳答案。 语义w e b 代理机采用的技术及其作用: 东北大学硕士学位论文第2 章o w l 相关概念及语法规范 元语:从网上资源中识别和提取信息。 本体:帮助网络搜索,解释获取的信息,同其它代理机通信。 形式逻辑:处理获取的信息,推导出结论。 未来语义w e b 代理机虽然可以实现精确查询,但不能完全替代人,也不一 定做出决策,在大多数情况下,它的任务是收集和组织信息,为用户提供选择。 现在 个人代理机 i 智能辅助服务 区亟口 一将来一 图1 1 智能个人代理机对比图 f i g u r e1 1 p e r s o n a li n t e l l i g e n ta g e n t s ( 5 ) 人工智能( a i ) 语义w e b 概念的大部分技术来自于人工智能领域的研究成果。人工智能概 念的提出已经有很久历史了,当时人们提出,可以在十到二十年的时间,开发出 能够达到人类思考推理水平的智能代理机。但是由于涉及到了深层次的科学问题 ( 类似于解释物质和生物世界这种最根本的问题) ,人工智能在商业上直到现在 还没有取得成功。因此有人怀疑语义w e b 是否能够成功实现。但是,语义w e b 的目标是为了更好地帮助人们实现日常的在线活动,而不是像人工智能那样,要 建立一个能够达到人类智力水平的代理机。目前在人工智能领域已经研究成功的 技术,就足够满足实现语义w e b 之用了,并且随着人工智能领域技术研究的新 突破,语义w e b 还会得到进一步的改善。语义w e b 的实现关键在于是否能够被 广泛应用。 东北大学硕士学位论文笫2 章o w l 相关概念及语法规范 2 2o w l 的一般概念 o v v 是一种标记性语言,具有强大的语义表达能力。按照表达能力的不同, o w l 分为三个子集,它们具有各自的特点。o w l 描述的本体具有规范的文档结 构。 ( 1 ) o w l 基本概念 o w l ( w r e bo n t o l o g yl a n g u a g e ) 【1 4 】是定义和编写( i n s 僦i a t i n g ) 语义w - e b 本 体的一种标记性语言。作为一种描述语言,o w l 符合r d f x m l 1 5 1 语法规范。 它是w 3 cw e bo n t o l o g yw o r k i n gg r o u p ( w e b o n t ) 组织推荐的标准。用o w l 对一 个领域进行描述的本体包括以下内容: 定义领域内所有的概念( 类) ,以及这些概念之间的属性( 或关系) ; 定义属于上述概念的个体( i n d i v i d u a l s ) ,并对这些个体的属性进行赋值; 对类及个体之间的关系进行一定程度的推理。 本体设计人员和面向对象( o b j e c t o r i e n t e d ) 程序开发人员都要考虑和设计类 和它们之间的关系,二者不同之处在于:面向对象程序开发人员更关注类的操作 ( o p e r a t i o n a l ) 属性,而本体设计人员更关注类的结构( s t r u c t u r a l ) 属性。 ( 2 ) o w l 种类及特点 根据语义的表达能力不同,o w l 分为三类:o w ll i t e ,o w ld l 和o w lf u l l 。 它们各自的特点是: o w lf u l l 包括所有o w l 的结构,可以自由无限地使用r d f 的结构。 o w l :t h i n g 与r d f s :r e s o u r c e 相同,o w l :c l a s s 与r d f s :c l a s s 相同, o w l :o b j e c t p r o p e r t y 与r d f :p r o p e t y 相同。 o w l d l 是o w l 的子语言。在o w l d l 中,以下这些概念之间要求有 严格的区分:类、数据类型、数据类型属性、对象属性、注释属性、本 体属性、个体、数据值、内置词汇。下面这四个属性不能描述数据类型 属性:i n v e r s eo f , i n v e r s ef u n c t i o n a l ,s y m m e t r i c ,t r a n s i t i v e 。在传递属性 ( t r a n s i t i v e ) 及其反向或子属性中不能有局部或全局的基数约束 ( c a r d i n a l i t yc o n s t r a i n t s ) 。只能特定环境中可以使用注释( a n n o t a t i o n s ) 。 大部分r d f ( s ) 词汇不能在o w ld l 中使用。只能对有名字的个体,才 能用公理( 事实) 声明它们相等或不相等。 1 1 东北大学硕士学位论文笫2 章0 w l 相关概念及语法规范 o w ll i t e 继承所有o w ld l 的限制。o w ll i t e 还禁止使用下面的语义 元素:o w l :o n e o f ,o w l :u n i o n o f ,o w l :c o m p l e m e n t o f ,o w l :h a s v a l u e , o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论