(计算机软件与理论专业论文)基于本体的web站点建模.pdf_第1页
(计算机软件与理论专业论文)基于本体的web站点建模.pdf_第2页
(计算机软件与理论专业论文)基于本体的web站点建模.pdf_第3页
(计算机软件与理论专业论文)基于本体的web站点建模.pdf_第4页
(计算机软件与理论专业论文)基于本体的web站点建模.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机软件与理论专业论文)基于本体的web站点建模.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于本体的w e b 站点建模 【摘要】 近年来,w e b 站点的设计和维护是软件产业中的一个研究热点,随着w e b 站点复杂性的日益增加,w e b 站点的开发迫切需要良好的方法和过程指导,于是 软件工程领域提出w e b 工程的概念,开始研究如何在w e b 站点的开发中应用软 件工程的技术,实现w e b 站点的工程化开发,其中最核心的研究内容之一就是 w e b 站点建模。 另一方面,语义w e b ( s e m a n t i cw e b ) 和本体( o n t o l o g y ) 的提出,要求 w e b 站点上的数据应该是计算机能读懂的( m a c h i n eu n d e r s t a n d a b l e ) ,核心思想 就是把w e b 站点上数据隐含的语义显式地、形式化地表达出来,使这些数据能 够被计算机理解和自动处理。 本文借鉴w e b 工程领域的研究成果,并顺应w e b 向语义w e b 发展的趋势, 提出了一个基于本体的w e b 站点模型( o n t o l o g y b a s e dw e bs i t em o d e l ,简称 o n t o w s m ) 。o n t o w s m 是一个四层的w e b 站点模型,在抽象的层次上描述了一 个w e b 站点各个方面的特征:( 1 ) 语义模型,描述w e b 站点上数据所蕴含的概 念或语义;( 2 ) 结构模型,描述w e b 站点上数据本身的结构;( 3 ) 导航模型, 描述w e b 站点的导航特征,即w e b 站点上的数据之间是怎样链接的;( 4 ) 表现 模型,描述w e b 站点上的数据的表现形式。 o m o w s m 不仅使w e b 站点的工程化开发成为可能,而且利用o n t o w s m 开 发出的w e b 站点可读性强,易于维护,并且是符合语义w e b 标准的语义w e b 站 七 【关键字】 w e b 工程:w e b 站点建模;语义w e b :本体 a b s t r a c t a b s t r a c t o n t o l o g y b a s e dw e bs i t em o d e l i n g r e c e n t l y , d e s i g n i n ga n dm a i n t a i n i n gw e b s i t e sp o s t sc h a l l e n g e sf o rt h es o f t w a r e i n d u s t r y w i t ht h ec o m p l e x i t y o fw e bs i t e si n c r e a s e ds i g n i f i c a n t l y , g o o dm e t h o d sa n d p r o c e s s e s a r er e q u i r e dt og u i d et h ed e v e l o p m e n to fw e bs i t e s a sar e s u l t ,w e b e n g i n e e r i n gw a se s t a b l i s h e da san e wd i s c i p l i n et oh a n d l et h ei s s u e si nt h ew e b s i t e d e v e l o p m e n t ,a n d w e bs i t em o d e l i n gb e c o m e sav e r yi m p o r t a n to n e m e a n w h i l e ,s e m a n t i cw e ba n do n t o l o g yr e q u i r et h ed a t ao nt h ew e bt o b e m a c h i n eu n d e r s t a n d a b l e ,w h i c hm e a n st h a tt h ei m p l i c i ts e m a n t i c so fd a t as h o u l db e e x p l i c i t l ya n df o r m a l l ye x p r e s s e d o nt h ew e bs ot h a td a t ac a nb es h a r e da n d p r o c e s s e d a u t o m a t i c a l l yb yc o m p u t e r s t a k i n gb o t hw e be n g i n e e r i n ga n ds e m a n t i cw e b i n t oa c c o u n t ,i nt h i sp a p e rw e p r o p o s ea l lo n t o l o g yb a s e dw e b s i t em o d e l ,o n t o w s mw h i c he n a b l e sam u l t i l a y e r e d h i i g h - l e v e ld e s c r i p t i o n o faw e bs i t ec o n s t r u c t i o n f r o mt o p t o d o w n w a r d ,t h e s e m a n t i cl a y e re l a b o r a t e st h es e m a n t i c so ft h ed o m a i no fd i s c o u r s e ,t h es t r u c t u r a l l a y e rc h a r a c t e r i z e st h es t r u c t u r eo fi t s d a t ac o n t e n t ,t h en a v i g a t i o nl a y e rd e s c r i b e s l i n k a g e s ,t h ep r e s e n t a t i o nl a y e rd e p i c t st h er e n d e r i n g f o ri t sc o n t e n t t h eo n t o w s mn o t o n l ym a k e s i tp o s s i b l et oa p p l ye n g i n e e r i n gm e t h o d o l o g i e si n w e bs i t e d e v e l o p m e n tb u t a l s o i m p r o v e st h er e a d a b i l i t ya n dm a i n t a i n a b i l i t y o fa r e s u l t i n gw e bs i t e m o r e o v e r ,t h ew e b s i t e sg e n e r a t e df r o mo n t o w s ma r es e m a n t i c w e bs i t e so ns e m a n t i cw e b k e y w o r d s w e b e n g i n e e r i n g ,w e bs i t em o d e l i n g ,s e m a n t i cw e b ,o n t o l o g y 2 1 绪论 1 绪论 1 1 研究背景 迄今为止,w e b ( w o r l dw i d ew e b ) 的飞速发展令人目不暇接。w e b 已经取 代了许多传统的交流模式,成为了众多行业竞相选用的信息发布媒介和分布式应 用集成平台。w e b 的迅捷实时性促使传统应用逐步跨向现今的基于w e b 的应用。 w e b 应用是当前基于w e b 信息系统的主要表现形式,其特征是通过w e b 浏 览器或h t t p 用户代理访问实现服务。它一般由瘦客户端( w e b 浏览器) ,表达 层( w 曲服务器) ,应用层( 应用服务器) 以及数据服务层( 数据库) 组成。它 所承担的任务不仅是简单的基于w e b 的数据发布,也包括了信息系统的构建和 复杂的应用逻辑。 w e b 站点和w e b 应用是同一事物通过不同视角的观察的结果。w e b 应用是 w e b 站点从外在功能角度的概括,w e b 站点是w e b 应用的实际存在形式和实现 技术。w e b 站点分为静态w e b 站点和动态w e b 站点。静态w e b 站点的全部页面 内容都来自事先生成的文件。动态w e b 站点的一部分页面内容通过服务器端的 即时计算得到,即所谓的动态页面( d y n a m i cw e bp a g e ) 。本文的研究对象主要 是以数据为中心的动态w e b 站点,即w e b 站点的功能主要是管理和动态发布和 某一领域相关的数据,并向用户提供数据内容的查询功能。 随着w e b 站点内容的不断增加,其规模也在不断庞大。大规模w e b 站点的 开发中出现了很多需要解决的问题, 大规模w e b 站点的开发需要规范的开发方法支持,简单的w e b 页面编 辑工具,如微软的f r o n t p a g e 已经不能满足大型w e b 站点的开发需要, 而且,依赖于个人能力的开发方法经常导致w e b 站点开发的失败,w e b 站点的维护十分困难。 w e b 站点上的数据内容通常是非结构化的数据,而且这些数据通常和面 向表现的h t m l 标记混杂在一起。对数据内容的管理和维护非常困难, 而且,w e b 站点的外观一旦要改变,就会涉及w e b 站点的数据内容, 常常是“牵一发而动全身”。 由于w e b 站点的最终表现是页面,内容表达粒度过于精细,导致了由 w e b 站点的设计转换为w e b 站点的实现容易,而从w e b 站点的实现却 很难看出w e b 站点的设计思想。 目前,w e b 站点上数据内容的语义通常是隐含的,例如: j o eb l a c k ,通过人为的理解,我们可以知道j o eb l a c k 1 绪论 是一名学生,但是,对于计算机来说, 标记并没有任何的意义, 也就是说s t u d e n t 的含义是隐含的,需要人为的解释,计算机不能自动识 别。 针对上述的前三个的问题,w e b 工程( w e be n g i n e e r i n g ) 的概念应运而生。 w e b 工程方法借用传统软件工程领域思路,采用结构化或面向对象技术,以模型 驱动的开发方法开发w 曲站点,相关的研究和系统有o o h d m ,a r a n e u s 和 w e b c o m p o s t i o n 等方法。它们均根据w e b 站点的开发特点,提出自己了的一套 模型,指导w 曲站点的开发,实现w e b 站点构建过程的工程化,使w e b 站点更 加易于维护,本文将在下一章分析这些方法的优缺点。 上面提到的最后一个问题与语义w e b ( s e m a n t i cw e b ) 和本体( o n t o l o g y ) 有关,o n t o w e b b e r 方法正是结合w e b 工程和本体解决上述问题的一个解决方案, 本文将在下一章作具体分析。 1 2 本文的主要贡献 上海( 国际) 数据库研究中心在国家自然科学基金和国家8 6 3 的资助下,承 担了“电子图书馆的相关关键技术研究”( 6 9 9 3 3 0 1 0 ) 和“基于w e b 服务的数据 库新技术”等重点项目,其中包括了对大规模w e b 站点的开发维护过程的研究 内容。针对于大型w e b 站点开发中所遇到的难点,本文提出了基于本体的w e b 站点模型,采用清晰的四层模型描述w e b 站点的各个方面,支持w e b 站点从设 计到实现的全过程。本文的贡献如下: 以本体作为整个w e b 站点模型的基础,通过本体把w e b 站点上数据内 容的语义显式地、形式化地表达出来,不仅有利于w e b 站点的集成,而 且使w e b 站点具有语义w e b 的特征。 利用实体一联系模型建模w e b 站点上的数据内容,使数据更加容易管理 和维护,并且通过把实体联系模型和本体联系起来,使实体和联系隐含 的语义显式地、明确地表达出来,为智能化的数据搜索提供了基础。 在抽象的层次上描述整个w e b 站点,利用相对独立的四层模型把w e b 站点的不同方面清晰的分离开来,使w e b 站点易于设计和维护。 采用基于动态x m l 技术的w e b 站点实现方式,利用x m l 文档存放 w e b 站点的内容,x s l t 文档负责数据内容的显示,不仅分离了数据内 容和数据显示形式,而且能适用于多种客户端。 能生成面向语义的x m l 文档,x m l 文档中出现的词汇的语义都在本体 中有明确定义,具有语义w e b 的特征,为将来语义w e b 上的高级应用 提供了基础。 4 绪论 实现了o n t o w s m 编译器,能够把基于本体的四层站点模型转换成基于 x m l 的w e b 站点实现。 1 3 全文结构 本文共5 章,章节安排如下: 第一章:介绍了w e b 站点建模的研究背景和本文的主要工作。 第二章:介绍了和w e b 站点建模相关的研究领域:w e b 工程和语义w e b , 并分析和比较了目前存在的几种w e b 站点模型,总结w e b 站点建模的研究现状。 第三章:全面介绍本文提出的基于本体的w e b 站点模型,并通过一个建模 实例说明本文提出的建模方法,本章的内容和附录4 中本人发表的第二篇和第三 篇文章的内容相似。 第四章:介绍w e b 站点模型编译器的实现原理和核心技术。 第五章:总结本文的工作,并提出迸一步的发展方向。 2 相关研究工作 2 相关研究工作 w e b 站点建模的研究属于w e b 工程领域,同时语义w e b 和本体的提出给 w 曲站点建模的研究注入了新的研究内容,本章首先介绍w e b 工程、语义w e b 和本体的概念,然后分析现有w e b 站点模型的优缺点,提出基于本体的w e b 站 点模型。 2 1w e b 工程 w e b 工程 1 【2 的概念源于“w e b 应用开发中的软件工程”。它提出于上世 纪9 0 年代末期,是近年来兴起的个新的研究领域,其初衷类似于与6 0 年代 软件工程的提出动机。w e b 工程主要使用工程的手段解决由于w w w 的规模的 膨胀以及w e b 应用( w e b a p p l i c a t i o n ) 的复杂度迅速上升所产生各种问题,研 究内容包括基于w e b 信息系统的开发方法、模型、工具等。w e b 工程目前已经 成为一个多领域交叉的研究方向,它涉及人机交互、信息检索、计算机图形学、 信息工程、建模以及项目管理学等多方面课题【4 】。近年来w e b 工程的概念已经 逐渐被广泛接受并关注,它的研究为如何更有效的实现基于w e b 的计算提供了 方法学及工程化的手段。 2 1 1w e b 危机与w e b 工程的历史 w e b 危机( w e bc r i s i s ) 3 】指的是近年来在中大规模的w e b 应用( 尤其是 各类大规模的基于w e b 的信息系统) 开发中已经出现了大量从根本上影响了 w e b 应用开发质量和效率的问题。与6 0 年代软件危机时所凸现的各种症状类 似,由于目前开发方法发展的滞后无法适应有关w e b 的应用开发的规模的不断 增大以及各项技术的日益复杂,大量网站项目开发过程中产生诸多具有共性的问 题,其中包括: 项目管理者无法准确估算; 网站丌发周期与成本单个页厩长度以及页面总数膨胀; 页面可读性差、可维护程度低; 难以满足日趋复杂的需求,客户对产品不满意现象经常发生; 开发人员有效工作时间比例低:项目进度与质量失去控制; 出现大量失败或半部分失败的项目等。 w e b 危机产生的根源也与软件危机类似【2 】。通过回顾软件危机的产生可以 看到,在计算机系统发展的初期,程序常常是为特定目的编制的,大多数程序是 由使用该程序的个人和机构编制,其产品缺乏通用型,开发过程带有强烈的个人 色彩,而且除源码之外往往没有任何说明性的文档,所有的资料仅仅存在于程序 6 2 相关研究t 作 开发人员的大脑中。从6 0 年代中期开始,软件开始作为一种产品被广泛应用, 出现了专业从事软件生产的技术人员及作坊式的小型组织。但在这一阶段,早期 的个体化软件开发方式仍然被沿用。程序员仍然停留在编写程序的层次而不是上 升到编写软件的高度。开发规模和开发方式之间的巨大差距导致了软件危机。 同样的情况也发生在与w e b 相关的开发中,即所谓的w e b 危机。以h t m l 标记语言与h n l p 传输协议为核心的w e b 技术是9 0 年代早期出现的一种嚼络 信息技术。出现之初,w e b 的主要用途是实现超文本的表示和远距传输,主要 被一些个人或科研机构用于发布信息或公布文档。在早期阶段,大多数w e b 上 的文档均由文档所有者或者文档发布人自己制作,文档总数较少而且样式相对简 单。这一时期w e b 上的信息系统的特点是【1 : 以文本内容的存储和发布为主; 已存在的文档很少更动内容; 文档群内部的导航结构简单; 对性能要求不高等。 从9 0 年代中期开始,w e b 信息系统的规模开始趋于大型化,在这一时期, 一系列的大型商业门户站点开始出现,它们主要从事复杂内容的提供以及一些简 单服务的提供。另外,一些大型的企业也开始进入w e b 设立自己的站点提供有 关企业的各项信息,亦即通常所称的企业黄页。从这一时期开始,基于w e b 的 信息系统由面向内容发布逐渐转为面向功能服务,其主要特点是: 页面复杂、和数据库及其他信息系统集成; 内容变更频繁; 对性能要求高; 对开发团队的人员构成及素质要求高等。 因此,一些专业团队和机构开始出现,为客户提供网站建设以及页面制作的 服务,但其开发方式仍然沿袭了早期的个人化的页面开发方式,开发者只是专注 于制作大量的网页而没有注意到如何从w e b 信息系统的整体角度进行开发。这 些开发者在开发过程中对需求缺乏明确的分析,没有详细确切雨且可以实用的设 计文档,没有实施项目管理和风险控制,项目的成败完全依赖于开发者的经验。 同时,由于缺乏文档和有效的测试,开发完成的网站难以维护和更新,可扩展性 差。 w e b 危机还源于超文本标记语言本身的缺陷。正如软件危机源于结构化语 言出现以前的高级语言本身的不足,超文本标记语言的不规范化以及不受约束的 超链接使得w e b 上的应用系统缺乏较好的可靠性、可维护性和可读性。而一些 技术的出现,如通用网关接口( c g i ) 以及服务器端脚本( s e r v e r s i d es c r i p t ) 等, 2 相关w f 究工作 以及在此基础上的新应用的开发更加剧了w e b 危机的严重程度。2 0 0 0 年1 1 月 的一份调查【l 】显示,在大型的基于w e b 的项目中, 8 4 的系统在交付客户时不能完全达到客户的需求, 7 9 的项目被迫延期, 6 3 的项目预算超支。 因此,如何在复杂w e b 开发中确保性能、质量和效率正在收到越来越多的 关注。从9 0 年代后期开始,相关研究开始增多。1 9 9 8 年,w e be n g i n e e r i n g 的 概念被提出【4 4 ,此后相关研究便逐渐归于该课题的研究领域。从1 9 9 8 年至今, 在关于网络、多媒体以及软件工程的一系列重要国际学术会议上,w e b 工程都 已经被单列为个重要讨论主题 5 】,大批学术论文以及一些演示系统也不断涌 现。 2 1 2w e b 工程的含义和研究内容 “工程就是系统性地利用科学知识以成效( c o s t e f f e c t i v e ) 的方案解决实际 问题”f 4 1 。w e b 工程的主要思想就是在基于w 曲的信息系统的开发中实现工程 化,其研究的内容包括w e b 应用的建模、开发过程以及辅助开发工具等。 w e b 工程的主要研究对象是基于动态网页的w e b 应用,尤其是复杂的w e b 应用。类似于软件工程,w e b 工程其主要研究内容是w e b 应用的整个生命周期 内的系统化方法以及非技术层面的问题,包括系统分析、网站设计、项目计划、 网站开发、系统测试、文档管理、质量控制、风险控制以及系统维护等;其主要 研究目标是确保和提高w e b 应用开发的质量、性能和效率。 从广义上说,w e b 应用也是一种软件产品。因此软件工程的方法和原则对 w e b 应用的开发仍然具有实际意义。同时,w e b 工程的提出与软件工程的产生 有非常相似的背景,因此软件工程的研究方法、思路和指导思想在w e b 应用开 发中可以被充分借鉴【2 】。但是,w e b 工程并不仅仅是软件工程在w 曲引用开发 中的一项具体应用。w e b 应用不同于传统意义上软件系统的一些特点【3 】使得 w e b 工程含有一些传统软件工程未曾涉及的研究内容和课题,传统的软件工程 的方法和原则在w e b 开发中的应用需要经过调整以适应其特点。w e b 应用不同 于传统软件的特点如下: w e b 站点的实现基于w e b 页面; 以w e b 站点发布的数据内容为驱动; w e b 页面之间的导航和链接; w e b 站点上的数据和表现形式都会频繁的更新; 动态w e b 站点的开发技术和b s 的体系结构; 基于超文本文档的一类特殊的用户界面; 2 相关研究工作 因此,传统的软件工程和开发方法不能完全适合于、b 应用的开发,针对 w e b 站点不同于传统软件的特点,w e b 工程领域中出现了如c o n a l l e n 、r m m 、 a r a n e u s 和o o h d m 等方法,借用传统的软件工程方法中的面向对象或结构化模 型,支持w e b 应用的分析和设计,并集成了超媒体导航模型,但是,目前还不 很成熟,如较少考虑维护问题;开发生命周期中模型不一致;采用各自的描述, 还没有统一的方法等。本文将在2 。3 节中具体介绍这些w e b 工程方法。 此外,语义w e b 和本体的提出给w e b 工程注入了新的研究内容,接下来本 文将介绍语义w e b 和本体的相关知识。 2 2 语义w e b 与本体 语义w e b 要求w e b 上的数据应当具有明确的语义,是能被计算机理解和自 动处理的,因此未来语义w e b 上的站点应当是语义w e b 站点,本节将介绍语义 w e b 和本体的概念以及它们对w e b 站点带来的影响,阐明本文为什么要在w e b 站点模型中加入语义模型。 2 2 1 语义w e b 1 9 9 8 年,w e b 的创始人t i mb e m e r s l e e 首次提出了“语义w e b ”( s e m a n t i c w e b ) 的概念及其技术路线 6 】,阐述了语义w e b 的基本思想。之后,在2 0 0 0 年 1 2 月8 曰x m l 2 0 0 0 大会的重要发言中b e m e r s l e e 正式提出了语义w e b 的概念, 并专门解释了“语义”和“w e b ”两个词的含义:在“w e b ”背后是可导航空间 的思想,用u r i ( 统一资源标识符) 映射到资源上。语义w e b 所指的“语义” 是“机器可处理的”语义,而不是自然语言语义和人的推理等目前计算机所不能 处理的语义信息。对于数据,语意表达了机器能对这些数据做些什么。若给出一 些“机器可处理的”语义数据到一台机器,它能用这些数据做正确事情,就称它 通过了“语义测试”。语义w e b 目标是使w e b 上的信息具有计算机可理解的语 义,满足智能软件a g e n t 对w w w 上异构和分布信息的有效访问和检索。 2 0 0 1 年2 月9 日,w 3 c 正式成立“s e m a n t i cw e b a c t i v i t y ” 7 1 来指导和推动 语义w e b 的研究和发展,语义w e b 的地位得以正式确立。语义w e b 是建立在 r d f 1 4 - 与其它的标准之上,对w 曲上的数据所进行的一种抽象表示。语义w e b 由w 3 c 负责开发,同时联合了为数众多的研究机构和工业团体。根据w 3 c , “s e m a n t i cw e ba c t i v i t y ”的目标是开发一系列计算机可理解和处理的表达语义 信息的语言和技术,以支持网络环境下广泛和有效的自动推理。在目前阶段,它 主要致力于支持对网络信息资源及其内容的语义和语义关系表征,支持a g e n t 系统基于语义对数据的自动分析、理解和处理,支持a g e n t 系统相互问基于语义 ! 塑茎堕窒三堡 的知识交换,支持不同应用领域和系统间基于语义对数据进行自动的交换、转换 和复用。 2 0 0 1 年5 月,t i mb e r n e r s l e e 等在科学美国人( s c i e n t i f i ca m e r i c a n ) 上 发表了文章“t h es e m a n t i cw e b ”【1 0 ,用浅显的语言和生活实例从“应用设想”、 “意义表达”、“知识表示”、“本体( o n t o l o g y ) ”、“a g e n t ”以及“知识演化”等 诸多方面对“语义w e b ”作了较全面的阐述。文章认为:语义w e b 是对当前w e b 的扩展,它所具有的良好定义的语义,能更好地使计算机和人之间进行协同工作。 图2 1 :语义w e b 的体系结构 b e m e r s l e e 为未来的w e b 发展提出了基于语义的体系结构一语义w e b 体系 结构 1 1 ,如图2 1 所示:从底层到高层分别为:u n i c o d e 与u r i 、x m l 、r d f ( s ) 、o n t o l o g y 、l o g i c 、p r o o f 、t r u s t 。 第一层是u n i c o d e 与u r i ,是整个语义w 曲体系结构的基础。其中 u n i c o d e 负责处理资源的编码,它是一个新的字符编码系统标准,支持 世界上所有主要语言文本字符。而负责标识资源的u r i ( u n i v e r s a l r e s o u r c ei n d i c a t o r ) 是u r l ( u n i v e r s a lr e s o u r c el o c a t o r ) 的超集。作为 i n t e r a c t 资源的一种标准的识别方法,u r i 可以进行更为精确的资源标 识,使信息的精确检索成为可能。 第二层是x m l + n s ( n a m e s p a c e ) + x m ls c h e m a 【1 2 ,用于从语法上表 示数据的内容和结构,通过使用标准的格式语言将网上资源和信息的表 现形式、数据结构和内容分离。 第三层为r d f + r d fs c h e m a ,它提供的语义模型用于描述w e b 上的资 源及其类型,为网上资源描述提供一种通用的表示框架,实现数据集成 的原数据解决方案。 第四层为o n t o l o g y 词汇( v o c a b u l a r y ) 层,用来定义共享的知识,从而 对各种资源之间的语义关系进行描述,揭示资源本身以及资源之间更为 o 2 相关研究工作 复杂和丰富的语义信息。 第五层l o g i c ( 逻辑) 层主要提供公理和推理规则,为智能服务提供基 础。比如可利用分布在w e b 上的各种断言和公理推理出新的知识。 第六层p r o o f ( 证明) 和第七层t r u s t ( 信任) 则注重于提供认证和信任 机制,使用户代理a g e n t 在网络上实现个性化服务和彼此间交互合作具 有可靠性和安全性。如果不设计一个跨系统的推理系统,而是建议一种 普遍性语言来表达证明,就实现了第六层p r o o f 层。 数字签名( d i g i t a ls i g n a t u r e ) 跨越了多层,虽然公钥密码技术已存在较 长时间了,但还没有真正广泛应用,如果加上语义w e b 各层支持,使一 个团体在一定范围内可信任,就实现了t r u s t 层,这样一些诸如电子商 务等重要的应用就可以进入到语义w e b 的实现领域中。 第四层到第七层是在下面四层的基础上进行逻辑操作。在整个语义w e b 体 系结构中,核一心层为x m l 、r d f ( s ) 、o n t o l o g y ,支持从语义上描述w e b 信息, 是当前语义w e b 研究和应用关注的重点。本文正是以核心层为研究重点,以本 体作为w e b 站点的语义基础,生成的w e b 页面均是含有明确语义信息的r d f 文档,r d f 文档中出现的词汇均能在本体中找到定义。 作为w e b 技术的提升和发展,语义w 曲代表了下一代w e b 的发展和趋势。 语义w e b 将赋予信息资源更明确、更完备的语义,使得计算机能够对w e b 资源 进行理解,进而实现w e b 数据和w e b 服务处理的语义化和智能化,将w e b 构建 为功能强大、普适的信息集成和交换平台。语义w e b 的实质就是增强w e b 资源 的语义表示,包括对w e b 资源的内容意义和功能能力进行的描述,使得语义得 以显示地表达,以满足分布式主流计算环境语义互操作性的需要。 在语义w e b 的提出和发展过程中,本体起着非常重要的作用,下面一节将 阐述本体论的概念、思想和内容。 2 2 2 本体概述 2 2 2 1 本体的定义 o n t o l o g y 最早是一个哲学的范畴,后来随着人工智能的发展,被人工智能界 赋予了新的定义。然而,人们对o n t o l o g y 的理解并不完善,这些定义也出在不 断的发展变化中,到目前为止,关于本体的定义还没有比较统一的说法,但是计 算机领域的大多数研究者认为:“本体是关于可共享概念体系的明确的形式化的 规格说明”【3 6 】,这个定义体现了o n t o l o g y 的四层含义: 概念体系( c o n c e p t u a l i z a t i o n ) 2 相关研究t 作 通过抽象出客观世界中某一领域内经常出现的现象( p h e n o m e n o n ) 的相关 概念而得到的模型,其表示的含义独立于具体的环境状态; 明确的( e x p l i c i t ) 所使用的概念及使用这些概念的约束都有明确的定义,必须直接、无二义的 给出; 形式化的( f o r m a l ) 本体必须被计算机所直接理解和处理; 共享( s h a r e ) 本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所 针对的是团体而不是个体。 本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定 该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇( 术语) 和词汇之间相互关系的明确定义。 2 2 2 - 2 本体的建模原语 p e r e z 等人用分类法组织了本体,归纳出5 个基本的建模原语( m o d e l i n g p r i m i t i v e s ) 【3 6 1 : 概念( c o n c e p t s ) 概念描述领域内的一组或一类实体,通常以分类体系的形式组织,例如,“葡 萄酒”是葡萄酒领域的一个概念。从语义上讲,概念表示的是对象的集合,其定 义一般采用框架( f r a m e ) 结构,包括概念的名称、与其他概念的关系,以及用 自然语言对概念的描述。 关系( r e l a t i o n s ) 关系描述概念之间或者概念的属性之间的相互作用。关系大致可分成两类: 分类体系( t a x o n o m i e s ) :将概念用层次树结构组织。最普遍的形式有: p a r t o f 关系,表达概念之间部分与整体的关系; _ k i n d o f 关系,表达概念之间的继承关系,类似于面向对象中的子类 与父类之间的关系; 关联关系( a s s o c i a t i v er e l a t i o n s h i p s ) :表示概念之间的联系。 此外,还有i n s t a n c e o f 关系,表达概念的实例与概念之间的关系,类似于面 向对象中的对象和类之间的关系;a t t r i b u t e o f 关系,表达某个概念是另一个概念 的属性,如“颜色”是“桌子”的一个属性;在实际建模过程中。概念之间的关 系不限于上面列出的4 种基本关系,可以根据领域的具体情况定义相应的关系。 如同概念一样,关系也可以用分类体系的结构来组织。例如,h a s n a m e 可 2 相关研究工作 分为h a s f i r s t n a m e ,h a s l a s t n a m e 和h a s n i c k n a m e 。关系还包含一些概念间联系的 属性,例如联系的基数、联系是否必要、联系是否具有传递性等。当这些概念化 工作完成以后,一个本体也就基本诞生了。 函数( f u n c t i o n s ) 类特殊的关系。该关系的前n 一1 个元素可以唯一决定第n 个元素。形式 化地定义为f :c 1 c 2 c n 1 一c n 。如m o t h e r - o f 就是一个函数,m o t h e r - o f ( x ,y ) 表示y 是x 的母亲。 公理( a x i o m s ) 代表永真断言,公理是领域中通用的恒真命题,用来对概念、关系或实例进 行约束。从这个意义上说,关系的属性也是公理的一种。公理还包括一些通用 的规则,如1 8 周岁以上的人才是成年人。 实例( i n s t a n c e s ) 实例实际上是概念所表示那些具体事物或对象。例如,小明是概念“学生” 的一个实例。严格意义上讲,一个本体不应包含任何实例,因为本体是领域的 概念化。一个本体和其相关联的实例的结合体就是通常认为的知识库 ( k n o w l e d g e b a s e ) 。然而,确定概念和实例有时候是很困难的, 在不同的应用 中也会有所差别。例如,原子是一个概念,钾是原子的一个实例,然而,同样 可以认为钾是表示钾及其同位素不同实例的概念。 2 2 2 3 本体的作用 一个本体定义了领域中研究者需要的共享信息的一个通用词汇集合。包括了 领域中一些基本概念和关系。 近几年来,本体研究已经不在局限于人工智能领域,已经在计算机的各个领 域得到了应用和发展,本体之所以得到这么大研究和发展,因为本体有以下的作 用 3 4 】: 交流( c o m m u n i c a t i o n ) :主要为人与人之间或组织与组织之间的交流提 供共同的词汇。 互操作( i n t e r - o p e r a b i l i t y ) :在不同的建模方法、范式、语言和软件工具 之间进行翻译和映射,以实现不同系统之间的互操作和集成。 系统工程( s y s t e m se n g i n e e r i n g ) :本体分析能够为系统工程提供以下方 面的好处: _ 可重用性( r e - u s a b i l i t y ) :本体是领域内重要实体、属性、过程及其 相互关系形式化描述的基础。这种形式化描述可成为软件系统中可 重用和共享的构件。 - 搜索( s e a r c h ) :本体可以作为元数据,描述信息库中信息的索引。 一可靠性( r e l i a b i l i t y ) :形式化地表达使得自动的一致性检查成为可能, 从而提高了软件的可靠性。 _ 规格说明( s p e c i f i c a t i o n ) :本体分析有助于确定i t 系统( 如知识库) 的需求和制定规范。 _ 维护( m a i n t e n a n c e ) :在系统开发中使用本体,会使得维护更加容易。 使用本体构造出来的系统改进了软件的文档化工作,从而减少了维 护成本。 _ 知识获取( k n o w l e d g ea c q u i s i t i o n ) :当构造基于知识的系统时,用已 有的本体作为起点和基础来指导知识的获取,可以提高其速度和可 靠性。 2 2 2 4 本体的表示 本体要在应用程序中使用,它必须用特定的方式表示出来。表示概念模型 的语言有很多,它们各自的特性( 包括表达能力、易用性和计算复杂度) 都有 所不同。知识表示( k n o w l e d g e r e p r e s e n t a t i o n ,k r ) 长期以来一直是人工智能领 域的研究热点。 目前本体的表示语言主要有三类:( 1 ) 用自然语言定义的词汇;( 2 ) 基于对 象的知识表示语言( 如框架模型和u m l ) ;( 3 ) 基于谓词的逻辑( 如描述逻辑 d e s c r i p t i o nl o g i c s ) 。 基于框架的系统由槽和属性组成,框架可以有k i n d o f 的槽来定义框架的分 类体系,这种层次可用于槽的继承。基于框架的表示除了表示概念外还可以包含 表示特定实例的实例框架。最著名的本体框架系统是o n t o l i n g u a 1 3 。框架比较 流行的原因是由于框架模型和对象模型非常相似,而且框架模型非常直观。框架 系统的语义由o k b c 标准定义 1 4 1 。 逻辑可以描述本体,尤其是描述逻辑( d e s c 邱t i o nl o g i c s ,d l s ) 【1 5 1 。描述 逻辑的一个特征就是它用其他概念来定义概念。整个模型通过一些小部分描述形 成,而不是声明一个层次结构。描述提供很多推理规则,以用来形成分类层次结 构并检验描述的一致性。另外,这些推理规则可以被需要使用该本体的应用程序 使用。 事实上,描述逻辑和框架并非互不相容。描述逻辑可以看作框架的逻辑再现, 两者可以结合起来。例如,o i l ( o n t o l o g y i n f e r e n c el a y e r ) 【1 6 就将这两者统一 起来,用x m l 或r d f 定义。o i l 结合了框架表示的建模原语和描述逻辑简单清 晰的语义,在推理引擎的支持下能进行自动推理。o i l 是目前公认的较出色的本 2 相关研究工作 体表示语言,它还和d a m l ( d a r p a a g e mm a r k u pl a n g u a g e ) 结合形成 d a m l + o i l 1 7 。o w l 4 0 ( w e bo n t o l o g yl a n g u a g e ) 是在d a m l + o i l 的基础 之上发展起来的本体描述语言,目前已经成为w 3 c 推荐的标准。 本文将采用w 3 c 推荐的标准w e b 本体描述语言o w l ( w e bo n t o l o g v l a n g u a g e ) 描述本体,本文会在3 2 节中具体介绍o w l 。 2 2 3 语义w e b 和本体对w e b 站点的影响 整个w e b 是由许许多多的w e b 站点组成的,要实现w e b 向语义w e b 的转 变,就要从每一个w 曲站点入手,使每个w 曲站点都成为语义w e b 站点,其本 质就是要把w e b 站点上数据隐含的语义显式地、形式化地表达出来,使w e b 站 点上的页面能被计算机自动的理解和处理。 在语义w e b 和本体的背景下,很多研究者开始研究如何使现有的w e b 页面 带有明确的语义,如s h o e 4 0 】、o w a 4 3 i 和o n t o w e b b e r 3 9 等。s h o e ( s i m p l e h t m l o n t o l o g ye x t e n s i o n s ) 是一种基于本体的h t m l 扩展语言,它能够使w e b 站点的设计者对w e b 页面进行语义标注。从而使w e b 代理( w e ba g e n t ) 能够回 答类似“f i n dm ea l lg r a d u a t es t u d e n t si nm a r y l a n dw h oa r ew o r k i n go nap r o j e c t f u n d e db yd o di n i t i a t i v e1 2 3 4 5 6 7 ”的智能查询,有效解决基于关键字查询的缺 陷,提高查询的准确率。s h o e 的核心思想是在h t m l 的基础上加入语义标记, 通过扩展h t m l 来描述本体。扩展h t m l 来描述本体虽然能使h t m l 的编写者 能够容易地在h t m l 文档中加入语义信息,而且使w e ba g e n t 更加有效、准确和 智能地在w e b 上获取信息,但是,h t m l 把内容和表现混杂在一起,s h o e 还 要把本体混合在里面,并不是十分合适。相比之下,目前w e b 上的本体描述语 言o w l ( w e b o n t o l o g yl a n g u a g e ) 建立在x m l 和r d f 之上,显然比建立在 h t m l 之上的s h o e 更加合适,而且o w l 已经成为w 3 c 上的标准。 o w a ( o n t o l o g y w e ba n n o t a t i o n ) 是基于本体的w e b 标注框架,其实质也是 利用本体给w e b 页面带上显式的语义,提高w e b 上搜索的质量,这些语义标记 能够让w e b 站点的设计者编辑出符合语义w e b 标准的w e b 页

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论