




已阅读5页,还剩76页未读, 继续免费阅读
(计算机科学与技术专业论文)基于语义web的信息表达与语义化过程研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 ( 以w e b 技术为代表的i n t e r n e t 极大促进了人类知识的传播和文 化交流,改变着人类的生产和生活方式。然而,目前作为建立在标准 格式化语言上的w e b ,并不具有良好的语义表示能力,这给基于w e b 的知识级信息集成和信息交换带来了困难。 作为w e b 技术的提升和发展,语义w e b ( s e m a n t i cw e b ) 代表了 下一代w e b 的发展趋势。语义w e b 是对当前w e b 的扩展,其所具有的 定义良好的语义,能更好地使计算机和人之间进行协同工作。彳语义 w e b 的实质就是增强w e b 资源的语义表示,包括对w e b 资源的内容意 义和功能能力进行描述,使语义得以显式地表达,以满足分布式主流 计算环境语义互操作性的需要,使软件a g e n t 对w w w 上异构和分布信 息进行智能的、有效的访问和检索。 论文较全面介绍了语义w e b 及本体论等相关知识背景,以及最新 的语义w e b 语言o w l 。探讨了在产品信息和生物信息两个领域中基于 语义w e b 语言的信息表达方法。最后,以基于本体( o n t o l o g y ) 的信 息集成为背景,提出了一个语义化过程,用于解决x m l 数据源向新一 代语义w e b 语言o w l 的语义转化和提升问题。 。 j 关键词:语义w e b 、本体论to n t o l o g yy 、语义化过程! o w l 、信息 ) 。 、 表示、信息集成 a b s t r a c t t h ew e bw a sd e s i g n e da sa l li n f o r m a t i o ns p a c e w i t ht h eg o a lt h a ti ts h o u l db eu s e f u ln o t o n l yf o rh u m a n h u m a nc o m m u n i c a t i o n ,b u ta l s ot h a tm a c h i n ew o u l db ea b l et op a r t i c i p a t ea n d h e l p 0 n eo ft h em a j o ro b s t a c l e st ot h i sh a sb e e nt h ef a c tt h a tm o s ti n f o r m a t i o no nt h ew e b i s d e s i g n e df o rh u m a nc o n s u m p t i o n a n de v e ni fi tw a sd e r i v e df r o mad a t a b a s ew i t hw e l ld e f i n e d m e a n i n g sf o ri t sc o l u m n s ,t h a t t h es e m a n t i c so ft h ed a t ai sn o tu n d e r s t a n d a b l et oe v e r yc o m p u t e r o n t h e w e b t h es e m a n t i cw e bi sav i s i o n :t h ej d e ao fh a v i n gd a t ao nt h ew e bd e f i n e da n dl i n k e di na w a yt h a ti tc a nb eu s e db ym a c h i n e sn o tj u s tf o rd i s p l a yp u r p o s e s ,b u tf o ra u t o m a t i o n ,i n t e g r a t i o n a n dr e u s eo fd a t aa c r o s sv a r i o u sa p p l i c a t i o n s t h es e m a n t i cw e bi st h ea b s t r a c tr e p r e s e n t a t i o no f d a t ao nt h ew o r i dw i d ew e b b a s e do nt h er d fs t a n d a r d sa n do t h e rs t a n d a r d st ob ed e f i n e d ”t h e s e m a n t i cw e bi sa ne x t e n s i o no ft h ec u r r e n tw e bi nw h i c hi n f o r m a t i o ni sg i v e nw e l l 一d e f i n e d m e a n i n g ,b e t t e re n a b l i n gc o m p u t e r s a n d p e o p l et ow o r k i nc o o p e r a t i o n ”( t i mb e m e r s l e e ) f a c i l i t i e sa n dt e c h n o l o g i e st o p u tm a c h i n e u n d e r s t a n d a b l ed a t a o nt h ew e ba r e r a p i d l y b e c o m i n gah i g hp r i o r i t yf u rm a n yc o m m u n i t i e s t h i sd i s s e r t a t i o ni n t r o d u c e st h ek n o w l e d g eo f s e m a n t i cw e ba n do n t o l o g y , a n dp r e s e n t st h en e ws e m a n t i cw 曲l a n g u a g e - 旬w l t h e nw e d i s c u s st h er e l a t e dr e s e a r c ht o p i c s 觞f o u o w s : i t sn o te a s yf o rt r a d i t i o n a ls t a n d a r ds u c h s t e pt od e s c r i b ep r o d u c ti n f o r m a t i o ni na s e m a n t i cw a y , a n da l s os t e pi sn o taw b b - b a s e ds t a n d a r d t h ed e v e l o p m e n to f s e m a n t i cw e bi sm a k i n gi t s e l f b ea ni m p o r t a n tm e t h o dt of a c i l i t a t et h ek n o w l e d g e - b a s e d i n f o r m a t i o ni n t e g r a t i o n s ow ep r o ! a o s et ou s e0 w lt od e s e r i b ep r o d u c ti n f o r m a f i o n , a n dg i v et h ei n s t a n c e sa se x a m p l e i n f o r m a t i o n i n t e g r a t i o n i nt h ee n t i r e1 i f es c i e n c eh a sb e c o m ea c h a l l e n g e t o b i o i n f o r m a t i c sa n dc o m p u t e rs c i e n c e w ef i r s tg i v eas u r v e yo fo n t o l o g y - b a s e ds y s t e m s f o rb i o i n f o r m a t i c st h a ta r ei nd i f f e r e n tl a n g u a g e sa n dd i f i e r e n ts e m a n t i cr e p r e s e n t a t i o n w a y s a n dt h e np r e s e n tt h ei d e ao fu s i n go w l t 0d e s c r i b et h ei n f o r m a t i o no fm o l e c u l a r b i o l o g yf o rb i o i n f o r m a t i c sa n dg i v et h ei n s t a n c e sf o re x a m p l e i nt h ee n d x m li si n c r e a s i n g l yb e c o m i n gt h es t a n d a r dl a n g u a g ef o ri n f o r m a t i o ne x c h a n g i n go nt h e w 曲b u ti th a sn os u 伍c i e n tm e c h a n i s mt 0r e p r e s e n ti n f o r m a t i o ni nas e m a n t i cw a y t h e r e f o r e i ti sr e q u i r e dt os t u d yt h em e t h o do ft r a n s f o r m i n gx m l d a t ai n t os e m a n t i c w e b b a s e dr e p r e s e n t a t i o nt of a c i l i t a t ei n f o r m a t i o ni n t e g r a t i o na ts e m a n t i cl e v e l w e p r e s e n taf r a m e w o r kc a l l e d s e m a n t i c a l i z i n gp r o c e d u r e t ot r a n s f o r mx m l d a t as o u r c e i n t oo w i t 1 1 en e ws e m a n t i cw e bl a n g u a g e sp r o p o s e db yw 3 c ,a n dg i v et h e i n s t a n c e sa n dt h ec o n c l u s i o ni nt h ee n d k e y w o r d s :s e m a n t i cw e b ,o n t o l o g y , s e m a n t i c a l i z i n g p r o c e d u r e ,o w l ,i n f o r m a t i o n r e p r e s e n t a t i o n ,i n f o r m a t i o ni n t e g r a t i o n i i 尹奇鞯:基于语义w e b 的信息表达与语义化过程研究浙江大学硕士学位论文 1 1 引言 第一章绪论 在接个人类文明的发展史上,对话、交流与理解的历程一直伴随着广义信息技术的发展 步伐语言的形成、文字的创造、造纸与印刷术的发明、电报电话的发明、以及现代电子 计算机与通信技术的应用和发展,极大地促进了世界范围内人类知识的传播和文化的交流。 当今i n t e r n e t 的产生和发展,使全人类的交流更加动态和开放。i n t e r n e t 的前身是美国 国防部高级研究计划署的研究试验性网络a r p a n e t 。1 9 8 3 年t c p i p 成为a r p a n e t 上唯 一的正式协议。此后,a r p a n e t 上连接的网络、机器和用户快速增长。1 9 8 8 年n s f n e t 和 a r p a n e t 互联,规模以指数增长,很多地区网络开始加入,并且开始与加拿大、欧洲和太 平洋地区的网络连接,最后形成了i n t e r n e t 。9 0 年代初到现在,是i n t e r n e t 增长最迅速的时 期。1 9 9 3 年,i n t e r n e t 的增长速度是3 4 1 。到1 9 9 8 年7 月,i n t e r n e t 已拥有4 2 7 万个网址, 4 3 0 0 万个域名,3 6 7 3 9 万台主机和3 2 亿个网页,其规模大概每年翻一番。 w e b ( w o r mw m ew e b , w w w ) 作为全球性的网络信息系统,极大促进了i n t e r n e t 的可应 用性和在其之上的信息传播。一九八九年,位于瑞士的欧洲粒子物理实验室( c e r n ) 首先 开始了w e b 的研究工作。随后,许多其他的研究机构、大学和公司也加入w e b 研究者的行 列,为了保证不同w e b 软件之间的互操作性,一系列w e b 协议和标准在不断使用和完善之 中。在最近几年里,w e b 得到了长足的发展,不仅成为企业必不可少的组成部分,并且开始 走进干家万户。根据2 0 0 0 年4 月在波士顿举行的第5 届搜索引擎年会的报告,2 0 0 0 年1 月 全球网页数目已经超过了l o 亿。截止到2 0 0 3 年2 月,根据g o o g l e 搜索引擎的索引数量, 全球网页数量已超过3 0 亿。 w e b 在中国的发展速度也十分惊人。根据中国互联网络信息中心( c n n i c ) 2 0 0 3 年1 月发布的中国互联网络发展状况统计报告,截止到2 0 0 2 年1 2 月3 1 日止,中国上网计算 机约2 0 8 3 万台,上网人数约5 9 1 0 万,c n 下域名总数为1 7 9 5 4 4 个,w e b 站点数约3 7 1 6 0 0 个,国际带宽为9 3 8 0 m , 关于网页的数目没有具体的统计数据,但2 0 0 1 年底中国有5 0 0 0 万静态网页是比较合理的i l j 。 然而,在伴随着w e b 成功的同时,呈指数级增长的海量信息使得来自各领域的用户对 信息的查找、访问、表示以及维护变得越来越困难起来。“丰富的数据和贫乏的知识”问题 越来越突出,主要的原因是目前的w e b 对信息的表示主要是“呈现”式的,大量的信息以 自然语言、图片等方式罗列出来,使人淹没于知识的辨别、提取等繁杂的劳动中。对于目前 w e b 上的信息,计算机只能从格式上来处理和验证,并不能处理知识级别的问题。 从目前情况看,i n t e r n e t 要想完全发挥其威力,不仅在于更快的处理器和更多的带宽, 还在于建立一种更有利于交流与对话的机制,排除一切平台和语言的分歧,以自由、平等、 开放的原则,以人类对现实世界的一致理解为基础,为全人类提供一种全新的高质量的信息 服务。 在i n t e r n e t 互联网发展过程中,取得成功的最重要因素之一就是建立了一套广泛的标准, 保证了在不同层次上的互操作能力。有三大技术起了决定性的作用:第一是分组交换技术和 中介信息处理器( i n t e r f a c em e s s a g ep r o c e s s o r ) 的发明,使i n t e r n e t 的前身a r p a n e t ( a d v a n c e d r e s e a r c h p r o j e c t s a g e n c y n e t w o r k ) 网得以诞生,互联在技术上成为可能。第二是t c p i p 协议 尹奇麟:基于语义w e b 的信息表达与语义化过程研究浙江大学硕士学位论文 的提出与实施,使a r p a n e t 扩展延伸,数据传输畅通无阻。第三是h t m l h j 、孙钇1 3 等数据 表示标准的出现,使得w e b 成为一个全球最大的信息资源利用系统。可以看出,分组交换 技术和中介信息处理器的发明使得信息交换在物理层的扩展成为了可能;t c p i p 、耵丁p 、 f 冲等协议保证了不同信息资源在网络上的通信;而在此之上的h t m l 、x m l 等w e b 语言 在语法上统一了网上信息的表示形式和数据结构。 但是,仅依靠一种统一w e b 语言从语法上来实现信息的交换和共享还是不够的。例如, 两个应用系统都采用x m l 作为信息交换的格式,但怎么能保证它们表述的是同一个意思? 标记语言中一个元素和其子元素的关系,是超类与子类的关系还是组成关系? 计算机能够区 分吗? 与“机器可读”相比,“机器可理解”是必要的和重要的。这就需要一种机制,使得 计算机不但是能读取数据,还要能理解和区分数据的语义,实现w e b 信息语义层次上的互 操作性。 语义w e b t 4 j 就是在此背景下提出来的。语义w e b 的思想就是利用元数据( m e t a d a t a ) 语 言对w e b 信息资源的内容进行语义上的描述,从而使计算机能够利用这些语义信息对信息 资源的内容进行理解和处理,并在此基础上,实现更高层的、基于知识的智能应用。可以看 出,这里所指的“语义”不同于语义学中的定义。从语义学的角度来讲,语义是语言形式表 达的内容,语义是思维的体现者,是客观事物在人们头脑中的反映,是人们交际过程中的中 心所在。从计算机科学的信息模型的角度来讲,语义是构建在一定的语法上,反映一定认知 结果的数据对象、数据对象之间关系的描述与客观存在的一种对应关系。因此,信息模型中 的语义与对客观存在的概念化以及描述认知结果的语言密切相关。定义这种语义的核心就是 在数据的相互关系中定义数据的含义。 要在语义层次上实现信息的互操作性,需要对信息的意思有一个一致的共同的理解。语 义w e b 采用了本体论( o n t o l o g y ) 的思想。本体被视为是建立智能系统( 或狭义地,知识表 示系统) 的世界观,是对应用领域概念化的显式的解释说明口j 。本体为某领域提供了的一个 共享的通用的理解,从而无论使人还是应用系统之间都能够有效地进行语义上的理解和通 信。语义w e b 语言可以看作是在w e b 上对信息资源的本体进行定义和描述的语言,并能够 用其所定义的本体对具体信息资源进行描述。 1 2 论文研究内容和贡献 论文研究内容:语义w e b 的发展为在语义级上进行信息的描述和知识表达提供了一种 崭新的、非常有意义的手段。论文首先较全面介绍了语义w e b 及本体论等相关知识背景, 进而详细介绍了最新的语义w e b 语言o w l m j 。然后,分别探讨了在产品信息和生物信息领 域中基于语义w e b 语言的信息表达方法。最后,论文提出了一个语义化过程,用于解决x m l 数据源向新一代语义w e b 语言o w l 的语义提升问题。 论文贡献: s t e p 标准及其e x p r e s s 语言【6 ”统一了产品信息的建模标准和数据结构,从语法 上解决了产品信息的共享和交换问题。但是,其并没有提供基于统一语义表示机制, 这使得在知识级上实现产品信息共享成为困难。再者,w e b 技术为信息的传播和共 享提供了一种非常优秀的手段,而基于s t e p 标准的e x p r e s s 语言也没有支持w e b 的特性。为此,本文提出了采用语义w e b 语言o w l 描述产品信息的思想,并用实 例作了描述,包括用o w l 对产品语意信息进行显式表述、对单个部件进行描述以 及对装配体进行描述,最后给出了一个基于本体和语义w e b 的信息集成系统框架。 当今,整个生命科学不同领域间的信息集成已经成为对生物信息学和计算机科学的 重要挑战之一1 9 】。作为近年发展较快的本体方法,已经在生物信息集成有了重要应 2 尹奇耩:基于语义w e b 的信息表达与语义化过程研究浙江大学硕士学位论文 用。但是这些研究目前都是采用自己专门的方法和语言来定义和表示本体和语义, 这使得知识的交换和共享只能在某个项目中完成。因此,本文提出了采用w 3 c 推 出的标准语义w e b 语言o w l 来对生物信息进行语义描述的观点,并通过对一个相 关本体的描述作为示例来说明。 x m l 日益成为当今w e b 信息交换的标准语言,但并不具有良好的语义表示能力。 语义w e b 的发展为在语义级上实现信息表示和集成提供了重要手段。将现有的大 量以x m l 描述的信息,提升为以语义w e b 语言表示的信息,实现异构x m l 信息 的语义级集成,是当今语义w e b 研究和应用的最大问题之一p 。本文以基于语义 的信息集成为背景,提出了一个将x m l 数据源转换到新一代语义w e b 语言o w l 的框架,并称这一过程为语义化过程,最后给出了实例研究和结论。 1 3 论文组织结构 丁j 一 l第七章总结与展望 图1 - 1 论文组织结构 3 尹奇鞲:基于语义w e b 的信息表达与语义化过程研究浙江大学硕士学位论文 第二章语义w e b 与本体论 2 1 语义w e b 在信息交换和信息表示领域,经历了以下几个主要的语言发展 尉孙犯 1 0 i 是i s o 在1 9 8 6 年制定的一种功能强大的元标记语言( i s os s 7 9 ) ,其主要应 用于文档的数据交换,也适用于任何复杂的文件结构。但由于其规格过于复杂,难 以适应日益发展的基于网络的数据交换方式。 脱胎于s g m l 的h t m l 是一种专为i n t e r n e t 上信息的显示及浏览而设计的简易标记 语言。创立者t i mb e r n e r s - l e e 对h t m l 所下的定义是:h t m l 是一种用来创建超 文本的简易数据格式,其所建立的文件可在不同的作业平台间传输。但是h t m l 将显示与数据内容混在一起,不易分离,阻碍了w e b 上基于内容的信息集成。 x m l 也来自于s g m l ,其与h t m l 最大区别在于:x m l 没有固定的标记,不描述 文档的显示外观,而注重于描述数据的内容和结构,这就将数据和显示分开了。但 是x m l 只是在语法上统一了数据交换的格式,并没有提供充分的基于语义的表达 机制,例如x m l 能够采用子元素的方式来表示“a 的朋友( 一i e n d ) 是曰”,但却 不能表示出“朋友”的具体语义,继而无法得出“占的朋友是a ”的结论。 w e b 作为一种分布式的、动态的、海量的和开放的计算平台,在信息集成和交换方面有 着专门的特性。目前分布式异构信息集成的方式主要有两类j :结构方法和语义方法。结 构方法的主要特点是实现比较简单、信息资源相对比较固定。缺点是可扩展性差,不支持语 义级的检索。语义方法的主要特点是扩展性好、对动态信息资源适应性好、支持语义级查询。 缺点是实现比较复杂,需要创建一个共享的知识库作为语义层集成的手段。 w e b 上数据所固有的异构性、分布性、增长性和变化性决定了结构化方法不适应w e b 信息集成,因此语义方法成为当前w e b 信息集成研究的重点。为此目的,需要在h t m l x m l 等格式化w e b 语言的基础上,创建一种从语义上而不仅是从语法和结构上描述来w e b 信息 资源的机制,同时这种语义描述机制应当适应于当今主流的w e b 计算环境和国际标准。 1 9 9 8 年,w e b 的创始人t i mb e r n e r s - l e e 首次提出了“语义w e b ”( s e m a n t i cw e b ) 的概 念及其技术路线i i ,阐述了语义w e b 的基本思想。然后,在2 0 0 0 年1 2 月1 8 日x m l 2 0 0 0 大会的重要发言中b e r n e r s - l e e 正式提出了语义w e b 的概念,并专门解释了“语义”和“w e b ” 两个词的含义:在“w e b ”背后是可导航空间的思想,用u r i ( 统一资源标识符) 映射到资 源上。语义w e b 所指的“语义”是“机器可处理的”语义,而不是自然语言语义和人的推 理等目前计算机所不能处理的语义信息。对于数据,语义表达了机器能对这些数据做些什么。 若给出一些“机器可处理的”语义数据到一台机器,它能用这些数据做出正确事情,就称它 通过了“语义测试”。语义w e b 目标是使w e b 上的信息具有计算机可以理解的语义,满足智 能软件a g e n t 对w i j s v 上异构和分布信息的有效访问和检索。 2 0 0 1 年2 月9 日,w 3 c 正式成立“s e m a n t i cw e b a c t i v i t y ,j i ”j 来指导和推动语义w e b 的 研究和发展,语义w e b 的地位得以正式确立。语义w e b 是建立在冗d 一1 4 1 与其它定义的标准 基础之上,对w e b ( w o r mw i d ew e b ) 上的数据所进行的一种抽象表示。语义w e b 由w 3 c 负责开发,同时联合了为数众多的研究机构和工业团体。根据w 3 c ,”s e m a n t i cw e b a c t i v i t y ” 4 尹奇鞯:基于语义w e b 的信息表达与语义化过程研究浙江大学硕士学位论文 的目标是开发一系列计算机可理解和处理的表达语义信息的语言和技术,以支持网络环境下 广泛和有效的自动推理。在目前阶段,它将主要致力于支持对网络信息资源及其内容的语义 和语义关系表征,支持a g e n t 系统基于语义对数据的自动分析、理解和处理,支持a g e n t 系 统相互间基于语义的知识交换,支持不同应用领域和系统间基于语义对数据进行自动的交 换、转换和复用。 2 0 0 1 年5 月,t i mb e r n e r s - l e e 等在科学美国人( s c i e n t i f i c a m e r i c a n ) 上发表了文章 “t h e s e m a n t i cw e b ” 1 5 1 ,其用浅显的语言和生活实例从“应用设想”、“意义表达”、“知识 表示”、“本体( o n t o l o g y ) ”、“a g e n t ”以及“知识演化”等诸多方面对“语义w e b ”作了较 全面地阐述。文章认为:语义w e b 是对当前w e b 的扩展,其所具有的定义良好的语义,能 更好地使计算机和人之间进行协同工作。 图2 - 1 语义w e b 体系结构 b e r n e r s - l e e 为未来的w e b 发展提出了基于语义的体系结构语义w e b 体系结构i l ”, 如图2 - 1 所示:从底层到高层分别为:u n i c o d e 与u r i , x m l 、r d f ( s ) 、o n t o l o g y 、l o g i c 、 p r o o f , t r u s t 。 第一层是u n i c o d e 与u r i ,是整个语义w e b 体系结构的基础。其中u n i c o d e 负责处 理资源的编码,它是一个新的字符编码系统标准,支持世界上所有主要语言文本字 符。而负责标识资源的涮( u n i v e r s a l r e s o u r c e i n d i c a t o r ) 是u r l ( u n i v e r s a l r e s o u r c e l o c a t o r ) 的超集。作为i n t e r n e t 资源的一种标准的识别方法,u r i 可以进行更为精 确的资源标识,使信息的精确检索成为可能。 第二层是x m l + n s ( n a m e s p a c e ) + x m ls c h e m a i l “,用于从语法上表示数据的内容 和结构,通过使用标准的格式语言将网上资源和信息的表现形式、数据结构和内容 分离。 第三层为r d f + r d f s c h e m a i l “,其提供的语义模型用于描述w e b 上的资源及其类 型,为网上资源描述提供了一种通用表示框架,实现数据集成的元数据解决方案。 第四层为o n t o l o g y 词汇( v o c a b u l a r y ) 层,用来定义共享的知识,从而对各种资源 之间的语义关系进行描述,揭示资源本身以及资源之间更为复杂和丰富的语义信 息。 尹奇群:基于语义w e b 的信息表达与语义化过程研究浙江大学硕士学位论文 第五层l o g i c ( 逻辑) 层主要提供公理和推理规则,为智能服务提供基础。比如可 利用分布在w e b 上的各种断言或公理推理出新的知识。 第六层p r o o f ( 证明) 和第七层t r u s t ( 信任) 则注重于提供认证和信任机制,使用 户代理a g e n t 在网络上实现个性化服务和彼此间交互合作具有可靠性和安全性。如 果不设计一个跨系统的推理系统,而是建议一种普遍性语言来表达证明,就实现了 第六层p m o f ( 证明) 层。 关于第七层,数字签名( d i g i t a l s i g n a t u r e ) 跨越了多层,虽然公共钥匙密码技术己 存在较长时间了,但还没有真正广泛应用,如果加上语义w e b 各层支持,使一个 团体在一定范围内可信任,就实现了m 顽信任) 层,这样一些诸如电子商务等重 要的应用就可以进入到语义w e b 的实用领域中。 第四层到第七层是在下面四层的基础上进行逻辑操作。在整个语义w e b 体系结构中, 核心层为x m l 、g d f ( s ) 、o n t o l o g y ,其支持从语义上描述w e b 信息,是当前语义w e b 研究 和应用关注的重点。 作为w e b 技术的提升和发展,语义w e b 代表了下一代w e b 的发展和趋势。语义w e b 将 赋予信息资源更明确、更完备的语义,使得计算机能够对w e b 资源进行理解,进而实现w e b 数据和w e b 服务处理的语义化和智能化,将w e b 构建为功能强大、普适的信息集成和交换 平台。语义w e b 的实质就是增强w e b 资源的语义表示,包括对w e b 资源的内容意义和功能 能力进行的描述,使语义得以显式地表达,以满足分布式主流计算环境语义互操作性的需要。 在语义w e b 的提出和发展过程中,本体论( o n t o l o g y ) 起若非常重要的作用,下面一节 将阐述本体论的概念、思想和内容。 2 2 本体论( o n t o l o g y ) 2 2 1 本体论的起源 在一般意义或者说在哲学意义上,本体论研究或关注的是“存在”,即有什么东西存在 或者说世界存在什么实体? 本体是对领域内概念的本质和关系所作的详尽明确的描述。本体 ( o n t o l o g y ) 这个词是从希腊的“o n t o ”( 即“存在”) 和“l o g i a ”( 即“箴言录”) 派生而 来的。虽然这个术语早在1 7 世纪就已经诞生,但一直如亚里斯多德( a r i s t o t l e ) 在公元前四 世纪所给出的定义那样,本体论只是作为研究世界本原或是本质问题的“形而上学” ( m e t a p h y s i c s ) 的同义词。在亚里斯多德之后的两千多年里,本体论被当作哲学经典定义中 的部分,几乎没有什么发展。直到科技革命的出现,“形而上学”开始包括其他更多方面的 研究,比如宇宙天体学和心理学等,本体论才独立出来作为形而上学的一个分支,专指世界 “存在”的研究。而本体论的分类法( t a x o n o m y ) 也必须反映人类在宇宙探索上的迅速发 展,因而原先已经被广泛接受的分类系统也开始发生改变。 正如本体论的诞生与哲学的早期发展是密不可分的,在过去的数十年中本体论的发展也 与人工智能领域和信息系统技术纠缠在一起。 早期人工智能领域的逻辑学的研究者已经开始研究信息系统中支持自动推理机制的知 识模拟或者知识表达。当这些技术逐渐发展成为一种标准,其中蕴涵的知识表达的理论也成 为人们关注的焦点。这些理论,即知识库( k n o w l e d g e b a s e s ) 主要指与规则联系的术语的 集合,限制不合理的解释并支持从基本概念和事实中推导出新的知识。正是这种知识库上的 6 尹奇鞲:基于语义w e b 的信息表达与语义化过程研究浙江大学硕士学位论文 自动推理技术被认为人工智能的一种典型的应用。应当注意到,在过去( 包括现在) 有许多 学者认为自动推理技术自身已经成为科学领域的一个独立的研究挑战,而知识库只不过是一 些没有什么内在价值的实例罢了。也有一些学者认为知识库本身应当作为一门独立的研究学 科,因为现存的知识库缺乏统一的特征概念进而限制了自身的发展和应用。在这种情况下, 一个新的研究领域:知识工程( k n o w l e d g ee n g i n e e r i n g ) 应运丽生。 而计算机学科中的数据库管理系统( d 踟舔) 的一个研究领域也逐步发现,虽然数据库 技术已经成熟,但概念化模型( c o n c e p t u a l s c h e m a ) 的一些隐蔽的、更为重要的问题依然存 在。早期数据库的概念模型是以专门化和不一致为明显特征,而正是这些导致了今天所必须 面对的数据库集成方面的许多实际问题。 另外,伴随着面向对象编程技术而兴起的软件工程研究领域也开始认识领域建模 ( d o m a mm o d e l i n g ) 的重要性,因为在项目程序变的更加复杂和庞大的时候,必须面对程 序维护和重用性的问题。即对应用程序中的过程或者功能比如商业程序中的订货和调度 进行陈述性的表示,以便让其它的应用程序可以重用。但是,这个问题也同样因为缺乏 具体、统一的领域建模形式化基础而没有得到很好的解决。 这样,从以上三个起点发展起来的本体论在人工智能中的应用也成为一种必然的趋势。 知识工程师、概念化的模型设计者和领域模型设计者越来越意识到对陈述性表示的需要,即 在考虑一般性原则以保证重用性的同时,对他们需要处理的领域进行描述。那么他们必须回 答这样的问题:什么是对象、过程、属性和关系? 什么是一项事务、一个人以及一个组织? 它们之间的相互依赖关系如何? 它们之间是怎样联系的? 而事实上,本体论在这些领域中的发展是相互独立的。在信息系统领域,科学工作者差 不多从头开始发展了本体论的思想。首先是j o h nm c c a r t h y 认识到哲学本体论与人工智能的 逻辑理论构建活动之间的重叠。早在1 9 8 0 年,j o h n m c c a r t h y 就认为以逻辑概念为基础的智 能系统必须“列出所有存在的事物,并构建一个本体描述我们的世界”【l 。他的这个看法 是受到学者奎因( 形矿q u m e ) 的启发,并被p a t r i c k h a y e s 在他的物理学作品中所接受。而 其他绝大多数人工智能逻辑学领域的学者关注的信息则与一般人的普通常识中的世界相同。 另一个类似的探索是由j o h n s o w a 所提出的构建“一个可能世界的本体”尽可能的包含 世界的所有事物、它们之间的联系以及相互影响的方式。 尽管受到这些有影响人物的鼓舞,绝大多数的人工智能的学者并没有考虑到与之相重合 的哲学概念中本体论,而直接引入“本体论”这个术语来表示他们在知识工程中对领域世界 的“存在”研究,即对领域世界的概念性系统说明。这导致了人工智能和信息系统领域中使 用的“本体论”术语的含义的误解,其更倾向与逻辑理论或者逻辑语义学,而与世界的“存 在”离的更远。也有一些学者认为,这种定义信息系统中包含的实体对象及其属性、关系、 事件、过程的逻辑语义理论似乎更适合人工智能学科。但是,从另一方面看,正是因为缺乏 对外部世界的理解和描述才造成了许多问题。如果不把它们与常识世界关联,怎能使得那些 具有不同的概念模型但在语义上却重叠的信息系统协同工作? 这个术语的早期使用过程中,知识工程、概念模型和领域模型等应用领域都发展了相互 独立的本体论术语的概念含义,而本体论的应用也变的日益重要起来。 2 2 2 本体论的定义 到1 9 9 3 年为止,本体论这个术语在各个计算机学科领域中的应用已经非常的广泛。虽 然在这些领域也有了一些较为正式的定义,但美国s t a n f o r d 大学的知识系统实验室 ( k n o w l e d g es y s t e m sl a b o r a t o r y ) 的学者t o mg r u b e r 7 左1 9 9 3 年一篇论文m 中给出了第一个 的被广泛接受的定义:本体是对概念化的显式的解释说明。并作了如下解释:知识的形式化 7 尹奇棒:基于语义w e b 的信息表达与语义化过程研究浙江大学硕士学位论文 表达的基础是概念化( c o n c e p t u a l i z a t i o n ) :研究领域内的对象、概念和其它实体,以及它们 之间的关系。因此,概念化是我们对所描述世界的一种抽象、简化。每一个知识库、基于知 识库的信息系统和基于知识共享的智能a g e n t 都内含一个概念化的世界显式的或是隐 式的。本体论是对概念化世界的显式的解释说明。当领域知识以一种形式化的方式进行描述 的时候,所有被表示的对象的集合便构成我们讨论的世界。对象以及它们之间的关系是通过 知识表达语言的词汇来描述的。因此,我们可以通过定义一套知识表达的专门术语来定义一 个本体。在这样的一个本体中,我们所讨论世界中的实体、对象、关系以及过程等是以人可 以理解的文本进行描述的,并通过形式化的公理限制来规范这些术语的解释和使用。严格的 说,本体是一个逻辑理论的陈述性描述。” 但是,依照他的定义还是可以做出许多可能的解释。尽管g u a r i n o 后来对这个定义给出 了更明确的解释,甚至形式化的说明,“本体论”的含义还是需要更进一步的扩充。g u a r i n o 给出了另一个被广为接受的本体的定义。他在 f o r m a lo n t o l o g y 加i n f o r m a t i o ns y s t e m s ) ) ”o i 中,不但严格区分了概念化( c o n c e p t u a l i z a t i o n ) 和o n t o l o g y 的概念差别,而且以一种形式 化的方式给出它们的描述和两者之间的关系,为本体之间的集成和应用提供了一个很好的基 础。 概念化( c o n c e p t u a l i z a t i o n ) 已有明确的定义:一个结构 ,d 表示一个域,r 表 示域的关系的集合。而t o mg r u b e r 的o n t o l o g y 的定义也正是建立在概念化 ( c o n c e p t u a l i z a t i o n ) 的这个定义上。在和p i e r d a n i e l eg i a r e t t a 等人的讨论中,g u a r i n o 认为 为了使它有些更明确的意义,必须给概念化引入一个不同的、内在的概念,以将本体、预定 模型( i n t e n d e d m o d e ,) 和概念化( c o n c e p t u a l i z a t i o n ) 区别开来。 g e n e s e r e t h 和n i l s s o n 认为概念化( c o n c e p t u a l i z a t i o n ) 定义中存在的问题是定义描述只 涉及了领域d 中的普遍意义上的数学关系,或者说外延关系,而这些关系只描述了世界的 一个特定的状态:比如在描述块的时候只给出了桌子上块与块之间的布局关系。而我们需要 关注的却是这些布局关系的“独立于某一特定状态的内在含义”。比如,“a b o v e ”反映了块 之间的空间上的一类关系。因此,我们需要描述的是一种内在的关系,或者说是概念之间的 关系,而不是普遍意义上的数学关系。 一种标准的表示这种关系内在含义的方法就是把它定义为从所有可能世界到集合上的 函数。正如一般的函数关系是定义一个给定的定义域上,概念化的关系是定义在某一域空间 ( d o m a i n s p a c e ) 上。我们首先定义一个域空间:结构 ,d 指某一领域指这一 领域中世界的所有可能状态的集合,也可以称为可能世界。举个例子,d 如果指桌子上的一 堆块,则w 指这些块在空间上所有可能布局的状态的集合。给定一个域空间 ,我 们可以这样定义域空间 上的一个概念之间关系:n 元关系p ”为一个全函数( t o t a l f u n c t i o n ) 。h :w + 2 d ”,从矿映射到d 上的所有的 元关系的集合。而一个普通的9 集合e 。= ( p ( w ) iw w 包含了p 的一个容许的扩展( a d m i t t a b l e e x t e n s i o n s ) 。而一个概 念化( c o n c e p t u a l i z a t i o n ) 可以定义为一个有序的三元组c = ,其中孵是域空 间 上的概念化的关系集合。我们现在可以说一个概念化( c o n c e p t u a l i z a t i o n ) 就是指 某一域空间上的概念化关系的集合。 而前面提到的人工智能教材中的结构 的定义,因为描述了世界的一个特定的状 态,可以称为某一“世界结构”( w o r m s t r u c t u r e ) 。而一个概念化( c o n c e p t u a l i z a t i o n ) 包含 了许多这样的“世界结构”的,每一个这样的“世界结构”都可以称为概念化的“预定世界 8 尹奇榉:基于语义w e b 的信息表达与语义化过程研究浙江大学硕士学位论文 结构”( i n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年种子种苗培育活动行业研究报告及未来行业发展趋势预测
- 2025年母婴电器行业研究报告及未来行业发展趋势预测
- 2025年糖料种植行业研究报告及未来行业发展趋势预测
- 2025年皮革服装制造行业研究报告及未来行业发展趋势预测
- 2026届天津市和平区名校高一化学第一学期期中检测模拟试题含解析
- 用药护理测试题+答案
- 智算中心安全管理与访问控制方案
- 全脑血管造影术流程指导流程试卷教案
- 2025年弹簧钢行业研究报告及未来行业发展趋势预测
- 2025年荧光板行业研究报告及未来行业发展趋势预测
- 2025年四川省成都市高新区事业单位招聘考试综合类面试真题模拟试卷
- 2025年秋统编版语文二年级上册全册课件(课标版)
- 七下期末人教版数学试卷
- 2025年六安市裕安区石婆店镇公开招考村级后备干部8名笔试备考试题及答案解析
- 2025年事业单位考试题库及参考答案
- 2025年中小学学生校园安全学习教育基本知识试题库(附含答案)
- 公司领导财务知识培训课件
- 2025年农商行农业保险融资担保贷款合同模板
- 2025年全国中小学校党组织书记网络培训示范班在线考试题库及答案
- 部编版七年级历史上学期开学第一课
- 2025全国农业(水产)行业职业技能大赛(水生物病害防治员)选拔赛试题库(含答案)
评论
0/150
提交评论