(计算机应用技术专业论文)基于本体的语义检索技术研究(1).pdf_第1页
(计算机应用技术专业论文)基于本体的语义检索技术研究(1).pdf_第2页
(计算机应用技术专业论文)基于本体的语义检索技术研究(1).pdf_第3页
(计算机应用技术专业论文)基于本体的语义检索技术研究(1).pdf_第4页
(计算机应用技术专业论文)基于本体的语义检索技术研究(1).pdf_第5页
已阅读5页,还剩82页未读 继续免费阅读

(计算机应用技术专业论文)基于本体的语义检索技术研究(1).pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 信息检索技术在处理网上爆炸性增长的信息资源时显得尤为重要它已是许 多网上系统不可或缺的一项功能,但是目i i i 这种基于字符串匹配的关键字检索技 术,往往得不到让人满意的检索结果,无法满足用户的需求。 以目前的网上医药查询系统为例,用户希望通过检索能够找到相应症状的一 些信息,但总会返回完全无关、相关度不高或者遗漏了很多相关信息的结果! 推 出高质高效的检索技术已经成为全世界范围的研究重点和热点。 语义w e b 的提出和发展为语义检索的实现丌辟了一条崭新的思路。在信息检 索研究领域,语义检索涉及到众多概念和实体,如o n t o l o g y ,受控词表、语义 w e b 等。语义检索所包含的技术很多,故难以在本篇论文中面面俱到。本文在总 结语义w e b 和语义检索研究现状的基础上,首先研究了在语义w e b 环境下实现语 义检索的机理和相关支撑技术;然后着重研究了语义w e b 结构中的关键两层: o n t o l o g y 和语义w e b 描述语言o w l ,特别探讨了o n t o l o g y 的内涵和外延及 其在语义检索系统中所起到的作用,详细介绍了语义w e b 描述语占的结构和语 法:最后研究了惠普实验室开发的语义w e b 应用系统开发工具j e n a 以及语义检 索语言s p a r q l 在实现语义检索系统中的作用,并选择了“医药搜寻系统”作为 语义检索技术的应用对象,通过给计算机一种“医学知识”,然后在此基础上构 建一个实验检索系统,用于证明构建于本体上的检索方法和工具在查全率和查准 率上都将有质的飞跃。 本文的研究围绕着语义检索和语义w e b ,以浯义检索系统的实现为目标,对 相关的理论、方法和技术进行了充分的研究和探讨。 关键词:语义w e b :本体论;语义检索;医药本体;o w l a b s t r a c t i n f o r m a t i o nr e t r i e v a lt e c h n o l o g yi sp a r t i c u l a r l yc r i t i c a lw h e np r o c e s s i n gt h e e x p l o s i v e l yi n c r e a s e di n f o r m a t i o nr e s o u r c e i ti sn o w a l li n d i s p e n s a b l ef u n c t i o no f m a n yo n l i n es y s t e m s h o w e v e r , b a s e do ns t r i n gm a t c h i n g , t h ek e y w o r d sr e t r i e v a l t e c h n o l o g yi si n a d e q u a t eo fp r o c e s s i n gp o l y s e m o u sw o r d s ,s y n o n y m s ,h y p e m y m s , a n dh y p o n y m se t c ,w h i c hu s u a l l yf a i l st om e e tc l i e n t s d e m a n d s ac a s ei np o i n ti st h ep r e s e n tm e d i c a li n f o r m a t i o nr e t r i e v a ls y s t e m h o p i n gt o a c q u i r et h ei n f o r m a t i o no fc e r t a i ns y m p t o m s ,u s e r sc o m m o n l ye n du pw i t hi r r e l e v a n t o rm i s s i n gi n f o r m a t i o n t h e r e f o r e ,t oc r e a t ean e we f f i c i e n tr e t r i e v a lt e c h n o l o g yi s n o wt h ef o c u so fs t u d i e sa l lo v e rt h ew o r l d t h ep r o p o s a la n dd e v e l o p m e n to fs e m a n t i cw e bi san e wi n s p i r a t i o n s e m a n t i c r e t r i e v a lr e l a t e st oan u m b e ro fc o n c e p t sa n do b j e c t s ,s u c ha so n t o l o g y ,c o n t r o l l e d w o r dl i s t ,a n ds e m a n t i cw e be r e a ss e m a n t i cr e t r i e v a li n c l u d e sm a n yt e c h n o l o g i e s ,i t i si m p o s s i b l et oc o v e rt h e ma l li nt h i se s s a y f i r s t l y ,o nt h eb a s eo fs u m m a r i z i n gt h e c u r r e n tc o n d i t i o no fs e m a n t i cr e t r i e v a ls t u d i e s ,t h i se s s a yc o n c e n t r a t e so ns t u d y i n g t w oc r i t i c a lf a c t o r s :o n t o l o g ya n dw e b o n t o l o g yl a n g u a g e ( o w l ) ,w h i l es t r e s s i n go n t h ec o n n o t a t i o na n de x t e n s i o no fo n t o l o g y ,a sw e l la si t sf u n c t i o ni nt h es e m a n t i c r e t r i e v a ls y s t e m b e s i d e s ,t h ee s s a ye l a b o r a t e st h es t r u c t u r ea n dg r a m m a ro fo w l f u r t h e rm o r e ,i ta l s od e m o n s t r a t e st h ef u n c t i o n so ft h es e m a n t i c w e b d e v e l o p i n g s o f t w a r e - - - j e n aw h i c hw a sd e v e l o p e db yh pa n dw e bo n t o l o g yl a n g u a g e s p a r q li n c u r r e n ts e m a n t i cr e t r i e v a ls y s t e m i tc h o o s e sm e d i c a li n f o r m a t i o nr e t r i e v a ls y s t e ma s o b j e c t ,t o w h i c ht h es e m a n t i cs e a r c hi sa p p l i e d b yi n p u t t i n gc e r t a i nm e d i c a l k n o w l e d g et ot h ec o m p u t e ra n db u i l d i n ga l le x p e r i m e n t a lr e t r i e v a ls y s t e m ,i t s t o p r o v et h eq u a l i t a t i v ei n c r e a s eo ft h ep r e c i s i o nr a t i oa n dr e c a l lr a t i oo ft h er e t r i e v a l m e t h o da n dt o o lb u i l to no n t o l o g y s t u d y i n gi n f o r m a t i o nr e t r i e v a la n ds e m a n t i cw e b a n dr e l e v a n tt h e o r i e s ,m e t h o d s a n dt e c h n o l o g i e s ,t h ep u r p o s eo ft h ee s s a yi st h er e a l i z a t i o no ft h es e m a n t i cr e t r i e v a l s y s t e m k e y w o r d s :t h es e m a n t i cw e b ,o n t o l o g y , i n t e l l i g e n tq u e r y ,o n t o l o g ya b o u t m e d i c i n e 0 w l n 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究 成果。据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经 发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均已在 文中作了明确说明并表示谢意。 作者签名:盖陟日期:蚪 学位论文使用授权声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保 留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版。有权 将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有 权将学位论文的内容编入有关数据库进行检索。有权将学位论文的标题和摘要 二嚣柑:幽醐:碑斗醐:上肖f 。 第一亭0 i 吉 第一章:引言 随着网络的发展,基于网络的资源爆炸式出现,使得“信息检索”变成了一 个更加重要的问题。提高检索的质量、推出令人满意的检索技术成为了全世界范 围的研究重点和热点。许多研究者曾在当前的基于字符串匹配的关键词检索技术 上作了无数的努力,但是由于受以h t m l 为基石的万维网本身的局限,使这种 技术在提高查全率和查准率上很难再有更大的作为。那什么才是解决办法呢? 这 个困扰了人们很久的问题,在t i mb c r n e r s l e e 提出下一代因特网s e m 卸t i c w e b ( 语义网) 时有了转机。语义网的目标是为因特网上的信息提供具有计算机 可以理解的语义,它的发展和成熟,使得高效高质的语义检索成为可能。 1 1 研究背景 人们在信息检索领域的研究由来己久。自人类文明出现时起,知识便开始积 累,人们必须考虑如何有效的检索和使用这些长期积累下来的丰富知识。计算机 诞生以后,数据的管理、组织和利用逐渐从文件系统( f i l es y s t e m ) 阶段发展到 数据库系统( d a t a b a s es y s t e m ) 阶段。及至当前,因特网技术迅猛发展,网络信 息与知识不断膨胀,数据仓库、数据挖掘等技术方兴未艾。这些趋势无不昭示: 信息资源越来越丰富,信息量越来越大,并且仍将持续的爆炸性增长,所以,对 信息检索技术的研究日显重要信息检索日益成为信息社会中不可缺少的一 种工具手段。 1 1 1 问题的提出当前信息检索技术的困扰 自1 9 9 0 年,t i mb e r n e r s l e e 发明万维网到现在,力维网的发展可谓一日千里。 万维网功能的不断提升,使得网上办公、网上学习、网上购物以及网上看病等都 成为现实。信息检索技术在这种资源爆炸性增长的时代变得尤为重要,它已是这 些网上系统不可或缺的一项功能,但是,人们越来越发现目前系统的检索功能在 满足人们f j 益多样的需求时开始有些力不从心,其主要原因足在于今天这种信息 检索方法和技术上的缺陷。 目前,依据不同的划分标准,可将信息检索划分为几大类: 依据检索对象的不同,可以分为:文本检索和多媒体检索。文本检索足指基 丁文字的枪索,它是最早也足最常见的信息表现形式,在信息检索研究中占有基 础地位:多媒体检索的对象包括图像、动画、音频和视频等,今天,绝大多数多 媒体检索系统仍采取基于文本关键词( k e y w o r d ) 的搜索技术。 依据匹配方式的不同,可以分为:模糊匹配和精确匹配。模糊匹配足指无论 第一章0 i 占 检索词出现的位置怎么样,只要出现该词即可:精确匹配是指只有整个字段与检 索词相同j 算匹配。 依据截词方式的不同,可以分为:左截词、右截词、中间截词和左右截词。 左截词又称前方截词,要求后端一致;右截词是指自 f 方一致,允许检索词尾部有 一定的变化;中间截词要求前后方一致,允许检索词中间有若干变化形式,例如 w o m * n 就可以同时检索到含有w o m a n 和w o m e n 的结果;而左右截词是要求中白j 一致。 依据检索范围的不同,可以分为:全文检索和字段检索。全文检索( t e x t r e t r i e v a l ) 的特点是把用户的查找请求和全文中的每一个词进行比较,不考虑查 询请求与文本语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大大 降低了;字段检索只在某些信息点进行匹配( 例如:作者= “王如意”) ,它的性 能取决于所使用的标识字段的方法和用户对这种方法的理解,因此具有很大的局 限性,字段检索支持语义匹配的能力也较差。 此外,还有布尔逻辑检索、限制检索、嵌套检索和邻接检索等。但是从检索 思想的本质入手,可以看出上述的检索方法基本上都是基于串匹配方式的,它们 都属于关键字检索范畴。而关键字检索的弊端是每个用户都深有体会的,例如: 在用户输入关键字查找信息时,总会遗漏很多相关的信息,同时会返回大量完全 无关或者相关度不高的“副产品”,用户在找到所需材料之前,通常需要再进行 过滤工作。这种性能低下的检索功能会让用户感到非常的沮丧! 而阻止基于“串匹配”的关键词检索在检索性能上更上一层楼的主要原因 是:缺乏语义信息。这包括两个方面:一方面,检索的表达式通常缺乏语义信息。 如:用户的初衷是查找一种名字为“a p p l e ”的水果,当它输入检索词“a p p l e ”时, 计算机无法分辨用户要查找的是一种水果,还是一种电脑,还是一个人,这种情 况下,计算机会返回所有的信息,这就导致了大量的冗余信息。另一方面,被检 索的资源缺乏语义,此时,就算检索表达式被赋予了丰富的语义,计算机仍然无 法准确的定位相关信息。例如,表达式已经明确表明它要查找的是一种名为 “a p p l e ”的计算机,但是因为资源缺乏清晰的语义标注,计锋机无法理解这些资 源,它更不会知道“计算机”和“电脑”在很多情况下表达的意思相同,所以这 些“电脑”资源无法被命中,结果仍将不尽人意。 可以 兑,人们从来不曾停止过努力,它们尝试过各种办法,希望能够很好的 解决这些| u j 题,但是这些办法终冈没能从根本上解决问题,而很难有大的作为。 问题的症结到底何在,我们可以从当前万维网的设计上看出一二。力维网最 初的设计目的主要是面向用户直接阅读与处理,它没将信息的表现形式、内在结 构和衷达内容相分离。万维嘲的基石h t m l 语言过分的关注硅示外观,它所 第一章引苦 表达的页面信息和组织方式部缺乏计算机可读的语义信息,使得计算机很难理解 文档的内容,也很难抽取语义信息。这些都限制了计算机在信息检索中自动分析 处理的能力。 1 1 2 语义网对检索技术的作用 上述瓶颈问题的其中一种有效解决途径就是为互联网提供一个高层的、良定 义的组织方法,实现一个有序的互联网。为此力维网的缔造者t i mb e m e r s l e e 提出了s e m a n t i cw e b 的概念。语义w e b 作为下一代i n t e r a c t ,它的根本目的就是: 为互联网上的信息提供计算机可以理解的明确语义,从而实现网上信息资源在语 义层应用。利用语义网,我们能够将语义丰富的描述信息和资源关联起来,能够 超越机器可读阶段而发展到机器理解的阶段。构建于语义网上的检索技术能够真 正实现语义层的检索,在查全率和查准率这两项指标上达到质的飞跃。 1 2 研究现状 语义w e b 的概念一经提出,就引起学术界的广泛重视,并且在短短几年中 已经取得了较大的发展。相信,在学术界和工业界的共同努力下,语义w e b 会 逐步实现人们设想的、一个全新的w e b1 1 2 1 国外研究现状 国外对语义网的研究相对要早,已经有许多的应用和实验。其中,用于生产 语义数据的有:a d o b e 的可扩充元数据平台,w 3 p h o t o 等:关于语义网导航的有: f o a f n a u t 社交圈,f o a f c o r p 企业人物圈等;企业界的语义网:s u n 的“剑鱼”; 语义网与内容管理:b r a n d s o f t ;语义网日程表:s e m a v i e w ss h e r p a 等等。针 对语义网的研究和应用有很多,在本体方面的项目和语义网在信息查询方面的应 用比较著名的有: 一、重要的本体项目 1 o n t o k n o w l e d g e :是欧洲信息技术委员会i s t ( i n f o r m a t i o ns o c i e t y t e c h n o l o g i e s ) 计划中的一个项目,得到e u r o p e a n u n i o n 基会支持。该项目通过 在信息中应用本体来提高大璎分布式系统的知识管理水平。其技术要点足在各种 任务的信息集成中引入本体。它的成果o i l ( o n t o l o g yi n f e r e n c el a y e r ) 为本体 语言提供了一个层次结构视图。o n t o k n o w l e d g e 还丌发了许多工具,可以大大增 加基于本体方法的作用,使得知识管理更加方便,其中最成熟的是o il e d ,它是 一个本体的编辑、设计工具。h t t p :w w w o n t o k n o w l e d g e o r g 第一章引占 2 o n t o w e b :面向知识管理和电子商务的基于本体的信息交换,一个从2 0 0 1 年开始的欧盟支持的主题项目,全称是o n t o l o g y b a s e di n f o r m a t i o ne x c h a n g e f o rk n o w l e d g em a n a g e m e n ta n de l e c t r o n i cc o m m e r c e 。其目的是联系学术界和 工业界,加强各学科之自j 的联系,加强e u r o p e a n 对s e m a n t i cw e b 标准( r d f 。x m l ) 的影响。h t t p :w w w o n t o w e b o r g 3 c y c :c y c 是m i c r o e l e c t r o n i c sa n dc o m p u t e rt e c h n o l o g yc o r p o r a t i o n ( m c c ) i na u s t i n 的一个项目,通过对多个领域应用开发本体提供常识推理的基 础。c y c 中的知识用一阶逻辑语言c y c l ( 一阶逻辑的变种) 陈述式断言表示。知识 库包括简单断言、推理规则、推理控制规则,推理机可以从知识库中归纳出新的 断言,其中的本体被组织成模块化( m i c r o t h e o r i e s ) 的集合。w w w c y c c o m 4 t o v e :t o v e ( t o r o n t ov i r t u a l e n t e r p r i s e ,u n i v e r s i t yo ft o r o n t o ) 关注企业建模、并行工程和集成供应链管理。应用在一个计算机制造企业和一个 航空宇宙工程公司( a na e r o s p a c ee n g i n e e r i n gc o m p a n y ) 。一、它为企业中的所 有应用提供一个共享的词汇表;二、它用一阶逻辑为每个词汇定义尽可能精确非 模糊的语义:三、它用一套p r o l o g 公理实现语义,使它能自动对一些关于企业的 常识问题归纳出答案;它定义了符号系统对术语和概念进行图形化的表示。 w w w c i l u t o r o n t o c a t o v e o n t o t o c h t m l 5 e n t e r p r i s e :是和企业相关的术语和定义的集合,是英国政府为促进基 于知识的系统在企业建模中的应用。项目着重于管理革新和使用i t 的策略来帮助 管理方式的变革。目标是提供方法和计算机工具集帮助获取商业过程的各个方 面,通过分析比较各个方面来满足企业的需要。应用在u n i l e v e r ,i b m ,l l o y d 和a i m 。w w w a i a i e d a c u k 一e n t p r i s e e n t e r p r i s c 二、基于语义网的检索系统 1 o n t o s e e k :g u a r i n o 于1 9 9 9 年开始研发o n t o s e e k ,它是一个协作智能a g e n t 系统,着重于精确地、详细地描述黄页中的产品或服务,将一个本体驱动的内容 匹配机制与一个具有中等表达能力的表示形式化系统相结合,尝试如何与本体和 大辞典数据库相集成,为用户提供一个可以使用领域内任何词汇进行交互式语义 查询的系统。 2 ( o n t o ) 2 a g e n t :目的是为了帮助用户检索到所需要的删上已有的 o n t o l o g y ,主要采用了参照o n t o l o g y 。参照o n t o l o g y 是以w w w 上已有的o n t o l o g y 为对象建立起来的o n t o l o g y ,它保存有各类o n t o l o g y 的元数据。 3 o n t o b r o k e r :是o n t o p r i s e 开发组研发的,面向的足w w w 上的网页资源, 使用本体转换w e b 文档,向用户提供基于本体的回答服务,支持用户对知识的查 询,目的是帮助用户更好的检索到所需要的网页。它主要包括:查询引擎、信息 4 第一章- j i 言 引擎、推理引擎和数据库管理引擎。因蔓j o n t o b r o k e r 是基于f - l o g i c 开发的,在支 持o w l 上不是很好。 4 s k c :其目标是解决信息系统语义异构的问题,实现异构的自治系统之间 的互操作。该项目希望通过在o n t o l o g y 上建立一个代数系统,用这个代数系统来 实现各o n t o l o g y 之间的互操作,从而实现异构系统之间的互操作。 5 t a p :是为了能够让语义网通过一些简单易用的工具来将整个万维网变成 为巨大的分布式的数据库而设计。t a p 能将地方的、独立管理的知识库聚集起来, 并根据不同的应用进行重新组合或剪裁。 6 s e m a n t i cw e bs e a r c h :是由i n t e l l i d i m e n s i o n 开发的一个基于语义网的 搜索引擎,它可以很好地定位和搜集发布在语义网上的信息,它的用户可以是人, 也可以是计算机。对于人类用户,该站点提供了一个标准的搜索引擎界面,用户 可以在搜索栏中输入相应的描述信息,同时可以设定搜索类型。比如:你想要搜 索一个名为“j o h ns m i t h ”的人的信息,那么你可以限制搜索类型是( f o a f p e r s o n ) ,并且可以在文本框中输入:【f o a f :s u r n a m e 一s m i t h 【f o a f :f i r s t n a m e i - j o l m , 那么你就能获得非常精确的结果。对于计算机,此站点提供了一个具有类似功能 的w e bs e r v i c e 。智能软件代理将他们需要执行的任务进行准确描述后提交给 s e r v i c e ,然后s e r v i c e 以一种智能软件代理能够理解的形式,将精确匹配得到的 结果返回给代理。 7 s w o o g l e :语义网搜索引擎s w o o g l e 的威力在于可以像g o o g l e - - 样在互联 网上爬行,搜集各类m e t a 表示的信息。虽然s w o o g l e 现在所表现出来的技术还很 简单,但s w o o g l e 宣称,将来它不仅仅是一个o n t o l o g y 搜索引擎( 可以基于c l a s s 或s l o t 搜索) ,更重要的是一个o n t o l o g y 词典,汇总各种o n t o l o g y 后,进行 o n t o l o g y s 的匹配和融合,生成一个更完备和更多人公认的o n t o l o g y 。与r s s 类搜 索引擎或g o o g l e 不同的是,这类搜索引擎目前主要是面向开发者的,当然,不排 除将来会有更加友好直观的界面。 1 2 2 国内研究现状 我国对语义w e b 的研究具有以下几个特点:( 1 ) 近年束关于语义w e b 研究的论 文数量骤增,i 兑明语义w e b 作为未来互联网的发展趋势己引起了国内学术界的高 度匝视。( 2 ) 但论文的参考文献大部分为外文史献,表明我围语义w e b 的研究处于 起步阶段。( 3 ) 对语义w e b 的研究具有一定的层次性,从基本介绍到理论探讨,由 理论探讨到实际试验与应用,逐层递进。 国内研究语义网的一些著名专家学者是: 何克清博 j ,武汉大学软件【程研究所所长,目前t 要研究方向:语义匠联 第一章引击 网上的软构件工程,语义w e b 软构件,软件工程信息知识网格的基础研究,本 体元建模理论与方法,互操作性理论与测试方法、标准。 瞿裕忠,东南大学计算机科学与工程系教授:语义w e b 的关键技术研究, 国家自然科学基金项目。 吴朝晖博士,浙江大学计算机科学与技术学院教授:以语义模型与a j 体系 结构为研究主线,研究分布网络智能系统,重点研究语义网格的模型、平台,以 及中医药网络的智能应用。 诸葛海博士,中科院计算技术所研究员,国家9 7 3 “语义网格的基础理论、 模型与方法研究”项目首席科学家。他认为s e m a n t i cw e b 或者s e m a n t i cg r i d 的 研究分成三个步骤:首先是语义互联,就是将现有的w e b 利用类似本体的 t a x a n o m y 关联上语义;然后是规范组织,进入w e b 的资源不是随意的,是需要 规范约束;最后就是智能聚合,所谓推理或者问题解决模型之类的东西。 胡运发,复旦大学计算机与信息技术系教授,研究兴趣:语义w e b 、语义 w e bs e r v i c e s 、语义融合、o n t o l o g y 库、基于o n t o l o g y 库的语义推理、基于规 则引擎软件系统集成。 俞勇教授,上海交大电子信息与电气工程学院教授,它负责的a p e x 实验 室当前的主要研究内容包括:下一代搜索技术,本体工程的理论和技术,语义万 维网( s e m a n t i cw e b ) 等。 潘越博士,i b m 中国研究中心,目f i 的研究兴趣包括信息检索、自然语占 处理、知识的表示和推理等。 另外,还有许许多多的专家,像史忠植教授,北大的张铭教授、宋炜博士, 以及清华等一些高校的学者们,这里就不一一罗列,他们为国内的语义网研究都 做出了巨大的贡献。 1 3 论文的研究内容和各章节安排 在信息检索研究领域,语义检索涉及到众多概念和实体,如o n t o l o g y 、受控 词表等,语义w e b 的提出和发展为语义检索的实现开辟了一条崭新的思路。语 义检索所包含的技术很多,故难以在本篇论文中面面俱到,本文的目的是从基于 本体的检索手段入手,重点研究利用本体技术实现在医药搜寻系统中的语义检 索,并设计一个实验系统来证明它的优势。 本文在总结语义w e b 和语义枪索研究现状的基础,卜,首先研究了在语义w e b 环境下实现语义检索的机理和相关支撑技术:然后着重研究了语义w e b 结构中 的关键两层:o n t o l o g y 和语义w e b 描述语言o w l ,特别探讨了o n t o l o g y 的 内涵和外延及其在语义检索系统中所起剑的作用,详细介绍了语义w e b 描述语 言的结构和语法;最后研究了惠普实验宅丌发的语义w e b 应用系统丌发工具j e n a 6 第一章引言 以及语义检索语言s p a r q l 在实现语义检索系统中的作用,并尝试刀= 发了语义 检索实验系统。这些研究围绕着语义检索和语义w e b ,以语义检索系统的实现为 目标,对相关的理论、方法和技术进行了充分的研究和探讨。 论文的组织结构为: 第二章:语义w e b 简介。介绍语义w e b 概念的提出,它的体系结构,以及 语义w e b 的支撑技术。试图证明语义网以其严格的逻辑理论基础和标准化的技 术路径,正逐渐成为未来网络信息系统的一项支撑技术。 第三章:本体及其描述语占。探讨了本体的内涵和外延,介绍了本体的三种 分类,以及构建本体的准则和方法,给出了一款比较实用的本体构造工具 ( p r o t 6 9 6 1 ,将重点解释w 3 c 制定的本体描述语言o w l ,最后详细介绍医药本体 的设计和实现。 第四章:语义检索技术。介绍了语义网应用系统开发工具j e n a ,主要讲述 j e n a 对r d f 模型和o w l 推理的支持:并介绍了基于三元组的s p a r q l 查询语 一i g :lo 第五章:语义检索原型系统的设计和实现。从现有网上看病系统的缺陷入手, 讨论了这些系统存在的主要问题。为解决这些问题,提出了建立基于本体的语义 检索系统“医药搜寻”智能查询系统。给出了智能查询系统的结构图,实现 此系统的软硬件环境,以及该系统查询模块的具体实现过程和应用。最后,介绍 了一个查询实例,从中将得出:基于本体的语义检索优于基于字符串匹配的关键 字检索。 第六章:总结和展望。对全文作出总结,指出论文的主要创新点以及不足之 处,同时给出后续的研究方向。 7 第 二章语义w e b 简介 第二章:语义w e b 简介 语义w e b 是目前力维网的发展方向,它把来自任何网站、使用任何语言、 面向任何应用的数据联系起来,并且帮助人们从这些联系中提取知识。它的提出 给我们绘制了未来万维网的美好蓝图,引起了人们极大的兴趣,已成为全世界范 围的研究热点。虽然目的对语义w e b 的研究仍处于起步阶段,但是语义网的未 来是光明的。本章将从概念、体系结构和支撑技术三方面来阐述语义w e b ,试图 证明语义网以其严格的逻辑理论基础和标准化的技术路径,j 下逐渐成为未来网络 信息系统的一项支撑技术。 2 1 语义w e b 概念的提出 语义w e b 的概念是由万维网的奠基人t i mb e m e r s l e e 在1 9 9 8 年他的一篇题 为“s e m a n t i c w e br o a d m a p ”的文章中首次提出的。在文中,t i m 简单介绍了语 义网是什么。语义网是一个信息集散地,它包含了文档或文档的一部分,描述了 事物间的明显关系,且包含语义信息,不仅可以让人与人交流,而且可以使机器 能参与进来,并且帮助人类完成一些事情。在2 0 0 0 年1 2 月的x m l 2 0 0 0 会议上t i m 给出了语义w e b 的体系结构,并于2 0 0 1 年5 月在科学美国人杂志上发表了名 为“t h es e m a n t i cw e b ”的论文。从t i mb e m e r s l e e 对语义w e b 的介绍中我们可 以看出语义w e b 的一些基本特征:( 1 ) 语义w e b 不同于现在w w w ,现有的w w w 是面向文档而语义w e b , t 是面向文档所表示的数据;( 2 ) 语义w e b 将更利于计算 机“理解与处理”,并将具有一定的判断、推理能力。 当然,语义w e b 并非一个独立的w e b ,它的主要目的不是要完全代替现有的 w e b ,而是对当前的w w w 进行延伸,使得网络中所有信息都是具有语义的,便 于人和计算机之间交互与合作的。语义网到底是如何做到让计算机理解这些信息 的,我们可以从人对信息的理解过程中得到一些启发:人在交流时会使用词语或 者符号,这些词语和符号都对应专门的事物,人不可能直接在词语和事物间进行 映射,而是要借助“概念”这一桥梁,通过“概念”这一中间层,人能够迅速准 确地将渊语和符号对应到相应的事物。同样道理,光足给机器一些词语和符号, 很难让机器理解当中蕴含的语义知识,更别说推理了,语义网研究的侧重点就是 如何为机器添加概念知识,并且这种“知识”是全面地,凭借这些知识,机器能 够很好地理解信息,从而实现语义层上的智能应用。 我们町以从下面两个图中更直脱地了解语义w e b 是如何对当f i u w e b 进行扩腱 的。图2 1 描述的是当前的万维网,它的资源是根据u r i 来辨识的,资源都没有经 过分门别类,资源之间的链接是通过h r e f ,s l c 等h t m l 杯记来实现的,关于资源 和链接的语义信息微乎其微,用户需要根据卜下文的内容束拣出文档中的语义信 第二章语义w e b 简介 息。图2 2 展现的是语义网,它可以用u r ! 标识资源,也可以用空白节点来表示某 一特定范围内的资源,这些资源是可以扩充的,相互之间存在着语义关联;不同 的语义关联使用不同的类型,这些类型也是用u r i 标识的,同样可扩展,也存在 着相互联系;机器将获得很多可理解和处理的语义信息,用户也会拥有更加丰富 的经历。 i n k s t b r e s o u r c e 】 、t “、 li i n k s t b l i n k s t o r e s o u r c e 】( r e s o u r c e )( r e s o u r c e )( r e s o u r c e ;芝- 而”眺m i n k s l o r e s o u r c e l n k s t o i i n k 8 t b 曼:夕 :兰 l i n k s t o r e s o u r c e 图2 - 1 :当前的w e b 资源间的关系 图2 - 2 :语义w e b 中资源的关系 第,:章语义w e b 简介 语义w e b 描述信息的方式都足基于二元关系的,在通俗意义上我们称之为三 元式,也就是说语义网上的任何一个知识表达都是由三部分组成主语、谓 语和宾语。语义网通过绑定、组合等一系列方法来使简单的三元组具有丰富的 表达能力,能够表示很多复杂的知识。在设计语义网时,一般应遵循以下几个 原则:所有的资源都能用u r i 来标识;资源和链接可以有类型;部分、片断、不 完整的信息是被容许的;信息不必是绝对真的;能支持、反映信息的变化和演 化;最小设计原则。 2 2 语义w e b 的体系结构 t i mb e m e r sl e e 于2 0 0 0 年提出了著名的“分层蛋糕图表”,他将语义网分 成七个层次,其结构如图2 3 所示。该七层体系结构的功能自下而上逐渐增强。 在语义网七层结构中,x m l 、r d f 和o n t o l o g y 三层主要用于表示w e b 信息的语 义,因而是系统的核心和关键所在。此外,数字签名层贯穿三到六层,主要是用 来检测文档是否被篡改过,以证明其真实可靠性。下面将对各层的主要功能作一 下简单介绍。 l t r u s t l 1。j r r 1 瞰鼢 l p r o o f 8l ;r 上爿ll 譬 竺| i 洲i d s t s 、 撕o i 吲嘲削哪| | 囟g n a 岫| 嘴戮紫弋厂丽d f4 - 忑磊i ll幽粥酾援辨, : r 氏簟翻曩疆盯饿 ll 图2 - 3 :七层体系结构 2 2 1u n i c o d e 和u r i 首先要实现语义网,必须要先解决字符编码的标准格式和语义w e b 卜资源的 定位问题,所以这一层是语义w e b 的基础。 其中u n i c o d e 是一种编码格式,基于u n i c o d e 的系统允许使用6 5 0 0 0 个不同的 字符,这足以涵盖世界上所有语占的所有字母,外加数千种符号。所以采用统一 编码u n i c o d e 可以实现世界l 所有:卜要语言的混合,并n 可以同时进行检索,从 1 0 第一二章语义w e b 简介 而避免了不同类型字符集之问由于编码不同而造成存储、传递和使用上的混乱。 u r i ( u n i f o r mr e s o u r c ei d e n t i f i e r ) ,即统一资源描述符,它泛指所有以字符串 标识的网络资源,是u r l 和u r n 的超集。u r l 支持语义网上的概念或资源的精细 标识,保证了定位的唯一性,从而使精确信息检索成为可能。 2 2 2x m l + n s + x m l s c h e m a 该层负责从语法上表示数据的内容和结构,将网上资源信息的结构、内容与 表现形式进行分离,使其与其它基于x m l 的标准进行无缝集成。 x m l 作为一种资源描述语言,较好的解决了h t m l 无法表达数据内容的问 题。x m l 的最大优点在于它把文档的三要素独立开来,分别处理,使得数据存 储格式不受显示格式的制约。x m l 这种良好的可扩展性和灵活性,适合于表示 各种信息,因而被广泛接受,已被认为是未来w e b 上数据交换的标准。虽然如 此,从方便信息搜索的角度来看,仅有x m l 是不够的。 n s ( n a m es p a c e ) 即命名空间,是由u r i 索引来确定的。命名空间提供的这种 简单的方法可以将x m l 文档中元素和属性的字符描述与用u r i 确定的命名空间 联系起来。命名空自j 的u r i 索引可以用来判断一个字符描述是否属于一个给定的 命名空间,也可以判断两个不同的字符描述是否属于同一个命名空间。引入命名 空间的目的就是为了将同一事物的不同字符描述联系起来,以及避免不同的应用 使用同样的字符描述不同的事物。 x m ls c h e m a 拥有比d t d ( d o c u m e n td a t at y p e ) 更强大的功能。它对d t d 进行了扩充,引入了数据类型、命名空间;它直接借助了x m l 的语法规则,使 x m l 从内到外达到了完美的统一;它提供了一套完整的约束机制,能更精确和 有效地描述x m l 文档结构。 2 2 3r d f + r d fs c h e m a 该层通过r d f 的特性,提供数据模型,统一了资源的描述方式,解决语义 w e b 的语义问题,同时他也为本体层提供本体描述语言。 r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 资源描述框架,是一种用来描述互联 网资源信息的标记语言,尤其适合描述元数掘以及元数拆:与元数据之间的关系。 r d f 利用u r i s 末标识资源,利用简单的属性和属性值束描述资源之间的关系。它 提供了表达信息的通用框架,使得信息在应用程序之问可以交换,并且保持原来 的语义。r d f 独立于任何语言,适用于任何领域,是处理元数据的基础。 第二章语义w e b 简介 r d f 和x m l 之间的关系一直是一个容易混淆的问题,x m l 提供明确的语 法定义,r d f 解决如何采用x m l 标准语法无二义性地描述资源对象的问题。如 果把x m l 看作为一种标准化的元数据语法规范的话,那么r d f 就可以看作为 一种标准化的元数据语义描述规范。 我们知道r d f 本身对语法是无知的,它只是提供了一个领域无关的机制来 描述元数据。r d fs c h e m a 即r d f 词汇描述语占,是r d f 的类型系统。它提供 了一种机制来定义领域相关的属性以及用于使用这些属性的资源类,从而增强了 r d f 对资源的描述能力。 r d f s 与r d f 的关系和x m l s c h e m a 与x m l 的关系大不一样。前面已经介 绍过,x m l s c h e m a 是用来定义x m l 文档的结构和约束文档的内容的。而r d f s c h e m a 则是对r d f 的一种继承基础上的补充,使得r d f 在描述能力上有所提 升。 2 2 4o n t o l o g yv o c a b u l a r y 语义信息的交流必须以共同的理解为i j 提,否则双方就会发生误解或不理 解。在语义w e b 中,x m l 和r d f 都无法处理:“同一概念有多种词汇表示;同

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论