(计算机软件与理论专业论文)基于领域本体信息检索的研究及其实现.pdf_第1页
(计算机软件与理论专业论文)基于领域本体信息检索的研究及其实现.pdf_第2页
(计算机软件与理论专业论文)基于领域本体信息检索的研究及其实现.pdf_第3页
(计算机软件与理论专业论文)基于领域本体信息检索的研究及其实现.pdf_第4页
(计算机软件与理论专业论文)基于领域本体信息检索的研究及其实现.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)基于领域本体信息检索的研究及其实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 基于关键词的信息检索系统首先把原始的文本信息中的关键词建立倒排索引。当用 户输入查询关键词后,检索系统把用户输入的关键词从倒排索引库中查询,返回包含关 键词的文档。基于关键词的信息检索系统只是根据关键词匹配,查全率和查准率都比较 低。因此,目前基于专业领域的语义检索开始出现,这些语义检索系统是根据领域本体 把原始文本信息标注成为r d f 数据格式。当用户查询时,检索系统把用户查询的关键 词也转换成r d f 格式,然后去r d f 数据库中匹配。目前r d f 数据的存储方式有关系 数据库、s e s a m e 、r d f d b 和r e d l a n d 。 本论文的主要工作是实现了倒排索引结构,并测试了这种索引结构的检索效率;提 出了用b + 树结构存储r d f 数据,通过实验与关系数据库存储方式和r d f 数据文件查 找方式进行了比较;实现了一个小型的基于关键词的信息检索系统,构建一个小型的玉 米本体,并利用这个本体扩展信息检索系统。 通过本论文的工作得出结论:倒排索引结构适合基于关键词的信息检索;b + 树格 式的r d f 数据存储格式的检索效率比文件存储方式件检索效率高,比关系数据库存储 格式的检索效率高;利用本体对基于关键词的信息检索系统进行扩展,可以提高信息检 索系统的查全率,同时也可以用作导航,指导用户检索。 关键字:索引;本体;信息检索 a b s t r a c t i h ei n f o r m a t i o nr e t r i e v a ls y s t e mb a s e do nk e y w o r d se s t a b l i s h st h ek e y w o r d so ft h e o r i g i n a li n f o r m a t i o ni n v e r t e di n d e x w h e nu s e r se n t e raq u e r yk e y w o r d s ,t h ei n f o r m a t i o n r e t r i e v a ls y s t e ms e a r c ht h ek e y w o r d st h eu s e re n t e r sf r o mt h ei n v e r t e di n d e xl i b r a r y , t h e n d o c u m e n t st h a tc o n t a i nk e y w o r d s t h ei n f o r m a t i o nr e t r i e v a ls y s t e mb a s e do nk e y w o r d so n l y m a t c ht h ek e y w o r d sf r o mt h et h ei n v e r t e di n d e xl i b r a r y , t h er e t r i e v a lr e c a l la n dp r e c i s i o nr a t e s a r er e l a t i v e l yl o w s o ,n o wt h es e m a n t i cr e t r i e v a ls y s t e mi ns o m ef i e l de m e r g e t h es e m a n t i c r e t r i e v a ls y s t e mi sb a s e do nd o m a i no n t o l o g y t h es y s t e me m p l o y st h ed o m a i no n t o l o g yl a b e l t h eo r i g i n a lt e x ti n f o r m a t i o nt h er d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) d a t af o r m a t w h e na u s e rs e a r c hs o m e t h i n g ,t h es e m a n t i cr e t r i e v a ls y s t e mc o n v e r tt h ek e y w o r d st h eu s e re n t e rr d f f o r m a t ,a n dt h e nm a t c hi ti nt h er d fd a t a b a s e c u r r e n t l y , t h ew a yo ft h er d fd a t as t o r a g e i n c l u d e sr e l a t i o n a ld a t a b a s e s ,s e s a m e ,i m f d ba n dr e d l a n d t h j sp a p e rr e a l i z et h et h ei n v e r t e di n d e xs t r u c t u r e ,a n dt e s ti t sr e t r i e v a le f f i c i e n c y e m p l o y b + t r e es t r u c t u r es t o r er d fd a t a a n de m p l o ye x p e r i m e n t c o m p a r et h er e t r i e v a le f f i c i e n c y w i t hs t o r i n gr d fd a t ai nr e l a t i o n a ld a t a b a s ea n di nr d fd a t af i l e s r e a l i z eai n f o r m a t i o n r e t r i e v a ls y s t e mb a s e do nk e y w o r d s ,b u i l das m a l l o n t o l o g ya b o u tm a i z e ,a n de m p l o yt h i s o n t o l o g ye x t e n dt h ei n f o r m a t i o nr e t r i e v a ls y s t e m t h r o u g he x p e r i m e n t s ,t h i sp a p e rf i n dt h e s er e s u l t f i r s t ,t h ei n v e r t e di n d e xs t r u c t u r es u i t t h ei n f o r m a t i o nr e t r i e v a ls y s t e m s e c o n d mt i m es e a r c hr d fd a t as t o r i n gi nb + t r e ei sm u c h s m a l l e rt h a nt h a ts t o r i n gi nt h er d ff i l e s ,a n dal i t t l es m a l l e rt h a nt h a ts t o r i n gi nt h e r e l a t i o n a ld a t a b a s e l a s t e m p l o y i n gt h eo n t o l o g ye x t e n dt h ei n f o r m a t i o nr e t r i e v a ls y s t e mc a n i n c r e a s et h er e c a l la n da l s oc a nb eu s e df o rn a v i g a t i o n ,t h eo n t o l o g yg u i d et h eu s e rt or e t r i e v e t h ei n f 0 1 t n a t i o n k e yw o r d s :i n d e x ;o n t o l o g y i n f o r m a t i o nr e t r i e v a l i l 独创性声明 本人郑重声明:所提交的学位论文是本人在导师指导下独立进行研究工作所取 得的成果。据我所知,除了特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写过的研究成果。对本人的研究做出重要贡献的个人和集体,均已在文 中作了明确的说明。本声明的法律结果由本人承担。 学位论文作者签名:日期:型2 1 :垒:王 学位论文使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定,即: 东;i l ! j i t i 范大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版, 允许论文被查阅和借阅。本人授权东;i l ! i t i 范大学可以将学位论文的全部或部分内容 编入有关数据库进行检索,可以采用影印、缩印或其它复制手段保存、汇编本学位 论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 日期: 学位论文作者毕业后去向: 工作单位: 通讯地址: 指导教师签名:z 窆型边:垫: e l 期:座笾z - 左l 纱 电话: 邮编: 东北师范大学硕士学位论文 第1 章绪论 1 1研究背景 自从t i mb e m e r s l e e 于1 9 9 0 年发明万维网以来,人们开始使用互联网技术进行信 息交流和共享。经过十多年的飞速发展,互联网已经成为一个巨大的,分布广泛的,全 球的信息服务中心,越来越多的机构,团体和个人在互联网上发布信息,查找消息。互 联网的信息量以几何级数的速度增长,互联网已经成为一个巨大的全球化信息资源库, 这使得用户发现查找所需要的信息变得异常困难。互联网上的资源又有固有的特点,他 们虽然资源丰富,内容多样化,但表现形式过于多样化。信息的组织局部有序,但整体 无序。正是由于这些特点,人们想要找到自己想要的数据犹如大海捞针一般,这样就造 成日益严重的“信息过载“和”信息迷航“的问题。在这种情况下,如果有效地检索互 联网上的信息资源成为一个重要的研究课题。 于是,国内出现了一些像百度,雅虎之类的基于关键字的搜索引擎。它的使用方法 是,用户提出几个反映文本主题的词汇,然后系统将这些词汇与索引数据中的预存的文 本关键字进行匹配,两者相符就被选出来。然而这种搜索方法有很大的弊端,词汇间的 同义性和单个词汇的岐义性会造成搜索结果的很大偏差。检索者的知识背景,语言习惯 不同,他们会对同一概念用不同词汇表达。比如,玉米又称苞米,苞谷,玉蜀黍等。使 用不同的关键词搜索,返回的结果不同。 尽管搜索系统在排序上做了很多优化,但现有的户联网技术没有对网络资源的含义 进行描述,它在处理信息时,只是按u r i 进行信息的定位,而对信息的内容并没有更多 的描述。而用户所关心的正是用信息的内容,也就是网页上文字的含义。所以搜索引擎 的优化并不能带来最佳的结果。2 0 0 0 年,在x m l 世界大会上,t i mb e m e r s l e e 又提出 了语义w e b 的概念。也就是说网络的资源带有一定含义,使计算机和人可以协同工作。 于是,可以将语义w e b 用于检索过程。 目前的检索过程中的一个重要步骤就是索引过程。索引的目的是为了提高搜索速 度。系统首先把网络的文本资源进行语义标注,使之带有一定语义。标注好的文档是 r d f 格式的实例文件。存储和查询这些实例文件成为了一个重要的任务。当前r d f 实 例文件的存储和查询的工具有j e n a 2 、s e s a m e 、r d f d b 和r e d l a n d 等等。他们都是存储 和查询r d f 实例文件的开源工具。 1 2 研究意义 现有的检索系统不能搜索同义词。比如“电脑 和“计算机 本来是同一事物,但 检索系统还只是用关键字去索引数据库中匹配,因此搜索结果有很大偏差。如果在基于 关键字的搜索引擎中加入本体作为指导,就会完善检索系统。比如,可以在本体中把“电 l 东北师范大学硕士学位论文 脑”和“计算机 定义为等价类。当用户查找其中一个时,把等价类中的所有类都按关 键字去查找。这样就解决了同义词检索问题。同时本体也可以作为基于关键字检索系统 的导航,它可以指导用户搜索上位信息,下位信息。这样就对目前的关键字检索系统的 搜索结果进行了优化。 语义检索是检索系统发展的一个趋势,虽然目前并没有类似百度这样的成品系统出 现。只是因为本体的创建,学习和语义标注问题还没有完全自动化。但是基于领域本体 的语义检索系统已经出现了很多,比如农业领域的一些语义检索系统。这些语义检索系 统中的一个重要步骤就是r d f 文件的存储和查询。很多检索系统都是通过使用j e n a , 把r d f 实例文件存入m y s q l 数据库中,并没有建立索引,它只是利用了m y s q l 数 据库的优化,这样的查询速度并不乐观,因此对r d f 实例文件建立索引,提高查询速度 也成为一个重要的任务。 1 3 本文研究内容和论文组织结构 本文在前人研究的基础上,充分利用已有的工具,主要做以下几个方面的研究。 ( 1 ) 提出一种对r d f 数据建索引的算法,并通过实验,对索引检索、文件检索和 m y s q l 数据库检索的效率进行了比较。 ( 2 ) 建立一个小型的玉米本体,实现一个小型的基于关键词检索系统,利用这个 玉米本体扩展了检索结果。 ( 3 ) 实现倒排索引技术,检验其检索效率。 本文共分五个章节,本论文的组织结构如下: 第1 章介绍信息检索系统的背景知识、研究意义和研究内容,同时提出本文的组 织结构。 第2 章介绍相关的理论与技术,包括本体的综述,r d f 介绍,j e n a 开发包的介绍, 信息检索的工作原理。 第3 章介绍关键字检索系统的倒排索引技术,介绍基于领域本体的语义检索系统 的流程,提出一种对r d f 实例文件建立索引的算法,然后与文件查询和关系数据库查询 结果进行比较。 第4 章实现第3 章提出的基于关键词索引的结构和r d f 数据的索引结构,并分析 算法的结果。实验证明倒排索引结构比较适用于基于关键词的检索系统,本文提出的b + 树索引结构的检索效率比在原文件中的检索和关系数据库检索效率要高。 第5 章实现一个小型的基于关键词检索系统,同时构建一个小型的玉米本体。利 用这个玉米本体扩展了检索结果。结果发现本体可以提高基于关键词检索系统的查全 率,并且本体也可以指导基于关键词系统的检索。 第6 章对全文工作作出了总结,并对本文的研究方向作出展望。 2 东北师范大学硕士学位论文 第2 章相关理论和技术 2 1本体 2 1 1 本体的定义 本体最早是哲学上的一个范畴,本体是客观存在的一个系统的解释或说明,关心的 是客观现实的抽象本质。随着人工智能的发展,本体又被给予新的定义。1 9 9 1 年n e c h e s 等人最早给出本体在人工智能界的定义:“给出构成相关领域词汇的基本术语和关系, 以及利用这些术语和关系构成规定这些词汇外延的定义”。1 9 9 3 年,g r u b e r 把本体定义 为“概念模型的明确的规范说明“。1 9 9 7 年,b o r s t 给出本体的进一步完善的定义“共 享概念模型的形式化规范说明”。 后来,s t u d e r 等人s t u b e r 等对上述两个定义进行了深入的研究,认为本体是共享概 念模型的明确的形式化规范说明。这包含4 层含义:概念模型( c o n c e p t u a l i z a t i o n ) 、明 确( e x p l i c i t ) 、形式化( f o r m a l ) 和共享( s h a r e ) 。“概念模型”指通过抽象出客观世界中 一些现象( p h e n o m e n o n ) 的相关概念而得到的模型,其表示的含义独立于具体的环境状 态。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化指本体 是计算机可读的( 即能被计算机处理) 。“共享 指本体中体现的是共同认可的知识,反 映的是相关领域中公认的概念集,即本体针对的是团体而非个体的共识。本体的目标是 捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的概念, 并从不同层次的形式化模式上给出这些概念( 术语) 和概念间相互关系的明确定义。 2 1 2 本体的建模元语 p e r e z 等人用分类法组织了本体,归纳出5 个基本的建模元语( m o d e l i n gp r i m i t i v e s ) 。 这些元语分别为:类( c l a s s ) 、关系( r e l a t i o n s ) 、函数( f u n c t i o n s ) 、公理( a x i o m s ) 和实例 ( i n s t a n c e s ) 。 通常把类( c l a s s e s ) 也称为概念( c o n c e p t s ) ,它可以指任何事务,比如工作描述、 功能、行为、策略和推理过程。从语义上讲,它表示的是对象的集合,其定义一般采用 框架( f r a m e ) 结构,包括概念的名称,与其他概念之间的关系的集合,以及用自然语 言对概念的描述。 关系是指在领域中概念之间的相互作用,形式上定义为n 维笛卡尔积的子集:r : c l x c 2 c n 。如子类关系,父类关系等。在语义上关系对应于对象元组的集合。 函数是一类特殊的关系。该关系的前n - 1 个元素可以唯一决定第n 个元素。形式化 的定义为f :c l c 2 x c n 1 _ c n 。如m o t h e r - o f 就是一个函数,m o t h e r - o f ( x ,y ) 表示y 是x 的母亲。 3 东北师范大学硕士学位论文 公理代表永真断言,如概念乙属于概念甲的范围。 实例代表元素。从语义上讲实例代表的就是对象。 另外,从语义上讲,基本的关系有4 种: p a r t o f 关系,表达概念之间的部分与整体的关系。比如在本文中玉米虫害本体中的 土壤概念由棕壤、灰棕壤、白浆土、黑土、黑钙土、淡黑钙土、草甸土、风沙土和盐碱 土等概念组成。 n d o f 关系,表达概念之间的继承关系,类似于面向对象中的父类与子类之间的 关系。比如,特用玉米中的甜玉米、糯玉米、爆裂玉米、高油玉米和优质蛋白玉米等概 念是玉米的一个子类。 i n s t a n c e o f 关系,表达概念的实例与概念之间的关系,类似于面向对象中的对象和 类之间的关系。 a t t r i b u t e o f , 表达某概念是另一个概念的属性。比如“发病部位”是玉米的属性,它的 属性值可能是叶片,叶鞘,苞叶等。 在实际建模过程中,概念之间的关系不限于上面列出的4 种基本关系,可以根据领 域的具体情况定义相应的关系。 2 1 3 本体描述语言 本体描述语言,又称为构建语言或标记语言。在具体的应用中,本体的表示方式可 以多种多样,主要可分为4 大类:非形式化、半非形式化、半形式化、形式化语言。 可以用自然语言来描述本体,也可以用框架、语义网络或逻辑语言等来描述本体。作为 表示本体的语言工具,应具有如下的基本功能: ( 1 ) 为本体的构建提供建模元语( m o d e l i n gp r i m i t i v e s ) ; ( 2 ) 为本体从自然语言的表示格式转化为机器可读的逻辑表达格式提供标引工具; ( 3 ) 为本体在不同系统之间的导入和输出提供标准的机读格式; ( 4 ) 形式化语言表示,利用机器可读的形式化表示语言表示本体,可以被计算机存 储、加工、利用,或在不同的系统之间进行互操作。 目前,w 3 c 推荐的与本体有关的标准有3 个,它们分别是x m l 、r d f r d f s 、o w l 。 o w l 语言是一个定义和示例w e b 本体的语言,是r d f 的扩展,它既是w e b 标识 语言,又是本体描述语言,在w e b 上发布和共享本体。和x m ls c h e m a 相比,o w l 语 言是知识表示,不是信息表示格式;和r d f s 相比,o w l 不仅可以用更复杂的方法描 述类而且扩展了r d f s 属性,允许表示属性的t r a n s i t i v e ,s y m m e t r i c 及f u n c t i o n a l 性质,表 达了更强的概念语义信息,支持描述逻辑推理。o w l 语言提供了三种表示能力不同的 子语言o w ll i t e 、o w ld l 、o w lf u l l ,分别满足不同组织团体和用户。 o w ll i t e 是表达能力最弱的子语言,提供了类分层的能力和简单的约束功能。它 支持基数约束,但只容许基数值为o 或1 。因为表达能力较弱,为o w ll i t e 开发支持 工具要比其他两个子语言容易一些。o w ld l ( d l 表示描述逻辑) 在保持计算完整性( 所 有的结论可以保证计算出来) 和可判定性( 所有的计算在有限时间内结束) 的前提下,提供 4 东北师范大学硕士学位论文 了尽可能大的表达能力。o w ld l 包含了o w l 的全部语言构造成分,但它们的使用受 到一些限制( 如一个类可以是许多类的子类,但不能是另一个类的实例) 。描述逻辑是 o w l 的形式化基础,o w ld l 提供了描述逻辑的推理功能。o w lf u l l 包含o w l 的全 部语言构造成分并取消了o w l d l 中的限制。在o w l f u l l 中,一个类可以看成是个体 的集合,也可以看成是一个个体。由于o w lf u l l 取消了o w ld l 中的保证可计算性的 某些限制,因此不存在完整的推理算法支持o w lf u l l 的全部特性。 下面介绍本文使用到的部分o w l 语言语法规则。 1 ) o w l l i t e 中的r d f s 特性 o w ll i t e 具有与r d f 和r d fs c h e m a 最大的兼容性。o w ll i t e 中的: a 、o w l :c l a s s ( 类) ,o w l :t h i n g ;o w l :t 7 米病都表示一个类,或者说是一个概念。 b 、个体( i n d i v i d u a l ) :类的实例。 c 、数值( d a t a v a l u e ) :数据类型的值空间中的元素。 d 、r d f :p r o p e r t y ( 属性) ;包括o w l :o b j e c t p r o p e r t y 对象属性,它的定义域和值域都 是个体;o w l :d a t a t y p e p r o p e r t y 数据属性,它的定义域是个体,值域是数值常量。 e 、r d f s :s u b c l a s s o f i 用来定义一个类是另一类的子类。比如“玉米病害”是“玉米病” 的一个子类。 f 、r d f s :s u b p r o p e r t y o f ;用来定义一个属性为另一个属性的子属性。 g 、r d f s :d o m a i n ;r d f s :r a n g e ;用来指明一个类和个体的定义域和值域。比如“杀 害”属性,它的定义域是“农药”,值域是“害虫”。 2 ) o w ll i t e 中的等价和不等价特性 a 、e q u i v a l e n t c l a s s :两个类被声明为等价,则他们拥有相同的实例,其表示方法为: b 、e q u i v a l e n t p r o p e r t y - 两个属性也可以被声明为等价; c 、s a m e a s ;两个个体也可以被声明为相同,在o w lf u l l 中也可以用于两个类是等 ,并且类也可以为实例。 d 、d i f f e r e n t f r o m :一个个体可以被声明为与其他的个体不同; e 、a l l d i f f e r e n t :在一个a l l d i f f e r e n t 陈述中,我们可以指出一定数量的各个两两不 同。 除此之外,o w l 还有很多其他功能,比如它可以限制类的取值范围,枚举类,以及 属性特性的描述等等。 2 1 4 本体的构造工具 随着本体的研究不断研究深入,产生了很多本体构建工具。其中有很多可以从网上 免费下载使用。本文也介绍几款本体构建工具。 o n t o e d i 5 东北师范大学硕士学位论文 o n t o e d i t 是德国o n t o p r i s e 公司丌发的本体构建工具。它提供了一种本体系统的工 程环境,是分层构建本体系统的工作平台。它支持推理的多重继承性,系统的基本公理 有不相交的概念( d i s j o i n tc o n c e p t s ) 、对称性关系( s y m m e t r i cr e l a t i o n s ) 和传递性关系 ( t r a n s i t i v er e l a t i o n s ) 。输入格式和输出格式均支持r d f 、d a m l + o i l 、x m l 和l o g i c 。 使用的推理引擎是o n t o b r o k e r 。目前o n t o e d i t 提供一个可以免费下载的,最多可以容纳 5 0 个概念的试用版本。 o n t o e d i t 为用户提供了众多的便于用户编辑本体的插件。但遗憾的是,利用o n t o e d i t 进行本体编辑时,系统所试用的语言现在仅限于英语、德语和法语。中文用户想利用 o n t o e d i t 作为本体开发环境会出现语言编码上的障碍。 p r o t e g e3 3 p r o t 6 9 6 是由美国斯坦福大学医学院开发研制,目前的最新版本是p r o t 6 9 6 3 3 。p r o t e g e 3 3 的开发环境是j a v as t a n d a l o n ea p p l i c a t i o n 和j a v ap l u g i na r c h i t e c t u r e 。p r o t e g e3 3 在类 和属性的设置上具有o k b c 的兼容性。公理的格式符合k i f 和p a l ( t h ep r o t e g ea x i o m l a n g u a g e ) 语言。知识获取的形式是自动生成并抓取实例。本体合并工具是插件 p r o t e g e p r o m p t 。输入和输出的格式支持:r d f ( s ) 、o i l 、x m l 和o w l 。 p r o t 6 9 6 的风格和普通w i n d o w 应用程序风格一致,很容易试用。在p r o t 6 9 6 编辑器 中,本体结构以树形的层次目录结构显示,用户可以通过点击相应项来编辑或增加类、 子类、属性、实例等本体元素,另外,用户可以不用考虑具体的本体描述语言,而在概 念层次上设计领域本体模型。 2 2r d f 2 2 1 介绍 资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) 是一种表示万维网资源信息的语言。 r d f 适用于被信息需要被应用程序处理的场合,而不是仅仅展示给人看。r d f 提供一 个表达此类信息的共同框架,以致应用程序之间交换信息时不丢失信息,因此r d f 文 件被创建后,很方便于应用程序的使用。 r d f 是基于用统一资源标识符( u n i f o r mr e s o u r c ei d e n t i f i e r s ) 识别事物的思想,它 用属性和属性的值来描述资源。这使r d f 利用图的节点和弧来表示资源,资源的属性 和资源的属性值。为了说明的更具体一点,我们看下面的一个例子。 假设有有一组陈述,有一个可以用h t t p :w w w w 3 o r g p e o p l e e m c o n t a c t # m e 识别的 人,他的名字是e r i cm i l l e r ,他的e m a i l 地址是e m w 3 o r g ,他的头衔是d r 。这组声明 可以表示成r d f 图,如图2 1 所示。 6 东北师范大学硕士学位论文 ”h t t p :w w w w 3 o r g 2 0 0 0 l o s w a p p i n v c o n t a c t # p e f s o r t w 3 o r g 肛9 9 筋0 2 j f 2 2 一r ( f f s y n t a x n s # t y p e m a = l t o :e m w 3 。o r g t w 镣, w 、w 3 o _ g t 2 0 0 0 l l o s w a p l 馨m 脚t a c 摊f s 。n a l t i t l e 图2 1 :一个描述e rich ii lo r 的r d f 图 图2 一i 向我们展示了辩j 统一资源标识符( u r i ) 来表示: 个体:比如e r i ch i l l e r ,用h t t p :删w w 3 o r g p e o p l e e h c o n t a c t # m e 表示。 事物种类:比如人类,用h t t p :w w 。w 3 o r g 2 0 0 0 l o s w a p p i m c o n t a c t # p e r s o n 表示。 事物的属性:比如电子邮件,它用h t t p :删w 3 o r g 2 0 0 0 l o s w a p p i m c o n t a c t # m a i l b o x 表示。 属性值:比如m a i l t o :e r a w 3 o r g 是属性m a il b o x 的值。 r d f 还提供基下x m l 的语法格式米记录和交换这些r d f 圈信息。下面的d 1 l 代码就是记录的图 2 1 。 基于r d f x m l 的语法描述e ri cm il l e r e r i cm i l l e r d r 啕r d f :r d f 从这段r d f x m l 代码中可以看出,r d f x m l 也可以包含u r i s ,也可以包含像 m a i l b o x 和f u l l n a m e 的属性,这些属性值分别是e m w 3 o r g 和e r i cm i l l e r 。 7 东北师范大学硕士学位论文 类似于h t m l ,r d f x m l 也是机器可处理的。它利用u r i s 通过网络来链接信息。 但是,和传统的超文本不同的是,r d fu r i s 可以指代任何可识别的事物,包括那些不 能直接从网络中获取的事物,比如e r i cm i l l e r 这个人。结果在于r d f 不仅可以描述网 页,还可以描述汽车,商业,人,新闻事件等等。并且r d f 属性也有u r i s ,可以精确 的识别这些有联系的条目的关系。 2 2 2r d f 资源陈述 ( 一)基本概念 假若试图表示一个名叫j o h ns m i t h 的人创建了一个特定的网页的语句。直接用英语 这样的自然语言表达可以如下: h t t p :w w w e x a m p l e o r g i n d e x h t m lh a sac r e a t o rw h o s ev a l u ei sj o h ns m i t h 为了描述事物的属性,这类语句需要描述和识别下列事物 a ) 陈述中所描述的事物( 在这个例子中是一个网页 h t t p :w w w e x a m p l e o 叫i n d e x h t m l ) b ) 所描述事物的某个特定属性( 在这个例子中的属性是c r e a t o r ) c ) 属性的值( 在这个例子里属性c r e a t o r 的值是j o h ns m i t h ) 在这个陈述中,网页用统一资源定位符( u n i f o r mr e s o u r c el o c a t o r ) 来表示,用单 词“c r e a t o r 表示属性,用两个单词“j o h ns m i t h 表示属性值,它代表一个人。 这个网页的其他属性可以通过相同形式的英语陈述来描述。使用u r l 表示网页, 用单词( 或其他短语) 来表示属性和属性值。比如,这个网页的创建同期,网页的语言, 这些都可以用额外的陈述来描述: h t t p :w w w e x a m p l e o r g i n d e x h t m lh a sac r e a t i o n - d a t ew h o s ev a l u ei sa u g u s t16 ,19 9 9 h t t p :w w w e x a m p l e o r g i n d e x h t m lh a sal a n g u a g ew h o s ev a l u ei se n g l i s h r d f 就是基于被描述的事物有某个属性,这个属性有值。并且资源可以通过声明描 述。资源可以用如同上面的声明描述。具体点说,声明中要描述的事物( 在这个例子 里面是个网页h t t p :w w w e x a m p l e o w e , i n d e x h t m ) 的部分称作主语,陈述中主语的属性或 特征( 在这个例子中是c r e a t o r , c r e a t i o n d a t e 和l a n g u a g e ) 的部分称作谓语,陈述中属性 值的部分称作宾语。还以下面的英语陈述为例: h t t p :w w w e x a m p l e o r g i n d e x h t m lh a sac r e a t o rw h o s ev a l u ei sj o h n s m i t h 在这个r d f 陈述中: 主语是一个资源定位符( u r l ) h t t p :w w w e x a m p l e o r g i n d e x h t m 谓语是一个单词“c r e a t o r 宾语是一个短语“j o h ns m i t h ” 下面我们给出r d f 陈述的形式化定义: ( r d f 三元组,r d f 结点) 给出一组u r i 引用r ,一组空结点b ,一组文字l 。一个三 元组( s ,p ,o ) ( r u b ) x r x ( r u b u l 是一个r d f 三元组,r d f 三元组中的一个元素叫做 r d f 的一个结点。 8 东北师范大学硕士学位论文 在这个三元组中,s 被称为主语,p 是谓语,0 是宾语。 然而英语值适合人类之间交流,r d f 需要适合于机器处理,用于机器之间交流信息。 这里需要做到两件事情: 一个机器可处理的标识符,这个标识符可以识别陈述中的主语,谓语和宾语, 而不会因为标识符的想象产生混淆。 一种表示这些陈述的机器可处理的语言,并用于机器之间交换信息。 幸运的是,现存的网络结构可以满足这两个需求。网络已经提供了种形式的标识 符:统一资源定位符( u n i f o r mr e s o u r c el o c a t o r ) 。在先前的例子中,一个u r l 可以识 别j o h ns m i t h 创建的网页。一个u r l 是通过表示它的主要访问机制( 主要是它的网络 位置) 识别网络资源的字符串。然而,有时候记录一些没有网络位置的信息资料也很重 要。 于是,网络提供了一种更通用的标识符形式,称作统一资源标识符( u n i f o n n r e s o u r c ei d e n t i f i e r ) 。u r l s 是一种特殊的u 砒。所有的u r i s 共享属性,不同的人或组 织可以独立的创建他们,使用他们标识事物。然而,u r i s 并不限制于标识有网络位置 的事物。事实上,被创建的u 刚可以指代任何在陈述中需要指代的事物,包括: 网络可以访问的事物。比如电子文档,图片,服务( 比如今天洛杉矶的天气预 报) 或一组其他资源。 网络不能访问的事物。比如人类,公司和图书馆的图书。 物理状态并不存在的抽象概念。比如上个例子中“c r e a t o r 的概念。 由于这些通用性,r d f 使用u r i s 作为标识陈述中主语,谓语和宾语的基本机制。 为了更精确一点,r d f 使用统一资源标识符引用( u n i f o r mr e s o u r c ei d e n t i f i e rr e f e f e n c e s ,也就是u r i s ) 一个u r i 引用( u n i f o r n lr e s o u r c ei d e n t i f i e rr e f e f e n c e ,简写为u r i r e f ) 是一个u r i 和一个可选择的标识符片段的组合。例如,一个u r i 引用h t t p :w w w e x a m p l e o r e , i n d e x h t m l # s e c t i o n 2 是由一个u r ih t t p :w w w e x a m p l e o r g i n d e x h t m l 和( 用# 符号分割) 一个标识符片段s e c t i o n 2 组成。r d f 的u 砒r e f 可以包含u n i c o d e 编码,这 样就允许用多个国家语言表示u r i r e f s 。r d f 把资源定义为被u r i 标识的事物,并陈述 这些资源之间的关系。 为了以机器可处理的方式表示r d f 陈述,r d f 使用x m l 。x m l 允许先定义自己 的文档格式,然后按着这种文档格式书写文档。r d f 定义了一种特殊的x m l 标记语言, 称之为r d f x m l ,专门用来表示r d f 信息,并用于机器之间交换信息。在上一节,我 们已经举了一个r d f x m l 的例子,在那个例子中,我们使用 和 两个标签分别标记e r i cm i l l e r 和d r 的文本内容。x m l 的标签和 内容都可以包含u n i c o d e 编码,允许多个国家的语言直接表示信息。 ( 二) r d f 模型 在上一小节,我们介绍了r d f 的基本陈述概念,是用u r i 引用来表示r d f 陈述中 的指代事物,使用r d f x m l 作为机器可处理的方式表示r d f 陈述。在这种背景下。 这一节描述如何使用u r i s 表示资源。在r d f 中,下面的一个英语句子: 9 东北师范大学硕士学位论文 h t t p :l l v 删e x a m p l e o r g i n d e x h t m lh a sac r e a t o rw h o s ev a l u ei sj o h ns m i t h 可以用r d f 陈述表示为: 主语:h t t p :w w w e x a m p l e o r g i n d e x h t m l 谓语:h t t p :p u r l o r g d c e l e m e n t s 1 1 c r e a t o r 宾语:h t t p :w w w e x a m p l e o r g s t a f f i d 8 5 7 4 0 u r i s 不仅可以用来标识主语,也可以标识谓语和宾语,而不是使用单词“c r e a t o r 和“j o h ns m i t h ”分别标识。 在r d f 图模型中” 用节点表示主语 用节点表示宾语 用有向弧表示谓语,它从主语节点指向宾语节点 所以上面的r d f 陈述可以用图表示称为图2 2 的形式: pnpj,pun。r9,ae,e崮闭em鲥-,e彳ealor 图2 2 一个简单的r d f 陈述 大量的r d f 陈述可以被相应的图节点和有向弧表示。所以,对于上一节的这个 英语陈述: h t t p :w w w e x a m p l e o r g i n d e x h t m lh a sac r e a t i o n - d a t ew h o s ev a l u ei sa u g u s t16 , 1 9 9 9 h t t p :w w w e x a m p l e o r g i n d e x h t m lh a sal a n g u a g ew h o s ev a l u ei se n g l i s h 可以使用图2 3 表示( 使用合适的u r i r e f s 命名属性“c r e a t e d a t e ”和“l a n g u a g e ”) h 啦v c , c t p h l l p :t w w , , v e a m p l e o t g i n d e x _ h t m l d f 9 d d 学剑嚣e 啦f e m a t o f 缒噼纨蹦惴e x a m p l e o r g s t a f f i d 8 , 5 7 4 0 h n p ,p 洲o r g d c e ;秘 n e n , s ! l t l a n g t , a g e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论