(计算机应用技术专业论文)基于ontology的数据语义检索系统的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于ontology的数据语义检索系统的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于ontology的数据语义检索系统的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于ontology的数据语义检索系统的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于ontology的数据语义检索系统的研究与设计.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

(计算机应用技术专业论文)基于ontology的数据语义检索系统的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

贵州大学硕l 论文 摘要 随着网络技术和软件技术的e 速发展,特别是i n t c r n e t i n t r a n e t 的发展,人多数信息资源 已不光只是结构性资料,而是出现了很多丰富多样的非结构化形式提供给使用者。各种信息 资源迅速增多,不同格式、不同时期、不同应用等异构环境下的复杂数据源并存的局面逐步 形成。对各种信息构造一致的表示机制,并在此基础上建立能有效处理和检索各种信息的统 一平台,以满足日益增长的信息实际应用的需要无疑是一个颇有研究价值的课题。 传统的基于关键词匹配的检索会产生明显的效率问题,检索系统的查全率和查准率都不 尽如人意。 s e m a n t i cw e b 和o n t o l o g y 为信息检索提供了一种新方法,它能解决传统检索的许多不 足。现在基于o n t o l o g y 的信息检索是当前o n t o l o g y 研究和应用的焦点。 论文首先介绍了o n t o l o g y 的概念以及实现语义检索的原理与优势,其次介绍了基于 o n t o l o g y 技术进行信息检索时需要解决的如下两个问题:如何自动构建与检索系统相关的 瑚l 文件,以及如何在检索系统中运用o n t o l o g y 技术来提高检索质量。 对上述的第一个问题,本文首先给出了系统的x m l 文件的信息表示,然后提出了自动抽 取文档信息的算法,此算法是以最大匹配分词法为基础的,以企业或组织所涉及的相关领域 的o n t o l o g y 为分词词典,采用逐字搜索,最长匹配,先删除非用字,再识别关键词的方法来 识别本体词,最后计算本体词出现的频度( 次数文本长度) ,将结果记录在x m l 文件中供查 询。 而对于后一个问题即基于o n t o l o g y 的检索算法,论文先提出了计算查询关键词和文档 相似度的s i m i l a r i t y ( w o r d , f i l e ) 函数,其中w o r d 为用户的查询关键词组( 包含w o r d l , w o r d 2 , w o r d m ) ,f i i e 为需要查询的文件。s i m i l a r i t y 返回0 到1 之间的值,值的大 小体现查询词和文件的相似度。然后论文根据这个函数给出了本文的检索算法。 本文通过o n t o l o g y 技术在信息检索领域的应用,在信息表示的层次上解决了传统的基于 关键词检索中存在的查全率和查准率不高的问题。论文详细介绍了系统实现的全过程。最后 对论文工作进行了总结和展望,指出了系统中存在的不足和待改进的地方,并论述了基于 o n t o l o g y 技术在信息检索领域的广阔应用前景。 关键字:本题,检索,x m l 贵州大学硕l 论文 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h et e c h n o l o g yo fn e t w o r ka n ds o r w a r e ,e s p e c i a l l y w i t ht h ed e v e l o p m e n to f t h ei n t e r a c ta n di n t r a n e t ,t h em o s to f i n f o r m a t i o np r o v i d e dt o u s e f sa r em o s t l yn o to n l ys t r u c t u r e d ,b u ta l s ou n s t r u c t u r e d k i n d so fi n f o r m a t i o n a p p e a rr a p i d l y , t h ec o m p l e x i o no fc o m p l i c a t e dd a t ar e s o u r c e sw h i c ha r ei nd i f f e r e n t f o r m a t , d i f f e r e n td a t e , a n dd i f f e r e n ta p p l i c a t i o ni sf o r m e ds t e pb ys t e p i ti sa n u n d o u b t e dv a l u a b l eq u e s t i o nf o rd i s c u st h a th o wt os e tu pa ne x p r e s s i o nm e c h a n i s m o fk i n d so fi n f o r m a t i o na n db u i l dau n i f o r mp l a tt od e a l i n gw i t ha n d r e t r i e v i n g i n f o r m a t i o n ,s op r a c t i c a la p p l i c a t i o no f i n f o r m a t i o nc o u l db es a t i s f i e d t h et r a d i t i o n a lr e t r i e v a lb a s e do nt h ek e y w o r d sm a t c h i n gh a st h el i m i t a t i o no f e f f i c i e n c y u s e r sa r en o ts a t i s f i e db e c a u s eo f t h ee r r o ra n dm i s s an e wr e t r i e v a lm e t h o di sp r o v i d e db ys e m a n t i cw e ba n do n t o l o g y , t h r o u g h w h i c ht h el i m i t a t i o no f t h et r a d i t i o n a lr e t r i e v a ls y s t e mc a nb er e s o l v e d a tt h ep r e s e n t t i m ei n f o r m a t i o nr e t r i e v a lb a s e do no n t o l o g yi sf o c u so ft h er e s e a r c ha n dt h e a p p l i c a t i o no f o n t o l o g y i nt h i sp a p e r , f i r s t l y , t h et h e o r ya n dt h ea d v a n t a g e so fa p p l y i n ga r ei n t r o d u c e d s e c o n d l y , t w oq u e s t i o n sa b o u tr e t r i e v a lb a s e do no n t o l o g ya r en e e d e dt ob er e s o l v e d , t h e ya l eh o wt oc r e a t ex m ld o c u m e n t sa u t o m a t i c a l l yw h i c hi sc o n n e c t e d 埘t l lt h e r e t r i e v a ls y s t e ma n dh o wt oi m p r o v et h er e t r i e v a le f f i c i e n c yi nu s i n go n t o l o g y t e c h n o l o g y i np a r to fs y s t e md e s i g nt h et o t a ld e s i g no ft h ed i s t r i b u t e dr e t r i e v a ls y s t e mi s p r o v i d e d ,a n dt h e na na l g o r i t h mo fa b s t r a c t i n gf i l ei n f o r m a t i o ni sa l s op r e s e n t e d t h a t a l g o r i t h mi sb a s e do nm e t h o do fm a x i m a lm a t c h i n g i tt a k e st h eo n t o l o g yo fr e l a t i v e f i e l d st h a te n t e r p r i s e sa n dt h eo r g a n i z a t i o n sc o n c e r n e dw i t ha sw o r d ss e g m e n t d i c t i o n a r y , s e a r c h i n gl i t e r a l l y , l o n g e s tm a t c h i n g ,d e l e t i n gt h en o n - u s ew o r d ,a n dt h e n r e c o g n i s i n go n t o l o g yb ym a r k i n gt h ek e y w o r dt os e g m e n tw o r d s f i n a l l y , a p p e a r a n c e f r e q u e n c i e s ( t i m e s t e x tl e n g t h ) o fo n t o l o g yw o r d sa r ec a l c u l a t e da n ds t o r e di nx m l d o c u m e n tf o rs e a r c h a st ot h er e t r i e v a la l g o r i t h md e s i g nb a s e do no n t o l o g y , f i r s t l y , as i m i l a r i t y ( w o r d , f i l e ) f u n c t i o na b o u tc a l c u l a t i n gt h es i m i l a r i t yd e g r e eo ft h ek e yw o r d sa n dt h ef i l e si s 2 贵州人学硕 :论文 p r e s e n t e d ,i nw h i c h w o r d ”r e f e r st ot h ek e yp h a s e s ( i n v o l v ew o r d j ,w o r d 2 , w o r d m ) t h a tu s e r sw a n tt os e a r c hf o r , f i l e ”r e f e r st ot h ef i l e st h a tu s e r sn e e d t h er e t u mv a l u e t h r o u g ht h es i m i l a r i t yf u n c t i o nr a n g e sf r o m0t o1 t h ev a l u ep r e s e n t st h es i m i l a r i t y d e g r e eo ft h es e a r c h i n gw o r d sa n dt h eo b j e c tf i l e s ,0i n d i c a t e sn o n s i m i l a r i t y , 1 i n d i c a t e st h em a x i m a ls i m i l a r i t y t h e nt h er e t r i e v a la l g o r i t h mo nt h eb a s i so ft h i s f u n c t i o ni sp r o v i d e d b ya p p l y i n go n t o l o g yt e c h n o l o g yt oi n f o r m a t i o nr e t r i e v a lf i e l d ,t h ep r o b l e mo f e r r o ra n dm i s s i n gt h a te x i s ti nc l a s s i c a lk e y w o r d sr e t r i e v a li sr e s o l v e di ni n f o r m a t i o n e x p r e s s i o nl a y i nt h i sp a p e r t h ew h o l e p r o c e d u r ea b o u ts y s t e mb u i l d i n gi si n t r o d u c e d , a n dt h es u m m a r ya n de x p e c t a t i o na r em a d e ,d e f i c i e n c ya n da s p e c t sn e e dt ob e i m p r o v e da r ea l s op o i n t e do u t t h ef u t u r eo fa p p l i c a t i o no fo n t o l o g yi ni n f o r m a t i o n r e t r i e v a lf i l e di sd i s c u s s e d k e yw o r d s :o n t o l o g y , r e t r i e v a l ,x m l 3 贵州人学硕:i :论文 第一章绪论 1 1 信息的检索和分类 第一章绪论 计算机和互联网的发展为信息管理和共享提供了广阔的平台。当前,人们可以通过搜索 引擎检索互联网上存在的各种各样的信息,并相对很好的实现了数据资源的共享和交互。但 是随着i n t e r n e t 和企业i n t r a n e t e x t r a n e t 的飞速发展,各种信息资源急剧增多。据统计, 八十年代全球信息量每隔2 0 个月就增加近一倍:九十年代之后,各类组织机构的数据量增长 更快,仅一个不大的企业每天就要产生i o o m b 以上来自各方面的数据,不同格式、不同时期、 不同应用等异构环境下的复杂数据源并存的局面逐步形成。二十一世纪网络时代的今天,人 们一边享受着信息提供的便利,一边也日益感受到“信息爆炸”、“混沌信息空间” ( i n f o r m a t i o nc h a o t i cs p a c e ) 和“数据过剩”( d a t ag l u t ) 的巨大压力,从海量信息中找到 真正有用的信息需要的时间变得越来越长。面对极度膨胀多元化的信息量的挑战,研究集成 各种信息资源的机制,实现信息的现代化管理,无论是在经济上还是在技术上,都有积极的 现实意义。 计算机产业的迅速发展使得以计算机存储设备为载体的电子信息愈来愈多,根据信息的 格式可以将其划分为结构化信息和非结构化信息两大类。 结构化信息能够用统一的结构加以表示,有着非常良好的数据结构,如关系数据库、面 向对象数据库中的数据或符号等等;非结构化信息往往由自然语言表示,一般没有统一的结 构。非结构化信息所涵盖的内容十分广泛,主要可分为: 部门内容:如各类文档、电子表格、电子邮件及日程安排等: w e b 内容:如h t m l 网页及x m l 格式的信息等: 多媒体内容:如音频文件、视频文件、图像文件等。 信息时代给人类带来了迅速膨胀的信息量,而复杂多样的数据类型给人们良好的管理 这些数据带来了巨大的难度。因为即便对于可以方便管理的结构化信息,传统的技术还是没 有实现语义上的检索;而对与非结构化信息,人们从中找到有效信息的时间更是变得越来越 长。 本文提出的方法可以帮助企业或者其他组织更好的管理结构和非结构数据,从企业数 据库数据到不同的终端不断产生的电子文档、电子邮件等数据,都可以被任何有权限的用户 1 贵州大学硕1 :论文 第一章绪论 语义检索。 1 2 检索系统的研究现状 信息检索的主要任务是解决信息集合和需求集合的匹配与选择问题,以达到尽量满足用 户的信息需求的目的。所以说一般来讲一个信息检索系统一般包含以下几个方面: 人机接口:它的主要作用就是获取用户的查询要求。然后把用户需求交给搜索部分。 通常使用关键字的方式,以前也在专业领域使用过基于提问系统的交互界面。 1 信息处理:这部分主要是对大量的非结构化的文档进行处理。包括信息如何收集,怎样 进行表示,如何抽取等等。 2 信息存储:这一部分主要是如何有效的存储和更新海量的数据。包括索引,数据的压缩, 解压等等。 3 搜索引擎:这一部分功能是根据用户的需求从数据库中按照一定的匹配算法进行信息集 合与需求集合的一致性比较,并把最终结果返回给用户【9 l 。 现在的检索系统可以分为传统的基于关键词匹配的检索系统和现阶段在研究中的基于 语义的检索系统。 1 2 1 传统检索技术的不足 基于关键词的检索在处理同义词和同音词的时候会产生明显的效率问题。例如,p l a n e a e r o p l a n e 和“a i r p l a n e ”都可以表达“飞行器”这个含义,所以它们互为同义词。同义 词会降低检索系统的查全率。因为基于关键词的检索系统使用的是“关键词”进行检索,而 不是基于“关键词”的语义进行检索。例如,使用“p l a n e ”检索“飞行器”这个概念的时 候,系统不会检索出与“a i r p l a n e ”和“a e r o p l a n e ”相关联的记录。同音词( 又称同形多义 词) ,指同一个词在不同的语境中代表不同的含义。例如,d o c t o r “在医院和在学校可能表 示不同含义。同音词会降低检索系统的查准率。因为基于关键词的检索系统只是对特定的“关 键词”进行检索,并不能区分“关键词”代表的具体含义。例如,使用“d o c t o r ”检索“医 生”这个概念的时候,系统将检索出所有与“d o c t o r ”相匹配的记录,而不论其代表什么含 义“。 如果数据内容中未包含与检索关键词相匹配的记录,系统就会认为该文档不符合查询要 求,检索结果中就不会包含该数据。 2 贵州大学硕i 论文 笫一章绪论 综上所述,我们可以看出传统的信息检索技术的缺点主要体现在以下方面: 很难准确的了解用户的需求。现在的信息检索通常使用关键字进行检索,但是问题是计 算机很难通过一两个关键字米了解用户的需求。这主要是由于一方面不同的用户对同一 个概念有不同的表示。也就是用户表达不规范,另一个方面是即使是同一个概念在不同 的地方也可能有不同的含义,这样检索出来结果的准确率大大的降低。 缺乏语义理解。目前常用的检索模型包括布尔检索、向量空间模型、概率检索和模糊集 合模型等。他们在文献的处理上往往是根据词频统计得出的,标引时只利用了文献的字 符形式,未涉及文献的内容本身,所以标识往往不能反映文献的真实含义;不能很好地 处理主题概念、标识之间的各种联系和因果关系。特别是在w e b 环境下,人量的非结构 化的文档对于文档的处理来说是一种巨大的挑战。 很难进行知识检索。人们往往进行信息检索的最终目的是获取相关的知识。传统的信息 检索很难进行基于知识的检索。 1 2 2 基于o n t o l o g y 的语义信息检索 o n t o l o g y 是基于体现概念之间的关系完备性和完全性这一目标,构建一个共享的知识系 统。因此搜索引擎可以利用o n t o l o g y 来建立概念之间的联系,使搜索更加语义化,从而弥补 了关键词检索方式的几大缺点。 另外基于o n t o l o g y 的检索可以使用o n t o l o g y 的推理功能。例如,如果在某个本体例子中, 我们对“主管”进行了定义,那么由于“项目经理”是“主管”,那么它也应具有“主管” 的所有属性。所以在进行检索“主管”的时候也应该检索到关于“项目经理”的记录。综上 所述,开发基于o n t o l o g y 的信息检索系统,可以很好的解决传统检索方式的很多缺点。 目前国内外有一些机构和学校从事与o n t o l o g y 检索相关的研究工作,这些机构和学校如 a 1 f b ,w 3 c ,k s l ,曼彻斯特、新加坡国立大学、阿姆斯特丹大学等。同时这些研究组织有一 系列基于o n t o l o g y 描述的语言,以及基于o n t o l o g y 推理和应用的产品都己经投入使用。这些 描述语言有r d f ,r d f s ,d a i i l ,o w l 等,成型l 构o n t o l o g y 检索系统有o n t o s e e k ,c y c 等,推理 系统有r a c e r ,p e l l e t ,f a c t 等,o n t o l o g y 代理检索系统有o n t o b r o k e r 等。国内也有些机构 如中科院软件所、中科院计算所、北师大情报学等正在致力于0 n t 0 1 0 9 y 及o n t o l o g y 应用的研 究。 虽然目前国内外基于本体的检索系统的研究已经取得了很大的成就,但总的来说本体检 贵州人学颂b 论文 第一章绪论 索还在研究阶段,很多成熟的方法都是直接基于本体的推理和检索方式,而对信息的自动语 义抽取、动态维护还是遇到很大的困难,系统扩展性也难以尽如人意。 1 3 本文所做的工作 1 、提出了一种基于x m l 的信息语义表示机制,它可以方便的由结构化的数据和非结构 化数据( 主要是文本类型的数据) 自动生成,为实现结构化和非结构化信息的语义 检索奠定了基础。 2 、提出了基于本体的分词算法来对文本内容的自动信息抽取。 3 、提出了系统分布式的检索各种非结构化信息的算法。 4 、编程初步实现了系统检索的算法。 1 4 论文内容和结构 第一章: 第二章: 第三章: 的阐述。 第四章: 第五章: 第六章: 第七章: “绪论”,介绍论文的研究背景、研究目标、研究内容以及论文的结构。 “信息检索”,叙述了信息检索的发展过程和评价标准。 “s e m a n t i cw e b 和信息检索基础”,对语义w e b 的概念以及相关的标准进行详细 “o n t o l o g y 技术”,对o n t o l o g y 的概念以及相关标准进行了详细的阐述。 “基于o n t o l o g y 的语义检索系统设计”, 讲述了本系统的设计思路。 “语义检索系统的关键技术”,具体的描述了系统的技术路线和核心部分。 “结论与展望”,总结全文,并对论文中需要进一步研究的地方进行阐述。 a 费州人学硕l 论文第一二章信息检索 2 1 信息的定义 第二章信息检索 信息是用文字、数据或信号等形式通过一定的传递和处理来表现各种相互联系客观事物 在运动变化中所具有特征内容的总称。因而可以这样认为,信息是事物存在的方式、形态和 运动规律的表征,是事物具有的一种普遍属性,它与事物同在,存在于整个自然界和人类社 会。 在人类步入信息社会的时代,信息同物质、能量构成人类社会的三大资源。物质提供材 料,能量提供动力,信息提供知识与智慧。因而,信息已成为促进科技、经济和社会发展的 新型资源,它不仅有助于人们不断地揭示客观世界,深化人们对客观世界的科学认识,消除 人们在认识上的某种不定性,而且还源源不断向人类提供生产知识的原料。 2 2 信息检索的含义以及重要作用 信息检索( i r ,i n f o r m a t i o nr e t r i e v a l ) ,是指将信息按一定的方式组织和存储起来, 并根据用户的需要查找这些信息的过程。所以广义的信息检索又称为信息存储与检索 ( i n f o r m a t i o ns t o r a g ea n dr e t r i e v a l ) 。狭义的信息检索则仅指从信息集合中查找所需信 息的过程,相当于通常意义上的信息搜索( i n f o r m a t i o ns e a r c h ) ”1 。 信息检索的重要意义和作用主要体现在以下两方面: 充分利用信息资源,避免重复劳动,科学研究具有继承和创造两重性,科学研究的两重性 要求科研人员在探索未知或从事研究工作之前,应该尽可能地占有与之相关的信息,即利用 信息检索的方法,充分了解国内、国外,前人和他人对拟探索或研究的问题己做过哪些工作? 取得了什么成就? 发展动向如何? 等等。这样才能做到心中有数,防止重复研究,将有限的时 间和精力用于创造性的研究中。因此,信息检索是科学研究必不可少的前期工作。 为入们更新知识,实现终生学习提供门径。在当代社会,人们需要终生学习,不断更新知 识,才能适应社会发展的需求。美国工程教育协会曾估计,学校教育只能赋予人们所需知识 的2 0 2 5 ,而7 5 8 0 的知识是走出学校后,在研究实践和生产实践中根据需要,不断 再学习而获得的。因此,掌握信息检索的方法与技能,是形成合理知识和更新知识的重要手 段,是做到无师自通、不断进取的主要途径。 5 贵州人学颂i :论义第二章信息检索 2 3 计算机信息检索 随着计算机技术、通信技术和高密度存储技术的迅猛发展,利用计算机进行信息检索已 成为人们获取信息的重要手段。计算机信息检索能够跨越时空,在短时间内查阅各种数据库, 是目前最快速、最省力、最经济的信息检索方法。计算机信息检索是指利用计算机存储和检 索信息。具体地说,就是指人们在计算机上,使用特定的检索指令、检索词和检索策略,从 数据库中检索出所需的信息,并在终端设备上显示或打印的过程”1 。 为实现计算机信息检索,必须事先将大量的原始信息进行加工处理,并存储在计算机中, 所以广义上的计算机信息检索包括信息存储和检索两个方面。计算机信息存储过程是指对大 量的原始信息进行加工处理,并存储在存储介质上的过程。 计算机信息检索过程实际上是一个比较、匹配的过程,即找到与数据库中信息的特征标 识及其逻辑关系相一致的信息的过程。 2 4 检索系统的检索效果评价 衡量检索系统检索效果的参数主要有:查全率( r e c a l lf a c t o r ) 、查准率( p e r t i n e n c yf a c t o r ) ,漏 检率( o m i s s i o nf a c t o r ) 、误检率( n o i s ef a c t o r ) 等。 设n 为检索系统中资源总量,m 为检索输出的资源量,a 为n 中与检索记录相关的资源 量,b 为m 中与检索记录相关的资源量,则1 1 i t i ,a ,b 之间的关系如图2 1 所示【5 】: 图2 1 检索系统衡量参数 令r 表示查全率、p 表示查准率、m 表示漏检率、n 表示误检率,则r f , m ,n 定义如 6 贵州人学硕【论文第二章信息检索 一f : r = ( b l a ) + 1 0 0 p = - c o m ) 41 0 0 m = 彳1 - b a ) + 1 0 0 = 1 0 0 - r n = f 1 - b m ) + 1 0 0 = 1 0 0 - p r 和p 之间存在相反的相互依赖关系,即提高r 会降低p ,反之亦然。 对于检索来说,漏检是影响检索质量的最主要因素,故必须将m 降低到最低限度;误检 会降低检索的效率,也会影响检索质量。因此,任何检索工具和检索系统必须力争克服漏检, 同时尽量避免误检。 2 5 信息检索智能化 信息检索( i n f o r m a t i o nr e t r i e v a l ) ,通常指文本信息检索,包括信息的存储、组织、表现、 查询、存取等各个方面,其核心为文本信息的索引和检索。从历史上看,信息检索经历了手 工检索、计算机检索到当前的网络化、智能化检索等多个发展阶段。 当前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定、 一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散 的w e b 内容。信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教 师、学生、各专业人士等在内的普通大众,他们对信息检索从结果到方式提出了更高、更多 样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。 传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不 高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。当前在信息 检索领域使用0 n t o l o g y 技术已经成为信息检索的热点。目前信息检索技术的分类和描述如表 2 2 所示7 分类特点缺点 把用户的查询请求和全文中的每一个词虽然可以保证查个率,但足查准 全文检索 进行比较,不考虑查询请求和文件语义上率大大降低。 的匹配。 查询要求和信息系统中的数据都遵循一性能取决于所使用的字段标识方 定的格式,具有一定的结构允许对特定字法和用户对方法的理解,有很大 数据检索 段检索 的局限性,支持语义匹配的能力 较差 7 贵州大学硕l :论文 第一章信息检索 基于知识的、语义上的匹配,在查准率和 查全率上有更好的保证。是信息检索的重 知识检索 点,特别是面 甸w e b 信息的知识检索的重 点。 表2 2 检索的分类 贵州大学硕k 论文第三章s e m a n t i cw e b 和信息检索基础 第三章s e m a n t i cw e b 和信息检索基础 3 1s e m a n t i cw e b 的概念和目标 当前,万维网上的各种资源里几何级数剧增,但是这些资源往往缺乏好的内部组织和整 理,使得人们很难充分利用。s e m a n t i cw e b 相关技术能够为w e b 上的资源提供计算机可理解 的信息,给出计算机可理解的表示资源的手段,最终将使得人们能够更加充分和便利地使用 w e b 上的资源。 w 3 c 组织面临的一个任务就是如何发挥万维网的“全部的潜能”。根据其主席t i m b e m e r sl e e 的观点:w e b 就是一个可通过网络访问的信息空间,它的“全部潜能”首先在 于,w e b 中人与人可以相互交流;其次,在这个空间中软件代理可以通过处理各类信息, 成为人们日常工作的高效率工具。 现在的w e b 的问题就是它仅仅是一个为人类通信、阅读信息设计的空间。w e b 上的语 言,譬如h t m l ,c s s 等等仅仅规定了如何在屏幕上将内容显示出来,计算机在其中的功能 也就仅限于此,它事实上无法理解w e b 资源的含义,即使这些信息是从数据库中提取出来 的,结构良好的w e b 网页,结果也没什么两样,因为信息仍然只是包含在为显示格式而定 义的h t m l 标识中。这种结构可以说是达到w e b “全部的潜能”的一大障碍。 如果要解决这样的问题,就必须让机器能理解并处理w e b 上的信息。直观的想法是提 高机器的智能,让机器通过自主的学习理解人类阅读的资料。这一方法实现的困难较大因为 人工智能的理论与技术尚未达到支持这一功能的实现水平。另一种方法就是语义w e b 的方 法,这是一个相对来说较为可行的方案。 s e m a n t i c w e b 是由w 3 c 组织领导。多个研究机构参与研究的一个项目。根据l e e 的定 义:“语义w e b 是对当前万维网的一个扩展,其中的信息都具有良好定义的语义,能够很好 地使计算机和人类合作完成工作。” 在使用传统的搜索引擎检索数据的时候,通常会附带大量与所需材料毫不相关的“副产 品”,我们不得不花费大量时间,人工地在这些海量信息中进行二次检索,这都是由于计算 机不能理解信息含义造成的。s e m a n t i cw e b 研究的主要目的就是扩展当前w o r l dw i d ew e b , 使得网络中的信息具有语义,以便于计算机理解和处理,从而便于人与计算机,计算机与计 算机之间的交互。 9 贵州人学颂l j 论文第三章s e m a n t i cw e b 和信息检索接础 按照s e m a n t i cw e b 的设想,如果计算机能够有效的理解存储在计算机或互联网上的资 源,那么我们就能实现查全率和查准率更高的信息检索系统本文介绍的基于o n t o l o g y 的 数据检索系统,就是基于这些设想实现的。为了实现本系统,首先就要为本系统定义所要用 到的语义信息,这是计算机理解信息的前提和基础。本系统使用o w l 来定义本体,然后, 编写检索功能模块。计算机可以通过该模块,来查询和推理这些语义信息来进行检索。 3 2x m l 语言 3 2 1x m l 概念 x m l 是e x t e n s i b l em a r k u pl a n g u a g e ,即“可扩展标识语言”。 s g m l 、h t m l 是x m l 的先驱。s g m l 是指“通用标识语言标准”( s t a n d a r dg e n e r a l i z e d m a r k u pl a n g u a g e ) ,它是国际上定义电子文件结构和内容描述的标准,是一种非常复杂的文 档的结构,主要用于大量高度结构化数据的各种工业领域,利于分类和索引。同x m l 相比, 定义的功能很强大,缺点是它不适用于w e b 数据描述,而且s g m l 软件价格非常价格昂贵。 而h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ”超文本标识语言) ,它的优点是比较适合w e b 页 面的开发。人们普遍认同,使万维网高速发展的最主要原因就是h t m l 语言。可是,h t m l 语言的特点使它无法适应w e b 文件的增多和形势的多样化的趋势。原因是h t m l 语言不能 扩展,只有固定的几个标识用于按一定的格式把文字、图形等内容显示出来。可是对于那些 具有结构,需要交互,或需要分析检测的数据,h t m l 就无能为力了,因此它并不适用于 语义w e b 。在语义w e b 中,最低层采用的就是x m l 语言。x m l 最初是在1 9 9 6 年的s g m l 年会上提出的。随后又由w 3 c 组织加以规范化并在1 9 9 8 年正式推出。当时推出x m l 的 目的主要是用于大规模的数据发布,然而很快x m l 就被应用于w e b 上的各类数据交换中。 x m l 的含义是可扩展的标识语言,事实上它并不是一种真正意义上的标识语言,而是一种 允许用户对自己的标识语言进行定义的源语言。实际上,x m l 语言可以被看作是复杂的 s g m i 语言的一个精简版木,它同时又保留了s g m l 的强大功能。如果说,h t m l 是一个 描述系统,而x m l 则是用来定义这些描述系统的系统。 使用x m l 可以定义出像h t m l 这样的系统。与h t m l 相比,x m l 有三个特点:w e b 作者能够任意定义新的x m l 元素和属性;文档结构能被嵌套到任意复杂的层次上;任何 x m l 文档都能包含它的语法的描述,以便应用程序使用,但是需要进行结构的有效性检验。 1 0 贵州人学硕i :论文第三章s e m a n t i cw e b 和信息榆索螭础 一个合法的x m l 文档也就是整个文件体系被适当定义和组织的文档。 x m l 语言中最基本结构就是文档元素( d o c u m e n te l e m e n t ) ,元素由一对标识符串行化而 成,即起始标识和终止标识。从表面上看来,h t m l 和x m l 语言都用标识符标识信息,但 h t m l 标识的仅仅是信息的显示格式,而x m l 可以用标识符来描述数据对象。比如我们可 以用这样的x m l 语言来描述一个学生的信息。 0 0 1 张三 男姚e 别 2 0 叫年龄 ( ,学t k 这段x m l 语言描述了一个学生,包括其编号,姓名,性别和年龄。所有的数据都被 明确定义的标识包围,有着明确的含义。在不同的程序中这些数据可以按不同的方法显示。 也便于应用程序对数据处理,即使是直接阅读,也比h t m l 有更好的可读性。 3 2 2 ) a 几s c h e m a x m l 只说明数据的结构而并不关心数据的具体定义和描述。为了定义x m l 文件中结 构的组织规则,比如语言中用到的数据元素、数据类型和元素之间的关系,必须有一个或多 个伴随x m l 的类型定义文件。目前可用的文件有两种:d t d 和x m ls c h e m a 文件。d t d 是较早期的类型定义格式,它可以严格定义标识符的结构,但只支持相对功能较弱的内容类 型规范,并且由于d t d 的格式与x m l 格式有很大区别,难于掌握,现在己有被逐步淘汰 的趋势。在本文中用到的类型定义文件选用了“x m l s c h e m a x m l s c h e m a 采用的是和x m l 完全一致的语法规则。x m ls c h e m a 语言规范中有一套预先规定的x m l 元素和属性,这些 元素和属性可以定义文档的结构和内容类型的模式。同时相应的一套精巧的规则指定了每个 s c h e m a 元素或者属性的合法用途。如果违反这些规则解析器就会拒绝解析你的s c h e m a 以 及任何同它相联系的文档。下面用一个简单的x m ls c h e m a 例子来说明其用法: 贵州人学颁 :论文 第三章s e m a n t i cw e b 和信息检索皋础 这个例子定义了学生,并说明它有编号,姓名,姓名等内容。其 x s d :e l e m e n t 用于定 义一个标识符,比如n a m e ,g e n d a 等。x s d :c o m p l e x t y p e 用于定义复杂的标识符,譬如内部嵌 套了其他标识符的标识符。具体的x m ls c h e m a 的标准介绍请参照相关的资料,本文不做详细 介绍。 定义了x m ls c h e m a 以后,只要在x m l 文件的头部声明本文档所采用的类型定义文件为 该瑚ls c h e m a 文件,就可以按照s c h e m a 中的格式要求使用其定义的各种标识符。声明了所 用的x m ls c h e m a 后,x m l 的文本解析器可以依据x 札s c h e m a 中的定义判断x m l 文档是否合 乎类型定义的规范。 3 2 3 ) 眦的局限性 ) 。m 。已经成为w e b 技术构架的基础,但随着x m l 在数据交换,应用集成等方面的应 用,x m l 的重要缺限也越来越被人们所认识:x m l 只能表示数据的语法,而不能表示形式 化的语义。 通过以上的叙述我们知道x m l 的一个基本思想是:x m l 文档中的数据是通过标签以 一种有意义的和自描述的方式来描述,且标签的名字是领域专家精心选取的。这些标签体现 了人们的共识,例如,标签 对人来说意为价格,这样就可以推断标签中包含的数据 就是关于价格的,但是x m l 本身,包括d t d 或x m ls c h e m a ,都没打提供形式化的机制 来说明标签到底是什么意义。因此x m l 处理器无法理解x m l 文档中标签的含义,对它来 说,标签 与h t m l 标签 的含义是没打什么区别。所以说,x m l 只表示语法, 而不表示形式化的语义。所以,为了达成语义网的目标让机器能自动的处理w e b 内容,需 要在x m l 的基础上开发一种新的语言,这就是r d f 。下面将简单的介绍r d f 的概念和相 关标准。 - 1 2 贵州人学碗j 晓文第三章s e m a n t i cw e b 和信息检索基础 3 3r d f l i c i f s 3 3 1r d f 简介 语义w e b 的首要目的就是要让计算机能够对信息的语义进行处理,作为w 3 c 标准的资 源描述框架( r e s o m - c ed e s c r i p t i o nf r a m e w o r k ,r d f ) 为基于元数据的语义表示提供了基础。 r d f 为在w e b 上应用系统间进行机器可理解信息的交换提供了互操作能力。为了描述机器 可处理的数据的语义,r d f 定义了一个基本的数据模型,其包含三种对象类型: 资源( r e s o u r c e s ) :一个资源可以是一个完整或部分的网页,也可是它们的一个集 合;或者是不用直接通过w e b 访问的任意对象( 比如一本书) 。通常,资源用u r i 来命名。 属性( p r o p e r t i e s ) :属性是用来描述资源的一个特定方面、特征、品质以及关系等。 声明( s 眦e m e n t s ) :一个r d f 的声明是一个特定资源和一个被命名的属性加上这 个属性的取值形成的集合。 一个声明有三个独立的部分组成:主i 吾( s u b j e c o 、谓语0 ,r e d i c a c e ) 以及宾语- ( o b j e c t ) 。从其 核心来看,r d f 定义了一个对象一属性取值三元组作为其基本的建模原语并在其之上引 入了一套标准的语法。这使得r d f 可以将一个或多个关于资源的简单陈述表示为一个由结 点和弧组成的图( g r a p h ) , 其中的结点和弧代表资源、属性或属性值。比如下面的这组陈述 “某个人由h t t p :w w w w 3 o r g p e o p l e e m c o n t a c t # m e 标识,他的名字是e r

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论