(计算机软件与理论专业论文)基于查询重写和关联搜索的本体查询算法.pdf_第1页
(计算机软件与理论专业论文)基于查询重写和关联搜索的本体查询算法.pdf_第2页
(计算机软件与理论专业论文)基于查询重写和关联搜索的本体查询算法.pdf_第3页
(计算机软件与理论专业论文)基于查询重写和关联搜索的本体查询算法.pdf_第4页
(计算机软件与理论专业论文)基于查询重写和关联搜索的本体查询算法.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机软件与理论专业论文)基于查询重写和关联搜索的本体查询算法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于查询重写和关联搜索的本体查询算法 捅晏 在互联网迅速发展、w e b 信息资源急剧增长的背景下,传统的信息检索由于 信息源的固有特点和检索技术的缺陷,无法找到语义上匹配的信息,导致漏检、 误检现象,从质量和效率上都不能满足用户需求。人们试图将各种先进的思想和 方法引入信息检索领域中,促进其理论和技术的深层次变革。 语义网的创始人- t i mb e r n e r s - l e e 倡导的下一代万维网,旨在赋予w e b 上的信息以语义支持,通过本体技术,在资源之间建立起机器可处理的各类语义 联系。语义网是当代万维网的扩展和延伸,它能够提高异构系统之间的互操作性, 促进知识共享。语义网的核心本文论,是人工智能领域的一种先进的知识表 示技术,它通过明确定义概念和概念间的关系反映事物或现象的本质。基于本体 的语义检索作为智能信息检索技术的一个重要领域,利用本体构建可共享、概念 化的知识空间,实现对知识内容的结构化描述,具有一定的语义处理能力和较好 的自然语义理解能力,而且可以处理概念关系逻辑,因而对于提高信息检索的质 量和促进信息资源的利用率和共享,具有重要的研究价值。 本文主要工作如下: 分析和总结了信息检索技术概念、发展状况和存在问题与不足,介绍了 基于本体的语义检索的研究现状。 通过对现有本体技术理论和语义查询技术进行分析和研究,在本小组已 有研究成果的基础上,提出了一个基于本体的语义检索系统的模型,详 细描述了系统的设计思想、主要功能和运行流程。 对本体查询涉及的主要技术和实现方法进行了深入的研究,探讨了本体 持久化、语义推理、s p a r q l 语言及其通过j e n a 的实现。在此基础上, 提出了基于查询重写和关联搜索的本体查询算法,详细论述了算法的思 想和流程,分析了算法的可行性和实现难点。 本文最后开发实现了一个基于查询重写和关联搜索算法的系统原型 o s e a ,该系统以任意本体为查询载体,具有多种检索模式,并利用基于 带权语义距离的语义相关度进行结果排序,验证了本文研究的算法的有 效性和可行性。 本文通过对本体技术,特别是本体检索所涉及的若干关键技术进行了深 入的分析研究,对于解决信息检索效率不高、信息利用率低的问题,提出了 一套有效的解决方案,该模型不仅能够处理基于本体的语义关系,能处理概 念之间的关系逻辑,并且能进行语义扩展。通过实验证明应用了该算法的语 义检索模型,在使用方法、查询效率和效果上相对于传统的信息检索有一定 优越性。最后本文实现了该模型的原型刈s e a 系统,通过实践验证了系统 模型的可行性。 关键词:本体论语义检索关联搜索查询重写 n aq u e r yr e w r itin ga n ds e m a n tica s s o cia tio nb a s e d aig o rit h mf o ro n t oio g yr e t rie v ai a b s t r a c t i np r e s e n tw e b ,a st h eh i g h - s p e e di n c r e a s eo fi n f o r m a t i o nr e s o u r c e s ,t h o s es e a r c h e n g i n e sb u i l to nt r a d i t i o n a lq u e r yt e c h n i q u ec a nn o tg e tr i do ft h e i rl i m i t a t i o no n s e m a n t i cp r o c e s s i n g o n ec r i t i c a l c h a l l e n g ei sh o wt oi m p l e m e n ts e m a n t i c - b a s e d i n f o r m a t i o nr e t r i e v a la n ds h a r i n gf o rw e b s c a l ed a t ar e s o u r c e n e wi d e aa n dm e t h o d s a r ei n t r o d u c e di n t ot h ef i e l dt or e f o r mi t st h e o r ya n dt e c h n o l o g y s e m a n t i cw e bi st h en e x tg e n e r a t i o no fw e b ,w h i c hi sa d v o c a t e db yt i m b e m e r s l e e i ns e m a n t i cw e b ,e v e r yr e s o u r c ea r ei d e n t i f i e db ya nu r i ( u n i t e d r e s o u r c ei d e n t i f i c a t i o n ) ,a r er e l a t e dt oe a c ho t h e rb yaf o r m a l i z e dd e f i n i t i o ni n o n t o l o g y s e m a n t i cw e bi sb e l i e v e dt ot h ee x p a n s i o na n de x t e n s i o no fc o n t e m p o r a r y w o r l dw i d ew e b ,w h e r ei n f o r m a t i o nr e s o u r c e sw i l lb ee x p r e s s e di nac l e a ra n df o r m a l w a y , w h i c h c a nb er e a l i z e de a s i l yb e t w e e np e o p l ea n dp c t h e r e f o r es e m a t i cw e bc a n i m p r o v et h ei n t e r o p e r a b i l i t yb e t w e e nh e t e r o g e n e o u ss y s t e m sa n dp r o m o t ek n o w l e d g e s h a r i n g o n t o l o g yi sa na d v a n c e dt e c h n o l o g yo fr e p r e s e n t i n gk n o w l e d g ei na i ,w h e r e s p e c i f i e dc o n c e p t sa n dr e l a t i o n s h i p sa r eu s e dt od e s c r i b ei n f o r m a t i o n o n t o l o g y b a s e d s e m a n t i cr e t r i e v a la so n eo ft h ei m p o r t a n td i r e c t i o no fi n t e l l i g e n ti n f o r m a t i o n ,w h i c h u s eo n t o l o g yt ob u i l ds h a r a b l ea n dc o n c e p t u a ld a t ar e s o u r c e ,n o to n l yh a v es e m a n t i c p r o c e s s i n gc a p a c i t ya n dn l i ,b u ta l s oa r ea b l et op r o c e s sl o g i co fr e l a t e dc o n c e p t s s o o n t o l o g y - b a s e ds e m a n t i cr e t r i e v a lh a si m p o r tr e s e a r c hv a l u e t h em a i na c h i e v e m e n to ft h i sp a p e rc o n t a i n s : i tf i r s ta n a l y z e st h ec o n c e p to fi n f o r m a t i o nr e t r i e v a l ,a n a l y z e si t sc u r r e n t s t a t ea n de x i s t i n gs h o r t a g e s t h e ni ti n t r o d u c e st h en e wh o tt o p i c so f s e m a n t i cw e b b yt h o r o u g h l yr e s e a r c ho no n t o l o g y sf u n d a m e n t a l sa n dr e t r i e v a lr e l a t e d t e c h n i q u e s ,b a s e d o nt h ea c h i e v e m e n to fo u rt e a m ,am o d e lf o r o n t o l o g y b a s e ds e m a n t i cr e t r i e v a ls y s t e mi sp r o p o s e d t h ed e s i g n 、m a i n f u n c t i o na n dm n n i n gm e c h a n i s mo ft h i sm o d e la r ee x p l a i n e d i i i g i v et h o r o u g h l ys t u d i e so nm a n yo n t o l o g yr e t r i e v a lr e l a t e dt e c h n o l o g i c s , i n c l u d i n gp e r s i s t e n c eo fo n t o l o g y , s e m a n t i ci n f e r e n c e 、s p a r q lq u e r y l a n g u a g ef o ro n t o l o g ya n dh o wt oi m p l e m e n tt h e ma l lb yj e n a b a s e do n t h o s er e s e a r c h e s ,aq u e r yr e w r i t i n ga n ds e m a n t i ca s s o c i a t i o nb a s e da l g o r i t h m f o ro n t o l o g yr e t r i e v a la r eb r o u g h tf o r w a r d t h i sa l g o r i t h m sp e r f o r m a n c ea n d i m p l e m e n ta r ed i s c u s s e di nd e t a i l , f i n a l l yap r o t o t y p eo ft h em o d e l o s e as y s t e mi sd e v e l o p e dt oi m p l e m e n t t h ea l g o r i t h m t h er e s u ro ft e s t i n ga n da n a l y z ef o rt h i ss y s t e mi n d i c a t et h a t t h em o d e la n da l g o r i t h mp r o p o s e di nt h i sp a p e ri se f f e c t i v ea n df e a s i b l e k e y w o r d s :o n t o io g y ,s e m a n t i cr e t r i e v a l ,a s s o c i a t i o nr e t r i e v a l ,q u e r y r e w r i t i n g i v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 5 注! 垫遗直墓丝壶塞挂别岂瞳笪! 奎拦互窒2 或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名:缸趾 签字日期:伽口5 年6 月2 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 骼壬鼬 导师签字: 穆铆 签字日期:螂年6 月2 日 签字日期:珈移年歹月l 日 基于查询重写和关联搜索的本体查询算法 u 刖舌 随着计算机技术的不断发展成熟和互联网的迅速普及,万维网从其诞生的 1 9 8 9 年到如今的近二十年间得到了突飞猛进的发展,现在已经成为人们日常工 作学习不可或缺的重要工具之一。万维网对于用户来说从最初的仅用于获得各种 信息的目的,已经发展到现在的电子商务、电子政务、电子学习,网格计算。与 此同时,在不断迅速扩大的各种互联网应用中,信息爆炸性增长,无论是用户还 是服务的提供者都产生了数以万计的,内容繁杂,组织松散的信息资源。用户们 在面对信息海洋的时候,就需要尽可能以最少的花费检索到较为精确的信息,既 要确保其中所含冗余信息最少,同时又要确保信息的查准率、查全率。 为了便于用户查询相关信息,万维网上出现了多种用于信息检索的搜索引 擎,为用户提供了一种可以方便快捷地检索到自己所需信息的途径。但是,目前 的搜索引擎主要是基于关键词的全文匹配( g o o g l e ) 或是基于主题分类( 例如 y a h o o ) 进行检索的。结果往往会返回大量无关的链接,使得用户将大量的时间耗 费在排除无关信息上。同时,用户和网络文档对同一概念的表述形式往往会有差 异,导致无法接收到有用信息。在传统的信息检索模型中,由于文档逻辑视图和 用户信息需求逻辑视图不能有效地表达文档和用户信息需求,所以尽管根据逻辑 视图的特点选取了合适的排序函数,但检索性能总是不能令人满意。 鉴于传统检索机制的局限性,常规的直接基于关键词的信息检索技术已不能 满足用户在语义上和知识上日益增长的需求,其根本原因计算机不能“读懂 信 息,因而造成面向字符串的信息检索而不是面向语义的检索。而本体( o n t o l o g y ) 由于具有良好的概念层次结构和对逻辑推理的支持,如果在检索过程中导入概念 的内容表述语义( s e m a n t e m e ) ,使检索过程由原来的关键词( 组) 匹配进化为内 容匹配,能克服上述仅有表达形式上的匹配所带来的种种缺点。因而,本体在信 息检索,特别是在基于知识的检索中得到了广泛的应用。 1 绪论 1 1 研究背景与意义 本章分析了息检索的主要问题,介绍了语义检索的现状,探讨了问题的解决 办法,最后说明了本文内容的组织结构。 基于查询重写和关联搜索的本体查询算法 1 1 1 信息检索及存在问题 信息检索( i n f o r m a t i o nr e t r i e v a l ,简称i r ) 就是信息用户为处理解决各种问 题而查找、识别、获取相关的事实、数据、知识的活动及过程,包括信息的组织、 存储、表现、查询、存取等各个方面。从数据建模上看,可以分为:布尔检索模 型,向量空间模型,概率模型等;从实现方式看,可以分为数据检索,全文检索 和知识检索【4 】。从发展阶段上来看,信息检索经历了手工检索、计算机检索到目 前网络化、智能化检索等多个阶段;目前,信息检索已经发展到网络化的阶段。 信息检索的对象从相对封闭、稳定一致、有独立数据库集中管理的信息内容扩展 到开放、动态、更新快、分布广泛、管理松散的w e b 内容;信息检索的用户也 由原来的专业情报人员扩展到包括在企业、政府、教师、学生各个领域的普通人 员。本文的研究对象就是基于o n t o l o g y 的信息检索技术。 评价信息检索效果指标主要有:查全率( r e c a l lf a c t o r ) 、查准率( p e r t i n e n c e f a c t o r ) 、漏检率( o m i s s i o nf a c t o r ) 、误检率( n o i s ef a c t o r ) 其中查全率是对所需信息被检出程度的度量,用来表示信息系统能满足用户 需求的完备程度;查准率是衡量信息系统拒绝非相关信息的能力的度量,查全率 的误差是漏检率:查准率的误差是误检率。查全率和查准率的数学公式分别如下: 查全率c r ) = 筹器砌。 查准率= 糕础咣 对于一个信息检索系统来讲,查全率和查准率存在互逆关系,即当查全率和 查准率处于最佳比例关系时,继续提高查全率,检出的相关文献数量会增加,但 同时由于检出文献中不相关文献的数量增加会导致查准率降低。 目前有以下几种信息检索技术: r o b o t 搜索引擎 机器人搜索引擎由一个r o b o t ( 也称为w r a p p e r ,s p i d e r ,c r a w l e r ) 程序以某种 搜索策略自动地在w e b 上搜集和发现信息,将搜集到的信息下载到本地文档库, 由分析器对文档内容进行自动分析,然后由索引器建立索引。对于用户提出的查 询请求,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。 2 基于查询重写和关联搜索的本体查询算法 如g o o g l e 、百度、3 7 2 1 等。优点是信息量大、更新及时、无须人工干预,缺点 是返回信息过多,有很多无关的信息。 目录式搜索引擎 由人工方式或w e b 站点作者主动提交信息,由编辑人员查看信息之后,人 工形成信息摘要,并将信息按照主题分类并以树状的形式加以组织,从树的根节 点逐层向下列出了从一般到特殊的分类及各级子类,叶节点则包含指向w e b 信 息的链接。大多面向网站。通常提供目录浏览服务和直接检索服务。著名的目录 式搜索引擎有y a h o o 5 1 、o p e nd i r e c t o r 3 j 6 1 、s n a p i t l g 筝。与机器人搜索引擎不同的 是,目录式检索由于加入了人的智能因素,所以信息准确、导航质量高,缺点是 需要人工介入、维护工作量大、信息量少、信息更新不及时。 元搜索引擎 ? 元搜索引擎是一种基于搜索引擎的搜索引擎,它将多个搜索引擎集成在一 起,通过一个统一的检索界面接受并处理用户的查询,在进行检索时调用一个或 者多个独立搜索引擎的数据库,检索结果是来自独立搜索引擎的检索结果或者是 这些结果集合的总和,经过处理后将结果呈现给用户。 信息检索a g e n t 信息检索a g e n t 是一些智能化的程序,它们能够学习用户的兴趣需求,并利 用机器人搜索引擎系统提供的现有服务来定制用户的所需信息。它们既可以运行 在服务器端,也可以运行在客户端。信息检索a g e n t 具有以下特征:可适应性、 主动性、协作性、移植性。 使用传统的信息检索技术,快速、高效地获取有用信息变得越来越困难,主 要有以下两方面的原因: 因特网上信息源的固有特点:第一,信息资源丰富,内容多样性;第二,信 息表现形式多样化;第三,信息的交互性、关联性;第四,信息组织的局部 有序性与整体无序性等,导致日益严重的“信息过载 和“信息迷航 等问 题。 传统信息检索技术的缺陷【8 】:第一,缺乏语义理解,导致返回结果中含有很 多噪声,系统很难理解用户的需求;第二,系统对信息内容的处理大多采用 全文分析关键词匹配技术,根据词汇在文献出现的概率,仅仅反映内容的一 个侧面,导致检索结果全面性下降;第三,由于用户提出的问题与信息源的 3 基于查询重写和关联搜索的本体查询算法 内容完全一致的可能性较小,难以保证内容与用户问题的正确匹配,准确率 很低。第四,信息源中数据在格式和存储结构上的异构性、人为原因造成的 信息源中数据之间“同义异形”和“同形异义 等的语义混乱。从而信息查 询的结果往往很难满足用户需要。要提高现有检索系统的精度,就需要解决 。上述几个问题【9 】。 因此,在如此信息膨胀和信息源多样性的共同作用下,快速、有效地获取有 用信息变得越来越困难,于是设计一个基于语义层面的信息组织及其表示、合理 的智能信息检索系统成为日益倍受关注的问题。 1 1 2 智能信息检索 鉴于传统检索系统的这些缺陷,智能化检索得以快速发展。以自然语言理解 技术为基础的新一代信息检索,被称为智能信息检索。由于它将信息检索从目前 基于关键词层面提高到基于知识( 概念) 层面,对知识有一定的理解和处理能力, 结合自然语言处理的分词技术、同义词技术、短语识别和机器翻译技术等实现对 计算机处理中加入语义的理解。因而这种信息检索具有信息服务的智能化、人性 化的特点,可以为用户提供更方便快捷的检索服务。目前,智能信息检索系统常 用的技术【1 0 】有: ( 1 ) 机器学习 机器学习是研究如何使机器模拟人利用各种学习方法来获取知识,并进行知 识的积累、修改和扩充的过程,目的是将数据库和信息系统中的信息自动提炼并 转换成知识。机器学习的一般过程是建立理论、形成假设和进行归纳推理,通过 学习处理环境提供的信息,以丰富知识库中的知识。机器学习技术是网络信息检 索技术智能化的基础。 ( 2 ) 自然语言理解 自然语言理解是自然语言处理的高级阶段,它是研究如何让计算机理解并生 成人们日常所使用的语言,使得计算机懂得自然语言的含义。其目的在于建立起 一种人与机器之间的密切而友好的关系,使之能进行高度的信息传递与认知活 动。其常用技术包括三个方面:机器翻译、语义理解和人机会话。 机器翻译 机器翻译是利用计算机把一种自然语言转变成另一种自然语言的过程。 4 基于查询重写和关联搜索的本体查询算法 智能搜索引擎在这一领域的研究将使得用户可以使用母语来搜索非母语的 网页,并以母语浏览搜索结果。 : 语义理解 语义理解通过将语言学的研究成果和计算机技术结合在一起,实现了对 词语在语义层次上的理解。在语义理解的整个过程中,又涉及到三种技术: 自动分词、短语识别和同义词处理。 人机会话技术 人机会话技术可以为计算机提供下一代的人机交互接口,实现从文字接 口、图形接口到自然语言接口的革命,其技术内涵主要包括语音识别、语音 合成两个核心部分。这将使得检索接口的自然化、可视化和人性化成为可能。 目前,由于自然语言理解技术自身发展还不成熟,基于语义处理和知识表示 方面都存在许多困难,因而将自然语言理解与信息检索相结合,最终如何进 一步提高检索系统的整体性能等问题还是一个有待挖掘的课题。 ( 3 ) 基于词表的知识推理 。j 基于词表的知识推理是以词表关于概念间关系的知识为依据,并模拟人类检 索专家推理思维的过程,来实现信息检索的智能化。基于词表的智能信息检索系 统是在传统检索系统中融入专家系统技术而形成的信息系统,它以概念间存在的 内在关系为研究出发点,达到了在一定程度上对概念的理解和对人类专家检索过 程模拟的目的,以实现信息检索的智能化。 ( 4 ) 智能搜索代理 人们在进行互联网信息检索时,总是期望获得较高的查全率和查准率,这就 要求用户在使用搜索引擎时不但要提交高质量的查询式,还要知道信息源的位 置,这对于一般用户来说是很难的。而智能代理就可以代替用户进行信息的搜索 和定位工作,该技术是人工智能研究的新成果,它在用户没有明确具体要求的情 况下,根据用户需要,代替用户进行各种复杂的工作,如信息查询、筛选等,并 能推测用户的意图,自主制定工作计划。一般来说,智能代理有如下特征: 智能性,具有丰富的知识和一定的推理能力,能对用户的需求进行分析, 自动拒绝一些不合理或者可能给用户带来危害的要求,而且具有从经验 中不断学习以提高处理问题的能力。 5 基于查询重写和关联搜索的本体查询算法 代理性,在功能上是用户的某种代理,它可以代替用户完成一些任务, 并将结果主动反馈给用户。 移动性,可以在网络上漫游到任何目标主机,并在目标主机上进行信息 处理操作,最后将结果集中返回到起点,而且能够随计算机用户的移动 而移动。 主动性,能根据用户的需求和环境的变化,主动向用户报告并提供服务。 协作性,能通过各种通信协议与其他智能代理进行信息交流,并可以相 互协调共同完成复杂的任务。 1 1 3 基于本体的智能信息检索 基于自然语言理解技术的智能信息检索,即语义检索,将信息检索与人工智 能技术、自然语义技术结合,从语义的角度分析信息源和检索请求。要实现语义 检索首先要构造概念空间,所谓概念空间是一种包含语义关系的计算机可识别的 概念和概念关系的集合,它是语义检索研究的前提和基础。概念空间构造方法分 为两种: 令基于概念词典和关系数据库的概念空间:称为概念信息检索,主要 针对传统的文献资源。 令基于本体的概念空间,称为基于本体的信息检索,主要针对互联网 信息资源。 其中后者亦即基于本体构造概念空间的方法成为基于本体的语义检索,它将 本体融合到传统的信息检索技术中,既继承了概念信息检索的优点,还克服了概 念信息检索不能处理概念关系的局限。 本体作为一种能在语义和知识层次上描述信息系统概念模型的建模工具,在 信息检索领域得到了广泛的关注和越来越多的应用。通过建立本体库,将用户请 求语义化表述,可以明确用户真正意图,去掉无用信息,更准确的反应用户需求, 提供查全率和查准率。 1 2 国内外研究现状及分析 为了解决上述信息检索存在的问题,实现智能化的处理w e b 信息和基于语义 的信息共享,t i m 等人提出了语义w e b 1 1 】的概念,用o n t o l o g y 来表示信息,使得入 和机器,机器与机器之间能够更好的实现信息的共享和协作。由于本体具有良好 6 基于查询重写和关联搜索的本体查询算法 的概念层次结构,能提供对“数据 含义理解的良好支持并支持逻辑推理,因此, 利用本体来支持信息查询的研究得到了广泛的关注。 2 0 0 1 年7 月3 0 日,美国斯坦福大学召开了题为“语义网基础设施和应用 的 学术会议,这是有关语义w e b 的第一个国际会议。2 0 0 2 年7 月9 日,在意大利召开 了第一届国际语义w e b 大会。此后语义w e b 大会每年举行一次,形成惯例。同时, h p 、i b m 、微软、富士通等大公司,斯坦福大学、马里兰大学、德国卡尔斯鲁厄 大学、英国曼彻斯特维多利亚大学等教育机构都对语义w e b 技术展开了广泛深入 的研究,开发出了j e n a 、k a o n 、r a c e r 、p e l l e t 、p r o t 6 9 d 等一系列语义w e b 技术 开发应用平台、基于语义w e b 技术的信息集成以及查询、推理和本体编辑系统【1 2 1 【1 3 】【1 4 】 o 我国也非常重视语义w e b 的研究,早在2 0 0 2 年,语义w e b 技术就被国家8 6 3 计 划列为重点支持项目,清华大学、东南大学、上海交通大学和中国人民大学都是 国内语义w e b 及其相关技术的研究中心。东南大学的语义w e b 本体映射研究有二定 的国际影响,清华大学的语义w e b 辅助本体挖掘系统s w a r m s 、上海交通大学的本 体工程开发平台o r i e n t 都代表了国内语义w e b 研发水平。 当前对本体的研究和应用主要包括三个方面: 1 本体理论研究,包括研究本体分类,本体上的代数操作。 2 在信息系统中的应用,主要包括处理信息组织、信息检索和异构信 息系统互操作等问题。 3 本体作为一种能在知识层提供知识共享和重用的工具在语义w e b 中 的应用。 目前,目前o n t o l o g y 应用在信息检索中的主要项目和技术包括: 令s e a l 方法:s e a l ( s e m a n t i cp o r t a l ) 方法使用本体技术来支撑网站 管理和w e b 信息集成。它映射底层数据源( x m l 、h t m l 、r d f m s ) 到通用语义模型( 即本体) ,采用混合本体的系统结构,支持对多 个数据源的查询。基于s e a l 的语义门户应用是本体在信息集成领域 夺( o n t o ) 2 a g e n t 1 2 1 ,利用参照o n t o l o g y 帮助用户检索w e b 上已有的 o n t o l o g y ,相当于一个o n t o l o g y 的黄页。不仅如此,基于o n t o l o g y 的概 念组织分析用户浏览的网页,从中推断用户的兴趣模型,通过这种 7 基于查询重写和关联搜索的本体查询算法 隐性学习的方式实现个性化检索。 w 3 c 组织作为语义w e b 的主要推动者和标准制定者,开发了一系列推荐标准, r d f 、o w l 、s p a r q l 等,为基于本体的应用提供了语言基础同时,语义w e b 的 开发环境和技术也得到广泛发展。除了我们已经熟悉的本体建模工具p r o t 6 9 6 和 r d f 操作工具j e n a ,目前支持本体应用开发的项目还有: j 0 s e d l 5 】:是一个支持s p a r q l 接口的m t p 引擎和w e b s e r v i c e ,基于w 3 c 的标准协议开发,通过它能够进行s p a r q l 查询语句的跨平台调用,最 新版本已经加入了基于标准接n s o a p 的实现。 s e s a m e 【1 7 】:是一个基于w 3 c 开发标准开发的,用于存储和查询r d f 数据 的j a v a 开源框架。s e s a m e 在存储机制,推理机制,r d f 1 8 】文件类型,查 询结果格式和查询语言( s n 呱q l 和s e r q l ) 等方面都是灵活、可扩展 的。s e s a m e 屋p 是二个高效稳定的r d f 数据库,还是一个基于语义开发的 工具库,例如提供基于r d f 三元组的操作和s p a r q l 标准协议的h t i t 远 程调用实现。 a l l e g r og r a p h 1 9 】:是一个现代化、高性能的、稳定的、基于硬盘存储的、 面向r d f 模型的6 4 位r d f 数据库。它提供面向j a v a 应用的s n 蛾q l 、 r d f s + + 、p r o l o g 推理等接口。该项目作为开发语义应用的数据存储媒介, 已经商用于一些公司的整合大型数据的需求。 国内对o n t o l o g y 的研究刚刚起步,主要研究内容包括信息检索、产品信息 建模、虚拟企业建模【2 1 】、常识知识【矧库等方面。如中国科学院计算技术研究所 大规模知识系统的研究例、中国科学院数学研究所常识知识库的研究俐、浙江 大学人工智能研究所基于o n t o l o g y 的产品信息集成研究等【2 5 1 。 国内也有许多学者对于将本体应用于信息检索领域进行了深入的研究。万捷 等人提出基于内容的信息检索系统,利用本体对检索需求进行语义扩充,并用文 档分析器对检索文档进行过滤,因此增加了检索结果的准确性,更加符合用户的 检索需求【硐。 徐振宁等人则把本体作为信息检索系统的核心,通过构造形式化的领域本 体,提出了一种将知识表示和知识处理引入互联网信息处理的方法,为互联网上 半结构化数据和关系数据库提供了统一的语义模型吲。 8 基于查询重写和关联搜索的本体查询算法 武成岗等人也提出了基于本体和多智能主体的信息检索服务器,该系统利用 本体协助智能主体对网络上的各类信息进行领域分类,并规范用户信息检索的模 式,山于仅提供给用户所关注领域的资源索引,因而查准率较高【冽 1 3 本文主要内容和组织结构 1 3 1 智能信息检索研究内容 根据以上阐述,基于本体的语义检索研究具有很高的学术理论意义和非常广 阔的应用前景,本文在前人研究的基础上,主要做了以下几方面的工作t 在分析和研究现有信息检索技术存在的不足基础上,利用本体实现基于 语义的信息检索,提出了一个语义检索系统的模型,介绍了模型的体系 结构和设计思想。 深入研究了语义w e b 和本体,着重探讨了本体检索所涉及的语义推理、 结果排序和持久化等关键技术。 提出了基于查询重写和关联搜索的本体查询算法,利用它对本体检索进 行优化,并利用算法中的动态匹配策略,能够有效的实现关键词到本体 资源的准确定位。 提出了基于带权语义距离的语义相关度算法,它能有效反映用户需求与 检索结果的相关程度。 开发和实现了基于本体的语义检索系统o s e a 系统原型,应用了前面分析 的关联搜索查询技术和排序算法,探讨了分析了系统各个模块的功能和 实施流程,并对系绕陛能进行了分析和评价,针对系统存在的不足提出 了改进的思路。 1 3 2 论文组织结构 全文共由6 章组成: 第1 章绪论。通过总结了信息检索的发展现状和存在问题,阐述了课题的 研究背景,提出了本课题的研究意义和主要研究内容。 第2 章本体理论概述。介绍了语义w e b 及本体,着重介绍了本体描述概念 空间的优越性和特点,介绍了基于本体的信息检索系统的基本思 路,最后介绍了目前应用本体的信息检索研究的发展现状。 第3 章基于本体的语义检索关键技术。对基于本体的语义检索的关键技 9 基于查询重写和关联搜索的本体查询算法 术:查询语言、查询手段、查询扩展推理、本体持久化方案和j e n a 的实现进行了深入的研究。 第4 章基于查询重写和关联搜索的本体检索模型。提出了一个基于本体的 语义检索系统,介绍了它的设计思想、系统框架、功能和工作流程。 该系统包括四个功能模块,这些功能模块是:用户交互界面、本体 管理组件、查询处理组件和d b 存储组件。其中查询处理组件是系 统的核心逻辑。 第5 章查询重写和关联搜索算法。提出了基于查询重写和管理搜索的本体 查询算法,探讨了算法实用性、性能和可行性以及主要技术难点; 结合传统的查询方法提出了动态匹配策略,用以实现用户查询到本 体实例的定位;为了解决检索结果排序问题,提出了基于带权语义 距离的语义相关度计算方法 第6 章o s e a 系统实现。开发和实现了一个应用查询重写和关联搜索技术 的本体检索系统原型o s e a 系统,本系统具有本体无关、检索模式 多元化、检索效率高、响应迅速和界面友好等特点。其中详细介绍 了主要功能模块的实现,展示了系统的功能,并分析和评价了系统 的性能。 第7 章总结与展望。总结本文的研究成果,指出了算法的不足和系统中不 完善的部分,对将来的工作进行了展望。 2 本体理论概述 2 1 语义网概述 2 1 1 语义w e b 由来 1 9 9 0 年,t i mb c m c m l e e 发明了互联网上的超文本系统,网络互连技术被 人们用于信息交流与共享,从而极大地促进了互联网的发展。t i mb e m e 璐i c e 也因此被誉为了互联网的创始人。 随着人们对网络上信息使用要求的不断提高,对网络上信息内容提出了更高 要求。目前,网络只是给人们提供了一个信息共享和信息浏览的环境,目前网上 的信息不能为机器所能理解。由于信息内容没有被更好地形式化表示,加上万维 网上信息量的急剧增加,已造成严重的信息超载。而互联网上广泛存在的信息格 1 0 基于查询重写和关联搜索的本体查询算法 式的异构性、信息语义的多重性以及信息关系的匾乏和不一致性,给人们在信息 搜索、抽取、表示、解释和维护方面造成极大的不便。用户查找、访问、呈现、 ; 维护信息的难度也极大增加。在可用信息和支持用户查找、使用信息的工具间, 一个巨大的鸿沟己经出现了。正是由于这样,使得网络的深层次应用,如电子商 务、电子政务和数字图书馆等智能化服务的开展十分困难。由于计算机拥有对大 规模信息处理的能力,将网上信息处理和利用尽可能地交给计算机自动完成是解 决这些问题的关键。而要达到这样的目的,人们必须让计算机能够“理解这些 信息,并在“理解 的前提下更好地处理和利用这些信息。 1 9 9 8 年,t i mb e m e r s l e e 提出了语义w e b 的概念【2 9 】。语义w e b 的目标是通 过向数据中添加机器可以理解的语义和启发式的使用元数据来实现机器的自动 处理信息,数据的清楚语义加上领域理论( 即本体) 将使得w e b 提供更高质量的服 务。按照t i mb e m e r s l e e 的设想,语义w e b 是“一个机器可读取信息并能自动 提供强大w e b 服务功能的扩展的w e b ”。作为当前w 曲的一个延伸,它是基于知。 识的w e b ,其信息有定义完好的语义,更利于人机之间的协作,弥补了目前w e b 系统的缺陷和服务的不足。普通用户能够用现成的语义标记功能的软件编写语义 网页,增加新的定义和规则,从而使计算机能解读信息并自动进行相应处理,实 现网络服务功能的大扩展。语义w e b 是目前网络的延伸,其上的信息具有计算 机可以理解的语义,在本体的支持下实现信息系统问语义上的互操作性,以及对 w e b 资源所进行的智能访问和检索。语义化w e b 使得类似信息代理、搜索、引 擎、信息过滤等智能服务成为可能。t i mb e m e r s l e e 为提供强大网络服务功能的 新一代w e b 绘制了美好的蓝图。 2 1 2 语义w e b 层次结构 语义w e b 构想通过改变现有互联网依靠文字信息共享资源的模式,而用本体 来描述语义信息,达到语义级的共享以提高网络服务的智能化和自动化水平。t i m b e r n e r s - l e e 在综合了语义w e b 研究领域最新成果的基础上提出了语义w e b 模 型。如图就是t i mb e r n e r s - l e e 。在x m l 2 0 0 0 大会上提出的语义w e b 体系结构: 基于查询重写和关联搜索的本体查询算法 图2 - 1 语义w e b 体系结构 第一层是统一字符编码( u n i c o d e ) 和统一资源标识符( u n i f o r mr e s o u r c e i d e n t i f i e r s ,简称u r i ) ,作为整个语义w e b 的基础,提供w e b 资源编 码、资源及资源间关系的唯一标识,其中u n i c o d e 处理资源的编码,u r i 负责标识资源; 第二层是可扩展标记语言( x m l ) 、命名空间( n a m e s p a c e s ) 和x m l 模式 ( x m ls c h e m a ) ,表示数据的内容和结构,将w e b 上资源信息的结构、 内容与数据的表现形式进行分离,确保了语义w e b 的定义: 第三层是资源描述框架( r d f ) 和r d f 模式( r d fs c h e m a ) ( 统称为r d f ( s ) ) 用于描述w e b 上的资源、资源类型以及资源间的联系,是语法互操作性 的基础; 第四层是本体词汇( o n t o l o g yv o c a b u l a r y ) ,在更具表达力的知识形式 化描述层上提供语义互操作性,能够对词汇的变迁提供支持; 第五层是逻辑( l o g i c ) ,提供公理和逻辑推理规则,为机器对具有语 义的数据进行推理提供基础; 第六层是证明层( p r o o f ) ,注重于提供认证机制,执行逻辑层产生的规 则,并结合信任层的应用机制来评判是否能够信赖给定的证明; 第七层是信任( t r u s t ) ,注重于提供信任机制,以保证用户代理进行个 性化服务和彼此间交互合作时更加安全可靠。 语义w e b 研究的重点就是如何把w e b 内容表示为机器可解释处理的形式,即 1 2 基于查询重写和关联搜索的本体查询算法 带有语义。本体在创建这种机器可处理的w e b 内容中扮演着关键的角色,被认为 是语义w e b 的关键使能技术。 2 1 3 语义w e b 应用 语义w e b 设计了美好的前景,虽然离真正实现还是很远,不过,目前语义w e b 技术己初步成熟,它的应用领域主要包括: ( 1 ) 智能信息检索。 面对w e b 上的大量信息,目前还只能供机器识别,而不能让机器理解, 于是在语义w e b 环境下对信息检索智能化研究是一个重要的方向。 要实现信息检索的自动化和智能化,关键是要解决如何从h t m l 页面提取语 义信息,构建出能够描述这些页面的本体( o n t o l o g y ) 建立相应的o n t o l o g y 学习系统,实现o n t o l o g y 的自动或半自动提取。采用语义w e b 技术不仅可 以对文本信息加强智能检索的实现,而且还可以对多媒体信息,结合模式识 别与对象提取技术实现内容上的检索,从而实现信息检索智能化的下一代 w e b 。 ( 2 ) 网格与网格计算。 网格( g r i d ) 作为一种新技术,是继i n t e r n e t 和w e b 技术之后的第三次 互联网技术浪潮。它将高速互联网、计算机、大型数据库、传感器、远程设 备融为一体,为专业人员与普通用户提供更多资源、功能和服务。网格基于 i n t e r n e t 和w e b 的技术,构想实现i n t e r n e t 上计算、存储、通信、软件、 信

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论