基于本体的分布式信息检索.doc_第1页
基于本体的分布式信息检索.doc_第2页
基于本体的分布式信息检索.doc_第3页
基于本体的分布式信息检索.doc_第4页
基于本体的分布式信息检索.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本体在分布式信息检索中的应用马小霞 郑会云(山东曲阜师范大学 信息技术与传播学院,山东 日照 276800)摘要: 随着数字化信息的爆炸式增长,Internet成了一巨大数据库。现有的搜索引擎检索出的内容已难以保证与用户所需内容的精确匹配。本文所研究的结合本体的分布式信息检索能有效地改善这一问题,提高检索的效率和准确率。关键词: 本体;信息检索;分布式检索算法Abstract: with digital information exploding, Internet has become a huge database. The content crawl out from existing search engines is difficult to match with users required accurately. Distributed information retrieval with ontology can improve the problem effectively and improve the retrieval efficiency and accuracyKey word: Ontology; information retrieval; distributed retrieval algorithm引言近年来,随着人们对检索效率和准确率要求的不断提高,使得本体在信息检索中的应用得到迅速发展。基于移动Agent的分布式的多层结构已经广泛地应用在数据库系统的研究与开发中,能有效提高检索系统的效率、灵活性和可扩展性。在信息检索中,结合本体与分布式技术进行信息检索已经成为人们研究的热点。一、本体概述 随着人们对知识表示、信息组织和复用以及为用户提供有效服务的需求越来越强,本体(Ontology)作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自提出以来就引起了国内外众多科研人员的关注,并在许多领域得到了广泛应用,如语义Web、智能信息检索、信息集成、数字图书馆等领域。(一)本体的定义本体(Ontology)是一个从哲学领域引入的词汇。 Ontology的含义是从抽象的、形而上学层面逐渐转化为工具性的、具有特定意义的理解。因此,Ontology在不同的语境中有不同的解释。1998年Studer1提出“本体是共享概念模型的明确的形式化规范说明”这一概念得到了学术界的广泛认同。此概念体现了本体的以下几层含义:概念模型(Conceptual model):通过抽象出客观世界中一些现象的相关概念而得到的模型,其表示的含义独立于具体的环境状态。明确(explicit):所使用的概念及使用这些概念的约束都有明确的定义。形式化(formal):本体是计算机可读的。共享(share):本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。2(二)本体的分类根据不同的属性,可将本体分为不同的类别。1、按照对领域的依赖程度分类: 顶层(top-level)本体、 领域(domain)本体、任务(task)本体、 应用(application)本体3top-level ontologytask ontologydomain ontologyapplication ontology图1-1 四类本体之间的关系2、 按照细化程度分类:参考(reference)本体:详细程度高;共享(shareable)本体:详细程度低。3、 按照形式化程度分类(1)结构非形式化:用限制的结构化的自然语言表示;(2)高度非形式化:用自然语言松散表示;(3)半形式化:用半形式化(人工智能)语言表示;(4)严格形式化:所有术语都具有形式化的语义,能在某种程度上证明完全性和合理性。(三)本体描述语言由于大量的研究工作者对该领域的关注和研究,使得本体领域诞生了许多种描述语言,例如:RDF和RDF-S、OIL、DAML、OWL、KIF、SHOE、XOL、OCML、Loom等。期中,与Web相关的有:RDF和RDF-S、OIL、DAML、OWL、SHOE、XOL。RDF和RDF-S、OIL、DAML、OWL、XOL之间有着密切的联系,是W3C的本体语言栈中的不同层次,也都是基于XML的。SHOE是基于HTML的,也是在HTML基础上的一个扩展。另外,与具体系统相关的(基本只在相关项目中使用的)有:Ontolingua、CycL、Loom。二、 分布式信息检索分析分布式信息检索主要是指在分布式的环境中,利用分布式计算和移动代理等技术从更大量的、异构的信息资源中检索出对用户有用的信息的过程。4分布式环境指的是信息资源在物理上分布于各地,小到一个办公室,大到跨越国家。这些分布式的信息资源在逻辑上是一个整体,从而构成一个分布式检索系统。(一)分布式信息检索原理一个简单的分布式信息检索系统由信息库服务器和多个代理服务器两部分构成。在一个代理处理器的检索系统中,用户向broker提交检索提问式,broker将会用这一检索提问式检索信息服务器的子集完成信息的查找。子集中的每个信息库服务器反馈给broker一个按相关度由大到小排列的信息列表。最后,broker对所有的结果进行整合,形成新的信息列表反馈给用户。但是,由一个代理服务器进行的分布式的检索系统,有很多局限性:l 一个代理服务器难以管理大量的信息库服务。l 系统的可扩展性差l 软件的移植性、互操作性及安全性查。由于一个代理服务器组成的分布式检索系统存在着局限性,目前大多数分布式信息检索系统是有多个代理服务器组成的多级代理的分布式信息检索系统。多级代理的分布式信息检索系统有一个总代理和若干个分代理组成。工作原理如图2-1所示:在一个分布式的检索系统中有一个总代理系统和多个分代理(或称子代理)系统,每个子代理系统还可以有它的子代理,最低一层的子代理系统有一个或多个搜索引擎来对最底层的数据库进行检索。整个分布系统是柱状结构的。 用户 检索代理系统(总代理系统)检索代理系统(子系统1) 子系统2 子代理n (可以有多层代理系统) 子代理(最低层) 搜索引擎系统(也可以有多个) 数据库数据库数据库图2-1 基于代理的分布式检索系统(二) 基于移动Agent的分布式检索算法目前的分布式计算主要采用远程过程调用、进程迁移、C/S结构等计算模型。但是这些计算模型本身都存在一定的局限性,其中最明显的就是要求所有参与计算的节点在进行交互时,都必须同时在网络中存在,如果某些所需资源暂时无法访问到,则整个计算过程将失败。移动Agent的出现使得计算机之间的通信不再是一台主机调用位于另一台主机上的服务,而是向其它计算机提供可执行的计算过程,通过网络传送的消息也不再仅仅局限于数据,而是包含计算过程及其所处状态的计算实体。如果一个客户机需要与网络上特定服务器进行大量的通信,最好的办法就是实现一个使用移动Agent的系统,该Agent能够自动移动到远程服务器上执行计算任务并返回,这样可以减少网络拥塞。整个计算过程中客户机没有必要在网络中存在,仅仅只有在移动Agent返回时,客户机才需要连接到网络上,如图所示:图2-2移动Agent计算模型三、 基于Ontology的分布式信息检索系统设计基于Ontology的分布式系统主要由信息采集模块、索引模块、信息搜索模块、界面处理模块、分布式本体库构成。大致的功能模块如图3-1所示。INTERNET信息采集模块数据库数据库采集器采集器索引库索引库索引模块索引器索引器检索器检索器信息搜索模块检索控制器分布式Ontology界面处理模块 图3-1基于Ontology的分布式系统(一) 系统的总体结构采用模块式结构本系统体系结构由信息采集模块、索引模块、信息搜索模块、界面处理模块、分布式本体库等几大模块构成,应用服务器与信息服务器分开,不允许用户直接与信息服务器交互,有利于数据库的安全性和数据的一致性。并且体系结构使系统的逻辑结构更为清晰,有利于多组成部分保持逻辑上的相对独立性,从而提高系统的可维护性和可扩展性;不仅如此,在系统开发时,模块化结构有利于选用合适的平台和硬件系统,多模块可以并行开发,并分别选择各自最适合的开发语言,使开发过程更有效地进行。分布式检索系统同时吸收了集中式系统的优点本地信息服务器仅存储和管理本地收集获取的信息,需要和远程信息服务器合作共同完成用户的信息服务请求。系统根据领域Ontology建立本地索引库和网络资源数据库,用户所需要的大部分信息来自于本地数据库。通过局域网和本地信息检索服务器获取信息,响应时间远远小于通过广域网获取信息的时间。由于本地信息服务器存储有远端各个信息服务器的索引信息,所以,对信息索引的搜索,如同在一个集中式系统中进行一样。(二) 采用本体技术使系统具有语义理解和处理能力,增强系统的智能性以本体技术为核心技术,采用领域语义模型,对信息源提供语义标注,使信息搜索过程具有逻辑推理的能力;系统以本体技术为基础,规范用户提问,使用户提问用词与信息标引用词在一定程度上达到一致,便于信息的精确查询;系统以本体为关键支撑技术,基于语义层面进行信息检索,提供人性化的智能信息检索。数据检索采用Agent技术增强系统的灵活性和可扩展性。Agent技术具有自治性、人格化、可交谈、协商性、交互性、主动性和健壮性等优点,非常适合处理数据、知识和分散的分布式问题。5利用移动Agent收集信息,可动态适应信息源的变化,节约网络带宽且减少网络延时,具有较好的可理解性。总之Agent技术的采用提高了系统的效率、灵活性和可扩展性(三)工作流程概括分布式搜索引擎第四步:分布式任务的分解第一步:查询分析第二步:本体的确定第五步:确定匹配度较高的信息第六步:检索结果的合并第七步:相关性大小排序第三步:同义词确定用户 检索结果 检索请求图3-2 工作流程图第一步:查询分析。接受用户提交的查询信息,并规范用户查询,得出用户查询的关键字集合,如:Key=key1,key2,keym。6该步骤在界面处理模块中完成。传统的信息检索的接口要求用户提交由布尔运算符分隔的一系列关键字,而用户提交的查询可能是一系列的包含自然语言的语句,及一些与检索相关的参数。系统必须通过一个特定的程序,来实现对这些查询数据的识别和分解。第二步:确定用户查询的本体。由上面得到的关键字的集合,查询本体O1 O2 On(每个本体提供了该领域的关键术语),确定用户关键字与各领域关键术语的相似度大小关系,排序后,供用户进行选择。用户的选择结果即所关心的领域。第三步:对用户提交的查询信息进行相应的语法分析和语义分析,按照用户的意图得到一些关键字的组合,使用用户所选择的本体来精炼或扩充用户确定的词汇,使查询更为精确。第四步:检索任务的分解与信息检索,由信息搜索模块完成。第五步:确定匹配度最高的检索信息。各检索器中,得到一系列检索结果(包括URL以及在网页的找到的最相关的小段信息),与相关的本体进行匹配,并把匹配的结果传递给界面处理模块。第六步:各检索器检索结果的合并。第七步:界面处理模块把检索结果按照相关性大小进行排序,返回给用户。四、结束语将本体应用于分布式信息检索之中,并采用基于移动Agent分布式检索算法,能很好地解决了分布式技术的跨平台性、数据库异构性和同步性问题。能有效提高检索的效率。目前,尚不存在完全自动化的本体学习技术,在本体技术的研究与开发工作方面仍需我们继续努力。7参考文献:1 Borst W N. Construetion of Engineering Ontologies for Knowledge SharingandReuseM.PhD thesis,University of Twente,Enschede,1997.2 郭仁忠. 空间分析M . 北京:测绘出版社, 2000: 425. 本体定义3 Studer R,Benjamins V R,Fensel D. Knowledge Engineering,PrinciPles andMethodsJ.Data and Knowledge Engineering 1998,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论