(计算机应用技术专业论文)基于ontology的分布式信息检索技术研究.pdf_第1页
(计算机应用技术专业论文)基于ontology的分布式信息检索技术研究.pdf_第2页
(计算机应用技术专业论文)基于ontology的分布式信息检索技术研究.pdf_第3页
(计算机应用技术专业论文)基于ontology的分布式信息检索技术研究.pdf_第4页
(计算机应用技术专业论文)基于ontology的分布式信息检索技术研究.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于o n t o lo g y 的分布式信息检索技术研究 摘要 w e b 上的数字化信息呈爆炸式增长,i n t e r n e t 已经成为一个巨大的信息数 据库。要在如此庞大且瞬息万变的i n t e r n e t 上获取所需的信息,必须一个有效 的检索工具的协助。现有的搜索引擎只能反映用户所要检索内容的某一方面, 无法保证内容的准确匹配。本体( o n t o l o g y ) 是特定领域的概念及术语的一个明 确的形式化的描述,它不仅为规范化资源描述及用户查询提供了基础,也为更 准确的搜索信息提供了保证。检索的过程中,大量的信息在网上流动,提供分 布式检索方式将是提高信息检索效率的有效途径之一 本文第二章主要介绍了本体的概念、功能及描述语言,国内外对本体理论 的研究现状,本体在信息检索中的应用等内容,并在此基础上阐述了分布式本 体的构建。 第三章介绍了传统的搜索引擎与分布式信息检索,首先对传统信息检索的 基本原理、技术及工具、信息检索发展现状等方面作分析研究,然后介绍了分 布式计算和分布式检索的相关知识,并论述了用移动a g e n t 技术实现分布式计 算的特点及优势。 第四章结合万维网的具体特点,从提高搜索引擎检索能力的角度,提出了 基于o n t o l o g y 的分布式信息检索技术。包括基于o n t o l o g y 分布式信息检索系 统的设计目标,并详细论述了检索体系框架、设计结构、各模块的基本功能, 最后总结了信息检索系统的工作流程。 本文第五章对信息检索系统模型中所涉及的关键技术进行了深刻的研究, 并提出了理论上较为有效的解决方案。其中关键技术包括对领域o n t o l o g y 构建 问题的认识;应用语法相似度和语义相似度的计算来提高检索结果匹配的精确 度;以及移动a g e n t 平台在分布式信息检索系统的应用。 关键词:信息检索:分布式;搜索引擎;本体 r e s e a r c ho fdis t rib u t e din f o r m a tio nr e t rle v a lb a s e d o no n t o l o f l y a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,t h e r ee m e r g ee x p l o s i v e l y v a r i o u si n f o r m a t i o no nt h ew e b p e o p l eg e ti n f o r m a t i o nf r o mw e bm n i n l y b ys e a r c ht o o l s ,b u ta l w a y sp u z z l e db yt h ep r e c i s i o no ft h e m o n t o l o g y i sa ne x p l i c i ts p e c i f i c a t i o no fc o n c e p t u a l i z a t i o n i tc a ne x p r e s s d o m a n i a lk n o w l e d g ew i t hd e f i n i t i o na n df o r m a l i z a t i o n ,a n di m p r o v et h e i n t e r o p e r a b i l i t yo fd i f f e r e n ts y s t e m sa n dt h ea c c u r a c yo fi n f o r m a t i o n r e t r i e v a l f u r t h e r m o r e ,e x i s t i n gs e a r c he n g i n es y s t e m sa r ei n c l i n e dt o b ei np a r a l l e la n dd i s t r i b u t e da r c h i t e c t u r ei no r d e rt oi m p r o v es y s t e m r e s p o n s ea n dt oe n l a r g er e t r i e v i n gs c o p e i nc h a p t e rt w oo ft h i st h e s i s ,w ei n t r o d u c et h ec o n c e p t s ,t h e f u n c t i o no fo n t o l o g ya n dd e s c r i p t i o nl a n g u a g e b a s e do nt h i s ,w es h o w ad i s t r i b u t e do n t o l o g ys y s t e ma r c h i t e c t u r e i nc h a p t e rt h r e e ,w ef i r s ti n t r o d u c et h ep r i n c i p l e ,t e c h n o l o g y , t o o la n df e a t u r eo ft r a d i t i o n a lr e t r i e v a l si nw e b ,t h e n ,w ea n a l y s i s d i s t r i b u t e dc o m p u t i n gt e c h n o l o g ya n dd i s t r i b u t e di n f o r m a t i o nr e t r i e v a l t e c h n o l o g y 。a n dw eg i v et h ec h a r a c t e r i s t i ca n da d v a n t a g eo fm o b i l ea g e n t s t e c h n o l o g y i nc h a p t e rf o u r ,b a s e do nr e v i e w i n gt h ec u r r e n ts t a t u so fs t u d yi n t h e s ea s p e c t s ,w ep r e s e n ta n i n t e i 1 i g e n tw e bi n f o r m a t i o nr e t r i e v a l s y s t e mb a s e do no n t o l o g ya n dd i s t r i b u t e dc o m p u t i n gt e c h n o l o g y ,g i v ei t s a r c h i t e c t u r e ,p r i n c i p l ef u n c t i o n sa n dw o r kf l o w i nc h a p t e rf i v e ,a i m i n ga tk e y t e c h n i q u e s o ft h ei n t e l l i g e n t i n f o r m a t i o nr e t r i e v a ls y s t e m ,w ep r o p o s eo u rs o l u t i o n st h a te s t a b l i s h t h eb a s i sf o rt h ei m p l e m e n t a t i o no ft h ei n t e l l i g e n tr e t r i e v a ls y s t e r 【l t h e s ek e yt e c h n i q u e si n c l u d ed o m a i no n t o l o g yc o n s t r u c ti o n ,s o r to f r e t r i e v a lr e s u l ts e tu s i n gs y n t a c t i cs i m i l a r i t ya n d s e m a n t i cs i m il a r i t y , a n dt h ea p p l i c a t i o no fm o b i l ea g e n t s i nd i s t r i b u t e di n f o r m a t i o n r e t r i e v a l k e yw o r d s :i n f o r m a t i o nr e t r i e v a l ,d i s t r i b u t e d ,s e a r c h e n g i n e , o n t o l o g y 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含未获得! 注;垫盈直墓焦盖墨蹙翘岂疆 的:奎拦豆窒2 或其他教育机构的学位或证书使用过的材料与我一同工作的同志对本研 究所做的任何贡献均已在论文中作了明确的说明并表示谢意 学位论文作者签名。i 色善、 签字日期:加6 年,月对日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并向国家有 关部门或机构送交论文的复印件和磁盘,允许论文祓查阅和借阅本人授权学校可以将学 位论文的全部或部分内容编入有关数据库进行检索,可以采用影印,缩印或扫描等复制手 段保存、汇编学位论文( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:i 五 导师签字:像建良 签字日期:撕6 年j 月玎日签字日期:抛6 年;月站- 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 基于o n t o l o g y 的分布式信息检索技术研究 1 1 论文选题考虑 第1 章绪论 信息技术飞速发展,计算机网络上出现越来越多的文本信息,用户迫切地从 海量的信息中快速、准确地找到所需的内容,因此对用计算机高效智能地处理自 然语言信息提出了越来越高的需求。总的来说,这种需求可以具体化为以下几个: 一、突破语言障碍,让全世界使用不同语言的人共享信息;二、使计算机与人的 交互变得更容易、更自然,信息由人可理解变为机器可理解;三、改进软件的体 系结构,使计算性能不断提高,以适应信息迅速膨胀的需求。总之,以上三个要 求为人工智能领域的自然语言理解和分布式系统设计方面的研究提供了广阔的 发展空间。机器翻译和机助翻译可以用于解决第一个问题;文献资料的自动分类、 搜索引擎、全文检索、自动文摘、文本信息提取( i n f o r m a t i o ne x t r a c t i o n ) 、本 体( o n t o l o g y ) 技术可以用于解决第二个问题;分布式系统设计和分布式计算方面 的研究可以解决第三个问题。 本研究课题主要集中在基于o n t o l o g y 的搜索引擎以及其分布式体系结构的 研究上,选题的依据除了快速、准确地找到所需的信息之外,还有下面的两个原 因:一、搜索引擎的研究涉及了自然语言处理的各个层面一一从词到句子、从句 子到篇章这些不同层次研究工作,只有对它们都进行研究,并把这些研究成果有 机地结合起来,才能研究出好的搜索引擎系统。二、分布式计算是一个古老但又 很热的课题,随着网络的发展分布式计算注定要在互联网时代扮演很重要的角 色,只有对分布式的体系结构进行一定研究,才能使得研究出的分布式智能搜索 引擎更符合网络信息发展的需要。 1 2 国内外的研究现状 自上世纪9 0 年代以来,随着计算机在人类社会和生活的各个方面的广泛应 用,数字信息的共享和利用已不再是研究人员的专利,大众对数字信息的需求也 越来越强烈,众多的信息系统彼开发出来,为用户提供其感兴趣的内容。数字信 基于o n t o l o g y 的分布式信甚检索技术研究 息一方面为人们的日常工作和生活带来了帮助,另一方面,大量的信息又使人们 不知所措。如何组织和提供信息就成为信息系统要解决的关键问题。 目前,信息检索技术可分为3 类:全文检索( t e x tr e t r i e v a l ) 、数据检索 ( d a t ar e t r i e v a l ) 和知识检索( k n o w l e d g er e t r i e v a l ) ,其对比如表i - 1 所示。 全文检索的特点是把用户的查询请求和全文中的每一个词进行比较,不考虑查询 请求与文件语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大大地 降低了。数据检索的特点是查询要求和信息系统中的数据都遵循一定的格式,具 有一定的结构,允许对特定的字段检索( 例如:作者= “王刚”) 数据检索需要 有标识字段的方法。数据检索的性能取决于所使用的标识字段的方法和用户对这 种方法的理解。因此具有很大的局限性。数据检索支持语义匹配的能力也较差。 知识检索强调的是基于知识的、语义上的匹配,因此在查准率和查全率上有更好 的保证。目前知识检索是信息检索研究的重点,特别是面向w e b 信息的知识检 索。常规的直接基于关键词的信息检索技术已不能满足用户在语义上和知识上的 需求,寻找新的方法也就成为目前研究的热点o n t o l o g y 具有的良好的概念层 次结构和对逻辑推理的支持,因而在信息检索,特别是在基于知识的检索中得到 了广泛的应用。 分类 特点 缺点 全文检索( t e x t把用户的查询请求和全文中的每虽然可以保证查全率,但是查准 l j e 蜘g 嘲) 一个词进行比较,不考虑查询请求率大大降低。 和文件语义上的匹配 数据检索( d a t a查询要求和信息系统中的数据都性能取决于所使用的字段标识 m t n e v a l ) 遵循一定的格式,具有一定的结 方法和用户对方法的理解具有 构,允许对特定字段检索。需要有很大的局限性,支持语义匹配的 标识字段的方法。能力较差。 知识检索基于知识的、语义上的匹配,在查 ( k n o w l e d g e准率和奁全率上有更好的保证是 r e t r i e v a l ) 信息检索的重点,特别是面向w e b 信息的知识检索的重点。 表i - i 三种信息检索方式对比表 信息检索并不是w e b 所特有的一个研究课题。早在本世纪5 0 年代,当计 算机被图书馆等部门用于存储和管理文档时,信息检索就作为一个研究领域而诞 生了。到了8 0 年代,成功地开发了一些运行良好的系统,如康奈尔大学的s m a r t 系统和马萨诸塞大学的i n q r e r y 系统等。后来信息检索的很多技术被成功地运 基于o n t o l o g y 的分布式信息检索技术研究 用到w e b 检索中。许多w e b 信息检索系统应运而生,如a l t av i s t a ,s o h u , g o o g l e 等。因此,需要在传统信息检索技术的基础上开展针对w e b 特点的研究 工作。 基于本体的信息检索系统能把描述信息语义的本体理念和技术引入到信息 检索系统中,并把本体作为系统的核心构件o n t o b r o k e r 是一个工具环境,用 来处理h t 虬、x m l 和r d f 格式的信息源和信息源语义描述的系统,提供信息检 索、查询应答和维护支持服务 1 系统的中心思想是利用本体论的表达能力和 推理能力,描述背景知识,将w e b 文档的语义明确化o n t o s e e k 2 是基于内容 从在线黄页和产品目录中进行检索的系统。它把本体用作有语义信息的领域词汇 表,将本体驱动的内容匹配机制与一个表示形式化系统相结合,试图将本体论和 大词典库相互集成,以便提供一个可以用领域内的任意词语进行交互式语义查询 的系统。文 3 中的t r l a s 是一个基于9 4 s ( m u l t i - a g e n ts y s t e m ) 结构的可训练 的信息助手,系统中的a g e n t 与用户相互支持共同完成特定的目标。用户通过 演示问题的求解方法和步骤,扩展a g e n t 的能力领域相关的本体在t r l a s 的 知识表示中扮演着重要的角色,它为系统中的所有组成部分提供了共同的语言, 是集成系统的一种灵活而有效的方法。万捷等 4 针对信息检索中关键词所包含 的语义内容,提出基于内容的信息检索原型系统,利用本体对检索需求进行语义 扩充,并用文档分析器对检索文档进行过滤,增加了检索结果的准确性,更加符 合用户的查询需求,但在自由文档分析中术语提取过程的效率偏低。徐振宁等 5 通过把本体视为智能信息检索系统的核心,提出基于本体的智能信息检索系统体 系。这一体系采用多主体技术对多层次用户偏好模式建模,并用多种相关反馈学 习算法有效地解决了用户兴趣和信息源的自适应变化和系统的可扩展性等问题。 在文献 1 3 中采用了m u l t i - a g e n t 技术,并将本体作为系统的核心部件。文献 2 将本体作为具有语义信息的领域词汇表;文献 1 ,3 中提供了形式化本体表 示语言,这些表示语言是系统的统一知识表示语言 目前把本体应用于信息检索中的著名项目包括( o n t o ) 2 a g e n t 7 、 o n t o b r o k e r 8 和s k c 9 。这3 个项目分别代表了3 个方向。( o n t o ) 2 a g e n t 的 目的是帮助用户检索到所需要的w w w 上已有的本体,主要采用参照本体。参照 本体是以w 硼上已有的本体为对象建立起来的本体,它保存有各类本体的元数 基于o n t o l o g y 的分布式信息检索技术研究 据。o n t o b r o k e r 面向的是w w w 上的网页资源,目的是为用户检索到含有用户所 关心的内容的网页。s k c 是一个正在进行的项目,其目标是解决信息系统语义异 构的问题,实现异构的自治系统之间的互操作。该项目的目标是在本体上建立一 个代数系统,通过这个代数系统来实现各本体之间的互操作,从而实现异构系统 之间的互操作。上面这些关于本体技术在w e b 信息检索系统中的应用的研究, 有的侧重本体技术在文档语义表示方面的研究,有的侧重本体技术在文档分类方 面的研究,有的侧重本体技术在构建用户偏好方面的研究,即是采用本体技术支 持w e b 信息检索系统智能性的一个方面,而没有采用本体技术系统地对w e b 分 布式信息检索系统进行全面的研究。 综上所述,基于本体的信息检索系统日趋成为一种w e b 智能信息检索系统。 在智能检索系统中本体提供形成查询和资源描述所必需的元语,能显著提高系统 的联想能力和精确性。 1 3 课题研究的意义 1 3 1 网络资源的极大丰富 随着信息科技的进步和互联网的日益普及,人类正在进行信息史上最巨大的 一项工程,即将现实世界现有的信息,诸如报纸、期刊、书籍、专利文献等都放 到网络上去。同时也不停地在网络上生产出数不胜数的新信息,任何人在任何时 间、任何地点都可以通过网络发布任何信息,整个网络正在堆积成一个前所未有 的超级大型数据库,也就是说网络已经成为一个庞大而杂乱无章的桌面图书馆, 面对潮水般涌来的电子文献,人们迫切需要能够自动实现信息采集、过滤、整理 和利用的各种网上智能业务,搜索引擎、自动文摘、文本分类、机器翻译、信息 安全等等都是非常有力的智能工具,我们难以想象,如果没有搜索引擎等相应的 智能工具,人们如何在浩瀚无边、拥有着各种各样信息的i n t e r n e t 上冲浪。 1 3 2 现有搜索引擎的不足 搜索引擎( s e a r c he n g i n e ) 旨在为用户在页面的海洋中导航,可是现有的搜 索引擎,例如a l t a v i s t a 没有一个可以完全有效地检索网络资源,输入一项检索 4 基于o n t o l o g y 的分布式信息检索技术研究 请求的网络用户会被数以千计的回答弄得不知所措。检索结果常常涉及一些无关 的网址,却漏掉了那些存有重要资料的其它网址可以说我们现在已经拥有了一 个桌面图书馆,但却无法有效地使用它。究其原因主要是因为目前中文搜索引擎 普遍存在三个问题:一、信息量不够丰富;二、检索处理缺乏智能;三、单机 版的体系结构对信息的扩展形成了严重的瓶颈。因此,必须研究提高i n t e r n e t 中文信息搜索引擎性能的关键技术,从根本上解决目前众多中文搜索引擎存在的 问题。 1 4 论文主要创新点 本文在对传统信息检索系统和o n t o l o g y 技术作深入研究的基础上,发 现在自然语言处理和人工智能技术都还遥遥无期的今天,通过 o n t o l o g y 技术能够提供某领域内共享的知识表示,缓解有关中语义信 息贫乏的问题,为信息检索提供强大的语义支持; 在对传统信息检索技术和o n t o l o g y 技术框架分析的基础上,本文提出 了一个基于o n t o l o g y 的信息检索系统模型,并描述了智能信息检索的 整个流程; w e b 上的信息爆炸式增长,这些地理位置分散的异构数字化信息中包含 了大量宝贵的资源,在如此大规模的条件下,单台计算机的处理能力 毕竟有限,因此很自然地提出将分布式技术应用其中,而移动a g e n t 技术是目前比较成熟的解决分布式计算问题的方法,因此考虑将该技 术应用于分布式检索。 对信息检索系统模型中所涉及的关键技术进行了深刻的研究,并提出 了行之有效的解决方案。包括对领域o n t o l o g y 构建问题的认识;应用 语法相似度和语义相似度的计算来提高检索结果匹配的精确度;以及 v o y a g e r 作为移动a g e n t 平台应用于分布式信息检索系统的可行性。 基于o n t o l o g y 的分布式信息检索技术研究 2 1 本体研究概述 第2 章本体相关理论探讨 2 1 ,o n t o i o g y 定义 1 9 9 3 年,g r u b e r 给出了o n t o l o g y 的一个最为流行的定义,即“o n t o l o g y 是概念模型的明确的规范说明”,b o r s t 在此基础上,给出了o n t o l o g y 的另外 一个定义,“o n t o l o g y 是共享概念模型的形式化规范说明”s t u d e r 等对上述 两个定义进行了深入的研究,认为o n t o l o g y ,是共享缀念镤垄彩:形才纪期菪谢g 吼 这包含4 层含义:概念模型( c o n c e p t u a l i z a t i o n ) 、明确( e x p l i c i t ) 、形式化 ( f o r 蛆1 ) 和共享( s h a r e ) 。概念模型”指通过抽象出客观世界中一些现象 ( p h e n o m e n o n ) 的相关概念而得到的模型。概念模型所表现的含义独立于具体的环 境状态。明确”指所使用的概念及使用这些概念的约束都有明确的定义“形 式化”指o n t o l o g y 是计算机可读的( 即能被计算机处理) 。共享”指o n t o l o g y 中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即o n t o l o g y 针对的是团体而非个体的共识。o n t o l o g y 的目标是捕获相关领域的知识,提供对 该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化 模式上给出这些词汇( 术语) 和词汇间相互关系的明确定义。 2 1 2o n t o i o g y 的功能 现在已经有相当多的文献给出了本体的描述和本体的使用目的。 大多数的应用实例都是为了实现“重用”其中的一些实例在对本体的各种 解释中并不太明确。另外也有实例,比如软件工程中的应用,因为应用背景上的 区别也有很多不同。不过它们在本体应用上都是把本体论当作一种构建知识的方 式或者当作知识库的一部分。另一个重要的用途是信息集成这种方式主要体现 在商业事务的集成,分布式多代理系统和并发处理工程的设计上。 因此,我们把本体的使用功能粗略地划分为以下三种: 信息交换( c o m m u n i c a t i o n ) 本体的核心概念是知识共享。通过减少概念和术语上的歧义,本体描述为某 6 基于o n t o l o g y 的分布式信息检索技末研究 一组织或工作小组提供了一个统一框架或是规范模型,使得来自不同背景、持不 同观点和目的的人员之间的理解和交流成为可能,并保持语义上的一致性 互操作( i n t e r - o p e r a b i l i t y ) 绝大多数的应用程序使用本体实现不同系统之间的互操作,即不同系统或是 工具之间的数据传输这种应用还可以细分为两类:轻量级( l i g h t w e i g h t ) 和 重量级( h e a v y w e i g h t ) 基于本体的轻量级应用是一种完全面向语法形式化和 转换的本体使用。它只能保证人们使用相同的词汇,但不能保证他们对相同的词 汇有相同的解释或理解。因此这种应用中本体不包含有语义信息,或者说基于语 义网的智能搜索技术的研究与实现是一种较低层次的本体应用,比如x m l 语言 中的d t d 。而基于本体的重量级应用是一种对知识表示语言中的建构和约束作普 通的语义解释的使用方式,目的是支持本体的不同使用者之间的进行语义层面的 信息共享和互操作本体共享的数据交换的关键是本体的知识表示语言必须保证 对本体一致无歧义的解释。而这类本体应用中的本体还支持另外一些功能服务, 比如支持推理的查询、更新和一致性检查功能。这些是由本体的知识表示语言所 采用的推理机制所决定的 系统工程( s y s t e m se n g i n e e r i n g ) 本体还可以应用到软件系统的设计和实现上在软件开发的规格说明 ( s p e c i f i c a t i o n ) 中,本体论通过对需要解决的问题和任务的理解描述,可以 帮助我们在需求分析、信息获取中提高明确性,减少分析代价。同时,本体可以 作为需求分析基础上软件设计时的基础,以自动或半自动的方式检查它们之间的 一致性,从而提高软件系统的可靠性( r e l i a b i l i t y ) 本体还可以通过对系统 内部各个功能模块和它们之间的联系的详细描述达到软件的重用性 ( r e u s a b i l i t y ) 2 i 3 基于w e b 的o n t o l o g y 描述语言 语义w e b 语言源于历史上开发的多种基于w e b 标准的语义描述语言,其中 不少就是以描述和构建本体为目的而开发的。 s h o e 是一种基于h t 扎的知识表示语言,它对h t m l 7 进行了扩展,使 其能够用h t m l 格式对知识进行表示。s h o e 试图提供一种对信息进行 基于o n t o l o g y 的分布式信息检索技术研究 标注的方法来表示知识。它提供一套必要的标签将专用的语义数据加到 w e b 资源中,从而对知识进行表示。这些标签分两类:一类是为构建各 种本体来使用的,另一类是用来标注w e b 文件。s h o e 允许表示概念、 概念的分类、n 元关系、常量、推理规则,其推理引擎可以通过这些推 理出新知识。 x o l ( x m l - b a s e do n t o l o g y e x c h a n g el a n g u a g e ) 是s r l 人工智能中心 于1 9 9 9 年开发的本体交换语言,它既能表示面向对象的语义,又是基 于x m l 语法的语言,可被用于任何领域本体的描述和交换,因此它被 看作是一种在不同的数据库、本体开发工具或应用系统之间传递本体的 中介语言x o l 是一种受限比较严格的语言,它仅能对概念,分类以及 二元关系进行表述,并且x o l 没有提供推理机制。 o m l ( o n t o l o g ym a r k u pl a n g u a g e ) 是1 9 9 9 年由华盛顿大学 ( w a s h i n g t o n u n i v e r s i t y ) 开发的一种对本体进行说明的语言o m l 建 立在描述逻辑和概念图( c o n c e p t u a lg r a p h s ) 的基础上,它允许用一 阶逻辑语言来表示概念、分类、关系、公理等。0 虬的内部是由s i m p l e o m l 构成。 c 酬l ( c o n c e p t u a lk n o w l e d g em a r k u pl a n g u a g e ) 可以看作是建立在o m l 之上并对其进行了扩展的本体描述语言和o m l 一样,c k m l 同时具有 描述逻辑和框架的特征。o m l 和c k m l 都采用了x m l 作为表示语法。 r d f 与r d f s 。语义w e b 的首要目的就是要让计算机能够对信息的语义 进行处理,作为w 3 c 标准的资源描述框架r d f 为基于元数据的语义表 示提供了基础。r d f 为在w e b 上应用系统间进行机器可理解信息的交 换提供了互操作能力。为了描述机器可处理的数据的语义,r d f 定义了 一个基本的数据模型。但r d f 提供的建模原语非常基础,因此需要对 它做进一步扩展。 r d fs c h e m a ( r d f s ) 在r d f 基础上增加了许多语义原语,用来更进一 步增加对资源的语义上的描述能力,比如类、属性、类和属性之间的隶 属关系等常见的r d f s 原语包括 r d f s :r e s o u r c e ,r d f s :c l a s s , r d f s :l i t e r a l 、r d f s :p r o p e r t y 、r d f s :r a n g e 、r d f s :d o m a i n 、r d f s :t y p e 、 基于o n t o l o g y 的分布式信息检索技术研究 r d f s :s u b c l a s s o f 、r d f s :s u b p r o p e r t y o f 等这些描述机制是单纯的 r d f 所不具备的。 o i l ( o n t o l o g yi n f e r e n c el a y e r ) 的实现来自于三个方面:描述逻辑, 提供正规语义和推理支持;基于框架的系统( f r a m e - b a s e d ) ,提供认 识论上的建模原语;基于x m l 和r d f 语法的w e b 标准。o i l 是在r d f s 基础上建立起来的,它对r d f s 的语义表示能力又作了进一步的扩展, 这样使得o i l 能够对r d f s 不能表达的语义进行表达另外,o i l 被 设计为完全兼容r d f ( s ) 标准,o i l 文档本身也是一个合法的r d f ( s ) 文档o i l 的设计目标如下;提供描述基于框架和面向描述逻辑的本体 所使用的大多数通用的建模原语;具有简单、清晰和定义良好的一阶逻 辑语义;提供自动的推理支持( 比如类的一致性检查和包含检查) ,由 曼彻斯特大学开发的f a c t 系统以及d l ( d e s c r i p t i o nl o g i c ) 推理器 来完成。 d a m l + o i l 。d a m l + o i l 知识基础是r d f 三元组的集合d a m l + o i l 使用 、自己的词汇给r d f 三元组以具体的意思描述。d a m l + o i l 将整个世界划 分为两个不相交的部分一部分是由属于x m ls c h e m a 数据类型 ( d a t a t y p e ) 的值所组成的,称作数据类型域。另一部分则是由( 单个) 对象所组成的,这些对象应被看作是d a m l + o i l ( 或r d f ) 中所定义的类 的成员,此部分称作对象域。 o w l ( w e bo n t o l o g yl a n g u a g e ) 2 0 0 2 年7 月,w 3 c 在d a m l + o i l 基 础上发展了o w l 语言,以使其成为国际通用的标准语义w e b 语言。根 据w 3 c 的推荐标准,o w l 是一种对w e b 本体( w e bo n t o l o g i e s ) 进行 定义和例示的语言。它采用r d f x m l 作为交换的标准语法,它已经被 设计为具有与r d f 和r d f s 最大的兼容性。这些x m l 和r d f 格式和 标准同样是o w l 标准的组成部分。o w l 与r d f - s 的关系o w l 语言提供 了三种表示能力不同的子语言,来满足不同组织团体的语言实现者和使 用者。 9 摹干o n t o l o g y 的分布式信息枪索技术研究 2 1 4 基于o n t o l o g y 的信息系统基本结构 本体在应用系统中的功能基本上决定了本体在信息系统中所处的位置,虽然 在一些相同功能的本体应用中仍然存在差异。本节从众多本体在工业和研究领域 的具体应用中抽象出几种典型的应用方案,并对它们作进一步详细的描述和说 明,包括本体在系统中的角色、所起的作用以及典型的框架等。 2 1 4 1 基于本体的信息检索引擎 图2 - 1 基于本体的信息检索引擎 本体在信息检索引擎中应用的基本思路是利用本体对信息的描述来检索知 识仓库( 文本、图像、网页等) ,目的是为了提高检索的效率和精确度。其它需 要的技术支持包括本体浏览、搜索引擎、自动注解、自动分类、自然语言处理、 知识表达、大规模的知识库管理以及推理系统等。不同的系统侧重不同的方面, 而本体在其中扮演的角色也不尽相同,但总的看来可以分为两类: 本体作为结构化信息和组织知识库的基础 一方面,本体作为一个领域的概念框架帮助用户理解和组织知识库,另一方 面,本体也提供了系统元数据的词汇表来注解数据和描述文件。 查询的形式化表示 通过可视化的本体驱动的界面帮助用户形成和改进查询,甚至也可以在不需 要用户的交互的情况下,通过本体自身提供的推理机制直接提高查询的精确度。 典型的例子主要有s h o e 2 1 4 2 本体共享的数据访问 通过共享本体实现不同信息系统之间的数据访问主要是不同的应用程序开 发人员在共享本体上达成一致,而它们之间的数据交换是由共享本体定义的语言 实现的。基于语义网的智能搜索技术的研究与实现在这类应用中,首先创建一个 不同的应用程序歼发人员都一致认可的本体,即定义了一个可以双向转换的数据 传输的格式。每一个应用系统都拥有一对转换接口:r e a d e r 和w r i t e r ,实现对 1 0 基于o n t o l o g y 的分布式信息检索技术研究 数据的双向转换。虽然已经有一些应用程序的转换接口可以通过解析器直接生 成,但大多数应用程序的转换接口仍由开发人员手工实现的,因为数据在应用程 序内部的不同存储结构依然是一个较大的障碍。典型的例子主要有e c o c y c 等。 2 1 4 3 本体映射的数据访问 与前一类典型应用不同的是,不同的应用程序之间拥有自己独立的本体,而 不存在一个共享的本体,因此它们之间的信息共享或数据交换只能通过不同的独 立本体之间的映射( m a p p i n g ) ,即定义一套规则指明一个本体中的术语在另外 一个本体中的相关含义,由中介( m e d i a t o r ) 在应用程序运行时执行。这类应用 的开发人员不需要在共享本体上达成一致,但需要他们定义规则进行本体映射或 集成。典型的应用主要有o n i o n s 等另外,不同子应用系统的本体之间的 m e r g i n g 、a l i g n i n g 、r e l a t i n g 等的集成信息系统是可以看作上述两种体系的混 合体 2 2 国内外研究现状 国外有多个大学和国际性组织在从事本体语言开发工作,其中代表性的组织 有:t h eu sb i o i n f o r m a t i c sc o m m u n i t y ,t h eu n i v e r s i t yo fm a r y l a n d ,t h e u n i v e r s i t yo fw a s h i n g t o n ,w o r l dw i d ew e bc o n s o r t i u m ( w 3 c ) 。s t a n f o r d u n i v e r s i t y 。t h eu n i v e r s i t yo fm a n c h e s t e ra n dv r i j eu n i v e r s i t y 以上组 织开发了或者正在开发本体语言、本体语言编辑工具软件。 国内对于本体论的研究已有很多年的时间了,比较有影响的有中科院数学所 陆当钤研究员领导的常识知识的实用性研究,中科院计算技术研究所曹存根研究 员主持的大规模知识系统的研究,以及中科院数学研究所金芝研究员研究的基于 本体的软件需求获取方法等。 2 3o n t o l o g y 在概念检索中的作用 使用传统的搜索引擎,用户要精确地找到所需要的信息往往十分困难,这主 要有几个方面的原因。第一,对用户的问题理解不够准确,导致返回的结果中含 有很多噪声,用户不能很容易的找到自己所需要的信息。第二,对信息内容的处 理大多采用的是基于某种编码过程的预处理技术或某种全文分析技术。仅仅反映 基于o n t o l o g y 的分布式信息检索技术研究 内容的一个侧面。第三,用户提出的问题与信息源的内容不可能完全一致,难以 保证内容与用户问题正确匹配,正确率很低。要提高现有检索系统的精度,就必 须解决好上面提到的这几个问题。现有一些研究工作表明,基于o n t o l o g y 的技 术是解决这些问题的方法之一 由于自然语言具有丰富多彩的表达形式,有大量的同义词、近义词、多义词 存在,计算机要自动识别检索词的准确含义就需要借助特定的工具 _ - 0 n t o l o g y 。利用o n t o l o g y 中概念和概念约束的明确规范说明,可以帮助系统 在多个可能的意义中选择最适合的意义 例如:在“春天里百花开放”中,“开放”具有歧义。通过词典的语义映 射,它对应下列意思:( 花) 展开:解除封锁、禁令、限制等:性格开朗等。根 据概念之间的约束,只有第一个概念是描述植物的状态,因此可以判断出在这个 例子中“开放”的意义应该是“展开” 根据相关概念进行推理,挖掘隐含信息。推理是找出文本中没有明显表示出 来或者有转义的意义,系统利用o n t o l o g y 中缺省的知识填充空缺的意义信息。比 如专家甲和他的合作者乙的资料假定现在的页面显示是:在甲的主页上提到了 合作者是乙,但是在乙的网页上没有提及合作者的信息。根据o n t o l o g y 定义中 。合作者”成对出现原则,由于合作关系是相互对应的,即甲是乙的合作者,则乙 肯定也是甲的合作者,从甲主页的合作者信息就可以推导出乙的合作者就是甲, 所以说合作者甲就是乙主页上的隐含信息。 系统还可以通过计算o n t o l o g y 中概念的距离找出句子的转义如在例 子:。英雄驾驶飞机起飞了”中,根据“驾驶”概念中包含的位置约束,驾驶员必 须位于其驾驶的交通工具内,可以推理出英雄的位置是在飞机里推理是从一个 概念集找到和它相关的另一个概念集,因为o n t o l o g y 中所有概念都是相互联系 的,理论上说可以推导出结果。但是如果o n t o l o g y 足够大的话,推理的效率将大 大降低。因此,在推理时应注意控制搜索的进程,以保证它是面向目标的。 本体的目标是捕获相关的领域的知识,提供对该领域知识的共同理解,确定 该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词语和词语之 间相互关系的明确定义。但足要建立一个能够涵盖所有领域知识的通用o n t o l o g y 是很困难甚至是不可能的,因此比较现实的方法是建立某个领域的o n t o l o g y , 2 基于o n t o l o g y 的分布式信息检索技术研究 利用它去解决该领域的特定的信息检索问题。本体最基本的表现形式是一个带有 详尽信息和数据结构的便于计算机处理的语义词典或术语表,在此基础上,根据 应用的需要可以将本体扩展为几个层次,如图2 2 所示。 图2 2 面向应用的多层次本体 其中顶层本体定义最基本的概念类、属性及其语义关系,例如时间、空间、 物质、对象、事件、行为等,领域本体和任务本体细化和定义不同的应用领域( 例 如教育、医学等) 或具体的通用任务( 如交易、传输等) 的专用概念类、属性及 其语义关系,应用本体则利用领域和任务的概念集来进一步定义针对某个具体的 应用的概念、规则、函数、接口等 1 0 智能信息检索技术处理的支撑平台是本体,面向信息检索的本体多层体系的 构建与使用是全部处理过程的基础和关键。为了构建面向信息检索的本体多层体 系结构,必须借助项层本体的概念及其关系的描述体系,并在此基础上构建面向 信息检索或某个专业领域信息检索的任务本体和领域本体,研究信息之间的内在 关联和相互制约性,制定简单的面向应用的判断推理规则和机制,计算检索需求 和检索结果之间的语义距离,根据具体要求抽取出高质量的答案。 1 ) 顶层本体中定义的是最基本的概念类、属性及其语义关系,现在有一些 类似的语义处理资源,如w o r d r n e t 、m i n d n e t 、h o w n e t 等,这些语义 处理资源描述体系一般是以人们认识世界的逻辑知识和科学理论为依 据,其中h o w n e t ( 知网) 即是一个以英汉双语所代表的概念以及概念 的特征为基础的,以揭示概念与概念之间以及概念所具有的特性之间的 关系为基本内容的常识知识库其设计基于在某一时空中运动变化发展 着的物质和精神,描述的基本对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论