(管理科学与工程专业论文)本体的构建及其在图书信息检索中的应用研究.pdf_第1页
(管理科学与工程专业论文)本体的构建及其在图书信息检索中的应用研究.pdf_第2页
(管理科学与工程专业论文)本体的构建及其在图书信息检索中的应用研究.pdf_第3页
(管理科学与工程专业论文)本体的构建及其在图书信息检索中的应用研究.pdf_第4页
(管理科学与工程专业论文)本体的构建及其在图书信息检索中的应用研究.pdf_第5页
已阅读5页,还剩74页未读 继续免费阅读

(管理科学与工程专业论文)本体的构建及其在图书信息检索中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要 随着信息技术的飞速发展和互联网的普及,人类获取信息有了丰富的信息源, 但是同时海量的信息容易出现“信息过载的现象,使用户淹没在信息的海洋里。 因此信息检索技术成为了计算机领域的研究热点。 由于传统的信息检索技术都是基于关键字的匹配,缺乏语义推理,由此造成 信息的误检和漏检,并且由于w e b 页面的无结构性,半结构性和超链接的无序性 以及信息内容的海量性和多样性,使得人们要找到自己想要的信息其实并不容易, 因此,急需一种新的信息检索技术来解决这些问题。 为了提高信息的检索质量,本文将本体的思想引入图书信息柃索系统中,本 体是一种用来描述概念及其之问关系的模型,它包含领域内比较完整的核心概念 和丰富的语义关系,将本体模型引入信息系统可以使计算机理解信息,从而实现 语义检索。 本文以计算机类图书作为研究对象,首先研究了本体的基本知识、构建原则、 描述语言、构建工具,深入总结分析了现有的本体构建方法,借鉴软件工程的开 发方法,提出了适合图书本体构建的方法本体生命周期法,结合本体生命周 期法的方法论,用p r o t 6 9 6 工具构建了计算机本体模型。文章接着根据本体思想设 计了基于本体的智能信息检索系统的框架,并深入研究了语义检索涉及到的关键 技术,如本体的存储,基于本体的检索优化,语义检索的扩展等,这为系统的实 现提供了支持,最后实现了基于本体的图书信息检索系统。 为了检测系统的结果,本文采用查全率和查准率等信息检索系统的评估指标 对系统的检索结果进行测试,证明了本体检索系统的效率和质量要高于传统的基 于关键字的检索系统。 关键字:本体;语义检索;本体的构建;图书本体模型 英文摘要 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g ya n dt h ep o p u l a r i t yo ft h e i n t e r n e t ,t h e r ea r er i c hs o u r c eo fi n f o r m a t i o n ,o nt h eo n eh a n d ,i ti se a s i e rf o rh u m a n b e i n ga c c e s st oi n f o r m a t i o n ,o nt h eo t h e rh a n d ,v a s ta m o u n t so fi n f o r m a t i o ni sp r o n et o an o tg o o dp h e n o m e n o nw h i c hc a l l e d “i n f o r m a t i o no v e r l o a d ”,i tw i l ll e tt h eu s e r s u b m e r g e di nt h eo c e a no fi n f o r m a t i o na n di ti sn o te a s yf o rt h eu s e rf i n dt h eg o o d i n f o r m a t i o nw h i c ht h e yr e a l l yw a n t t h e r e f o r e ,i n f o r m a t i o nr e t r i e v a lt e c h n o l o g yb e c a m e ah o ts p o to fc o m p u t e rs c i e n c ea n dt e c h n o l o g yf i e l d t h e r ea r et w od i s a d v a n t a g e so ft h et r a d i t i o n a lr e t r i e v a lt e c h n o l o g y , f i r s to fa l l ,i t l a c ks e m a n t i ci n f e r e n c eb e c a u s eo fb a s e do nm a t c h i n gk e y w o r d s ,t h es y s t e mw i l lr e t u r n i r r e l e v a n ti n f o r m a t i o no ro m i s s i o nal o to fu s e f u li n f o r m a t i o n s e c o n d l y , b e c a u s eo ft h e n o n - s t r u c t u r a lo rs e m i - s t r u c t u r e dw e bp a g e s ,d i s o r d e ro ft h eh y p e r l i n k sa sw e l la st h e m a s s i v ea n dd i v e r s i t yo fi n f o r m a t i o n ,i tm a k e sp e o p l eh a r dt of i n dt h e i ri n f o r m a t i o n t h e r e f o r e ,w eu r g e n t l yn e e dan e wi n f o r m a t i o nr e t r i e v a lt e c h n o l o g yt os o l v et h e s e p r o b l e m s i no r d e rt o i m p r o v et h eq u a l i t yo fi n f o r m a t i o nr e t r i e v a l ,t h i st h e s i sw i l li n t r o d u c e t h ei d e o l o g yo fo n t o l o g yt ot h eb o o ki n f o r m a t i o nr e t r i e v a ls y s t e m ,o n t o l o g yc a l lu s e d t od e s c r i b et h ec o n c e p ta n dr e l a t i o n s h i pb e t w e e nt h e m i tc o n t a i n sc o m p l e t ec o r e c o n c e p ta n de n r i c hs e m a n t i cr e l a t i o n si na r e a u s i n go n t o l o g ym o d e li na ni n f o r m a t i o n r e t r i e v a ls y s t e mc a nm a k ec o m p u t e r su n d e r s t a n dt h ei n f o r m a t i o n ,t h e nc a na c h i e v e s e m a n t i cr e t r i e v a l t h i st h e s i ss t u d i e dt h ec o m p u t e rf i e l d a tt h eb e g i n n i n g ,t h et h e s i sr e s e a r c h e d b a s i ck n o w l e d g e ,p r i n c i p l eo fm o d e l i n g ,d e s c r i p t i o nl a n g u a g e ,m o d e l i n gt o o l so f o n t o l o g y a n a l y s i st h ee x i s t i n go n t o l o g ym o d e l i n gm e t h o dw i t hd e v e l o p e db yo t h e r r e s e a r c h e r sw h od e v o t et h e m s e l v e st ot h eo n t o l o g ys t u d y r e f e r e n c et h es o f t w a r e e n g i n e e r i n gd e v e l o p m e n tm e t h o d s ,t h i st h e s i sr e s e a r c ha n ds u m m a r yan e wo n t o l o g y m o d e l i n gm e t h o dc a l lo n t o l o g yl i f e - c y c l em e t h o dw h i c hi ss u i t a b l ef o rc o n s t r u c tt h e b o o ko n t o l o g ym o d e l ,t h e s i sa l s oc o n s t r u c tac o m p u t e rb o o ko n t o l o g ym o d e l a c c o r d i n gt ot h eo n t o l o g yl i f e c y c l em e t h o d s e c o n d l y , t h et h e s i sd e s i g naf r a m e w o r ko f t h eo n t o l o g y b a s e di n t e l l i g e n ti n f o r m a t i o nr e t r i e v a ls y s t e mt h r o u g ht h ei d e o l o g yo f 英文摘要 o n t o l o g y , t h e ns t u d yt h ek e yt e c h n o l o g i e sw h i c hi n v o l v e di nt h es e m a n t i cr e t r i e v a l ,f o r e x a m p l e ,o n t o l o g ys t o r a g e ,o n t o l o g y - b a s e dr e t r i e v a lo p t i m i z a t i o n ,s e m a n t i cr e t r i e v a l e x t e n d e da n ds oo n ,w h i c h p r o v i d et e c h n i c a ls u p p o r tt oc o m p l i m e n tt h er e t r i e v a l s y s t e m a tl a s t ,t h et h e s i sc o m p l i m e n t st h eo n t o l o g y b a s e db o o ki n f o r m a t i o nr e t r i e v a l s y s t e mw i t ht h eo n t o l o g ym o d e la n ds e m a n t i cr e t r i e v a lt e c h n o l o g y i no r d e rt oa s s e s st h er e s u l t so fs y s t e m ,t h es t u d yu s es o m ei n f o r m a t i o nr e t r i e v a l s y s t e me v a l u a t i o ni n d i c a t o r sl i k er e c a l lr a t i oa n dp r e c i s i o nr a t i ot ot e s t i n gt h er e t r i e v a l r e s u l to ft h es y s t e m ,t h er e s u l tp r o v e dt h a tt h eo n t o l o g y b a s e dr e t r i e v a ls y s t e mh a v e h i g h e rq u a l i t yt h a nt h et r a d i t i o n a lk e y w o r d - b a s e dr e t r i e v a ls y s t e m k e yw o r d s - o n t o l o g y :s e m a n t i cr e t r i e v a l ;o n t o l o g yc o n s t r u c t i o n ;b o o ko n t o l o g y m o d e l 大连海事大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果, 撰写成硕士学位论文:奎签的掏建区基在图盘鱼星捡塞虫鲢廑旦婴究:。除论文 中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文 中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公 开发表或未公开发表的成果。本声明的法律责任由本人承担。 论文作者签名: ! 塑苤查釜 学位论文版权使用授权书 本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学 位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论 文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本 学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫 描等复制手段保存和汇编学位论文。同意将本学位论文收录到中国优秀博硕士 学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论 文全文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式 出版发行和提供信息服务。保密的论文在解密后遵守此规定。 本学位论文属于:保密口在年解密后适用本授权书。 不保密( 请在以上方框内打“ ) 敝储躲闺研导师虢 日期:,。哆年占月山日 本体的构建及其住图i s 信息检索中的虑州研究 第1 章绪论 1 1 选题背景 网络技术的飞速发展,为人们带来了空前便捷的信息交流,现在w e b 已经成 为全球的信息源,据统计,全世界每年出版的图书5 0 万种以上,期刊1 0 万种以 上,科技报告约9 0 万件、会议文献1 0 多万篇,每年发表的科技论文总数近5 0 0 万篇【,并成指数式增长,真可以说是信息浩如烟海,如何从这么多信息中找到自 己想要的信息呢? 这是信息检索领域的一个巨大的挑战。 搜索引擎为人们提供了检索信息的方法,是人们获取网络上信息的重要手段。 基于图书馆分类信息检索方案的目录式搜索引擎的出现是互联网历史上的一个罩 程碑,但是这种方法过于依赖人力,无力应对海量的信剧2 1 。全文检索式的搜索引 擎脱离了人工,提高了搜索引擎的信息处理速度,比如百度,g o o g l e 都是属于此 类搜索引擎。但是这些搜索引擎技术又存在另一个问题,因为它们都是采用基于 关键字匹配技术,仅用单一的词或词的组合来对信息资源进行检索,缺乏知识的 处理,因而返回的结果在查全率和查准率上都无法满足检索者的需求【3 1 。 产生以上问题的原因主要是因为网络上的数据都是一种无结构或者是半结构 的数据,可以供人阅读,但是计算机不能理解信息的含义。为了解决以上问题, 研究人员投入了大量的精力,认识到如果赋予信息资源各种明确的语义信息,让 计算机可以“理解”这些信息的话,查询的效率就能提高很多,因此,本体论被 引入到计算机领域。 本体( o n t o l o g y ) 原本是哲学概念,它的含义是:客观存在的一个系统的解释和 说明,客观现实的一个抽象本质i4 1 。在哲学上本体被用于解决语言中的二义性问题, 本体论是西方分析哲学中研究实体存在和存在本质的理论。随着人工智能的发展, 在人工智能和知识工程领域中本体被赋予了新的定义。在众多对本体的定义中, 最为流行的定义是由g r u b e r 给出的,即“本体是概念模型的明确的规范说明【5 j ,。 本体方法目前已经成为计算机科学中的一种重要方法,被广泛应用于语义w e b 、 搜索引擎、异构系统集成、地理信息科学与数字图书馆等领域。尤其是目前随着 第1 章绪论 对语义w e b 研究的深入,本体己经成为一个研究的热点,受到了越来越多的关注, 人们普遍认为它是建立语义w e b 的核心技术。 本体论是建立在语义理解基础上的应用,将本体论应用于信息检索领域的基 本原理是将信息抽象为知识,按照本体论的原理,建立本体模型;将用户的查询 请求转换为本体规则下的概念,在本体库中进行匹配,查找在语义上匹配的信息, 然后将检索结果返回给用户。本文的目标就是研究根据本体思想如何建立图书本 体模型,然后将本体技术引入信息检索的过程中,提高图书检索的查全率和查准 率,满足用户的需求,从而提高图书馆资源的利用率。 1 2 国内外研究现状 自2 0 世纪9 0 年代以来,本体的研究在计算机科学技术内应用越来越多,在 知识工程、软件需求分析、面向对象技术、信息的提取和查询和基于a g e n t 的系 统设计中扮演着越来越重要的角色。下面重点介绍本体在信息检索中的研究成果。 对于普遍的w e b 用户,“信息过载 己经成为一个日益严重的问题。目前广泛 使用的信息检索或是依赖编码过程,或是进行全文检索,难于确保检索内容在语 义上的精确匹配。在实际应用中,人们逐渐认识到使用语义进行检索是一种解决 精确查询的有效途径。本体拥有良好的概念层次结构,能够支持逻辑推理,非常 适合信息检索中的基于语义的检索的需求,本体将渐渐地成为日后信息检索系统 中的知识表示的一种形式。 目前,国外一些商业公司、科研部门、高等院校等都在对智能化网络信息检 索进行研究,并且己经开发出了一系列成功的产品,如:i b m 的基于规则和知识, 使用启发式的策略和简单自然语言的g l o b e n e t 系统;芝加哥大学开发的基于“问 题库”的具有问答功能的智能搜索引擎f a q f i n d e r ;为了帮助用户检索到所需要的 w 曲上已有的本体系统的( o n t o ) 2 a g e n t l 6 1 :基于用户查询行为和兴趣的寻找特定信 息的专用智能软件w e d o g g i e ( c m u ) 和n e w sw e e d e r 等【7 j 。 国内对智能化的网络信息检索也有许多相关的研究,如清华大学研制的p i n s 系统和b o o k m a r k 系统,它们能自动收集和记录用户的习惯和兴趣,跟踪用户的信 本体的构建及其在图j ”信息检索中的戍用研究 息需求;南京大学研制的w e b a c c e s s 系统,它应用了机器学习、自然语言处理、 超文本等技术;基于汉语的语法、词的上下文和语义等中文信息处理技术的“网 典a i s s 系统。但国内的智能网络信息搜索系统大多只是支持简单的自然语言理 解和概念检索,对机器学习、智能代理、信息挖掘等技术研究的很少。 本体应用于图书馆的资源检索也是一个研究热点,为了文章表述的方便,先 给出数字图书馆和传统图书馆的定义: ( 1 ) 数字图书馆:数字图书馆是一批电子资源和用于创建信息检索和使用信息 相关技术能力的结合,是可操作任何介质上的数字化数据( 文本、图像、声音、 静态或动态) 的信息存储与信息检索系统的一种扩展与提高【8 】。 ( 2 ) 传统图扣馆:为阅读、研究和参考目的而收集的一批书l 9 1 。 由以上可见,数字图书馆和传统图书馆的区别之一在于收藏的介质不一样, 数字图书馆收藏的是数字化数据,传统图书馆收藏大多是纸质的书籍。 现在本体应用于数字图书馆中的研究有不少,如美国的i b m d b 2 数字图书 馆,英国的不列颠数字图书馆( t h eb r i t i s hl i b r a r y ) ,已经数字化了1 0 0 0 0 0 幅图像 的法国国家图书馆( b n f ) 等等。我国对数字图书馆的研究也比较多,如董慧著 作的本体与数字图书馆,并且在历史领域的本体构建有比较深入的研究。相对 于对本体在数字图书馆中的应用研究,对传统图书馆方面的研究是很少的。 1 3 研究意义 本论文的研究具有以下意义: ( 1 ) 本文针对现今的本体构建方法不具有普遍使用性,结合软件工程中的软件 开发方法,总结出了一个本体构建方法本体生命周期法,并通过计算机图书 本体构建的实践证明了本方法的科学性。 到目前为止对本体构建方法的研究不多,现有的关于本体构建方法的文章多 是总结比较现有的本体构建方法,如七步法、骨架法等,然后选择一种适合自己 项目的本体构建方法,或者是将几种方法结合起来构建本体,并没有提出新的更 具适应性的方法。并且现有的本体构建方法并没有给出完整的构建流程,学习者, 第1 章绪论 特别是初学者很难掌握。基于这些问题,本论文将软件工程的思想引入本体构建 中,借鉴已经具有行业标准的软件开发的生命周期法,并且结合已有的本体构建 方法,提出了新的本体构建方法本体生命周期法,给出了详细的本体构建流 程,通过实践证明了本方法的可行性和科学性。 ( 2 ) 将本体的概念引入到图书领域的知识层面,从内容上提取核心概念并构建 计算机图书本体模型,为后来的本体的后续研究打下了良好的基础。 从以往的研究来看,大多数的对计算机类图书本体的研究基本上是对学科的 学术论著、学者、研究机构等概念进行分析,类似于数据库设计的e r 模型,并 没有从知识层面来分析和构建本体。本文将图书的属性放在次要位置,重点对图 书的内容进行概念的提取和分析,这对基于本体的信息检索具有重大的意义。 ( 3 ) 开发了基于本体的图书智能检索模型。 ( 4 ) 对传统图书馆的图书信息检索进行了深入分析,并将基于本体的信息检索 运用到传统图书馆。 论文1 2 节已经给出了数字图书馆和传统图书馆的概念,现在的传统图书馆的 图书检索基本上是基于关键字的检索,而且基本上是对书名、作者、出版社等属 性进行查询,除非知道确定的书名,否则查准率是很低的,查不到书的话读者就 很难从图书馆找到自己想要的书,这样对图书馆资源是一个极大的浪费。从现在 的研究来看,很多研究者研究本体在数字图书馆中的应用,但是对传统图书馆的 研究却很少。本文将本体运用到传统图书馆的检索中,提高查全率和查准率,有 利于读者的对图书馆资料的使用。 1 4 论文的研究思路与结构 本文的研究思路是将理论与实践结合,先掌握本体的相关理论和技术,然后 构建本体,并将其运用于信息检索系统中。 本论文共分为六章,具体的组织方式如下: 第1 章是绪论部分。首先介绍了本文的研究背景:本体理论和传统信息检索 存在的不足,接着分析了国内外研究现状,然后揭示了本文的研究意义,最后总 本体的构建及其在图- f s 信息检索中的应用研究 结了论文的研究思路和结构。 第2 章是介绍本体的理论和基于本体的信息检索。首先介绍了本体的概念、 分类、功能等基本知识,然后介绍了本体的构建原则、描述语占,构建工具等相 关技术,最后介绍本体在信息检索领域中的应用。 第3 章主要是研究本体的构建方法。文章比较了现有的本体的构建方法,指 出它们的不足,然后借鉴软件工程中的软件开发方法,提出了新的本体构建方法 本体生命周期法。 第4 章构建了计算机图书本体。这也是对本体生命周期法的实践过程。同时 构建的计算机图书本体也为第五章的智能信息检索模型打下了基础。 第5 章足基于计算机图书本体的智能检索模型的实现,包括检索算法的设计 和模型的实现,并将此系统与传统的信息检索进行了比较,揭示了基于本体的信 息检索技术的优越性。 第6 章是总结与展望,总结了全文的研究工作,并对后续的研究进行展望。 论文的总体思路如图1 1 所示。 图1 1 本文总体思路图 f i g 1 1t h eo v e r a l li d e a so ft h i st h e s i s 第2 章本体理论概述及相关技术介绍 第2 章本体理论概述及相关技术介绍 2 1 本体的基本知识 近年来,由于因特网的快速发展,面对海量的信息,如何组织、管理和维护 信息并为用户提供高质量的服务也就成为一项重要而迫切的研究课题。本体作为 一种能在语义和知识层次上描述信息系统的概念模型建模工具,自被提出以来就 成为研究热点。 2 1 1 本体的概念 本体( o n t o l o g y ) 3 7 称为实体,源自于哲学领域,它对客观世界的事物进行分析 并发现其最基本的组成部分,进而研究客观事物的本质1 1 0 j 。近年来,本体的概念 被引入应用于计算机知识工程领域,用于对客观世界的存在进行系统化描述,方 便知识的重用集成和交互。研究者己经从不同的角度和方面为本体论概念进行了 定义,其中比较著名的有“本体是概念模型的一个显示的规格说明和“本体是 共享概念的个形式化的规格说明”。 目前获得大部分研究者公认的本体定义是t o mg r u b e r 于1 9 9 4 年在s r k b ( s h a r e dr e u s a b l ek n o w l e d g eb a s e s ) 的邮件列表中提出的定义:“本体是关于共享概 念的协议。共享概念包括对领域知识建模的概念框架、可互操作的系统通信协议 和特定领域理论的表示协议。在知识共享环境中,本体以定义表达词汇的形式来 获得描述”。概括为“本体是概念模型的明确的规范说明”。 f e n s e l 对这个定义进行分析后认为本体的概念包括四个主要方面【1 2 l : ( 1 ) 概念模型( c o n c e p t u a l i z a t i o n ) :客观世界的事物的抽象模型; ( 2 ) l a f j r 确( e x p l i c i t ) :概念及它们之间的联系都被精确定义: ( 3 ) 形式化( f o r m a l ) :精确的数学描述; ( 4 ) 共享( s h a r e d ) :本体中反映的知识是其使用者共同认可的。 从本质上来说,本体论反映了一个给定领域的通用观点,是该领域中的概念 和这些概念间关系的集合,反映了概念间的约束和联系,也可以把本体当作是领 域内部不同的主体( 人、机器、软件等) 之脚的交流的一种语义基础,即由本体 本体的构建及其在图1 5 信息检索中的戍川训f 究 提供一种明确定义的共识。 2 1 2 本体的分类 目前对本体的研究非常广泛,尤其是在国外,许多研究者都研究建立了各种 本体,针对这些本体,也出现了不同的分类方法。为了对本体进行有效的分类, g u a r i n o 提出以详细程度和领域依赖度两个维度对本体进行划分,依照领域依赖程 度,可以将本体细分为顶级本体、领域本体、任务本体和应用本体四类1 1 3 】。 ( 1 ) 顶级本体:描述最普通的概念和概念之间的关系,如空间、时间等,常常 是抽象术语,与具体的应用无关,其它种类的本体都是该类本体的特例。 ( 2 ) 领域本体:描述的是特定领域( 医药、汽车等) 中的概念和概念之间的关系。 较具体,容形式化和共享。 ( 3 ) 任务本体:描述的是特定任务或行为中的概念与概念之间的关系。 ( 4 ) 应用本体:描述的是依赖于特定领域和任务的概念与概念之间的关系。 1 9 9 9 年,p e r e z 和b e n j a m i n s 在分析和研究了各种本体分类法,归纳出1 0 种 本体【1 4 】:顶级本体、领域本体、任务本体、领域任务本体、知识表示本体、普通 本体、语言本体、元( 核心) 本体、方法本体和应用本体。但这1 0 种本体之间有交 叉,界限不够清晰。 2 1 3 本体的应用 本体建设的目的就是为了应用,目前,本体已经被广泛应用于知识工程、知 识管理、自然语言处理、数字图书馆、信息检索、软件复用、面向对象技术和语 义w e b 等领域。典型的应用有如下几类: ( 1 ) 基于语义的信息检索,特别是网络搜索引擎和数字化图书馆【1 5 】。目前的搜 索引擎主要是基于关键字的搜索1 1 6 】,这些方式要么产生大量无关的信息,要么得 遵循熟悉特定应用数据库对数据的分类,往往得不到需要的信息。而本体刻画了 事物之间的语义联系,可以使检索出来的信息更符合要求1 1 7 1 。 ( 2 ) 基于本体的数据集成、机器学习等【1 8 , 1 9 l 。 ( 3 ) 领域本体的应用。比如,在生物信息学中己建成的g e n e o n t o l o g y ,尽管只 第2 章本体理论概述及相关技术介纠 包括了p a r t o f 等简单的关系,但是对生物信息学界已经有巨大的影响1 2 0 1 。 ( 4 ) 语义w e b 服列2 1 1 。本体通过对概念的定义和概念之间的关系来确定概念 的精确含义,表示共同认可的、可共享的知识,从而解决了同一概念有多种词汇 表示和同一个词汇有多种意义等问题 ( 5 ) 在线元数据管理和自动信息发布。 一般来说应用本体论的目的有三个: ( 1 ) 有益于人与人的交流:在这种情况下,需要本体论足够清晰和明确。 ( 2 ) 有益于系统间的交互:本体论被用作各种建模方法、图表、语言和软件工 具之白j 的统一的交换格式。 ( 3 ) 有益于系统工程,尤其体现在重用性、知识获取、可靠性等几个方面。 2 2 本体的技术介绍 2 2 1 本体的构建原则 一般认为,g r u b e r 在1 9 9 5 年提出的5 条规则是比较有影响的【2 2 】: ( 1 ) 明确性( c l a r i t y ) 。本体应有效的说明所定义术语的内涵。定义应该是客 观的,与背景独立的;定义应该是形式化的,即当定义可以用逻辑公理表达时, 就应该用逻辑公理表达。定义应该尽可能的完整,完整的定义要比部分定义要好。 ( 2 ) 一致性( c o h e r e n c e ) 。一个本体应该前后一致的,即由它推断出来的概念 定义应该与本体中的概念定义一致。它所定义的公理及用自然语言说明的文档都 应该是一致的。 ( 3 ) 可扩展性( e x t e n d i b i l i t y ) 。本体应该为可预料的任务提供概念基础。一个 本体提供一个共享的词汇,它应该在预期的任务范围内提供概念基础。人们应该 能够在不改变原有定义的前提下,以这组存在的词汇为基础定义新的术语。 ( 4 ) 最小编码偏差( m i n i m a le n c o d i n gb i a s ) 。由于实际系统可能采用不同的知 识表示方法,本体不应该依赖于某一特殊化的符号层的表示方法,表示形式的选 择不应该只考虑表示上或实现上的方便。 ( 5 ) 最小本体承诺( m i n i m a lo n t o l o g i c a lc o m m i t m e n t ) 。本体的承诺应该最小, 本体的构建及其住幽f s 信息检索中的戍川研究 只要能满足特定的知识共享需求即可。本体应该对所模拟的事物产生尽可能少的 推断,让共享者自由地按照他们的需要去专门化和实例化这个本体。 2 2 2 本体的描述语言 由于机器并不能像人类一样理解自然语言中的语义,本体的目的就是使信息 成为机器可理解的,因此,要想在计算机领域运用本体,首先面临的问题就是如 何描述本体。本体描述语言使得用户能为领域模型编写清晰的、形式化的概念描 述,所以它应该满足以下要求【2 3 】:良好定义的语法、良好定义的语义、有效的推 理支持、充分的表达能力、表达的方便性。 目前,大量的研究者在研究本体的描述语言,因此诞生了许多种本体描述语 兰g = l ,我们可以把这些本体语言简单归类如下1 2 4 l : ( 1 ) 和w 曲有关的:r d f 和r d f s 1 2 5 1 、o i l 2 6 1 、d a m l 2 7 1 、o w l 捌、s h o e 。 ( 2 ) 和具体系统相关的:o n t o l i n g u a 2 9 1 、c y c l l 3 0 1 、l o o m 。 下面介绍几种本体的描述语言: ( 1 ) r d f 和r d f - s 语义w e b 的首要目的就是要让计算机能够对信息的语义进行处理,w 3 c 资源 描述框架为基于元数据的语义表示提供了基础。r d f 定义了一个“对象属性取值 三元组作为其基本的建模原语并在其之上引入了一套标准的语法。 ( 2 ) o w l o w l ( w 曲o n t o l o g yl a n g u a g e ) :是w 3 c 推荐的语义w e b 中o n t o l o g y 描述语言 的标准。它是在d a m l + o i l 在提交给w 3 c 后发展起来的。它通过定义类和类的 属性来形式化一个领域,声明和定义对象和对象的属性,以及在o w l 形式化语义 允许程度上对类和对象进行推理。 ( 3 ) c y c l c y c 系统的描述语言是一种体系庞大而非常灵活的知识描述语言。其特点是: 在一阶谓词演算的基础上扩充了等价推理、缺省推理等功能;具备一些二阶谓词 演算的能力;其语言环境中配有功能很强的可进行推理的推理机。 第2 章本体理论概述及相关技术介绍 2 。2 。3 本体的构建工具 到目前为止,已经出现了许多本体编写工具,涉及的范围包括o n t o l o g y 的建 立、o n t o l o g y 的归并和整合、o n t o l o g y 的存储和查询、o n t o l o g y 的推理和学习等 等等。根据这些工具所支持的本体描述语言,大致可以分为两类。 第一类包括o n t o l i n g u a 、w e b o n t o 等。这两个工具的共同点是,都基于某种特 定的语。言( o n t o l i n g u a 基于o n t o l i n g u a 语言,w e b o n t o 基于o c m l 语言) ,并在一定 程度上支持多种基于触的本体描述语言。 第二类包括p r o t 6 9 6 系列、w e b o d e 、o n t o e d i t 等。这些工具最大的特点是独 立于特定的语言,可以导入导出多种基于w e b 的本体描述语言格式f 如x m l , r d f ( s ) ,o w l 等) 。它们都是一个整合的本体开发环境或一组工具,支持本体开发 生命周期中的大多数活动,并且因为都是基于组件的结构,很容易通过添加新的 模块来提供更多的功能,具有良好的可扩展性。 下面将简单介绍本研究中使用的p r o t 6 9 6 工具。 p r o t 6 9 6 是由斯坦福大学的s t a n d f o r dm e d i c a li n f o m a t i c s 开发的一个开放源码 的本体编辑器【3 ,可以免费下载,它当前的版本是p r o t 6 9 6 3 4 。p r o t 6 9 6 是用j a v a 编写的,界面风格与普通w i n d o w s 应用程序风格一致,用户比较容易学习使用。 本体结构以树形的层次目录结构显示,用户可通过点击相应的项目来增加或编辑 类、子类、属性、实例等,使用户在概念层次上设计领域模型,所以本体工程师 不需要了解具体的本体表示语言。p r o t 6 9 6 不仅提供了对信息类和信息框架的定义 途径,而且还可使类和实例的协同工作变得更加简单,如单个实例可以被用在类 的定义层,一个类可以作为实例来存储【3 2 1 。同样,属性不仅能在类的内部使用, 也可以作为独立的层。p r o t 6 9 6 最大的特点在于其可扩展性,它具有开放式的接1 2 1 , 提供大量的插件,支持几乎所有形式的本体论表示语言,并它可以将建立好的知 识库以各种语言格式的文档导出,同时还支持各种格式问的转换。具体表现在如 下几点: 一 一 ( 1 ) p r o t 6 9 6 是一个可扩展的知识模型。用户可重新定义系统使用的表示原语。 ( 2 ) 文件输出格式可以定制。 本体的构建及其在图l 信息检索中的应川研究 ( 3 ) 用户接e l 可以定制。 ( 4 ) 有可以与其他应用结合的可扩展的体系结构。 ( 5 ) 后台支持数据库存储,使用j d b c 和j d b c o d b c 桥访问数据库。 由于p r o t 6 9 6 开放源代码,提供了本体构建的基本功能,使用简单方便,有详 细友好的帮助文档,模块划分清晰,提供完全的a p i 接口,软件的更新较快,特 别是对w 3 c 标准的良好支持,因此,它基本上成为国内外众多本体研究机构的首 选工具。考虑到p r o t 6 9 6 的多种特性和优点,本文在研究工作中将选择它作为本体 的编写工具。 2 3 本体与信息检索技术 2 3 1 信息检索概述 信息检索( i n f o r m a t i o nr e t r i e v a l ) 1 3 3 】是指将信息按照一定的方式组织存储起来, 并根据用户需求查找这些信息的过程。广义的信息检索又称为信息存储与检索 ( i n f o r m a t i o ns t o r a g ea n dr e t r i e v a l ) 。狭义的信息检索则仅指从信息集合中查找所 需信息的过程,相当于通常意义上所说的信息搜索【3 钔。 信息检索的核心为文本信息的索引和检索,起源于图书馆的参考咨询和文摘 索引工作【矧。从发展阶段来看,信息检索经历了手工检索、计算机检索到目前网 络化、智能化检索等多个阶段。信息检索的对象从相对封闭、稳定一致、由独立 数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的 w e b 内容。随着互联网的普及,信息检索的用户也由原来的情报专业人员扩展到 包括管理人员、商务人员、老师、学生、各专业人士在内的普通大众,可以说几 乎包括所有使用互联网的人,他们对信息检索从结果到方式提出了更高、更多样 化的要求,这种要求也明显的促进了信息检索技术的发展和应用,一大批的搜索 引擎产品也随之诞生,为用户提供了快速信息获取和网络信息导航工具。但是即 便如此,现有的搜索引擎还是在技术上存在着局限性,不能充分满足用户的需求。 现在的搜索引擎技术一般都是基于关键字进行检索的,从关键词检索的角度 来看仅仅是考虑到了语法层次的问题,但是没有考虑到语义的问题,完全摒弃了 第2 章本体理论概述及相关技术介绍 检索条件的概念特征;从知识表示的角度来说,关键词检索仅仅是考虑到了数据 匹配,而没有考虑数据本身的结构特征,这使得搜索结果将带来很多无用的结果, 并失去一些相关的信息。总之,基于关键字的检索技术是平面的,如图2 1 所示。 圈一 j 匹配l 午 j l t 、一。i 数据库 图2 1 传统的信息检索的过程 f i g 2 1t h er e t r i e v a lp r o c e s so ft r a d i t i o n a li n f o r m a t i o nr e t r i e v a l 传统的基于关键字的检索技术是存在不足的,本文接下来将总结传统的信息 检索技术存在的问题,然后介绍基于本体的信息检索技术。 2 3 2 传统的信息检索存在的问题 在因特网普及的时代,信息检索显得越来越重要,搜索引擎作为使用频率最 高的网络信息检索工具,为人们获取信息提供了极大的方便,但是随着信息量的 增大,人们却因为信息过载而陷入信息危机中1 3 5 1 ,究其原因,主要是因为现有的 搜索引擎技术主要是借助于目录、索引和关键词等方法来实现,而不是从语义上 来理解信息和用户的搜索请求。总而言之,传统的信息检索存在以下问题【3 6 1 【3 7 】: ( 1 ) 查全率和查准率很低,由于信息量大,检索提问式过于自由简单,一个搜 索引擎对查询请求通常返回成千上万个检索结果,很多检索结果和用户查询毫无 关系,其中还有很多重复的结果,导致查全率和查准率过低。 ( 2 ) 不能很好理解用户的需求1 3 8 1 ,现在的信息检索通常通过关键字的匹配来进 行检索,但是问题是计算机很难通过一两个关键字来了解用户的需求,另外相同 本体的构建及其舀:图ls 信息检索中的应用研究 的概念在不同的地方可能有不同的含义,比如对于“百合”,人们要的可能分别是 饮料、药材、食品、网站、人名或者其他。但搜索引擎会返回所有的结果供用户 选择,在大量的搜索结果中再次去挑选出自己想要的信息又是一项繁琐的工作。 ( 3 ) 无法搜索提供网页上的隐含信息1 3 9 】。所谓隐含信息是指那些没有被文字直 接表达出来,但是隐含在网页内容中或者是由其他相关网页提供的一些重要的信 息,目前的搜索引擎是不能完成挖掘隐含信息这样的推理工作的。 ( 4 ) 很难进行知识的检索1 3 8 1 。人们进行信息检索的最终目的是获取相关的知 识,但是传统的信息检索很难基于知识的检索,只能给予用户相关的信息。 2 3 3 本体在信息检索中的应用 常规的直接基于关键字的信息技术已经不能满足用户在语义上和知识上的需 求,基于本体的语义检索则为检索技术提供了一种新方法,本体在构建智能化的 检索系统、构建语义w e b 等i 加】方面有很重要的意义。 本体是对概念化对象的明确的形式化的规范说明1 4 1 1 ,并且具有良好的概念层 次结构和对逻辑推理的支持以及通过概念之间的关系来表达概念语义的能力,能 较好地为语义检索和概念检索提供知识基础。基于本体的智能信息检索优于关键 词搜索,因为本体包含机器可以判断的概念的定义,从而使系统对领域内的概念, 概念之间的关系及领域内的基本公理知识有一个统一的认识,系统通过分析用户 提出的查询中所包含词( 组) 的语义,理解用户的查洵,并准确地映射到信息资源, 从而提高了信息检索系统的查全率和查准率。 哭i j 鲴 趣妇 亍豳 ,一7 7 、 匣蛔圆圆圆幽略司 e 三三三三j 三三习 f l : 阿阿同曰曰圈 图2 2 语义检索是立体的 f i g 2 2s e m a n t i cr e t r i e v a li s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论