(计算机软件与理论专业论文)基于领域本体的语义信息检索及相关技术研究.pdf_第1页
(计算机软件与理论专业论文)基于领域本体的语义信息检索及相关技术研究.pdf_第2页
(计算机软件与理论专业论文)基于领域本体的语义信息检索及相关技术研究.pdf_第3页
(计算机软件与理论专业论文)基于领域本体的语义信息检索及相关技术研究.pdf_第4页
(计算机软件与理论专业论文)基于领域本体的语义信息检索及相关技术研究.pdf_第5页
已阅读5页,还剩76页未读 继续免费阅读

(计算机软件与理论专业论文)基于领域本体的语义信息检索及相关技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 目前导致信息检索质量低下的根本原因在于检索工具和检索过 程缺乏语义化,对用户信息需求的理解,通常是基于语法层上简单的 机械式的语法匹配,缺少语义理解能力,存在信息的误检、漏检等缺 陷。本体是对客观存在的概念及其相互之间关系的描述,基于本体的 信息检索是基于语义的检索,它弥补了传统关键词检索系统的不足。 引入基于本体的语义信息检索技术,能使信息检索系统在信息查准率 和查全率上有更好的保证。 本文首先阐述了基于本体的信息检索的国内外研究现状,概述了 本体和信息检索的相关基础理论。并在分析、比较各种本体构建方法 的基础上,遵循本体构建的一般原则,综合各种本体构建方法的优点, 提出了一种新的领域本体构建模型,为构建基于本体的语义信息检索 系统提供了有力的理论支持。 其次,从文档的语义预处理技术、语义相似度计算、语义查询扩 展、倒排文件索引算法研究和语义推理等几个方面,对构建基于本体 的语义检索所需的关键技术进行了深入地研究,并给出相应的改进算 法。 再次,在上述理论研究的基础上,给出了一种基于本体论的科研 论文检索模型,初步创建试验性数据结构论文本体,并通过测试,说 明了文中方法的可行性和有效性。最后,对全文进行回顾、总结,指 出不足,并对未来研究工作作出一些展望。 关键词:本体;语义检索;语义处理;语义相似度;倒排索引 i v a b s tr a c t t h ef u n d a m e n t a lr e a s o nt h a tl e a dt ot h e p o o rq u a l i t yo fi n f o r m a t i o nr e t r i e v a l l i e si nt h el a c k o fs e m a n t i c si nr e t r i e v a lt o o l sa n dr e t r i e v a lp r o c c e s s ;t h ef a l s e u n d e r s t a n d i n g so fu s e r s i n f o r m a t i o na r ec a u s eb yt h es i m p l ea n dm e c h a n i c a lm a t c h o nt h el e v e lo fg r a m m a r ;t h ed e f e c t sa r er e l a t e dt ot h ee x i s t i n gi n f o r m a t i o n ,s u c ha s t h ef a l s er e t r i e v a la n dt h eo m i t t i n gr e t r i e v a l o n t o l o g yi st h ed e s c r i p t i o no f t h e o b j e c t i v ee x i s t e n c ea n dt h e i rm u t u a lr e l a t i o n s h i p i n f o r m a t i o n :r i e v a lb a s e do n o n t o l o g yi st h er e t r i e v a lb a s e do ns e m a n t i c s ,w h i c hm a k eu pf o rt h es h o r t a g eo ft h e t r a d i t i o n a lk e yw o r d sr e t r i e v a l s y s t e m t h ei n t r o d u c t i o no fo n t o l o g yb a s e do n s e m a n t i ci n f o r m a t i o nr e t r i e v a lt e c h n o l o g ye n a b l e si n f o r m a t i o nr e t r i e v a ls y s t e mt og a i n ab e t t e rg u a r a n t e ei np r e c i s i o na n dr e c a l l f i r s t ,t h ep u r p o s ea n ds i g n i f i c a n c eo ft h es u b j e c ta r es t a t e d ,a n dt h ec u r r e n t r e s e a r c hb a s e do nt h eo n t o l o g yo ft h ei n f o r m a t i o nr e t r i e v a lr e s e a r c hs i t u a t i o no nt h e o n t o l o g ya n di n f o r m a t i o nr e t r i e v a lo fo n t o l o g yb o t ha b r o a da n da th o m ei sa n a l y z e d b e s i d e s ,t h er e l e v e n tt h e o r i e so fo n t o l o g ya n di n f o r m a t i o nr e t r i e v a la r ei n t r o d u c e d a n e wc o n s t r u c t i n gm e t h o d si nd o m a i no n t o l o g yi sa d v a n c e do nt h e b a s i so f c o m p a r i s o na n da n a l y s i so fa l lk i n d so fo n t o l o g yc o n s t r u c t i n gw a y s ,a b i d e i n g a g e r e r a lp r i n c i p l e so fo n t o l o g yc o n s t r u c t i o na n ds u m m a r i z i n gu pa l lk i n d so f a d v a n t a g e so fo n t o l o g yc o n s t r u c t i n gw a y ,as t r o n gt h e o r e t i c a ls u p p o r tf o rt h es y s t e m o fs e m a n t i cr e t r i e v a lb a s e do no n t o l o g yi sa c h i v e d s e c o n d l y ,f r o ms u c hr e s p e c t sa st h es e m a n t i cp r e t r e a t m e n to fd o c u m e n t ,t h e i m p r o v e m e n to fs e m a n t i cs i m i l a r i t yb a s e do no n t o l o g ya n dt h ec a l c u l a t i o nm e t h o do f t h e r e l a t i v i t y ,a n ds e a r c h i n ge x p a n s i o ns k i l l ,a n di n v e r t e di n d e x ,t h ek e y t e c h n o l o g y ,w h i c hi sn e e d e df o rc o n s t r u c t i n gs e m a n t i cr e t r i e v a ls y s t e mb a s e do n o n t o l o g yi sd e e p l ys t u d i e d a n daf r a m e w o r ko fs e m a n t i cr e t r i e v a ls y s t e mb a s e do n o n t o l o g yi ss u g g e s t e d ,a n dt h ei m p l e m e n t a t i o np r o c e s so fs y s t e mm o d e li si n t r o d u c e d i nd e t a i l e d v a b s t r a c t t h i r d l y ,b a s e do nt h ea b o v et h e o r e t i c a lr e s e a r c h ,t h ed i s s e r t a t i o np u t sf o r w a r d r e s e a r c hp a p e rs e a r c hm o d e lb a s e do no n t o l o g y ,a n ds e t s u pap r e l i m i n a r yt e s t i n g o n t o l o g yb a s e do nd a t as t r u c t u r ep a p e r s ,a n dt h r o u g ht h es e a r c hf u n c t i o nt e s t i n g ,t h e f e a s i b i l i t ya n dt h ee f f e c t i v e n e s so ft h em e t h o d sa r ep r o v e n f i n a l l y ,a n dt h ew h o l et e x t i ss u m m a r i z e da n dr e v i e w e d t h ep r o s p e c t sf o rt h ef u t u r es e a r c hw o r ki sa d v a n c e d k e yw o r d s :o n t o l o g y ;s e m a n t i cr e t r i e v a l ;s e m a n t i cp r o c e s s i n g ;s e m a n t i cs i m i l a r i t y ; i n v e r t e di n d e x v i 西北大学学位论文知识产权声明书 本人完全了解西北大学关于收集、保存、使用学位论文的规定。 学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。 本人允许论文被查阅和借阅。本人授权西北大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。同时授权中国科学技术信息研 究所等机构将本学位论文收录到中国学位论文全文数据库或其它 相关数据库。 保密论文待解密后适 学位论文作者签名:l l勉沥。 f 口” 认”a 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究 成果。据我所知,除了文中特别加以标注和致谢的地方外,本论文不包含其他人已经 发表或撰写过的研究成果,也不包含为获得西北大学或其它教育机构的学位或证书而 的说明并表示谢意。 ) 学位论文作者虢彳阱 搠年易月苫日 蹲 1 年 名 巷 斟 坳 磴 砌 第一章绪论 第一章绪论 随着计算机技术以及i n t e r n e t 的迅速发展,人类己经进入了网络信息时代。 互联网是当今主要的网络信息集散地,不仅汇聚了海量信息,而且信息数量正在 以指数级的速度增长。 然而,i n t e r n e t 作为一个开放型的巨大的信息资源库,一方面大大拓宽了 信息检索的空间;另一方面,其无序、无限、优劣混杂、缺乏统一的组织与控制 的特点又使信息检索陷入了困境。随着网络信息数据量的激增,人们发现信息越 来越多的同时,如何准确地在浩如烟海的信息中寻找满足用户查询期望的信息成 为信息检索系统所面临的挑战。“我们被信息淹没,但却渴求知识”,这是互 联网上信息检索的真实写照。 根据c n n i c 于2 0 0 8 年1 月1 7 同发布的第2 1 次中国互联网络发展状况统 计报告中的数据显示,截至2 0 0 7 年1 2 月中国互联网用户已经达到了2 1 亿人, 其中7 2 4 的用户( 即1 5 2 亿人) 经常使用搜索引擎,而国外用户对互联网的使 用比例更高,如美国,搜索引擎使用率已经达到9 1 。【1 】可见搜索引擎己经成为 网民最经常使用的信息检索手段,目前最著名的搜索引擎包括g o o g l e 、b a i d u 、 y a h o o 等。随着网民对搜索引擎的依赖程度越来越高,人们对搜索引擎的满意度 却越来越低。检索信息需求的不足与网络信息过剩的矛盾是当前以关键词匹配技 术为主导的主流信息检索方式存在的主要矛盾。 究其原因,我们不难发现,传统的信息检索方法造成以上困难的实质是其检 索方式基于人工分类目录和关键词匹配。前者在面对海量信息时,对信息资源的 揭示效率不高而且深度受限,需要人工介入、维护量大、信息量少、信息更新不 及时( 如y a h o o ) 等;后者仅局限于字符外在表现形式的机械匹配,而非其所表 达的语义,对信息的语义、语用的揭示极为有限,语义处理能力缺乏。因此计算 机很难通过一两个关键字来了解用户的需求,致使检索结果的准确性大大降低 ( 如g o o g l e ) 。 以上因素导致现有信息检索系统不能满足用户的实际检索需求,在查全率和 查准率两大性能衡量指标上未能取得突破,因次如何提高信息检索效率,摆脱信 西北人学硕上论文 第一章绪论 息需求困境已成为目前非常重要和迫切的研究课题。 1 1 基于本体的信息检索研究现状和意义 传统的信息检索方法或搜索引擎,无论是关键字匹配方式还是结合布尔逻辑 运算提供更为复杂的查询表达方式,都是以关键字匹配为基础的,这种方法有两 种缺陷: ( 1 ) 检索结果只是在字面上符合用户的要求,实际内容往往偏离用户的需求; ( 2 ) 用户输入的查询稍有偏差,检索系统就无法确定用户的真正需要,因而 无法提供正确的结果。 为了解决这些问题,研究者从语义的角度,提出了语义检索的方法和技术。 语义检索是把信息检索与人工智能技术、自然语言技术相结合的检索。目前语义 检索有两种,即基于本体论的检索和基于概念的语义检索,前者是基于本体构建 概念空间实现的语义检索,而后者是根据概念词典和关系数据库构建概念空间, 从而实现的语义检索。基于概念的语义检索具有一定语义处理能力,并且具有较 好的自然语言接口。但概念信息检索的概念库中不包含概念间关系的描述,因此 无法处理有关概念关系的问题。而基于本体论的语义检索将本体融合到传统信息 检索技术中,不仅可以继承概念信息检索的优点,还可以克服概念信息检索不能 对概念关系进行处理的局限。因此本文着重研究基于本体的语义信息检索。 关于本体的研究,国外( 尤其是欧美) 处于领先地位,推出了一系列的本体开 发方法( 如i d e f 5 法、骨架法、企业建模法、m e t h o d o l o g y 法、循环获取法、u s c h o l d 方法等) 、开发工具( o n t o l i n g u a 、o n t o s a u r u s 、w e b o n t o 、p r o t 6 9 6 2 0 0 0 、o n t o e d i t 等) 和相关标准。国外本体应用在信息检索中的著名项目主要包括 ( o n t o ) 2 a g e n t ( 基于网络代理搜索本体的本体) 、o n t o b r o k e r ( 基于本体的分布式 半结构化信息获取) 2 j 矛1 1s k c ( 可兼容知识合成) 【3 】等。 国内对本体的研究起步比较晚,研究成果相对较少。主要研究内容包括产品 信息建模、虚拟企业建模、常识知识库等。如中科院计算所的大规模知识系统研 究、中科院数学所常识知识库的研究、浙江大学人工智能研究所基于本体的产品 信息集成研究等。其中比较有影响的有中科院数学所陆汝钤院士领导的常识知识 西北大学硕上论文2 第一章绪论 的实用性研究【训。 目前本体的研究与应用主要包括三方面: ( 1 ) 本体的理论研究。包括概念及概念分类、本体代数等,其中最有代表性 的是g u a r i n o 等人对概念及其分类进行的研究工作。g u a r i n o 等人提出的概念分 类体系,不仅从理论上澄清了概念分类上存在的模糊和混淆的现象,同时为实际 应用中本体概念模型的建立提供了良好的分析、设计和评估的手段; ( 2 ) 在信息系统中的应用。主要包括处理信息组织、信息检索和异构信息系 统互操作问题,一般需要用一种描述语言表示本体,数据保存在知识库中,采用 描述语言的逻辑推理能力来完成信息检索。由于本体具有通过概念之间的关系来 表达概念语义的能力,所以能够提高检索的查全率和查准率; ( 3 ) 本体在语义w e b 中的应用。语义w e b 的目标是使得w e b 上的信息具有计 算机可以理解的语义,满足智能软件代理( a g e n t ) 对万维网上异构和分布信息的 有效访问和搜索。本体通过对概念的严格定义和概念与概念之间的关系来确定概 念精确含义,表示共同认可的、可共享的知识。因此在语义w e b 中,本体具有非 常重要的地位,是解决语义层次上w e b 信息共享和交换的基础。 早在1 9 9 4 年v o o r h e e s 【5 】曾提出基于本体的查询扩展,使用了本体中的概念 进行查询扩展,并得出最有效的方式是利用本体中的同义词和特定的子类关系进 行扩展。此后基于本体的查询扩展研究侧重于两个方面:基于结构化的方法和基 于注释的方法。前者着重从本体的结构信息中抽取出相似度衡量的依据,而后者 则通过计算本体术语的定义中的重叠次数来衡量语义相似度。 m a k i 在2 0 0 3 年提出了基于本体结构的方法【刚,其基本思想是利用本体中的 路径来进行用户查询的扩展。在本体的结构图中,每一个概念的节点都与其他节 点有着连通的路径,因此对用户查询进行扩展的时候,可以选择与该节点连通的 路径上的概念。在对概念选择的时候,m a k i 提出利用一系列的关系边和概念节 点之间相似度的方法来进行排序,优先选择与被扩展概念相似度大者。而计算相 似度的方法依赖于本体的结构,例如进行比较的概念之间路径的数量、长度以及 路径中存在关系种类数、路径中节点种类等,都可以作为衡量的标准。 p h i l i pn o u r 7 】在2 0 0 0 年使用了基于本体的方法在项目开发经验库中建立关 于经验的索引,项目管理者和使用者可以通过该索引在经验库中查找信息,并规 西北人学硕士论文 3 第一章绪论 划当前的项目,例如查找关于“测试中等大小软件系统的方法”,将会得到“测 试”的子概念“黑盒测试”和“白盒测试”,以便于经验库中获得以前的经验。 gs o l d a r1 8 l 在2 0 0 1 年提出了语义检索模型的体系结构,以便于从科学数据中提 取语义,k h a n 和m c l e o d1 9 l 设计并实现了一个用本体构造的基于概念的模型用于 文本检索。 a t & t 1 1 0 1 建立了一个应用本体技术的信息检索系统f i n d u r 系统,通过使用描 述逻辑系统规定的描述逻辑语法,表达了w o r d n e t 中定义的词汇问的同义、上义 和下义关系,获得简单的背景知识,并调用推理系统来完成推理任务,得到某个 词的同义词集合、上义词集合以及下义词集合,从而可以实现查询扩展。但该系 统从本质上仍然是基于语法的,因其并没有使用本体中的词汇去标记文档,只是 强调利用本体来实现查询扩展,而查询输入的词汇本身也并非是依据本体中的词 汇来建立。 宋峻峰【1 1 】提出的基于本体的信息检索模型采用了描述逻辑作为构造本体的 本体语言,使用本体中定义的词汇来标记文档,生成基于本体的文档逻辑视图和 用户信息需求逻辑视图,从而可以实现语义层次的检索,使检索性能大大改善。 由此可见,把本体融合到传统信息检索技术中去,不仅可以继承传统的信息 检索的优点,还可以克服传统信息检索中不能对语义关系进行处理的局限性。基 于本体( o n t o l o g y ) 的智能信息检索优于关键词搜索,因为本体( o n t o l o g y ) 包含机 器可以判断的概念的定义,从而使系统对领域内的概念、概念之间的联系以及领 域内的基本公理知识有一个统一的认识,系统通过分析用户提出的查询中所包含 词( 组) 的语义,理解用户的查询,并准确地映射到信息资源,从而提高了信息检 索系统的查全率和查准率。因此我们可以利用本体对用户输入的检索关键词进行 理解、推理、扩展,使检索结果更符合检索需求,从而提高信息检索质量。 另外,信息检索作为信息学领域中最活跃的研究分支之一,涉及到多学科领 域的交叉合作,主要包括:信息的组织、存储,索引,异质数据源的集成和人工 智能等技术,信息检索技术的研究与发展和这些相关领域的发展是息息相关的, 同样的,对新型智能信息检索技术的研究也能推动相关科研领域的发展。因此, 基于本体的信息检索技术研究具有较高的学术理论意义。 西北人学硕十论文 4 第一章绪论 1 2 本文的章节安排 本文针对信息检索研究现状,拟在前人工作的基础上,重点研究基于本体的 语义检索中的以下若干关键问题: ( 1 ) 介绍常用本体构建工具及本体建设方法,分析其不足,遵循本体的一般构建 原则,综合各种本体构建方法的优势,借鉴软件工程思想,提出一种新的本体构 建模型,以期对文后实验性本体的构建提供指导。( 2 ) 研究基于本体的语义检索的 关键技术:主要有基于本体的语义预处理技术( 如文本信息的提取、语义的标注 方法等) ;语义相似度计算模型及算法分析和改进;基于本体的语义查询扩展方 法研究;语义推理方法;倒排文件索引技术研究等。( 3 ) 给出了一种基于本体论 的科研论文检索模型和实现步骤;在教学专家的参与指导下,建立实验性计算机 学科数据结构论文本体;编码实现检索功能,并通过通过仿真测试、说明了文中 方法的的可行性和有效性。 具体章节安排如下: 第一章绪论:问题提出,阐述基于本体的语义检索的国内外研究现状,在此 基础上,明确了本文的研究目标和内容。 第二章本体与信息检索概述:综述了信息检索的基本原理、本体的基本概 念,信息检索的基本方法以及信息检索性能的主要评价指标( 查全率和查准率) 。 其次,简述了本体的相关概念和术语,并从本体对领域依赖程度和本体的形式化 程度简述了本体的分类方法和本体的两类描述语言。 第三章本体构建方法研究:介绍常用本体构建工具、构建方法,阐述本体 的一般建设原则,指出常用本体构建方法存在的主要问题,并以“七步法 为 主要参考,综合各种本体构建方法的优势,借鉴软件工程思想,提出一种新的本 体构建模型,以期对文后实验性本体的构建提供指导。 第四章基于本体的语义处理关键技术研究:本章主要对基于领域本体的语 义检索的关键技术进行研究,分析基于本体的文档查询预处理过程,详细阐述基 于领域本体的语义处理相关理论,并从语义标注、语义相似度计算、语义查询扩 展和倒排文件索引等技术角度进行研究,分别给出相应的改进算法,以期通过后 续章节实验性检索系统的建立,与传统信息检索方式比较,说明该信息检索方法 西北人学硕上论文5 第一章绪论 的可行性和有效性。 第五章基于本体的科技论文检索系统的设计与实现:在理论研究的基础上, 给出了一种基于本体论的科研论文检索模型和实现流程,进而借助p r o t 6 9 6 及语 义推理机j e n a 等工具完成试验性数据结构论文本体的创建和检索系统的编码实 现工作,最后通过检索性能测试、分析,评价检索系统的可行性和有效性。 总结与展望:对本文进行总结、回顾,指出不足,并对未来研究工作进行展 望。 西北人学倾上论文 6 第二章本体与信息检索概述 第二章信息检索与本体概述 基于领域本体的语义信息检索,旨在利用本体的丰富的语义关系实现用户查 询的语义理解,进而提高信息检索的查全率和查准率。本章将对信息检索理论和 本体理论做一概述。 2 1 信息检索 信息检索( i n f o r m a t i o nr e t r i e v a l 简称i r ) 通常是将信息按照一定的方式 组织和存储起来,并根据用户的需要找出有关的信息的过程和技术。【1 2 】 信息检索有狭义的和广义的之分。狭义的信息检索仅指给出信息检索需求即 检索相关文档集,从中找出所需要的信息的过程;而广义的信息检索,不但能检 索文本信息,而且也可以检索非文本信息信息( 如:图象、视频等) ,并可完成多 种任务( 如:文本检索、过滤、分类、摘要等) 。而本论文的研究的范围是狭义的 信息检索。 对于信息检索,主要存在时间性通讯、信息处理和文献查找三种角度的认识。 莫尔斯在1 9 5 0 年发表了把信息检索看作是时间性的通讯一文,不仅首 次提出了信息检索这个概念,并认为“信息检索是一种时间性的通讯形式”。即 通过信息检索得到了一些文献,从而使得著者与读者( 信息检索的用户) 之间建立 起了一种通讯。 从信息处理的角度来看,信息检索的基本问题是如何处理信息和信息的结 构。这种认识偏重于信息管理,认为信息不仅限于文献的范围,图像、声音、数 据等也都能反映信息,并把信息检索视为计算机科学与技术的一个分支。把信息 检索看作是一种信息处理的认识,强调如何构造以及利用什么形式来构造信息结 构的问题。在当今因特网迅速发展、网络信息浩如烟海的情况下,这种认识对于 信息检索工具的设计和组建具有指导意义。 从文献查找角度来看,信息检索就是查找出含有用户所需信息的文献的过 程。在信息检索领域,这是一种传统的主流观点,支持者众多。例如,英国著名 学者维克利( b c v i c k e r y ) 认为,“信息检索是从汇集的文献中选出特定用户 西北大学坝十论文 7 第二章本体与信息检索概述 在特定时间所需信息的操作过程”;美国著名情报学家兰卡斯特( f w l a n c a s t e r ) 认为,“信息检索是查找某一文献库的过程,以便找出那些某一主题的文献”。 关于这种认识,兰卡斯特的经典表述是“信息检索系统并不检索信息”。因为信 息是无形的,必须依附于文献而存在,虽然信息检索的最终结果是满足用户的信 息需求,但检索的直接对象还是文献,当用户阅读文献并理解其内容时,用户的 信息需求才被满足。 2 1 1 信息检索模型 信息检索模型是指在对查询和文档合理表示的基础上,实现相似度计算,并 按照用户查询对文档集合进行相关排序的框架和算法其本质在于相似度建模。 信息检索模型是i r 的核心内容之一。文档可被表示为成多个特征项( t e r m ) 的集合,t e r m 可以看成关键词( k e yw o r d s ) :标引项( i n d e xt e r m ) 是能代表文档 的特征。不同标引项作用是不同的,可通过权重( w e i g h t ) 加以区分。 因此,信息检索模型是将文档、查询词以及它们之间的关系进行建模的框架。 由四元体组成:f d ,q ,r ( q i ,d j ) ) d :文档集中一组文档的逻辑视图。 q :一组用户信息需求的逻辑视图,是一个查询集合,也是用户任务的表达。 r ( q 。,d ,) 排序函数,该函数给查询q 。和文档d 。之间的相关度赋予一个排序值。 f 是一个框架,用以构建文档、查询以及它们之间关系的模型。 信息检索模型是判断文本是否与查询相关和对相关文本进行排序的数学模 型。根据相关度判别方法的不同,分为三种信息检索模型,即基于集合论的布尔 模型( s e tt h e o r e t i cm o d e l s ) 、基于代数论的向量空间模型( a l g e b r a i cm o d e l s ) 和基于概率统计的概率模型( p r o b a b i l i s t i cm o d e l s ) 。 ( 1 ) 布尔检索模型 布尔( b o o l e a n ) 模型是基于集合论和布尔代数的一种简单检索模型。由于集 合的定义是非常直观的,b o o l e a n 模型提供了一个信息检索用户容易掌握的框架。 查询通常以语义精确的布尔表达式的方式输入。布尔( b o o l e a n ) 模型遵循两条基 西北大学硕士论文 第二章本体与信息检索概述 本规则:每个索引词在一篇文档中只有两种状态之一,即出现或不出现,对应权 值分别为0 或1 。查询是由三种布尔逻辑运算符a n d 、o r 、n o t 连接索引词组成 的。查询转化为一个主析取范式d n f :q = k a 入( k b v ,kc ) 。b o o l e a n 模型具有清 楚和简单的特点,但主要缺点是: 第一,检索策略是基于二元判定标准( b i n a r yd e c i s i o nc r i t e r i o n ) ( 例如, 对于检索来说一篇文档只有相关和不相关两中状态) ,缺乏文档分级( r a n k ) 的概 念,限制了检索功能。导致检索中太多或者太少的结果文档被返回。 第二,太僵化,在o r 方式中,包含很多查询词的文档和包含少数词的文档 是等同的;在a n d 方式中,即使缺少一个词,结果也是f a l s e ,等于一个词也没 有。 b o o l e a n 模型虽然有上述缺陷,仍然是文档数据库系统中的主要模型。而且 索引术语的权重从根本上提高了检索系统的功能,从而导致了向量( v e c t o r ) 模型 的产生。 ( 2 ) 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ) 是康奈尔大学s a l t o n 于1 9 7 0 年提出 并倡导的原型系统s m a r t 。 向量空问模型中将查询和文档都转化成标引项( t e r m ) 及其权重组成的向量 表示,都可以看成向量空间中的点。 向量空间模型的基本思想是将文档集合表达为一个向量c = ( d ,d :,d 。) 将 每一个词项按照其在文档集合上的分布也表达成一个向量:v e c ( t ;) = t f ( t 。,d ,) , t f ( t ;,d 。) ,t f ( t 。,d 。) ) ,定义词项之间的相似度为: s i m ( t i ,t j ) = c o s ( v e c ( t i ) ,v e c ( t j ) ) ( 2 1 ) s i m ( q ,d ) 不再是q 和d 的向量点乘,而是用上述“词项一词项”相似度的某 个函数。例如,对q 的每一个词项,分别得到它和d 中词项的最大相似度,将这 些最大相似度加起来得到q 和d 的相似度: s i m ( q ,d ) = i m a x j ( s i m ( t q i ,t d j ) ( 2 2 ) 向量模型的前提是假设t e r m 的独立性,即认为t e r m 之间在文章中的出现是 西北人学硕上论文 9 第二章本体与信息检索概述 独立、互不影响的。向量空间模型利用非布尔值来表达查询或文档中的索引词权 重,然后计算文档和查询的相关程度,再根据相关程度由大到小将检索结果文档 返回给用户。 向量空间模型的优点是支持部分匹配和近似匹配,结果可以排序,和布尔模 型相比,它具有更好的查询精度;缺点是该模型基于直觉的经验性公式,标引项 之间的独立性假设与实际不符,实际上t e r m 的出现之间是有关系的,不是完全 独立的。如:在一篇文档中,“刘国梁”、“乒乓球”的出现不是独立的。 ( 3 ) 概率模型 概率检索模型是通过概率的方法将查询和文档联系起来:定义3 个随机变量 r ,q ,d ,相关度r = 0 ,1 ) ,查询q = q ,q :,) ,文档d = d 。,d 。,) ,则可以通过 计算条件概率p ( r = io = q ,d = d ) 来度量文档和查询的相关度。 文档d ,与查询q 的相似度定义为: s i m ( d j ,q ) = p ( rd j ) p ( r 7 dj ) ( 2 3 ) r 表示相关文档集;r7 表示r 的补集;p ( rd 。) 表示文档d ,与查询q 相关的 概率;p ( r 7 l d ,) 表示文档d 。与查询q 不相关的概率;检索问题即求条件概率问 题;i fp r o b ( r 1d 。,q ) p r o b ( n r id ;,q ) t h e nd ;是检索结果,否则不是检索结果。 概率模型包括一系列模型,如l o g i s t i cr e g r e s s i o n ( 回归) 模型等等。最经 典的概率检索模型是英国伦敦城市大学的r o b e r t s o n 和剑桥大学的s p a r c kj o n e s 提出的二元独立概率模型。最著名的概率检索原型系统是伦敦城市大学的o k a p i 。 2 1 2 信息检索技术 信息检索的发展经历了手工信息检索、机械信息检索、计算机信息检索等几 个发展阶段。 手工信息检索发展于1 9 世纪末。这个阶段的信息检索手段是书本式和卡片 式,包括检索型和资料型的工具书等。至今这些检索工具虽然有的还在发挥作用, 如书本式检索工具,但随着电子资源的普及,其作用己逐渐削弱。 机械信息检索是手工检索向计算机信息检索的过渡阶段,其发展期是2 0 世 纪4 0 - - - 5 0 年代。这一阶段的主要检索手段包括穿孔卡片和缩微制品检索。 西北人学硕上论文 1 0 第二章本体与信息检索概述 计算机信息检索起源于2 0 世纪5 0 年代初。它以1 9 5 4 年美国海军兵器中心 图书馆使用的计算机信息检索系统为标志,可分为四个发展阶段:脱机检索、联 机检索、光盘检索、网络检索。其中,网络信息检索开始于2 0 世纪9 0 年代初, 检索系统主要由网络站点、网页浏览器和搜索引擎以及网络支撑软件组成。核心 部分是网络浏览器和具有收集、检索功能的搜索引擎。 1 9 9 1 年思维机等公司、明尼苏达大学、欧洲高能粒子协会分别推出了因特 网上的检索工具w a i s 、g o p h e r 和w w w 。目前,网络浏览器w w w 因其集文本、图 像、声音等多媒体信息于一体的巨大优点,已占信息服务的主导地位,基于w e b 的搜索引擎已成为最重要的信息检索工具。著名的、且经典的有y a h o o 、g o o g l e 等搜索引擎,而g o o g l e 是目前世界上最大的搜索引擎。 目前,信息检索主要可以分为以下三个领域:数据检索( d a t ar e t r i e v a l ) 、 全文检索( t e x tr e t r i e v a l ) 和知识检索( k n o w l e d g er e t r i e v a l ) 。 1 3 】 1 ) 数据检索 数据检索主要针对结构化信息系统,查询要求和数据都遵循一定的格式,具 有一定的结构。数据检索允许对特定的字段检索,例如:检索技术= “本体”。 比较有代表性的是各种商业数据库。【1 4 】数据检索依赖于编码的质量,检索花费大, 检出的信息相对准确,但容易漏检相关的数据,并且数据检索的性能取决于所使 用的字段标识方法和用户对这种方法的理解,具有很大的局限性。另外,数据检 索支持语义匹配的能力较差。【1 5 】 2 ) 全文检索 全文检索的检索原理是把用户的查询请求以关键词的形式与全文中的每一 个词进行比较、匹配,而不考虑查询请求与文档语义是否相关,比较有代表性的 是g o o g l e 和百度。这种检索方式缺点是只根据检索关键词针对文本一一匹配, 因此检出信息量大、缺乏人工干预,返回大量无关信息,用户往往面对检索结果 无所适从,且必须从结果中进行筛选。 3 ) 知识检索 知识检索是指在知识组织的基础上,从知识库中检索出知识的过程,是一种 基于知识组织体系,能够实现知识关联和概念语义检索的智能化的检索方式。知 识检索具有两个显著特征,一是基于某种具有语义模型的知识组织体系,知识组 西北大学硕士论文 第二章本体与信息检索概述 织体系是实现知识检索的前提与基础,知识检索则是基于知识组织体系的结果; 二是对资源对象进行基于元数据的语义标注,元数据是知识组织系统的语义基 础,只有经过元数据描述与标注的资源才具有长期利用的价值。以知识组织体系 为基础,并以此对资源进行语义标注,才能实现知识检索。 知识检索模型集成各类知识对象和信息对象,融合各种智能与非智能理论、 方法与技术,实现知识检索。例如基于知识结构的检索、基于知识内容的检索、 基于专家启发式的知识检索、基于知识导航的智能浏览检索和分布式多维检索 等。知识检索常用的检索模型有分类检索模型、多维认知检索模型、分布式检 索模型等。 知识检索系统中,除提供关键词实现主题检索外,还结合自然语言处理和知 识表示语言,表示各种结构化、半结构化和非结构化信息,提供多途径和多功能 的检索。自然语言处理技术也是提高检索效率的有效途径之一。自然语言理解是 计算机科学在人工智能方面的一个极富挑战性的课题,其任务是建立一种能够模 仿人脑去理解问题、分析问题并回答自然语言提问的计算机模型。从实用性的角 度来说,我们所需要的是计算机能实现基本的人机会话、寓意理解或自动文摘等 语言处理功能,还需要使用汉语分词技术、短语分词技术、同义词处理技术等【1 6 】。 衡量检索系统检索效果的参数主要有查全率( r e c a l l ) 和查准率 ( p r e c i s i o n ) 。查全率是检索出的相关文档数和文档库中所有的相关文档数的比 率;查准率是检索出的相关文档数与检索出的文档总数的比率。 对于一个检索系统来讲,查全率和查准率不可能两全其美:查全率高时,查 准率低,查准率高时,查全率低。对于搜索引擎系统来讲,因为没有一个搜索引 擎系统能够搜集到所有的w e b 网页,所以查全率很难实现,目前的搜索引擎系统 主要关心的性能指标是查准率。 另外,影响一个搜索引擎系统的性能还有很多因素,其中最主要的是信息检 索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、 查询结果的排序方法以及用户进行相关度反馈的机制。 2 2 本体 西北人学硕一l j 论文 第二章本体与信息检索概述 本体( o n t o l o g y ) 作为一种能在语义和知识层次上描述信息系统的概念模型 建模工具,自被提出以来就引起了国内外众多科研人员的关注,迅速成为信息检 索与人工智能领域的一个研究热点,并在知识工程、软件复用,信息系统问异构 信息处理,自然语言理解等领域得到了广泛的应用。 特别是在信息检索领域,本体提供了一种对信息和知识进行规范化描述和建 模的方法,具有良好的概念层次结构和对逻辑推理的支持,能较好地为语义检索 和概念检索提供知识基础,因此,目前基于本体( o n t o l o g y ) 的信息检索已经成为 一个重要的研究课题。 本体的概念最初起源于哲学领域。它在哲学中的定义为“对世界上客观存在 物的系统地描述,即存在论,是客观存在的一个系统的解释或说明,关心的是 客观现实的抽象本质。 在人工智能界,最早给出本体定义的是n e c h e s ”】等人,他们将本体定义为 “给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规 定这些词汇外延的规则的定义 。n e c h e s 认为:“本体定义了组成主题领域的 词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规 则”【1 8 l 。后来在信息系统、知识系统等领域,越来越多的人研究o n t o l o g y ,并 给出了许多不同的定义。 其中最著名并被引用得最为广泛的定义是由g r u b e r l l 9 】提出的“本体是概念 模型的明确的规范说明”。w n b o r s t 对该定义进行了引申,提出“本体是共享 概念模型的形式化规范说明”。f e n s e l 【2 0 】也对这个定义进行分析,提出了自己 的定义“本体是对一个特定领域中重要概念的共享的形式化的描述。 综上所述,本体是一种可形式化的知识,也是一种管理知识的知识。具有群 体共享知识表达、知识重用、知识互换支持等特点。本体可以是一组协议集、一 门语言,也可以是一种标准、一种框架。 2 2 2 本体的分类 g u a r i n o 2 1 1 提出以详细程度和领域依赖度两个维度作为对本体划分的基础, 详细程度是相对的、较模糊的一个概念,指描述或刻画建模对象的程度。详细程 西北大学硕上论文1 3 第二章本体与信息检索概述 度高的称作参考( r e f e r e n c e ) 本体,详细程度低的称为共享( s h a r e ) 本体。依照对 领域依赖程度,本体可以分为以下四种: 1 ) 顶层本体:主要研究通用的概念,它定义了最基本的概念类、属性及语义 关系,如空间、时间、对象、行为等,它们完全独立于特定的问题或领域,所以 说顶层本体可以在很大的范围内共享; 2 ) 领域本体:领域本体描述的是特定领域( 如医药、汽车等) 中的概念及概念 之间的关系; 3 ) 任务本体:任务本体描述的是特定任务( 如交易、传输等) 或行为中的关 系概念类、属性及语义关系; 4 ) 应用本体:描述特定的应用,它既可以应用特定的领域本体中的概念又 可以引用出现在任务本体中的概念。 这四种本体之间具有一定的层次关系,如图2 1 所示,o n t o l o g y 的这种分 类有利于o n t o l o g y 的创建、集成、共享和应用。 图2 1 本体分类和层次 按照本体的形式化程度可以将本体分成四类: 1 ) 完全非形式化:这种o n t o l o g y 完全使用自然语言来描述,其机器可理解 性最差,目的在于帮助人们阅读、理解形式化程度更高的本体。如爱丁堡大学企 业项目中的e n t e r p r i s eo n t o l o g y 自然语言版。 2 ) 结构非形式化:采用受限的或者结构化的自然语言表示的本体,以减少概 念的二义性。 3 ) 半形式化:是一种采用人工定义的形式化语言表示的本体。许多采用 o n t o l i n g u a 描述的本体都属

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论