已阅读5页,还剩62页未读, 继续免费阅读
(计算机软件与理论专业论文)信息检索四层模型及其实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息检索的四层模型及其实现 摘要 fw e b 的迅速扩张使得以往在图书馆和特定领域才被重视的信,自、检索技术, 越来越受到研究人员的重视。信息检索技术在w e b 上的应用,就成为了搜索引 擎卅本文主要是对搜索引擎的查询质量进行研究。为了解决信息检索,特别是 搜索引擎的查询质量问题,作者提出了一个查询的四层模型。 在第二部分中,提出了四层模型。在四层模型中,综合了前人的一些研究, 同时对于有中文特色的问题进行了实验和探讨。潸先对于,信息检索中建立全 文检索模型的问题进行了讨论与实现。对于广泛使用的倒排表,p a t 数组,和 2 矩阵模型进行了介绍和比较。并对于2 矩阵模型建立原型系统实现。这个 系统在实际应用中也已经被采用,效果相当好。土 在四层模型中,接着讨论了自然语言查询的问题。趣个问题包括,自然语 言的切词,自然语言向布尔结构查询的转变,词与概念之间的匹配等问题。首 先,论述了切词的几种方法,并通过实验对这几种方法的有效性进行了验证。 然后,论述了前人对于自然语言向布尔结构查询的结果,论证了简单切词对于 自然语言理解的作用。同时,还讨论了词与概念之间的匹配问题,提出了同义 词表和异种语言表。卑 在第四部分,用自行开发的原型系统,结合g o o g l e 搜索引擎,做了四个实 验。媳括:人工切词与词典切词的比较:人工t j 3 词与统计切词的比较;统计切 词的阈值的选取;提高查全率的实验。四个实验论证了四层模型中的关键技术 在实际应用中的作用。但同时也发现了些今后要进一步讨论的问题。j 关键字:四层模型? 全文索引:查全率j 查准率? 信息需求、信息检索 3 信息检索的四层模型及其实现 a b s t r a c t t h er a p i dg r o w t ho ft h ew e b m a k ei n f o r m a t i o nr e t r i e v a lb ei nt h ec e n t e ro ft h e s t a t e a l t h o u g hi ti ss o m e t h i n go n l yaf e wp e o p l ei nt h ec e r t a i nf i e l d ss u c ha sl i b r a r y s c i e n c ei n t e r e s t e di ny e a r sa g o i n f o r m a t i o nr e t r i e v a lo nt h ew e bi ss e a r c he n g i n e t h i sp a p e ra d d r e s st h eq u e s t i o no fh o wt oi m p r o v et h eq u e r yq u a l i t yo fs e a r c h e n g i n e t os o l v et h ep r o b l e m ,w ep r e s e n t e d af o u r l a y e rm o d a l i nt h es e c o n dp a r to ft h ep a p e r , w ei n t r o d u c et h ef o u r l a y e rm o d a l w e c o m b i n e df o r m e rr e s e a r c hi nt h ef o u r l a y e rm o d a l a n dw ed i s c u s ss o m ep a r t i c u l a r i s s u e sa b o u tc h i n e s el a n g u a g e a tt h eb e g i n n i n g ,w ed i s c u s st h ef u l l t e x tr e t r i e v a l a n dt h ef u l l t e x td a t a b a s e ,c o m p a r et h r e ef u l l t e x td a t a b a s em o d a l :t h ei n v e r t f i l e s a n dt h ep a ta r r a y sa n dt h e 2m a t r i xm o d a la sw e l1 w ei m p l e m e n t e da p r o t o t y p es y s t e mo f t h e 2m a t r i xm o d a l t h i ss y s t e ma l s oh a v ei t s e o m m e r c i a lv e r s i o na n dw a sa c c e p t t e db ys o m eu s e r s i nt h ef o u rl a y e rm o d a l ,w ea l s oa d d r e s st h eq u e s t i o no fn a t u r a ll a n g u a g e q u e r y t h e r e a r es o m es u b q u e s t i o ni nt h eq u e s t i o n ,s u c ha sw o r d c u to fn a t u r a l l a n g u a g e ;t h ec o n v e r s i o nf r o mn a t u r a ll a n g u a g eq u e r yt ob o o l e a ns t r u c t u r eq u e r y ;t h e m a t c ho fw o r da n dc o n c e p t w ei n t r o d u c es o m em e t h o d st oc u tw o r d sa n dp r o v e t h e i re f f i c i e n c yt h r o u g hs o m ee x p e r i m e n t s t h e nw ed i s c u s st h er e s u l t so ft h e r e s e a r c ho ft h ec o n v e r s i o n f r o mn a t u r a ll a n g u a g e q u e r y t ob o o l e a ns t r u c t u r e q u e r y w ep r o v eh a v i n gw o r dc u ts i m p l y i su s e f u lt ou n d e r s t a n dt h en a t u r a l l a n g u a g e m e a n w h i l ew ed i s c u s st h ep r o b l e mo ft h em a t c ho fw o r da n dc o n c e p t , a n dw ep r e s e n tt h es y n o n y mt a b l ea n db i l i n g u i s ht a b l e i nt h ef o u r t hp a r to ft h ep a p e r w eu s eb o t hg o o g l es e a r c he n g i n ea n dt h e p r o t o t y p es y s t e md e v e l o p p e db ym y s e l f d of o u re x p e r i m e n t s w o r d c u tm a n u a l l y a n dw o r d c u tb yd i c t i o n a r y ;w o r d c u tm a n u a l l ya n dw o r d c u t u s i n gs t a t i s t i c a l m e t h o d ;h o wt oc l l o o s et h et h r e s h o l dv a l u eo ft h es t a t i s t i c a lm e t h o d :h o wt o i m p r o v er e c a l l t h ee x p e r i m e n t sp r o v et h ek e yt e c h n i q u ei nt h ef o u r l a y e rm o d a li s u s e f u li np r a c t i c ea n dw ea l s of i n ds o m eq u e s t i o nf o rf u r t h e rd i s c u s s i o n k e y w o r d s :f o u r l a y e rm o d a l ,f u l l t e x ti n d e x ,r e c a l l ,p r e c i s i o n ,i n f o r m a t i o n n e e d ,i n f o r m a t i o nr e t r i e v a l 4 信息检索的四层模型及其实现 1 介绍 1 1 信息检索( i n f o r m a t i o nr e t r i e v a l ) 的介绍 定义:信息检索( i n f o r m a t i o nr e t r i e v a l ) f 砰决信息单元( i n f o r m a t i o ni t e m ) 的表示( r e p r e s e n t a t i o n ) ,存储( s t o r a g e ) ,n r ( o r g a n i z a t i o n ) ,和访阀f a c c e s s ) 的问题。 信息单元表示和组织应该让用户能够很方便的访问到自己感兴趣的信息。 用户访问自己感兴趣的信息,称为信息需要( i n f o r m a t i o nn e e d ) 。 通过计算机进行的文献信息检索称为计算机检索。计算机检索包括光盘数 据库、网络数据库检索和互联网信息检索。由于计算机检索具有速度快、效率 高,数据内容新、范围广、数量大,操作简便,检索时不受国家和地理位置的 限制等特点,已成为人们获取信息的主要手段之一。 计算机检索是在计算机技术和通信技术发展的基础上建立起来的。它产生 于2 0 世纪5 0 年代,发展于8 0 年代中期,9 0 年代后随着国际互联网技术的发 展而进入了一个崭新的时期。回顾计算机文献检索的发展历程大致可以概括为 批量处理、联机检索与网络系统三个阶段。 1 9 5 4 年,美国海军武器实验站图书馆在一台电子管计算机上建立了世界 上第一个计算机检索系统。5 0 年代末,i b m 公司利用一台i b m 6 5 0 计算机成功 地编制出关键词索引,并建立了世界上第一个“定题情报检索”( s d i ,s e l e c t i v e d i s s e m i n a t i o no f i n f o r m a t i o n ) 系统,为用户定期检索和提供一定主题的新到文 献( 脱机检索,批量处理) ,并很快得到了推广应用。 进入6 0 年代,计算机检索进入了实用和全面发展阶段。6 0 年代末,数据 通讯网络出现,大容量计算机分时系统和强功能检索软件研制成功,使脱机检 索发展到联机检索并迅速得到了推广。7 0 8 0 年代,联机检索得到迅速发展,。一 些联机检索系统开始向公众提供商业性服务,如d i a l o g 、e s a 、o r b i t 、b r s 等许多世界著名的联机检索系统相继投入商业性运营。 9 0 年代联机检索的发展进入了一个重要的转折时期,随着互联网的迅速 发展及超文本技术的出现,基于客户服务器的检索软件的开发,实现了将原来 3 信息检索的四层模型及其实现 的主机系统转移到服务器上,使客户月务器联机检索模式开始取代阱往的终端 ,主机结构,成为联机检索的发展趋势,使联机检索进入了又一个崭新的时期。 计算机技术的不断进步和信息量成倍地增加,使人们对信息检索技术的要 求也越来越高,尤其是网络技术和多媒体技术的出现,促使信息检索技术也不 断地发展。目前,信息检索技术正向两个方向发展:一是传统信息检索向全文 文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和 组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分 类、自动翻译等;二是信息资源的网络化和分布化,面向i n t e r n e t 中浩瀚无垠的 资源,在广度上提高管理和组织信息的能力。在信息检索技术研究领域中,基 于概念、超文本信息和多媒体信息检索技术的研究最为活跃,并已取得了突破 性发展。网络的发展给信息的获取提供了广阔的空间,而检索技术的发展为人 们利用信息提供更方便快捷的手段。 1 1 1 信息检索的历史 对于信息检索系统的研究,可以追溯到人类刚刚有书籍的年代。早在4 0 0 0 年前,人们就开始把信息整理起来,为了方便以后的查询和使用。一个典型的 例子是每本书的目录。后来,知识越来越多,已经超过了几本书的范围,这就 需要一个特别的数据结构来保证很快找到记录下的信息。一个古老的方法是, 记录下特定的关键字和概念出现的位置,这就是索引( i n d e x ) 。这个方法大大 提高了访问信息的速度和查询的速度。 几千年来,索引是由人手工建的。事实上,很多图书馆直到今天也还在使 用分类层次的方法来为它们的书分类,建索引。不过近年来,计算机已经能自 动建立大规模的索引了。自动建立的索引更多考虑系统本身的查询需要,而不 是用户的查询需要。 图书馆 图书馆是最早使用计算机的信息检索系统的机构之一。通常,图书馆使用 的信息检索系统往往由学校自己开发,到后来才由商业企业开发。在第一代图 书馆信息检索系统中,只是对于以前的技术的自动化,比如卡片编目的自动化 等。而且只能对少数信息进行查询,比如:作者,书名等。在第二代图书馆信 息检索系统中,查询功能增加了。有了诸如查主标题,查副标题,查关键字, 以及其它一些复杂的查询。在第三代系统中,就是当前使用的,更提出了用户 4 信息检索的四层模型及其实现 图形界面,电子表格,超文本特性,开放的系统架构能概念。 传统的图书馆信息管理系统的开发商有e n d e a v o ri n f o r m a t i o ns y s t e mi n c , i n n o v a t i v ei n t e r f a c e si n c 和e o si n t e r n a t i o n a l 。在学校开发的系统中,比较著名 的有o k a p i ( c i t yu n i v e r s i t y ,l o n d o n ) ,m e l v y l ( u n i v e r s i t yo f c a l i f o m i a ) 和 c h e s h i r ei i ( u cb e r k e l e y ) 。 ,o r i d w i d e w e b 在计算机刚出现的前几十年中,信息检索领域得到了巨大的发展。今天, 在信息检索的研究中包括建模,文档分类和编目,系统体系结构,用户界面, 数据可视化以及过滤语言等。尽管i r 系统近日发展成熟,但这个领域还一直好 象只和图书馆学者和信息专家有关系。这种带偏见的观点一直持续了很长时间。 即使在个人电脑用户大大增加的时代,信息检索也还是一个并不普及的领域。 一直到上个世纪9 0 年代,这个观点才被一个简单的事情改变了,这就是w o r l d w i d ew e b ( 万维网,下面简称w e b ) 。 w e b 成为了一个全世界的人类知识和文明的大仓库,在一个前所未有的范 围内允许信息共享。它的成功基于一个与计算环境无关的标准用户晃面。用户 无须考虑通信协议,机器位置和操作系统的细节。而且,任何用户还能建立自 己的w e b 文档( 页面) ,并能指向其它w e b 文档,而不受任何限制。这个关键 因素使得w e b 成为一个人人可以用的出版媒体。一夜之间,每个w e b 用户可以 花很少的时间和金钱就能大大提高自己的工作效率。这个无国界w e b 世界从诞 生那天起就吸引了成千上万的世界各地的人。而且,w e b 的出现出引发了一场 革命。人们使用电脑的方式,人们日常生活的方式,都被改变了。家中购物, 和家中银行已经是非常流行了,并且创造了几亿美圆的利润。 同样信息检索系统也因此而发生了巨大的变化。看看今日在w e b 上的搜 索引擎( s e a r c he n g i n e ) 。我们发现,他们用的索引技术与图书馆中几千来的使 用的并无不同。 但是,有三个明显的变化是,第一,低成本,得到各种不同信息的成本更 低了。使得读者群( 或用户群) 的数量大大增加。第二,信息多,因为网络的 缘故,每个用户都可以访问到很多的信息,比以往任何时候都多得多。第三, 出版自由,每个用户同时也可以将自己的信息发布到网络上。 在将来,三个这三个问题带来的信息检索的新问题是:因为信息量越来越 大,人们检索符合自己的信息需求( i n f o r m a t i o n n e e d ) 的信息变得更加困难。 于是,对于信息检索如何查询信息,找到有用信息的研究也日益得到了人们的 重视。 s 信息检索的四层模型及其实现 1 1 2 信息检索基本检索方法 一、布尔检索 利用布尔逻辑算符进行检索词或代码的逻辑组配,是现代信息检索系统中 最常用的一种方法。常用的布尔逻辑算符有三种,分别是逻辑或“o r ”、逻辑 与“a n d ”、逻辑非“n o t ”。用这些逻辑算符将检索词组配构成检索提问式, 计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动 输出该文献记录。 下面以“计算机”和“文献检索”两个词来解释三种逻辑算符的含义。 ( 1 ) “计算机”a n d “文献检索”,表示查找文献内容中既含有“计算 机”又含有“文献检索”词的文献。 ( 2 ) “计算机”o r “文献检索”,表示查找文献内容中含有“计算机 或含有“文献检索”以及两词都包含的文献。 ( 3 ) “计算机”n o t “文献检索”,表示查找文献内容中含有“计算机 而不含有“文献检索”的那部分文献。 检索中逻辑算符使用是最频繁的,对逻辑算符使用的技巧决定检索结果的 满意程度。用布尔逻辑表达检索要求,除要掌握检索课题的相关因素外,还应 在布尔算符对检索结果的影响方面引起注意。另外,对同一个布尔逻辑提问式 来说,不同的运算次序会有不同的检索结果。布尔算符使用正确但不能达到应 有检索效果的事情是很多的。 二、截词检索 截词检索就是用截断的词的一个局部进行的检索,并认为凡满足这个词局 部中的所有字符( 串) 的文献,都为命中的文献。按截断的位置来分,截词可 有后截断、前截断、中截断三种类型。 不同的系统所用的截词符也不同,常用的有? 、$ 、+ 等。分为有限截词( 即 一个截词符只代表一个字符) 和无限截词( 一个截词符可代表多个字符) 。下 面以无限截词举例说明: 6 信息检索的四层模型及其实现 等。 等。 等。 ( 1 ) 后截断,前方一致。如:c o m p u t ? 表示c o m p u t e r ,c o m p u t e r s ,c o m p u t i n g ( 2 ) 前截断,后方一致。如:? c o m p u t e r 表示m i n i c o m p u t e r ,m i c r o c o m p u t e r s ( 3 ) 中截断,中间一致。如? c o m p u t ? 表示m i n i c o m p u t e r m i c r o c o m p u t e r s 截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在话文 检索中,更是广泛应用。截断技术可以作为扩大检索范围的手段,具有方便用 户、增强检索效果的特点,但一定要合理使用,否则会造成误检。 三、原文检索 “原文”是指数据库中的原始记录,原文检索即以原始记录中的检索词与 检索词间特定位鼍关系为对象的运算。原文检索可以说是一种不依赖叙词表而 直接使用自由词的检索方法。 原文检索的运算方式,不同的检索系统有不同的规定,其差别是:规定的 运算符不同;运算符的职能和使用范围不同。原文检索的运算符可以通称为位 置运算符。从r e c o n 、o r b i t 和s t a i r s 三大软件对原文检索的规定,可以 看出其运算符主要是以下4 个级别: 句中 ( 1 ) 记录级检索,要求检索词出现在同一记录中 ( 2 ) 字段级检索,要求检索词出现在同一字段中 ( 3 ) - f - t - n :或自然句级检索,要求检索词出现在同一子字段或同一自然 ( 4 ) 词位置检索,要求检索词之间的相互位置满足某些条件。 原文检索可以弥补布尔逻辑检索、截词方法检索的一些不足。运用原文检 索方法,可以增强选词的灵活性,部分地解决布尔检索不能解决的问题,从而 提高文献检索的水平和筛选能力。但是,原文检索的能力是有限的。从逻辑形 式上看,它仅是更高级的布尔系统,因此存在着布尔逻辑本身的缺陷。 7 信息检索的四层模型及其实现 四、加权检索和聚类检索 1 加权检索 加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔 检索、截词检索等一样,也是文献检索的一个基本检索手段,但与它们不同的 是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在、与 3 1 j 的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻 辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面 给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索 词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达 到或超过预先给定的阈值,该记录即为命中i 己录。 运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高 检准率的有效方法。但并不是所有系统都能提供加权检索这种检索技术,而能 提供加权检索的系统,对权的定义、加权方式、权值汁算和检索结果的判定等 方面,又有不同的技术规范。 2 聚类检索 聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示一 一文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并 把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。根据不同 的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中, 主题相近、内容相关的文献便聚在一起,而相异的则被区分开来。 聚类检索的出现,为文献检索尤其是计算机化的信息检索丌辟了一个新 的天地。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点, 同时具备族性检索和特性检索的功能。因此,这种检索方式将有可能在未来的 信息检索中大有用武之地。 五、扩检与缩检 1 扩检 信息检索的四层模型及其实现 扩检是指初始设定的检索范围太小,命中文献不多,需要扩大检索范围的 方法。扩检的方法主要可以有以下几种:= 1 + g b 3 概念的扩大;= 2 、+ g b 3 范围的扩大;= 3 pg b 3 增加同义词;= 4 pg b 3 年代的扩大。 2 缩检 缩捡是指开始的检索范围太大,命中文献太多,或查准率太低,需要增加 查准率的一个方法。缩检与扩检相反,即概念的缩小、范围的限定、年代的减 少等。此外,还可以通过以下方法进行限定: = lpg b 3 核心概念的限定; = 2 + g b 3 语种的限定:= 3 p g b 3 特定期刊的限定。 扩检与缩检是检索过程中经常面临的问题。在联机检索时,由于机时的限 制,用户应该在上机前就拟定好扩检与缩检的策略,也就是说,在拟定检索策 略时,应该同时考虑如命中文献太少或太多时如何处理的办法。否则,会大大 增加机时,而且不易得到满意的结果。 1 1 3 计算机检索系统的构成 计算机检索系统由计算机硬件、软件、数据库和通讯网络构成。 一、计算机硬件 计算机硬件是系统采用的各种硬设备的总称,主要包括具有一定性能的主 计算机、外围设备以及与数据处理或数据传送有关的其他设备。 二、软件 软件由系统维护软件与检索软件构成。系统维护软件,如数据库管理程序、 词表管理程序等,其作用是保障检索系统的高效运转。检索软件是用户与系统 的界面,用户通过检索软件进行检索,检索软件功能的强弱直接影响着检索效 果。检索软件可以分为指令式、菜单式和智能接口等。 三、数据库 根据 s o d i s5 1 2 7 标准,数据定义为: “至少由一种文档组成,并能满 足某一特定目的或某一特定数据处理系统需要的一种数据集合。,通俗地说, 数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。 信息检索的四层模型及其实现 按国际上通用的分类方法,数据库可以划分为以下类型 1 参考数据库 参考数据库( r e f e r e n c ed a t a b a s e s ) 是指引用户到另一信息源以获得原文或 其他细节的一类数据库。它包括书目数据库( b i b l i o g r a p h i cd a t a b a s es ) 和指南数 据库( r e f e r r a ld a t a b a s e 或d i r e c t o r yd a t a b a s e ) 两种。 书目数据库是指存储某个领域的二次文献( 如文摘、题录、目录等书目数 据) 的一类数据库,有时又称为二次文献数据库,或简称为文献数据库。如中 国机械工程文摘数据库,属于此类型数据库。 指南数据库也称指示性数据库,是指存储关于某些机构、人物、出版物、 项目、程序、活动等对象的简要描述,指引用户从其他有关信息源获取更详细 的信息的一类数据库。如产品目录、机构名录、研发项目、基金项目等数据库 均属于此类型。 2 源数据库 源数据库( s o u r c ed a t a b a s e s ) 是指能直接提供原始资料或具体数据的数据 库,用户不必再查阅其他信息源。它可以分为: ( 1 ) 数值数据库这是一种专门提供以数值方式表示的数据的源数据库 如统计数据库、财务数据库等。 ( 2 ) 文本一数值数据库这是一种能同时提供文本信息和数值数据的源数据 库,如企业信息数据库、产品数据库等。 ( 3 ) 全文数据库这是一种存储文献全文或其中主要部分的源数据库,如 法律法规全文库、期刊全文库等。 ( 4 ) 术语数据库这是一种专门存储名词术语信息、词语信息以及术语工 作和语言规范工作成果的源数据库,如名词术语信息库、各种电子化辞书等。 ( 5 ) 图像数据库这是一种用来存储各种图像或图形信息及有关文字浣明 资料的源数据库,主要应用于建筑、设计、广告、产品、图片或照片等资料类 型的计算机存储与检索。 1 0 信息检索的四层模型及其实现 除上述几种类型的数据库外,还有能同时存储多种不同类型数据的数据 库,即混合型数据库。另外,按其载体不同又可分成磁媒体数据库、光盘数掘 库和多媒体数据库等。 四、通讯网络 由于现代通信技术的发展,公共数据传输技术为信息的传递提供了保障, 信息检索逐渐发展成为网络检索,通过数据传输网将各个计算机连接起来。每 个计算机成为网络中的一个节点,每个节点可含一个或多个数据库,网络上的 每个节点和其终端只要有授权均可对网络中的数据库进行访问,实现资源共享。 随着空间技术的发展,信息检索已进入了信息传递卫星通讯计算机技术三位 一体的新阶段。 1 1 4 检索效果的评价 检索效果是指利用检索系统( 或工具) 开展检索服务时所产生的有效结果。 计算机检索效果如何,直接反映检索系统的性能,影响系统在信息市场上的竞 争能力和用户的利益。 一、评价的目的、范围 评价系统的检索效果,目的是为了准确地掌握系统的各种性能和水平,找 出影响检索效果的各种因素,以便有的放矢,改进系统的性能,提高系统的服 务质量,保持并加强系统在市场上的竞争力。 检索效果包括技术效果和社会经济效果两个方面。技术效果主要是指系统 的性能和服务质量,系统在满足用户的信息需要时所达到的程度。社会经济效 果是指系统如何经济有效地满足用户需要,使用户或系统本身获得一定的社会 和经济效益。因此,技术效果评价又称为性能评价。社会经济效果评价则属于 效益评价,而且要与费用成本联系起来,比较复杂。 二、评价标准 根据f w l a n c a s t e r 的阐述,判定一个检索系统的优劣,主要从质量、费 用和时间三方面来衡量。因此,对计算机信息检索的效果评价也应该从这三个 方面进行。质量标准主要通过查全率与查准率进行评价。费用标准即检索费用 是指用户为检索课题所投入的费用。时间标准是指花费时间,包括检索准备时 信息检索的四层模型及其实现 问、检索过程时间、获取文献时间等。查全率和查准率是判定检索效果的主要 标准,而后两者相对来说要次要些。 查全率( r e c a l l ) 是指系统在进行某一检索时,检出的相关文献量与 系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量 在多大程度上被检索出来。 查全率= 【检出相关文献量,文献库内相关文献总量1 1 0 0 例如,要利用某个检索系统查某课题。假设在该系统文献库中共有相关文 献为4 0 篇,而只检索出来3 0 篇,那么查全率就等于7 5 。 查准率( p r e c i s l 0 n ) 是指系统在进行某一检索时,检出的相关文献量 与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中 有多少是相关的。 查准率= 【检出相关文献量检出文献总量1 1 0 0 如果检出的文献总篇数为5 0 篇,经审查确定其中与项目相关的只有4 0 篇,另外1 0 篇与该课题无关。那么,这次检索的查准率就等于8 0 。显然,查 准率是用来描述系统拒绝不相关文献的能力,有人也称查准率为“相关率”。 查准率和查全率结合起来,描述了系统的检索成功率。 三、影响检索效果的因素 查全率与查准率是评价检索效果的两项重要指标。查全率和查准率与文献 的存储与信息检索两个方面是直接相关的,也就是说,与系统的收录范围、索 引语言、标引工作和检索工作等有着非常密切的关系。 1 影响查全率的因素 影响查全率的因素从文献存储来看,主要有:文献库收录文献不全:索引 词汇缺乏控制和专指性:词表结构不完整;词间关系模糊或不正确:标引不详: 标引前后不一致:标引人员遗漏了原文的重要概念或用词不当等。此外,从情 报检索来看,主要有:检索策略过于简单;选词和进行逻辑组配不当:检索途 径和方法太少;检索人员业务不熟练和缺乏耐心:检索系统不具备截词功能和 反馈功能,检索时不能全面地描述检索要求等。 1 2 信息检索的四层模型及其实现 2 影响查准率的因素 影响查准率的因素主要有:索引词不能准确描述文献主题和检索要求;组 配规则不严密;选词及词间关系不正确:标引过于详尽;组配错误;检索时所 用检索词( 或检索式) 专指度不够,检索面宽于检索要求;检索系统不具备逻 辑“非”功能和反馈功能;检索式中允许容纳的词数量有限;截词部位不当, 检索式中使用逻辑“或”不当等等。 实际上,影响检索效果的因素是非常复杂的。根据国外有关专家所做的实 验表明,查全率与查准率是呈反比关系的。要想做到查全,势必会要对检索范 围和限制逐步放宽,则结果是会把很多不相关的文献也带进来,影响了查准率。 企图使查全率和查准率都同时提高,不是很容易的。强调一方面,忽视另一方 面,也是不妥当的。应当根据具体课题的要求,合理调节查全率和查准率,保 证检索效果。 1 2 以往的工作介绍 与本文讨论的信息检索有关研究主要有以下几个部分,简要介绍如下。 建立索引的模型( i n d e xm o d e l ) 建立索引的模型是研究信息如何在计算机中被组织和存储的。目的是为了 更方便地检索信息。但是,因为计算机本身硬件设备的限制,建立索引的时间, 以及索引和原来的信息所占的存储器的空间,也一直是这个研究要考虑的问题。 著名的建立索引的模型有倒排表,p a t 树( p a t 数组) ,2 模型等。 查询策略( s e a r c hs t r a t e g y ) 布尔查询,是将索引单位( i n d e xi t e m ) 或关键字( k e y w o r d ) 用逻辑连接 词,如a n d ,o r ,n o t 等连接起来。如查询q = k la n dk 2a n d 州o tk 3 ) 。 模糊查询,对于被查询的文档资料来说,可以不用完全匹配于查询中的所 有字词。例如:查询“埃塞俄比亚”但是又不知道其中俄字的具体汉字写 法,就可以输入查询语句“埃塞? 比亚”,模糊查询的l r 系统就可以查找到所 有“埃塞”和“比亚”当中有一个字的所有结果。 带反馈的查询,是对查询的结果可以由用户输入一定的反馈信息,从而提 高查询结果的质量。 1 3 信息检索的四层模l g 及其实现 评价( e v a l u a t i o n ) 评价一个信息检索i r 系统有很多因素。包括评价建索引的时间,膨胀比。 评价查询的响应时间( r e s p o n s et i m e ) ,查准率( p r e c i s i o n ) ,查全率( r e c a l l ) 。 在本文中,我们重点讨论查准率( p r e c i s i o n ) 和查全率( r e c a l l ) 。 1 2 1 i r 系统的发展阶段 纵观计算机信息检索系统的发展,可以将其发展过程划分为四个阶段: 第一阶段1 9 7 1 年以前建立了许多信息检索系统,并取得了一定的进展。其 工作方式是传统的批处理检索方式。如1 9 5 4 年美国海军兵器中心( n o7 f s ) 图二 = s 馆 在i b m7 0 1 型计算机上成功建立的世界一h 第一个计算机文档检索系统。这一阶 段的数据存取与数据通信能力都比较差。 第二阶段1 9 7 1 年以后,产生并发展了联机情报检索系统。其中,美国囡家 医药图书馆中心建立的在线计算机图书馆中心0 c l c ( o h i oc o 】l e g ol i b r m 。 c e n t e r ) 、s d c 公司建立的s y s t e md e v e lo p m e n tc o m p a n y 及l o c k h e e d c o r p o r a t i o n 的d i a l o g 系统都是在线商用数据库查询系统。这一阶段的特点 是联机数据库集中管理,具有完备的数据库联机检索功能,但其数据通信能力较 差。 第三阶段以i n t e r n e t 的出现为标志。系统大多采用分布式的网络化管理 其信息资源的主要特点是:数字形式表达、多媒体和多载体、内容覆盖全社会领 域、分布无序、难于规范化和结构化、内容特征抽取复杂、用户界面要求高等。 这些特点导致了信息处理从传统模式向新型模式的转变,如体系结构从终端主 机方式到客户服务器结构方式,网络环境从局域网到i n t e r n e t 等开放网,应用 接口从封闭界面到w w w 和z 3 9 5 0 等,信息结构从结构化到非结构化,系统功能从 单纯信息检索到综合信息管理和服务,等等。其中较著名的系统有a 1 t a r is t a 、 y a h o o ! 、w e b c r a w l e r 等。 第四阶段在前三个阶段的基础上,随着连续性语音识别技术的不断发展, 预计计算机信息检索系统将会跨入个新的阶段。 我国计算机全文检索起步于8 0 年代初期,并在计算机编制主题诃表、汉语 自动分词和标引、数据库建造、情报检索和相关软件的研制、联机检索、: 几器 翻译、图书馆业务管理、全文检索理论等主要领域取得了很大进步。在微机工 作平台上,目前己建立了十几种中英文检索软件,其中比较著名的有易宝北信的 t r s 、北大方正的m i r s 、中国百科术语数据库和海文q u i c k 等。这些全文检索 系统软件在建库、检索方法、检索速度、检索准确性等方面各有千秋,多适于m 1 4 信息检索的四层模型及其实现 机用户使用,有的也采用了客户服务器方式。 由于汉语语言的独特性,十几年来,我国的计算机信息检索基本上仍以传 统的顺序检索或顺序检索与倒排文档相结合的检索方法为主,局限于以传统人 工赋词标引方法为主的目录或摘要二次文档,以及以词检索为主的全文系统。这 与国外的信息检索系统有一定的差距。 汉语和英文相比较,有许多着其非常独特的特点。开发一种真正适合于汉 语的全文检索系统是十分有必要的和有价值的。我们着力于一种新颖的十分适 合于中文的全文数据库模型一2 相邻矩阵模型,从而实现它的化简,建立,查 询,原文生成等各个方面功能。 全文检索的一个基本问题就是全文数据库模型的设计,也就是如何表达全 文数据库使之提供高效的存储与查询。面对w e b 网迅猛发展,电子文档的发行, 大量的文本信息要求高效的全文数据库模型。 纵观目前已有的全文数据库模型主要有p a t 树,p a t 树组和倒排文件等模 型。其中倒排文件使用最为广泛,但是效率不高;p a t 树及p a t 树组是比较新 颖的优秀模型,对于英文更加适合。那么有没有一种适合于中文,且效率高的 模型呢? 近来,新被提出的2 模型就是这样一种模型。在第3 部分系统的实现 中,我们将详细介绍这个2 模型。 1 2 2 w e b 上的应用:搜索引擎 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网 爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满 足大众信息检索需求的专业搜索网站便应运而生了。 现代意义上的搜索引擎的祖先,是1 9 9 0 年由蒙特利尔大学学生a 1 a n e m t a g e 发明的a r c h i e 。虽然当时w o r l dw i d ew e b 还未出现,但网络中文件传 输还是相当频繁的,而且由于大量的文件散布在各个分散的f t p 主机中,查询 起来非常不便,因此a l a ne m t a g e 想到了开发一个可以以文件名查找文件的系 统,于是便有了a r c h i e 。 a r c h i e 工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索 网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于 a r c h i e 深受用户欢迎,受其启发,美国内华达s y s t e mc o m p u t i n gs e r v i c e s 大学 于1 9 9 3 年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索 引文件外,已能检索网页。 当时,“机器人”一词在编程者中十分流行,电脑“机器人”( c o m d u t e r r o b o t ) 是指某个能够以人类无法达到的速度不问断地执行某种任务的软件程 1 5 信息检索的四层模型及其实现 序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络问爬来爬去, 因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。 世界上第一个用于监测互联网发展规模的“机器人”程序是m a t t h e wg r a y 丌发的w o r l dw i d ew e bw a n d e r e r 。刚开始它只用来统计互联网上的服务器数量, 后来则发展为能够检索网站域名。 与w a n d e r e r 相对应,m a r t i nk o s t e r 于1 9 9 3 年1 0 月创建了a l i w e b ,它 是a r c h i e 的h t t p 版本。a l i w e b 不使用“机器人”程序,而是靠网站主动提 交信息来建立自己的链接索引,类似于现在我们熟知的y a h o o 。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因 此,在m a t t h e wg r a y 的w a n d e r e r 基础上,一些编程者将传统的“蜘蛛”程序 的工作原理作了些改进。其设想是,既然所有的网页都可能有连向其他网站的 链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到l9 9 3 年 底,一些基于此原理的搜索引擎开始纷纷涌现,其中以j u m p s t a t i o n 、t h ew o r l d w i d ew e bw o r m 和r e p o s i t o r y b a s e ds o f t w a r ee n g i n e e r i n g ( r b s e ls p i d e r 最负盛 名。 然而j u m p s t a t i o n 和w w ww o r m 只是以搜索工具在数据库中找到匹配信 息、的先后次序排列搜索结果,因此毫无信息关联度可占。而r b s e 是第一个在 搜索结果排列中引入关键字串匹配程度概:岔的引擎。 最早现代意义上的搜索引擎出现于1 9 9 4 年7 月。当时m i c h a e lm a l l l d i n 将 j o h nl e a v i t t 的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的l y c o s 。 同年4 月,斯坦福( s t a n f o r d ) 大学的两名博士生,d a v i df i l o 和美籍华人杨致 远( g e r r yy a n g ) 共同创办了超级目录索引y a h o o ,并成功地使搜索引擎的概念 深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜 索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正 劲的g o o g l e ,其数据库中存放的网页已达1 6 亿之巨! g o o g l e 的查询过程 查询的目的是高效地提供高质量的查询结果。很多大的商业搜索引擎在效 率上做了很多改进。因此,g o o g l e 更多的关注查询质量。g o o g l e 的查询评价过 程如图4 所示。 1 , 对查询语句分析。 2 ,把单词转变成w o r d l d 3 , 从小缓冲区内的文档列表开始找 4 , 找出所有匹配所有查询单元的小缓冲区的文档 1 6 信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论