(计算机软件与理论专业论文)中文文本信息检索相关技术研究.pdf_第1页
(计算机软件与理论专业论文)中文文本信息检索相关技术研究.pdf_第2页
(计算机软件与理论专业论文)中文文本信息检索相关技术研究.pdf_第3页
(计算机软件与理论专业论文)中文文本信息检索相关技术研究.pdf_第4页
(计算机软件与理论专业论文)中文文本信息检索相关技术研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(计算机软件与理论专业论文)中文文本信息检索相关技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论吏 m a s t e r st h e s i s 摘要 随着国际互联网的快速普及,通过网络共享的中文信息资源以接近指数级的速 度递增。要从这么多的网页中找到我们需要的信息,无疑像大海捞针一样困难,而 信息检索技术就是为了帮助人们快速地找到所需的信息。 中文作为一种典型的以表意为基础的象形文字,与西方的拼音文字有很大的不 同,适用于西方拼音文字中的检索方法并不能直接应用于中文。本文对中文信息检 索中的几个重要问题进行了研究。主要的工作包括以下几个方面: 第一,使用基于查询手工词切分的方法对中文文本的各种特征表示方法进行了 比较研究。本文的试验结果为将来中文文本信息检索研究提供一个重要的参考,对 于研究者探索新的索引策略是个很重要的依据,对于为了改进索引策略或检索模 型而进行的在同等条件下不同策略的比较研究也具有重要的指导意义。 第二,通过研究考察已有的查询扩展技术在中文信息检索中的有效性,并根据 人类进行信息检索的思维模式,提出了一种新的基于相关术语群的查询扩展技术。 在n t c i r 一4 和n t c i r 一5 中文信息检索测试集上进行的实验表明,相对于传统的查询 扩展,利用机器自动构建的相关术语群的查询扩展方法在检索效果上取得了较大 的提高。不同于传统的查询扩展方法的是:本文同时利用了检索语料外部和内部的, 以及检索文档局部和全局的各种不同的相关性信息,从而克服了使用单某种相关 性信息的缺点,提高了查询扩展的性能。 第三,设计并实现了一种中文信息检索系统。本系统具备良好的可扩展性,可 以适应从个人资料库到大型数字图书馆的不同规模的应用。 第四,综合运用本论文中研究方法和检索软件系统,我们参加了2 0 0 5 年度在 日本举行的文本信息检索国际标准评测会议( n t c i r 一5 ) ,在中文单语检索项目中取 得了第五名的成绩,从而验证了论文中方法的有效性和可行性。 关键词:中文查询扩展;中文全文检索;中文索引技术;相关术语群 硕士学位论文 m a s t e r st h e s i s a b s t r a c t w i l ht t l er 印i dd c v e l o p m c n to fi n t e n l e ti nc h j 船,m o f ea n dm o r ec h i n e s ed o c u m e n t s a t ei e a d i l y0 n l i n e t h en e m e tp r o v i d e si m p o n a n ta n dc 锄v e n i e n tr e p o s i t o r i e sf o f r e f e r c n c ei n f b m a t i o n ,b u ti ti sv e r yd i f f i c u l tt 0f i n dt h er e l e v a n ti n f o 瑚a t i o nf o 肌 i n t e m e t i n f o 衄a “o ni c t r i e v a ls y s t e m sa r eu s e dt oh e l pp e o p l et 0f i n dt h ei n f o r m a t i o n t h e yw a n t p 岖a ne x a m p ko f i d e o g r a p h i ci a i l g u a g e s , c h i n e s ei s v e r y d i f f e r e n tf r o m i n d 0 一e u r 叩e a i il a l l g i l a g e s m a i l ya p p r o a c h e s ,w h i c ha f ea p p r o p r i a t et oi i i d o - e u m p e a n i a i i g i l a g e s ,p b a b l ya r en o ta p p r o p r i a t et oc h i n e s e t h i st h e s i s f o c u s e so ns o m e i m p o r t 觚tp r o b i c mi i ic h i l l e s ci n f o 皿a t i o nr c t f i e v a lr c s e a r c h s t u d i e si nt h et h e s i sm a i n l y i n d u d e : ( 1 ) t h i sp a p e rc o m p a f e st h er e 啊e v a lp e r f 0 珊a i l c co fd i f 琵r c mw o r ds e g m e n t a t i o n m c t h o d s i i lo u re x p 酬血e n t ,w ea d o p tm a n u a lw o r ds e 肿c n t a t i o nm e t i l o da sab 踮el i n e f o rc o m p a d s o n d 证e r e n t 丘d mt r a d i t i o n a lc o m p a r i s a p p r o a c h c s ,、a d 叩tm 柚u a l w o r ds e g m e n t a t i o nm e t h o dt 0s e g m e n tt h eq u e r yc l a u s e 0 u re x p e r i m e n tr e s u l t sp m v i d ea b a s e l i n ef b rt h ef l l r t h c rc h i n e s ei n f b 珊a t i o nr e t r i e v a lr e s e a l c h 。 ( 2 ) t h i sp a p c fp r 叩o s e san o v e lm e m o d t oi m p r o v et h ep e r f b 蛳a n c co fc h j n e s e i n f o m l a t i o nr e t r i c v a ls y s t e m sb ye x p a n d i l l gq u e r i e su s i n ga u t o m a t i c a l l ya o q u i r e df e l a t e d t e 瑚g f o u p s u n l i k e t i a d i t i o n a l q u e r ye x p a n s i o nm e t h o d s , t h er e l a t e dt e mg r o u p s e x t m c t e d 丘o mw e b - b a s e dc o r p u s e sa n dt h er d a t e dt e 加e x t r a c t e d 丘o md o c u m e n ts e ta r e u s e di nc o m b i n a t i o nt oi m p m v et l l ee f f e c t i v e n e s so fq u e r ye x p a l l s i o ni no u rm e t h o d e x p e r i m e n t ss h o w t l l a to l l rm e t h o da c h i e v e sa na v e r a g e s i g n i 6 c a n ti m p m v e m e n t c o m p a r ct ot h et r a d j t i o n a lr e l e v a n c ef e e d b a c kt e c h l l i q u e ( 3 ) t h i sp a p e rp m p o s e st h ed e s i g no faf i l l l t e x tr e t r i e v a ls y s t e ma n dp u tf o r w a r dt h e i m p l e m e n t a t i o no ft h es y s t e m ,i nw h i c hm u l t i - l a l l g i i a g ef e t r i e v ma n dm e m o r yi n d e x s t n l c t u r ea r es u p p o n e d i nt h i sp a p e r ,t i l ef i l n c t i o no ft h f e ei m p ( r t a n tm o d u l e s ,n a m e l y s t o r e l a y e r , l a n g u a g ea n a l y z e r a n dc o r e l a y e r , a r e d i s c u s s e 扛 i nd e t a i l f i n a l l y ,a f r a m e w o r kf o rd i s t r j b u t e df i l l l t e x tr e t r i e v a ls y s t e mi sa l s op r e s e n l e d ( 4 ) 朋lm ea b o v es t u d i e s a i l d a p p r o a c h e sh a v cb e e n 啦n t h e s i z e d ,a n dat e x t i n f o n n a t i o nr e t r i e v a l e x p e r i m e n t a ls y s t e m h a sb e e n d e s i g n e d a l l d i m p l e m e n t e d i 硕士学位论文 m a s t e r st h e s i s e m p l o y i n gt h es y s t 哪w ep a n i c i p a t e di nt h e5 t ht e x tr e t r i e v a lc o n f e r e n c e ( n t c i r 5 ) , w h i c hi saf a m o u sa n di m p o n a l l ti n t e m a t i o n a ls 伽l d a r d t e s t i n ga i l de v a l u a t i o nt e x t i n f o 咖a t i o nr e t r j e v a lc o n f c r e n c c w eg e i t 叩6 v ej nc h i n e s es i n 百er e t r i e v a lt r a c k ,w h i c h w e l 】p f o v e dt b ee f ! f e c t i v e n e s sa n dt 1 1 ef e a s j b j l j t yo ft l 】es t i j d j e sj nl h j sm e s j s k - e yw o r d s :c h i n e s eq u e r ye x p a n s i o n ;c h i n e s ef i l l l t e x tr e t r i e v a l ;c h i n e s ei n d e x i n g t e c h n 0 1 0 9 y ;a dr e h l e dt e 珊g r o u p 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 愀名:歹帆 吼矿年 日 | 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 导师签名: 日期:年月 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。回蠢途塞提交卮溢卮! 旦圭生;旦二生;旦三生蕴壶! 躬( 吣 日期:,毋年月甚日 导师签名: 日期:年月日 娲 汽 月 一久静 ,即式 獬- 者期 怍日 硕士学位论文 m a s t e r st h e s i s 1 引言 2 l 世纪是信息经济和知识经济的时代,对信息和知识的掌握和利用的程度已经 成为一个国家和民族进步和发展的关键因素。w e b 互连网络的出现和普及,是人类 文明发展历史上的一个重要的进步,它为人们存储、加工、传递和利用信息提供了 一个有效的载体,并且突破了传统的信息载体在时间和空间上的限制,使得人类在 传递和共享信息的效率上得到了前所未有的提高。 随着互联网在的快速普及,通过网络共享的中文信息资源以接近指数级的速度 递增。全球最大的中文搜索引擎百度( w w w b a i d u c o m ) 于2 0 0 5 年7 月2 7 日正式 宣布,百度搜索中文网页数已经从一月份的6 亿个网页上升到8 亿个网页。要从这 么多的网页中找到我们需要的信息,无疑像大海捞针一样困难,而信息检索技术就 是为了帮助人们快速地找到所需的信息。 中文作为一种典型的以表意为基础的象形文字,与西方的拼音文字有很大的不 同。在中文文本句子中,词和词之间并没有空格隔开;在古汉语文本中,甚至连句 子之间的标点符号都省略了! 西方拼音文字使用一个相对较小的固定的字母表,但 是汉语使用一个很大的字符集,并且随着时间的变化字符集也会发生变化。例如: 2 0 0 0 年前,中文的辞典包括9 ,0 0 0 个汉字,而在一本现代的汉语词典中这个数字变 为5 0 ,0 0 0 。因为中文是一种典型的象形文字,所以适用于中文信息检索的技术和方 案同样可以应用到其它的像日文、韩文之类的象形文字。中文、日文和韩文为具有 大字符集和多笔画特征语言的典型代表。 中文对于已经使用于拼音文字的各种文本信息检索方法是个挑战。因为两种 语言本质上的差异,适用于西方拼音文字中的检索方法并不能直接应用于中文。中 文信息检索技术的进步和发展只能依赖中国人自己的聪明才智1 1 1 研究背景 信息检索的主要研究内容包括对信息的表示、存储、组织和访问。对信息的表 示、存储和组织是为了让用户更容易得到所需要或者感兴趣的信息。信息检索的过 程可以简单的描述为:用户提交查询条件,信息检索系统根据该查询条件在文档集 合中检索出与其相关的文档子集,对这些相关文档子集中的文档按照其与查询条件 的相关性值进行排序,最后返回给用户有序的文档子集。信息检索研究的对象可以 为多种不同的表现形式,例如图形、图像、语音、视频何文本。本论文所研究的对 颀士学位论文 m a s t e r s t i i e s l s 象为文本信息。 影响一个检索系统的性能有很多因素,包括文档和查询条件的表示方法、评价 文档何查询相关性的匹配策略、查询结果的排序方法和用户进行相关反馈的机制 等。其中最关键的是信息检索模型,经过相关研究人员近半个世纪的努力,一些有 效的信息检索模型陆续提出并应用到相关的系统中。其中影响比较大的检索模型包 括:布尔模型、向量空间模型。概率模型以及最近提出的语言模型等。 在基于西方的拼音文字的检索系统中,通常把文档和查询表示成其中所包含的 词的集合。中文作为一种典型的以表意为基础的象形文字,与西方的拼音文字有很 大的不同。在中文文本句子中,词和词之间并没有空格隔开。因为两种语言本质上 的差异,适用于西方拼音文字中的检索方法并不能直接应用于中文。不同的研究者 对中文文档和查询的表示相关的问题进行了大量的研究,提出了各种不同的方法并 进行了一些比较研究。 k w o k 1 9 9 7 、l 砌e ta 1 1 9 9 7 和n i e 1 9 9 7 比较了使用不同的中文索引技 术时系统的性能。通常,基于单字的索引模型具有最好的召回率,而基于词或二元 的索引则具有较好的准确率。鉴于下面几个原因,并不能得出词索引比二元索引更 优的结论:( 1 ) 分词词表不可能完全覆盖测试文档集合中所有的词;( 2 ) 不同的人、 不同语言学家和不同的标准( 国家标准 1 9 9 4 :h u a n ge ta 1 1 9 9 7 ) 对词的 定义不一样;( 3 ) 在实验中,二元索引和词索引往往获得相近的准确率。 查询扩展技术的想法源于检索中的词的不匹配问题。在当前所有的检索模型和 系统中,信息都是以汉字、词或者词组的形式来表示的,因此查询的词出现在文档 中时,才有可能被检索到。但是在自然语言里同一个概念经常会有多种不同的表达 方式,因而很有可能在相关文档中的词与输入的查询词表达相同的概念,但是因为 在词型上不匹配而无法被检索到。 查询扩展中最重要的就是在于扩展词表的构建。目前扩展词表的构造主要有三 种:根据语言学知识基于语义的扩展词表构造方法 m i l l e r1 9 9 0 r i c h a r d s o n 1 9 9 5 s m e a t o n1 9 9 6 h o w n e t w o r d n e t ,基于大规模通用语料库的统计信息例如 同现概率、互信息等构造扩展词表 r i g b e r g e n1 9 7 7 c a r o l y n1 9 9 9 q i u 1 9 9 3 s c h u t z e1 9 9 4 c h e n1 9 9 5 l i n2 0 0 3 ,以及基于伪相关反馈的方法。 1 2 研究动因 通过对已有的关于中文索引技术的相关研究报告进行深入的分析,我们发现这 些研究结果存在着以下几个方面问题: 1 ) 不同的研究者对他们使用的不同的分词方法所得到的试验结果所作出的各 种解释之间没有可比性。在缺乏分词精度度量标准的情况下,有些研究者的试验结 果表明基于字的方法要优于基于词的方法,但是另外一些研究者却得出相反的结 论。由于中文语言的特殊性,分词歧义和未登录词问题一直是分词软件难以彻底解 决的问题,关于它们对检索系统的影响并没有进行系统的研究; 2 ) 不同的分词方法具有不同的优点和缺点。不同的研究者对于哪一种分词方法 更适合于检索类型应用并没有达成一致的意见。然而,许多研究者提出基于字( 尤 其是基于二元的方法) 能够达到和基于词方法相近的检索性能,另外一些研究者指 出基于二元的方法要消耗比较多的索引空间; 3 ) 在已有的研究中,分词精度的评价和检索性能的评价都是单独进行的,并没 有把它们二者关联起来。关于分词精度和检索系统性能的影响缺乏一个详细的系统 的评估和分析。 通过对已有的关于查询扩展的相关研究报告进行深入的分析,我们则发现存在 着以下几个方面问题: 1 1 基于语义的查询扩展方法的优点在于这些查询控制词典通常由人工标定而 成,因此能够在检索中引入语义理解的成分;但是其缺点也很明确:一方面原因语 言的模糊性,使得扩展的深度和广度难以确定;另方面由于语言的歧义性,使得 同义词的范围难以界定,因而为检索带来了一定的困难。 2 ) 伪相关反馈的方法强烈的依赖于第一次的检索结果,如果第一次检索的结 果中前n 篇文档只有很少的文档与查询相关,那么很多与查询不相关的术语也被加 入到查询中,直接导致检索效果的降低。 3 ) 目前的中文查询扩展方法都是以字或者二元为扩展项。但是使用这两种方法 时,通常比较有意义的词汇并不能被识别出来。 总而言之,在中文信息检索中,关于不同词切分方法和词切分的精度对检索系 统的检索性能的影响,以及如何进行中文查询扩展,我们需要进一步的进行全面的 详尽的研究。 1 3 研究重点及意义 对于用户需要的信息的检索,其实就是将用户空间所需要的信息描述与已知的 文档空间的信息描述匹配起来的过程。因此可以说,信息检索的实质,就是努力寻 找种解决方案,能够把用户查询空间的信息与文档空间上的信息想匹配。 为了解决这样一个问题,我们可以从两个方面入手:一方面对文档的信息特征 进行分析和研究,找到更合理的文档特征表示和抽取方法,从而使文档和查询的信 息描述更加精确和糖练;另一方面,对用户查询进行扩展,尽可能多地找到用户查 3 硕士学位论文 m a s t e r st h e s i s 询中的隐含信息,使其表示的信息需求更加明确。通过这样两个方面的工作,使得 用户查询空间和文档空间更好的像匹配,从而使得检索的结果更加精确。 本文的主要研究工作都是围绕着更好地将两个信息向匹配而展开,主要的工作 包括以下几个方面: 首先,从查询和文档空间的角度,对中文文本的各种特征表示方法进行了比较 分析。与传统的比较研究方法不同的是,并不对整个测试文档进行切分,而是对查 询进行手工切分,这样就克服了分词软件的精度对比较造成的影响,使得各种词切 分方法的比较更加客观公正。 其次,从查询空间扩展的角度,扩大用户需求信息空间,通过对已有的查询扩 展技术的研究考察查询扩展技术在中文信息检索中的有效性,并根据人类进行信息 检索的思维模式,提出了一种新的基于相关术语群的查询扩展技术,从而使查询空 间和文档空间更加的接近; 然后,提出了一种中文信息检索系统的设计与实现方案。本系统具备良好的可 扩展性,可以适应从个人资料库到大型数字图书馆的不同规模的应用。 最后,综合运用论文中研究的方法,设计并实现了一个文本信息检索实验系统, 并参加了2 0 0 5 年度在日本举行的文本信息检索国际标准评测会议( n t c i r 一5 ) ,在中 文单语检索项目中取得了第五名的成绩。 1 4 论文组织结构 论文的第一章介绍了本文的研究意义,并对相关研究领域的主要研究工作加以 介绍,最后提出了本文的研究动因及本文的主要工作。 第二章介绍了基于内容的文本信息检索的历史、基本概念、评价方法以及各种 典型的文本信息检索模型。 第三章介绍了关于在不同的词切分技术的情况下中文信息检索系统的检索性 能的相关研究工作,提出了一种使用了基于查询手工切分的方法来进行中文索引技 术的比较研究方法,并给出了各种词切分方法的试验结果分析。 第四章首先介绍了包括基于本体、基于语料库和基于伪相关反馈的查询扩展技 术,提出了一种使用自动构建的相关术语群进行中文查询扩展的方法,并给出了试 验结果分析。 第五章介绍了一个基于中文全文信息检索系统的设计与实现。在本章中,详细 介绍了系统的主要功能模块的设计,并介绍了系统的主要特性。 最后一章给出了本文所有中文文本信息检索相关研究工作的总结。 4 2 1 信息检索的历史 基于内容的文本信息检索 信息检索作为一门学科,其历史可以追溯到2 0 世纪中期。在此以前,信息存 储和传播主要以纸质为载体,信息检索活动也围绕着文献的获取和控制展开,研究 的目的也在于如何合理的组织图书等文献资料,从而方便用户的查找,“文献检索” 一度成为信息检索的同义词。2 0 世纪5 0 年代计算机得到了应用,人们开始使用“情 报检索”这个概念。当时的信息检索,更接近于数据库检索的一种形式。随着通讯 技术于计算机技术的紧密结合,信息载体类型的多元化以及传播手段的改迸,情报 检索研究和文献检索的研究逐渐归于信息检索研究这一具有兼容性的概念,研究范 围也日趋扩展,形成了今天的“信息检索”。具体地说来,信息检索经历了从手工 检索到机械检索再到计算机检索的发展过程 廖利文2 0 0 2 。 1 手工检索( 1 8 7 6 1 9 4 5 ) 信息检索直接发源于图书馆的参考咨询工作和文摘索引工作。正规的参考咨询 工作是由美国的公共图书馆和大专院校图书馆于1 9 世纪下半叶首先发展起来的。 2 0 世纪初,多数图书馆成立了参考咨询部门,主要利用图书馆的书目工具来帮助 读者查找图书、期刊或现成的答案。随着文献的激增和读者需求的增长,逐渐发展 到从多种文献源中查找、分析、评价和重新组织情报资料,“索引”突破了以前的 狭义范畴,成为独立的检索工具,到4 0 年代又进一步包括回答事实性咨询,编制 书目、文摘,进行专题文献检索,提供文献代译等。“检索”从此成为一种独立的 用户服务工作,并逐渐从单纯的经验工作向科学化方向发展。 2 脱机批处理检索( 1 9 5 4 一1 9 6 5 ) 1 9 4 6 年世界上第一台电子计算机问世以后,5 0 年代初就有人开始研究其在信 息检索领域的应用。5 0 年代中期到6 0 年代后期是信息检索的脱机批处理阶段。当 时计算机还没有连接成网络,也没有远程终端装置,不能提供实时检索,只能进行 现刊文献的定题检索( s e l e c t i v ed is s e m i n a t i o no fi n f o r m a t i o n ) 和回溯性检索 ( r e t r o s p e c t i v es e a r c h ) ,同时利用计算机编辑出版检索性刊物。1 9 5 4 年,美国海 军机械试验中心使用i b m7 0 1 型机,初步建成了计算机情报检索系统,这预示着以 硕士学住论文 m a s t e r st h e s i s 计算机检索系统未代表的信息检索自动化时代的到来。 3 联机检索( 1 9 6 5 一1 9 9 1 ) 1 9 6 5 年美国系统发展公司( s d c ) 研制成功o r b i t ( o n 一1 i n er e t r i e v a lo f b i b l i o g r a p h i ci n f o r m a t i o n t i m es h a r e d ) 联机情报检索软件,开始了联机情报检 索系统阶段。与此同时,美国烙克希德公司成功研制了d i a l o g 检索系统。7 0 年代 卫星通讯技术、微机计算机技术以及数据库技术的同步发展,使得用户得以冲破时 间和空间的障碍,实现了国际联机检索。远程实时检索多种数据库是联机检索主要 的优点。计算机检索技术从脱机阶段进入联机信息检索时期。联机检索是计算机技 术、信息处理技术和现代通讯技术三者的有机结合。 4 w e b 信息检索( 1 9 9 卜目前) i n t e r n e t 在六、七十年代初见雏形,八十年代末开始迅速流行。此时,单纯的 手工检索和机械检索都显现出各自或多或少的缺点,因此极有必要发展一种新型的 信息检索方式一w e b 信息检索。w e b 信息检索系统包括了计算机在信息检索领域表 现出来的全部优点。它是联机检索的高级阶段,使人们可以在很短的时间里查找到 全球的信息。网络信息环境的出现,使得信息检索研究的对象和范围不断扩大,研 究队伍也有突破了原有的以图书情报领域的专家学者为主的框架,众多的科研机构 以及商业公司加入到研究信息检索技术开放信息检索系统的行列。可以说,网络使 计算机信息检索技术进入一个崭新发展阶段,而w e b 信息检索又使网络信息利用率 提高,信息的组织更加有序和高效。 2 2 信息检索的基本概念 信息检索( i n f o r m a t i o nr e t r i e v a l ,i r ) 是泛指用户从包含各种信息的文档集 合中查找所需要的信息或知识的过程。 这里我们需要区分两个概念:信息检索和数据检索 r i c a r d o1 9 9 9 。 数据检索的条件一般具有清晰的定义,要求取得满足特定条件的所有对象,因 此它的准确率要求是百分之百。评价它的标准一般也是时间开销、空间开销的标准。 信息检索的条件描叙本身就是一个研究的难点,一般很难做到完全准确,而检索的 对象也可能是不准确的。造成这一点的主要原因是,信息检索通常是对自然语言做 处理,而自然语言本身没有很好的结构,语义上也存在模糊性。评价信息检索并不 容易,一般使用检索精度( p r e c i s i o n ) 和召回率( r e c a l l ) 等评价标准来衡量检索的 硕士学住论文 m a s t e r st h e s i s 质量,后面将进行详细的说明。 在一个信息检索系统中,数据检索是基本操作,它取得符合一定的条件信息项, 但在大多数情况下,它不能满足用户的需求。信息检索的目的是取得与某个主题相 关的信息,因此信息检索系统必须在某种意义上解释信息项的内容,并根据相关程 度进行排序。 检索相关信息的效果直接受用户任务和文档的逻辑视图( 或逻辑表示) 的影响 r i c a r d o1 9 9 9 。 2 3 信息检索的评价 信息检索效果的最根本的评价,应该是信息对需求者的满足程度。它是因人、 因时、因环境而变的,是已有知识及时间的函数。若用t 表示时间,k ( t ) 表示需求 者在t 时刻已有的相关知识,q 表示需求者对某特定信息的需求,q o 表示需求者 的最初需求,q i 表示经过i 次信息增加后的需求,则需求者经过第i 次检索后对 信息的满足程度r 。为: 8 f = 吼,。( k 纯一。) 4 ) ) 一吼( k ) ) ( 2 1 ) 一般来说,r j 是被检索到的信息及其中所包含知识的函数。但一般并不正好等 于它们,而是有时小于它们,有时大于它们( 当所获得的知识能将原有的知识更紧 密的组织起来,或激发了“知识雷管”时,往往会出现这样的情形) 。 但是因为用户已有的知识无法衡量,因此在信息检索这一技术领域,通常用检 索的实际效果来评价检索的质量。最基本和常用的评价指标包括:检索精度( 又称 为查准率,p r e c i s i o n ,p ) ,召回率( 又称为查全率,r e c a l l ,r ) ,前n 选的精度( t o p np r e c i s i o n ,p n ) ,1 l 点平均精度( 1 l p o i n ta v e r a g ep r e c i s i o n ) ,f 度量值 ( f _ m e a s u r e ) 以及pxr 等。 ( 1 ) 检索精度和召回率 d a v i d1 9 9 0 对于信息检索要求i ,如果用r 表示相关文档的集合,a 表示检索结果组成 的文档集合,并用r a 表示r 和a 的交集,即检索到的相关文档集合,i x i 表示集 合x 的元素个数,则: 胁c 西一臀风一臀n 卵砌2 冒小冒 7 ( 2 2 ) 其中p r e c i s i o n 被称作为检索精度,表示检索到的相关文档占检索结果文档的 比例;r e c a l l 被称作为召回率,表示检索到的相关文档占实际相关文档的比例。 ( 2 ) 前n 选精度 在检索返回的结果中,用户往往对排在前面的结果最感兴趣,而一般不会浏览 后面的结果。因此,排在前面的结果的质量也直接影响用户对检索的满意程度,于 是前n 选精度也是在信息检索中一个有用且常用的指标。这里n 通常取为5 ,1 0 ,2 0 或者l o o 。 ( 3 ) 1 1 点平均精度 假设用户可以一次检查检索结果集合a 里的所有文档,那么用上面定义的 p r e c i s i o n 和r e c a l l 就足够了。但是实际情况却是a 中的文档首先根据相似程度 被排序,然后用户从前向后依次查看文档。在这种情况下,p r e c i s i o n 和r e c a l l 会 随着用户查看的进度而变化。于是就有了用p r e c i s i o n 和r e c a l l 的曲线图来评价 检索系统性能的方法一1 l 点平均精度。 把r e c a l l 分为0 9 6 、1 0 、2 0 、1 0 0 这1 1 个等级,分别计算它们对应 的p r e c i s i o n ,无法直接计算的点则可以用插值法等方法来确定。这样绘制出来的 曲线可以直观的反映对一个查询的检索效果。当我们需要衡量检索算法在检索多个 不同的查询时总的检索性能时,则可以对所有查询,在同个r e c a l l 等级上对各 个p r e c i s i o n 值取平均。而1 1 点平均精度就是对1 1 个r e c a l l 等级上对应的 p r e c i s i o n 值取平均。这也是目前最常用的标准评价方法之一。 检索精度和召回率是两个相互关联的评价标准。通常一个系统的检索精度提高 了,其召回率往往会下降,因此只用任何一个进行评价都可能失之偏颇。除了1 1 点平均精度以外,f m e a s u r e 也是应该对检索精度和召回率综合考察的指标。它的 定义为: 刑) 。而赢 ( 2 3 ) 其中j 是指在有序的结果列中的前j 个文档,p ( j ) 和r ( j ) 分别为前j 篇文档 的精度和召回率。 8 ( 5 ) pxr 有时候对于较精确的查询,系统返回的结果比较少( 例如几十个左右) ,用1 1 点平均精度来衡量时,大多数r e c a 儿点上的值都无法直接得到,使得这种评价方 法失去了意义。另外,对于不同的用户查询,检索的质量可能有很大的差别。对于 某个查询,检索结果列表中没有用户需要的信息的情况很有可能方生,即精度和召 回率均为0 。对于这种情况,f - m e a s u r e 就无法进行度量了。因而人们提出了用p x r 作为一种补充指标来评价检索的综合性能。 在前面提到了评价方法中,注意到对于召回率的评价有一个前提,就是已知对 于用户查询,在整个文档集合中相对应的相关文档都已经确定了。而这一点经常无 法满足,尤其是在w e b 环境下,相关文档的完整集合不可能找到。另外,不同的查 询使用相同的检索方法效果可能相差很大,因此有必要通过一个标准的测试集,来 对不同的系统不同的检索方法进行公平的评价。如何构造测试集合,也是一个重要 的问题。n t c i r ( n a c s i st e s tc o l l e c t i o n sf o ri r ) 则为解决这个问题提供了有效 的途径,并成为亚洲语言信息检索领域规模最大的深有影响的标准评测会议。 n t c i r 是由日本国家科学信息系统中心( n a t i o n a lc e n t e rf o rs c i e n c e i n f o r m a t i o ns y s t e m s ,简称n a c s i s ) 所策划主办的。其目的是希望能建立一个亚 洲语言标准测试集,作为信息检索与自然语言处理研究的基础数据。n t c i r 的评测 本着公平和公开的原则,并且数据集规模很大,因此有相当的权威性。从1 9 9 9 年 至今已经主办了5 届。在过去了5 届比赛中,评测的内容也发生了很大的变化。评 测分为一些不同的子任务,包括跨语言检索( c r o s sl i n g u a li n f o r a t i o nr e t r i e v a l t a s k ) 、w e b 信息检索( w e bt a s k ) 、问答系统( q u e s t i o na n s w e r i n gc h a 儿e n g e ) 等。 很多国内外著名的大学和公司都曾参加过n t c i r 评测,如伯克利大学,香港城市大 学、中国科学院、微软亚洲研究院、雅虎公司等等。这些科研结构都曾在历届比赛 中取得过好的成绩,同时也大大推动了文本信息检索技术的发展。 n t c i r 提供了统一的用s g m l 标注的文档集合,向参加评测者发布同样的用户 查询,并在规定时间内收集参赛者的结果,将可能相关的文档( 通常是每个参加组 织提交的每组结果中前n 篇的文档) 组成评判池( j u d g i n gp 0 0 1 ) 进行评价 h a w k i n g2 0 0 0 。这种方法假设出现在p o o l 里面文档才有可能是相关文档,然后 通过人工判定的方法,对p 0 0 1 中的每篇文档的相关性进行评价,形成最终的相关 文档集合,该集合在t r e c 中被称为q r e ls 。这种p o o l i n g 的技术使得在大规模文 档集合中寻找每个查询的相关文档集合成为可能。 本文中所有的方法都是在n t c i r 的三个不同的大规模标准测试文档集合上进 9 硕士学住论文 m a s t e r st h e s i s 行评价和分析的,因而具有可信性和可重复性。 2 4 检索模型 从2 0 世纪6 0 年代中期以来,人们提出了大量的检索模型。从最初的一些较小 的和较为结构化的文档所设计的特殊模型( 如文献记录,包括题目、作者和关键词 等) ,发展到现在具有较强理论基础和能处理多种文档格式的模型。当前的模型能 够处理具有复杂内部结构的文档,并且一般都具有学习和利用相关反馈进行查询优 化等功能,使得系统性能大大提高。总的来说,当前研究和应用中最主要的有四个 基本模型: 1 布尔模型( b 0 0 1 e a nm o d e l ) ,它是许多商业信息检索系统的理论基础。在布 尔模型中,文档和查询都被表示为索引项的集合。也就是说,这种模型是集合论的 一种应用 g u d i v a d a1 9 9 7 。 2 向量空间模型( v e c t o rs p a c em o d e l ) ,把文档和查询表示成一个n 维空间中 的向量,用距离作为相似度的度量。这种模型使用的是代数理论知识 r i c a r d o 1 9 9 9 。 3 概率模型( p r o b a b 订i s t i cm o d e l ) ,把检索看作是文档和查询之间匹配成功的 概率估计问题,使用概率理论作指导 g u d i v a d a1 9 9 7 。 4 语言模型( l a n g u a g em o d e l ) ,与前面的模型不同,这种基于语言模型的检索 模型,把查询看作是由文档生成的,那么检索时一个文档与查询的相关性,就转化 为这个文档能够生成该查询的概率 s o n g1 9 9 9 。 试验表明,后三种模型的许多性能要优于布尔模型,其中向量空间模型和概率 模型应用在商业产品上只是近十几年的事情,而基于语言模型的检索模型,则是在 近几年才刚刚开始研究。 所有的信息检索模型都有其理论基础和一组假设。检索模型的一些普遍性的假 设有 吴立德1 9 9 7 ( 1 ) 被检索的对象主要是文档对象; ( 2 ) 检索是根据文档内容的表示及所需信息的表示进行的; ( 3 ) 文档内容及用户所需信息的表示都是非常精确的。 下面分别对三种模型作详细的介绍。 2 4 1 布尔模型 布尔模型是最简单的检索模型。在布尔模型中,一个索引项与文档的关系只有 1 0 硕士学位论文 m s t e r l st h e s i s 两种:在文档中出现或不出现。因此,索引项的权重是二值的:即 0 ,1 。一 个查询可以用“与( a n d ) ”、“或( o r ) ”、“非( n o t ) ”三种运算符来连接,成为一个布尔 表达式。设;州是查询q 的正规表示的连接表达式,;。是;州中的任一连接部分。 则文档d ,和查询q 的相似度定义为: 嘶加忙幺黧霉“h m 爝西) l 西c c ) 如果。f m ( d j ,口) 一1 那么布尔模型给出结论文档d ,和目相关的,否则二者不相 关。 布尔模型最大的优点是使用方便,理论简单,但是它只能给出精确匹配的结果, 因此给出的结果有可能数目太多或者太少。 2 4 2 向量空间模型 向量空间模型是s a l t o n 等人于6 0 年代提出来的,是一种简单高效的文档表示 模型。向量空间模型简而言之就是把文档和查询表示成有索引项构成的向量空间中 的一个点,通过计算向量之间的距离,来判定文档于查询之间的相似程度。 在向量空间模型中,一个查询向量g 定义为:口一( m 。,m 矿,。) ,同样的, 一个文档向量d ,表示为:d ,一( w 1 。,矿,m 目) 。其中。和哪,均0 ,分别表示 第f 个查询检索项和第f 个文档特征项的权重,t 是系统中所有索引项的总数。 文档和查询之间的相关性可以用两个向量之间的关系度量来计算。例如用向量 的余弦夹角来量度,两个文档之间相同的词越多并且这些词的权重越高,其距离越 近。 砌= 编2 撩 ( 2 5 ) 其中固和网分别表示查询和文档向量的模。因为。苫。且心,zo ,所以 5 咖 ,q ) 在o 和1 之间,它可以表示文档和查询之间的部分匹配关系。 硕士学位论文 m a s t e r st h e s i s 在向量空间模型中,最关键的地方在于索引项在文档中的重要程度,一般来说 某个词在某个稳定中经常出现,而在其它文档中不常出现,就说明该词对该文档或 该类文档更具有代表性,应该具有更高的权重。相反地,如果一个索引项在很多文 档中都出现,那么这个索引项将不能很好的代表某一类文档,其权重应该比较小。 基于这样的考虑,人们通常使用i f i d f 的权重计算公式【剐c a r d o1 9 9 9 】。 设n 是系统中所有文档的数量,啊是索引项屯出现的所有文档数,一e 吼,是索 引项t 在文档d ,中出现的次数。于是t f - i d f 中的t f ( t e 硼f r e q u e n c y ) 因子就是归一化 后的索引项t 在文档d f 中的词频五可以使用下列公式进行计算,i d f ( i n v e r s e d o c i i m e n t 丘c q u e n c y ) 因子定义如下: 岛晶 ( 2 6 ) 娥:l o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论