(计算机应用技术专业论文)小型中文信息检索测试集的构建与分析.pdf_第1页
(计算机应用技术专业论文)小型中文信息检索测试集的构建与分析.pdf_第2页
(计算机应用技术专业论文)小型中文信息检索测试集的构建与分析.pdf_第3页
(计算机应用技术专业论文)小型中文信息检索测试集的构建与分析.pdf_第4页
(计算机应用技术专业论文)小型中文信息检索测试集的构建与分析.pdf_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 在信息检索领域中,信息检索系统的评估工作一直以来对检索技术的研究、发展和 应用有着巨大的影响。从上个世纪六十年代开始,测试集成为评估工作的主要形式,其 构建的质量直接影响着评估结果的准确性。目前,测试集仍是实验室信息检索系统评估 的主要手段。 测试集在构建过程中所使用的语言类型决定了其能够进行评估的范围。国外已经建 立的测试集,其大多数所使用的语言为英文。英文测试集不适合对中文信息检索系统进 行评估。国内对中文测试集的研究仍处于起步阶段。中文测试集的缺乏,制约了检索技 术的发展。建立一个实验室环境下的小型中文测试集,无疑能够极大的方便研究者的使 用,进而推动信息检索系统的研究。 论文参照国外各种测试集的构建方法与经验,提出了一个用于评估信息检索系统的 小型中文测试集的构建方案。主要完成了以下工作: ( 1 ) 构建了由文档集、查询集和相关判断集三个部分组成的测试集。其中,采集并 整理了1 6 4 8 篇以中文内容为主的文档,将其作为文档集;针对文档集中文档的具体内 容初步构建了1 5 个查询主题;对两组判断人员的相关判断结果进行整合,构建了用以 评估检索系统性能的相关判断集。 ( 2 ) 采用k a p p a致性系数和k e n d a l l 和谐系数两种不同的统计量对两组相关判断结 果进行了一致性分析。分析结果证明两组判断结果具有较高的一致性,进而表明构建的 测试集具有较高的可信度。 关键词小型中文测试集信息检索评估文档集查询主题相关判断集 a b s t r a c t a b s t r a c t i nt h ef i e l do fi r ( i n f o r m a t i o nr e t r i e v a l ) , t h ee v a l u a t i o no fi rs y s t e m sp l a y sa l li m p o r t a n t r o l e t h ee v a l u a t i o no fi rs y s t e m sh a ss i g n i f i c a n ti m p a c ta n de f f e c to nr e s e a r c h s , d e v e l o p m e n ta n da p p l i c a t i o n sw i t h i nt h ef i e l do fi r t e s tc o l l e c t i o nb e c o m et h em a i nf o r mo f t h ee v a l u a t i o no fi r s y s t e m s ,d a t i n gr o u g h l yf r o mt h e19 6 0 s t h eq u a l i t yo ft h et e s tc o l l e c t i o ni s c o n s i d e r e dt ob eak e yf a c t o ro ft h ec o r r e c t n e s so ft h er e s u l t so fs u c he v a l u a t i o n t e s t c o l l e c t i o ni ss t i l li nw i d eu s en o w t h el a n g u a g ef o r mw h i c hi st h e p a r t o ft e s tc o l l e t c i o nd e c i d et h ea r e ao f e v a l u a t i o n m o s to ft h et e c tc o l l e c t i o nw h i c hh a v eb e e ni n s t a l l e da b r o a du s et h ee n g l i s h l a n g u a g e t h ee n g l i s ht e c tc o l l e c t i o nc a nn o tt a k ee f f e c tb a t ho nt h ec h i n e s ei n f o r m a t i o n r e t r i e v a ls y s t e m t h er e s e a r c ho fc h i n e s et e s tc o l l e t i o ni si ni t sb e g i n n i n gs t a g e al a c ko fs m a l l c h i n e s et e s tc o l l e t i o nr e s t r i c tt h ed e v e l o p m e n to fi rg r e a t l y i fac h i n e s et e s tc o l l e c t i o nc a r lb e s e tu pi nl a b o r a t o r ye n v i r o n m e n t ,w h i c hw i l lu n d o u b t e d l yb ea b l et og r e a t l yf a c i l i t a t et h eu s eo f r e s e a r c h e r s ,t h e r e b ys p e e d i n gu pt h er e s e a r c h w o r k a c c o r d i n gt ot h ef r a m e w o r ko fe x i s t i n gf o r e i g nt e s tc o l l e c t i o n s ,t h i sp a p e rp u tf o r w a r da p r o p o s a lf o rb u i l d i n gt h ee v a l u a t i o no fi rs y s t e m s t h ef o l l o w i n gc o n t r i b u t i o n sa r ea c h i e v e d i nt h i sp a p e r : ( 1 ) c o n s t r u c tas m a l lc h i n e s et e s tc o l l e c t i o ni n c l u d e st h r e ep a r t s ,t h a ti s ,d o c u m e n ts e t , q u e r i e sa n dr e l e v a n c ej u d g m e n ts e t t h ed o c u m e n ts e tc o l l e c t sa n da r r a n g e s16 4 8p a p e r sw h i c h m a i n l ya b o u tc h i n e s ec o n t e n t ;a c c o r d i n gt ot h em a i nc o n t e n to ft h ed o c u m e n ts e tp r i m a r i l y c o n s t r u c t15q u e r yt o p i c s ;i n t e g r a t et h er e l e v a n tj u d g er e s u l t s 舶mt w op a i r so fj u d g em e m b e r s a n dc o n s t r u c tt h er e l e v a n tj u d g m e n ts e ti no r d e rt oe v a l u a t er e t r i e v a ls y s t e mp e r f o r m a n c e ( 2 ) a d o p tk a p p ac o e f f i c i e n to fc o n c o r d a n c ea n dk e n d a l lc o e f f i c i e n to fc o n c o r d a n c et w o d i f f e r e n tk i n d so fs t a t i s t i c st oa n a l y z et h ec o n s i s t e n c yb yt h et w op a i r so fr e l e v a n tj u d g m e n t r e s u l t s ,t h ef i n a lj u d g ei st h a t t h et w or e s u l t sh a sh i g h l yc o n s i s t e n c y , w h i c hi n d i c a t e st h e h i g h l yr e l i a b i l i t yo ft h e t e s ts e t 。 k e y w o r d ss m a l lc h i n e s et e s tc o l l e c t i o n i n f o r m a t i o nr e t r i e v a le v a l u a t i o nd o c u m e n ts e t q u e r i e s r e l e v a n c ej u d g m e n t 河北大学 学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下进行的研究工作 及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文 中不包含其他人已经发表或撰写的研究成果,也不包含为获得河北大学或其他教 育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了致谢。 作者签名:至堡 日期:肆年月j 上日 学位论文使用授权声明 本人完全了解河北大学有关保留、使用学位论文的规定,即:学校有权保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存 论文。 本学位论文属于 1 、保密口,在年月日解密后适用本授权声明。 2 、不保密硒。 ( 请在以上相应方格内打“”) 保护知识产权声明 本人为申请河北大学学位所提交的题目为刷中承嚣拖轴归溶向彳j 啦参析 的学位论文,是我个人在导师( 民) 指导并与导师合作下取得的研究成果, 研究工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经费 资助下完成的。本人完全了解并严格遵守中华人民共和国为保护知识产权所制定 的各项法律、行政法规以及河北大学的相关规定。 本人声明如下:本论文的成果归河北大学所有,未经征得指导教师和河北大 学的书面同意和授权,本人保证不以任何形式公开和传播科研成果和科研工作内 容。如果违反本声明,本人愿意承担相应法律责任。 声明人: 至聋 一日期:卫伞厶月j 上日 作者签名: 芝聋 导师签名:垒釜垒丝 日期:4 年月j 上日 日期:丝12 年生月生日 第1 章引言 第1 章引言 1 1研究背景 对于同一个查询需求,由不同检索技术发展而来的信息检索系统的查询结果,往往 存在着一定程度上的差异。如何比较不同检索系统技术上的优劣,从而能够选取较好的 检索系统以方便查询者能够得到更加理想的查询结果,成为研究者关注的问题。然而, 通过简单的人为比较这些查询结果没有一定的判断尺度,比较结果既不客观也不可靠, 无法取得一个统一的判断标准。因此,设计出一种客观的评估机制是有必要的,评估机 制能够对不同的信息检索系统进行评估。这种评估要求能够不受主观因素的影响,它所 作出的评估结果可以作为一个标准来衡量检索技术优劣。 传统的用于评价检索系统性能的机制是测试集。从上个世纪六十年代开始,研究者 就为测试集制定了具体测试准则,并将其应用于评估检索系统的研究。测试集发展至今, 其类型和规模都有了很大的发展。如今测试集已经成为评估检索系统性能的一个重要方 法,并被广泛认同。 由于系统检索的过程高度依赖于文档的语言类型,而目前已有的比较成熟的测试 集,其语言类型多为英文,并不适合用于评估中文检索系统。国内虽然已经由北京大学 建立了基于w e b 信息检索的大型测试集【l j ,但其仍处于起步阶段。目前已构建的大型测 试集,都需要耗费大量的时间和人力,难以在短期内完成,并且对检索系统进行测试本 身也要耗费大量的时间与精力。对于想要把精力主要放在检索技术研究工作的研究者来 说,一个可选的方案是使用能在较短时间内建立起可以用于系统评估的小型测试集。另 外,由于小型测试集的规模比较小,它可以灵活的添加一些大型测试集所不具备的特征 元素,用于检验某些特定的检索技术。因此,在信息检索技术研究过程中,小型中文测 试集是必不可少的一种评估手段。 目前国内尚无建立起标准的可用于中文信息检索评估的小型测试集。小型中文测试 集的缺乏,制约了中文检索系统的研究。自2 0 0 4 年以来,本研究小组一直在进行信息 检索方面的研究工作。由于缺乏一个统一的评估检索系统性能的平台,各种检索技术无 法进行比较。若能建立统一的标准测试集对不同的中文检索系统进行评估,则有利于评 河北大学硕十学位论文 估结果的比较,其结果也将会更有意义。 1 2 国内外研究现状 1 2 1c r a n f i e l d 实验 早期信息检索技术评估最著名的研究是由c l e v e r d o n 在上个世纪5 0 年代末期开始进 行的c r a n f i e l d 实验以及1 9 6 6 年开始进行的c r a n f i e l di i 实验【2 1 。c r a n f i e l di i 将测试集分 为文档集( d o c u m e n t s ) 、查询集( q u e r i e s ) 和相关判断集( r e l e v a n c e j u d g m e m s ) 三个组 成部分。其研究设计的概念是:假设在给定的查询主题与文档集中,某些文件是与查询 主题相关的。c r a n f i e l di i 研究在评估技术的发展历程上具有星程碑意义,直至今日仍有 举足轻重的地位,之后的许多测试集仍然采用c r a n f i e l di i 的设计理念。然而,由于测试 集的研究刚刚起步,c r a n f i e l d 试验采用的测试集规模很小,并且大多数是使用同质型较 高的文件集( 例如,c r a n f i e l d i i 研究包含2 7 9 个查询问句和1 4 0 0 个文件) ,它与真实的 检索环境之间存在着很大差异【3 j 。 1 2 2 文本检索会议t r e c 由美国国防部高级研究项目计划局( d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ,简 称d a r p a ) 和美国国家标准技术局( n a t i o n a li n s t i t u t eo f s t a n d a r d sa n dt e c h n o l o g y ,简 称n i s t ) 举办的文本信息检索会议 4 】( t e x tr e t r i e v a lc o n f e r e n c e ,简称t r e c ) 是文本 信息检索领域一个国际性的标准评价类型的会议,也是目前在国际上有重大影响的检索 系统评测组织。t r e c 通过构建的大型测试集,制定测试项目和测试程序,提供不同检 索系统之间的评比标准,供参与评测者进行测试,并讨论和分享研究成果i 5 | 。 t r e c 的组织者认为,对不同检索系统的比较,证明某个系统是否优于其它系统并 不重要,目的是要把更多不同的检索技术放在一起公开讨论,参与者可以相互了解彼此 不同的检索方法,这对技术的发展有很大的推动作用。于是,t r e c 自开办之初,就明 确提出了四个目标6 ,7 】:第一,以大规模测试集为基础,推动信息检索的研究;第二,经 由开放式的论坛,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的 交流互通;第三,经由对真实检索环境的模拟与重要改进,加速将实验室研究技术转化 为商业产品;第四,发展适当且具应用性的评估技术,供各界遵循采用,包括开发更适 用于现有系统的新的评估技术。 2 第1 章引言 t r e c 从1 9 9 2 年开始,每年举办一次。文本信息检索会议向各个参加者发布标准 测试数据和检索主题,要求参加者在规定时间内提交检索结果,由会议组织者根据检索 结果做出标准答案,之后对各参加者的检索系统进行评价。虽然t r e c 的评测机制基本 沿袭c r a n f i e l d i i 模式,但它在很多做法和思想方面比前人有了很大的突破:第一,t r e c 投入了大量人力、物力去构建大规模文档集和查询集;第二,t r e c 重视不同的检索技 术和检索系统设计者之间的交流,设计者除了要提交系统的运行结果之外,还能够公开 系统的架构、算法和评估结果并互相讨论,共享信息;第三,在构建代表着标准答案的 相关判断集中,t r e c 采用了p o o l i n g 的方法,大大减少了工作量,缩短了测试集的构 建周期。 t r e c 也构建了小型中文测试集,但仅提供给参赛评测单位使用【8 】。由于t r e c 中 大型的文档集主要为英文语言类型,所以它并不适合用于中文检索技术的评测工作。 1 2 3 小型英文测试集 构建大型测试集需要耗费大量的人力和精力,并且短期内难以完成。由于对检索系 统进行测试本身也要耗费大量的时间与精力,对于不愿进行大投资的检索系统研究者来 说,使用能在较短时间内建立和进行评估工作的小型测试集是一个可行的选择。 在检索领域,小型测试集也有了很大的发展。下面是已经构建的5 个不同的小型测 试集【9 】:a d i ( 信息科学文献) ,c a c m ( 美国计算机协会通信) ,i n s p e c ( 电子,计算机, 物理文摘) ,i s i ( 科学信息研究所) 和m e d l a r s ( 医学文献) 。其中比较典型的是提到的 c a c m 和i s l 1 0 】。在这些测试集中,文档集的规模大多在1 0 0 0 到3 0 0 0 之间,查询主题 的数量在1 0 0 左右,文档集和查询集的内容范围都限定在某一具体领域。 国外已有的小型测试集和t r e c 一样,大多以英文为主,同样不适合用于中文检索 系统的评估工作。 1 2 4国内测试集研究现状 国内在构建测试集方面仍处于学习国外的阶段。北京大学从2 0 0 4 年开始构建了大 规模中文网页信息检索测试集c w t 1 1 1 ( c h i n e s ew 曲t e s tc o l l e c t i o n ) 。c w t 延续了传统 的构建思路,测试集包括文档集、查询主题集和相关文档集三个部分。从2 0 0 4 年开始 在全国搜索引擎和网上信息挖掘学术研讨会( s y m p o s i u mo f s e a r c he n g i n ea n dw e b m i n i n g 简称s e w m ) 上,北京大学举办了中文网页检索评测项目,即s e w m 中文网页检索评测,主 3 河北大学硕十学何论文 要目的是通过网页测试集研究各种检索技术的优劣,以改进检索系统在真实网页环境下 的性能。 c w t 在构建过程中也存在着不足之处。例如,在c w t 中相关判断集的构建过程中 采用了和t r e c 相同的p o o l i n g 方法。这种方法的一个缺点是,当参加评估的检索系统 较少的时候,可得到的检索结果较少,由其构成相关判断集的权威性也会较差。另外, 这种方法虽然减少了构建者的工作量,但由于构建结果依靠的是待评估检索系统,可能 会漏掉某些和查询主题相关的文档,使相关判断集的完整性得不到保证,进而影响查全 率和查准率的准确性。 1 3 本文工作 本文提出了一个用于信息检索系统评估的小型中文测试集的构建方案,其中包括文 档集、查询集和相关判断集三个部分的构建方案。之后对构成相关判断集的两组相关判 断结果进行了一致性分析。主要工作如下: ( 1 ) 构建文档集:确定了文档集中文档的规模和内容范围,从各种计算机类期刊上 选取并整理成符合规范格式的文档,并建立了由文档关键词组成的索引表。 ( 2 ) 构建查询集:首先,根据文档具体内容,将文档集划分成多个类别;其次,按 照类别将文档分配给若干名构建查询主题的人员,构建人员再根据文档具体内容来创建 查询主题;最后,筛选得到的查询主题,选出比较理想的查询主题,并将其整理为统一 的格式。 ( 3 ) 构建相关判断集:采用多元化的判定尺度来定义文档和查询主题的相关程度。 使用人工判断和i s j 两种方法相结合的方式来构建相关判断集。人工判断的过程:所有 的相关判断的赋值工作由若干名计算机专业判断者分两组进行。分为初步判断和检查两 个阶段。第一阶段,先有一名判断者进行判断赋值;第二阶段,完成赋值后,每一组其 他判断者进行检查。相关判断工作完成后,将两组判断结果进行合并计算,得到的相关 判断集。之后采用i s j 方法辅助构建相关判断集。 ( 4 ) 相关判断集的一致性分析:本研究采用k a p p a 致性系数( k ) 以及k e n d a l l 和 谐系数( w ) 两种不同的统计量对相关判断集构建过程中的两组相关判断结果进行检测。 通过分析两组结果的一致性来判定测试集的可信度。 4 第1 章引言 1 4 论文组织结构 本文提出小型中文信息检索测试集的构建方法,并实现一个可应用于信息检索评估 的小型中文测试集。具体组织如下: 第1 章:引言。简要介绍有关研究背景、研究现状、本文的主要工作及文章组织。 第2 章:测试集定义及相关知识。简要介绍了信息检索及测试集的定义、检索性能 评测指标和检验一致性的方法。 第3 章:测试集的结构分析。通过介绍已有的测试集,分析了组成测试集的文档集、 查询集和相关判断集三个部分的构成,并阐述了测试集的缺点。 第4 章:测试集的构建方法。主要介绍了本研究中文档集、查询集和相关判断集的 构建方法及步骤。并针对其过程提出了新的构建策略。 第5 章:测试集的性能分析:通过统计及一致性检验,对文档集、查询集和相关判 断集的合理性进行了验证,分析实验结果。 第6 章:总结与展望。对全文工作进行了总结并提出了未来的工作展望。 河北大学硕士学位论文 第2 章测试集定义及相关知识 2 1 信息检索定义 信息检索( i n f o r m a t i o nr e t r i e v a l ) 是指将信息按照一定的方式组织和存储起来,并 根据用户的需要找出相关信息的过程。c a l v i nm o o e r s 于1 9 5 1 年首次提出了“信息检索” 的概念:“信息检索是信息的潜在用户将信息需求转换为一张文献来源信息列表的过程 或方法,而这些文献包含有对其有用的信息【1 2 1 。 信息检索包括两个部分:第一,存储:将大量分散无序的信息集中起来,经过加工 整理,使之有序化、系统化,成为可以查询使用的信息集合;第二,检索:借助于查询 语言,将所需要的信息从集合中查找出来。这是广义的信息检索,狭义的信息检索仅指 第二部分,即从信息集合中找出所需信息的过程。 2 2 测试集定义 测试集( t e s tc o l l e c t i o n ) 是用来测试信息检索系统性能的一套标准数据的集合。测 试集按照某种方式,能够对某信息检索系统进行测试,并得出表示该系统的检索性能参 数。测试集由文档集( d o c u m e n ts e t ) 、查询集( q u e r i e s ) 和相关判断集( r e l e v a n c e j u d g m e n t s ) 三个部分组成。 文档集是一组文档的集合,该组文档的内容用来被信息检索系统进行文字分析;查 询集是向信息检索系统提出的闯题的集合,这些问题被称为查询主题;相关判断集是对 应查询集中查询主题所给的一组标准答案的集合,它被用来对比信息检索系统对于查询 集中的查询主题所给出的答案。测试集中的相关判断集是判断检索系统有效性的一个标 准,在理想情况下,相关判断集合应该是一个完整的列表,包含每个文档与每个查询主 题的相关程度。 2 3 检索性能的评价指标 根据提问者提交的查询需求,通过信息检索系统检索出的结果往往并不能完全符合 提问者的期望。一般来说,检索结果中可能还包含提问者不需要的文档,即非相关文档; 而有些相关文档也可能没有出现在检索结果里,所以要对检索结果按照其满足提问者需 求的程度进行排序,并对排序后的检索结果集合进行检索性能的评估。 第2 章测试集定义及相关知识 信息检索系统的性能评估方法是基于一个选定的测试集和选定的测试算法。测试集 包括文档集、查询集和与查询问题对应的相关判断集。相关判断集通常是根据查询问题 手工构成。由于对检索性能的评估主要是在相关判断集的基础上来完成,所以相关判断 集对检索性能的最终评估结果起着决定性的作用。 影响检索性能评价的还有检索任务。检索任务一般分为三种形式:批处理方式、交 互方式和二者混合方式。由于批处理和交互查询是两种截然不同的处理方式,因此对它 们的评估也不同。 评价检索系统的类型一般分为两种:实验室评价和真实环境评价。早期基于计算机 的信息检索系统的检索性能评价主要是采用批处理模式下的实验室评价。到了2 0 世纪 9 0 年代,人们则更加关注现实环境中的评价。根据实验结果判断,两种环境下的评价结 果往往有很大的不同。由于在实验室封闭环境下的评价具有可重复性和可扩展性,所以 目前实验室评价仍是主要的评估手段。 2 3 1 查准率和查全率 对于某个测试集,给定查询主题i ,与i 相对应的相关判断集为r ,吲表示该集合 中的文档数目。假定用给定的某个检索技术通过测试集对i 进行分析,其返回的结果文 档集为a ,川表示该集合中文档的数目,并设i r a l 表示文档集合r 和集合a 交集中的文 档数目,如图2 1 所示。那么查全率和查准率的定义如下: 查全率( r e c a l l ) :查全率定义为检索返回结果中的相关文档数与相关文档总数的比 值。 ,= 臀 ( 2 - ) 查准率( p r e c i s i o n ) :查准率定义为检索返回结果中的相关文档数与检索返回结果中 文档总数的比值。 p r e c i s 胁臀 ( 2 - 2 ) 7 河北大学硕+ 学位论文 图2 1 查全率与查准翠的表不结构 从上面的定义可以看出,查全率和查准率是以“返回结果集a 中的所有文档都已进 行了检索”为假设前提的。然而,系统一般不会将结果集a 中的所有文档全部的呈现给 用户,而是先对a 中的文档根据相关程度进行排序,然后用户从第一篇文档开始对这个 排序进行查看。在这种情况下,随着用户对a 中文档的检索,查准率和查全率会随之而 变化。这种变化可以一定程度上反映出检索系统的性能,所以进一步引入了查准率查全 率曲线的概念。 查准率查全率曲线:以标准查全率( 0 ,1 0 ,2 0 ,3 0 ,4 0 ,5 0 ,6 0 , 7 0 ,8 0 ,9 0 ,1 0 0 ) 为基础,通过计算出相应的查准率进而绘制的曲线。下面举 例说明该曲线的绘制方法。 设有查询主题i 相对应的相关文档集r = d l ,d 6 ,d 1 1 , d 1 9 ,d 2 9 ,d 5 6 ,d 6 3 ,d 8 4 ,d 9 1 ,d 1 1 2 , i r i = 1 0 。i 的结果文档集a 的排序结果为: d 6 3 ,d 4 9 ,d 2 9 ,d 9 5 ,d 7 3 ,d 4 ,d 6 ,d 3 1 ,d 7 2 ,d 1 3 1 , d 4 5 ,d l ,d 7 9 ,d 5 5 ,d 2 2 ) 。其中与i 相关的文档用 粗斜体标出。过程如下所示: ( 1 ) 排在第一位的d 6 3 是相关的,目前只检查到第一个,此时查全率为1 0 ,查准 率为1 0 0 。 ( 2 ) 排在第三位的d 2 9 是相关的,此时查全率为2 0 ,查准率为6 6 7 ,此时已检 查三篇文档,只有两篇相关。 ( 3 ) 依次地,当d 6 和d 1 出现时,其对应的查全率查准率分别为:3 0 4 2 9 和 4 0 3 3 3 。如表2 一l 所示。由于i 的结果文档集中并未包含所有的相关文档,所以查 全率大于4 0 时对应的查准率为0 。其对应的查全率查准率曲线如图2 2 所示。 8 第2 章测试集定义及相关知识 表2 1 标准查全牢查准率 查全率查准率 o o 1 0 2 0 3 0 4 0 5 0 6 0 7 0 8 0 9 0 1 0 0 图2 - 2 标准查全率查准率曲线分布 如果查询主题i 相对应的相关文档集r 的个数不为1 0 ,即一个查询的查全率不一定 恰恰是标准值,如当i r i = 5 时,检出第一篇相关文档的查全率为1 5 。解决该问题的一般 方法是采用插补法。设r j 为第j 个标准查全率的一个参量,则由第j 个标准查全率对应 的插补查准率定义为: p ( r j ) = m a x p ( r ) ( 2 3 ) r j ,s + o 即:第j 个标准查全率对应的插补查准率为介于第j 个和第j + 1 个标准查全率之间 的任意一查全率所对应的最大值。 例如,设r = d 6 ,d 2 9 ,d 6 3 ) ,a = d l ,d 6 3 ,d 5 ,d 7 ,d 2 0 ,d 2 9 ,d 2 1 ,d 2 3 ,d 5 6 ,d 1 2 1 ,d 6 ) ,则查 全率分别为:3 3 3 ,6 6 7 ,1 0 0 ,对应的查准率分别为5 0 ,3 3 3 ,2 7 3 。 3 3 ,6 6 ,1 0 0 ,对应的查准率分别为5 0 ,4 0 ,3 3 。根据插补法得到的查全率 查准率如表2 2 所示,其对应的查全率插补查准率曲线如图2 3 所示。 9 慨 嗍 一 妣 蝴 o o o o o o 1 1 6 4 3 河北大学硕士学位论文 表2 2 查全率捅补查准率 标准夯全率插补杏准率 图2 3 标准查全率插补查准率曲线分布 上面例子中查全率查准率都是针对一个查询的,然而实际上需要执行多个不同的查 询来评估检索算法。在这种情况下,每个查询都将对应不同的查全率查准率曲线。为了 评价某一算法对所有的测试查询的检索性能,可以对每个查全率水平下的查准率进行平 变化处理,称为平均查准率。 r ,) = 挚型 ( 2 4 ) 可2 善筹 q 。4 其中心是使用的查询总数,只是查询为r 时,第i 个查询的查准率。 有了平均查全率查准率就可以绘制出相对应的曲线,这种根据平均查全率查准率 绘制出的曲线又称为平均查全率查准率值。 目前平均查准查全率的值已经成为信息检索系统的一项标准评价指标。它能对整个 结果集的质量和检索算法的适用范围进行量化评价,因此非常有效。 2 3 2 其他评测方法 尽管查全率和查准率的使用非常普遍,但并不是所有的场合都适用。如今人们又提 出了其它一些评价方法。例如调和平均值和指标。 l o 鼢 似 似 姒 姚 肌 揣 嘶 嘶 慨 慨 5 匀 匀 匀 3 3 3 7 7 7 7 3 3 3 2 2 2 2 脱 嬲 舭 姒 姒 似 慨 舭 o , 2 3 4 5 6 7 8 9 k 第2 章测试集定义及相关知识 有些情况需要使用查全率和查准率结合在一起的单值测度。计算查全率、查准率的 调和平均值f 就是这样一种方法【1 3 】,其计算公式为: 刑) = 击 q 巧 而+ 而 式中的r ( j ) 和p ( j ) 分别是指序列中第_ ,篇文档的查全率和查准率。而f ( j ) 是r ( j ) 和 尸( ) 的调和平均值。函数f 的取值范围在区间 o ,1 】上,当没有检索到相关文档时,f 为 0 ;而当排序中的所有文档都相关时,f 为1 。另外,只有查全率和查准率的值都较高 时,调和平均值f 的值也才会相应的较高。因此,只要找到查全率、查准率之间的最大 可能折中,就可以确定f 的最大值。 另一种评测方法是e 指标【14 1 。其思想是允许用户指出他更关注查全率还是更关注查 准率。指标的定义如下: 刚) _ 1 一普 。6 而+ 而 这里的r ( j ) 和p ( j ) 是排序结果第歹篇文档的查全率和查准率,e ( j ) 是相对于r ( j ) 和 尸( 歹) 的e 评价指标,b 则是由用户制定的参数,反映查全率和查准率相对的重要性。b = 1 时,表示e ( j ) 指标与调和平均值f ( j ) 互补;b 值大于1 时,表示用户对查准率更感兴 趣;b 值小于1 ,表示用户对查全率更感兴趣。 其它评测手段还有只考虑相关文档的满意度以及只考虑无关文档的失望度【1 5 】等方 法。 2 4 两种判断一致性的方法 在研究工作中,常常遇到评测两种检测方法或两组检测人员的判断结果是否具有一 致性以及用同一种方法进行测定的结果能否重现的问题。在相关判断集的构建完成后, 必须经过一致性检验,才能够证明其有效性。 下面介绍k a p p a 检验【1 6 】和k e n d a l l 检验1 7 】两种判断方法。 2 4 1 k a p p a 一致性系数 k a p p a 系数适用于两项分类和多项分类资料。用两种方法分别对n 个观察对象逐一 河北大学硕十学何论文 k a p p a 一致性系数k 的计算公式为: 后:旦二堡 1 。p e ( 2 7 ) 其中,:上e 1 _ a i i ,见:善r p o口汤,讲:等,6 ,:雩。式中,见、见分别为两种测 其中, = 上1 _ 一,见2 善谢扰,口f2 詈,坊2 号。式中,见、见分别为两种测 定方法结果的实际一致率和期望一致率;a i i 为c x c 列联表中主对角线上的实际值; 为总列数;彳f 、曰,分别为第衍于,第f 列的边际值;历、6 f 分别为第f 行,第f 列的边际 频率。其中,期望一致率是假设两种测定方法相互独立的前提下所期望的一致性。 k a p p a 值的假设检验:根据实际资料计算的k 值只是一个样本的统计量,存在着抽 样误差,因而,两者之间的一致程度可能是由于机遇造成的,所以应当经过假设检验, 检验公式( 2 8 ) 服从于标准正态分布。其中,b e l a j 为k 的标准误。 “:上( 2 8 )“= l z 一石j ( j i ) 驰) = p e 耐一孕r 渤俐 1 2 ( 2 9 ) 第2 章测试集定义及相关知识 l a n d i s 和k o c h 将k a p p a 一致性系数的大小划分为六个区段【1 8 】,分别代表一致性的 强弱程度。当k 7 时,检验统计量为x 2 , x 2 = k ( n 一1 ) w ( 2 1 3 ) 其中,x 2 服从自由度为d f = n 一1 的x 2 分布,若x 2 的计算值大于或等于给定显著 性水平的临界值,认为意见一致,否则为不一致【2 0 1 。 1 4 第3 章测试集的结构分析 第3 章测试集的结构分析 研究者进行信息检索系统评估的一般过程,是将需要查询的问题通过分析、处理形 成检索系统能够利用的查询主题,将其输入到待检测的检索系统中,检索系统在已规定 的文档集合内进行检索,将检索系统判定为相关的文档提交给研究者,研究者再将得到 的文档和标准答案作对比,以此评价检索系统的性能。因此,测试集主要由三个部分构 成: ( 1 ) 文档集 ( 2 ) 查询集 ( 3 ) 相关判断集 一日口 图3 - 1 测试集的构成及评估过程 如图3 1 所示,文档集是一组文档的集合,该组文档的内容用来被信息检索系统进 行文字分析。文档集质量的高低直接决定了整个测试集的质量和信息检索系统评估工作 的效果;查询集是需要信息检索系统进行检索分析的问题的集合,这些问题被称为查询 主题;相关判断集是对应查询集中的查询主题所给出的一组标准答案的集合,它被用来 对比信息检索系统对于查询集中的查询主题所给出的检索结果。 早期的测试集规模都比较小,除了c r a n f i e l d i i 之外,还有c a c m 、i s i 、a d i 、t i m e 等小型测试集【2 1 。2 4 1 。它们有以下两个特点:第一,这些测试集大部分是为了特定的测试 1 5 河北大学硕十学位论文 而建立,由于它们各自测试目的和测试对象不同,所以也有着不同的组成结构。比如i s i 测试集,除了文档正文之外,该测试集还包括结构化的子字段,如作者姓名、从题名和 摘要部分提取出来的词干、两篇文档同被引用的次数等。而c a c m 测试集则多出了日 期信息、文章间的直接引用及引文耦合关系等信息;第二,这些小型测试集同质性较高。 比如,c r a n f i e l d i i 实验所使用的测试集由中的文档范围限定于太空动力学的领域,c a c m 的范围限定于计算机科学领域。 之后又陆续发展了一些小型的测试集,如o h s u m e d f 2 5 1 、c y s t i cf i b r o s i s 2 6 1 、 b m i r j 2 2 刀等。虽然这些测试集比之前的测试集在规模上较大,但大体上其形式还是相 似。 表3 - 1 整理了早期重要测试集的构成情况【2 8 1 ,从中可以看出测试集的规模变化和一 些特征。表中的n a ( n o t a v a i l a b l e ) 表示没有获得该方面的信息。 表3 - 1 已有测试集的基本构成资料 由于制作过程需要耗费很大的精力和人力,研究者不愿在测试集的构建上耗费过多 的时间,一些起初被用作其它评估工作测试集,就算不符合系统评估的要求,通常还是 会被重复的使用,如c r a n f i e l di i 测试集中的子测试集就频繁被采用,这样的测试效果对 检索系统很难做出正确的评价。另外,一些研究者将多个小型测试集结合起来,进而对 检索系统进行评估【2 9 】。 研究者急需一个能够可应用与不同测试目的的通用性测试集,使不同的检索系统都 能够运行在同一个测试平台上,这样的测试集将会大大推动信息检索系统的研究工作。 第3 章测试集的结构分析 s p a r c kj o n e s 与v a nr i j s b e r g e n 认为:理想的测试集除了必须具备一定得规模之外,在文 档及查询主题的内容、形态、取得来源等方面要有相当程度的异质性以反映真实的检索 环境,但是在测试集内部,也应包含一些同质性高的子测试集,提供特定目的的测试之 用【2 2 】。因此,测试集可以通过划分主题领域分别建立,以不断扩充的形式进行构建。 从1 9 9 2 年至今,t r e c 建立了一个不同于早期测试集的大规模测试集。其中,文 档集和查询主题的结构特性与先前的测试集的差异性十分显著。t r e c 发展到现在,已 经成为备受瞩目的测试平台,其对信息检索研究领域产生了巨大而深远的影响。如今, 在t r e c 评估中表现出色的技术往往成为大家研究的重点,t r e c 不断的为新的技术研 究提供所需要的数据并更新评价体系,促进了这些技术的快速发展。 由于t r e c 发展的非常成功,所以在此之后陆续发展的测试集,大部分都效仿其架 构与模式。本文主要以t r e c 测试集为例,分析测试集的文档集、查询集和相关判断集 三部分的组成结构。 3 1 文档集( d o c u m e n ts e t ) 文档集是整个测试集的基础。查询集和相关判断集也都是在文档集的基础上进行分 析、构建的。 t r e c 从创建之处就致力于建造大规模的测试集。首先就是文档集的规模上,随着 每年不断的补充新的文档,t r e c 已经从最初t r e c 1 的几百m b ,到如今已经发展到 4 0 0 多g b 的规模。其类型已经不仅仅是纯文本文档,现在处理的对象范围更加广泛。 本文所涉及到的文档为纯文本文档。t r e c 的文档内容的选取上也是来源广泛,如华尔 街时报、联合通讯社等等。 文档集中的文档都有其固定的存储格式,已方便使用者设定检索体统对其进行检 索,避免了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论