《网络信息检索》课件第6章_第1页
《网络信息检索》课件第6章_第2页
《网络信息检索》课件第6章_第3页
《网络信息检索》课件第6章_第4页
《网络信息检索》课件第6章_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章信息检索性能评价6.1信息检索评价指标6.2信息检索评价基准6.3小结思考题6.1信息检索评价指标

6.1.1查全率和查准率

1.一般定义

如果要评价一台机车的性能,可以使用马力、转速、扭矩等量化指标来进行。为了评价检索效果,最好也使用一些量化的指标。英国学者Cleverdon在Granfieid试验中首次将查全率(亦称召回率)与查准率(亦称精度)作为信息检索系统质量的评价指标[1-2]。

设存在一个文档集D,针对某个查询q,从这个文档集中检索出的文档集为R,其中相关文档集为RR,不相关文档集为RN,未被检索出的文档集为N,其中的相关文档集为NR,不相关文档集为NN。那么上面几个集合存在如下这些关系:

定义6-1

查全率(Recall)是指针对某个特定查询,在某个文档集中检索出的相关文档数量与文档集中所有相关文档数量的比值。(6-1)(6-2)查全率反映了检索系统或检索策略检索出相关文档的能力,或者换句话说,反映了避免漏检相关文档的能力。定义6-2

查准率(Precision)是指针对某个特定查询,在某个文档集中检索出的相关文档数量与所有被检索出的文档数量的比值。

查准率反映了检索系统或检索策略不检索出错误相关文档的能力,即避免错检,抵抗噪声的能力。

从上面的公式可以看出,查全率和查准率的计算公式的分子相同,为了提高查全率和查准率,必须尽可能地降低NR和RN,即没有检索出的相关文档集和检索出的不相关文档集都趋于最小,理想的情况将达到Recall=1(当NR=0时),Precision=1(当RN=0时)。(6-3)一般来说,查全率和查准率不可能同时高企[3-4],因此需要在两者之间权衡。不同的应用、不同的用户可能会对两者的要求不一样。有些用户希望返回的结果全一点,以便在结果集中挑选;有些用户希望返回的结果准一点,以便不需要结果很全就能完成检索任务。

有了定量的定义,并不代表可以进行精确的计算了,尤其是面对海量的文档集,相关不相关的判断难以完成,所以下面介绍一些常用的实用量化指标。

2.P-R曲线

查全率和查准率的计算,必须对检索出的文档进行相关性判断,区分出哪些是相关文档、哪些不是。但是系统给用户的结果集往往是排序的,也常分批次提供,也可能很大,用户一般从第一篇文档开始逐篇核查是否相关,在这种情况下,查全率和查准率的计算结果可能会随着用户的核查进程而变化。因此,人们常常通过绘制查准率/查全率曲线(P-R曲线)来进行检索效果的评价,这种评价方法还利用了结果集的排序情况,这是几乎所有信息检索系统都具有的输出模式。

【例6-1】

针对某次查询q,在一个有1000个文档的集合中,与查询q相关的文档有10个,采用某种信息检索算法,得到查询结果如表6-1所示。试计算查全率分别在0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0时的查准率,并绘制P-R曲线。

解:根据公式分别计算在各相关点上的查全率和查准率,结果如表6-2所示。由表6-2的计算结果绘制出P-R曲线如图6-1所示。图6-1例6-1的P-R曲线从上面的例子可以清楚地看到,随着查全率的增加,查准率表现出明显的下降趋势。

为了更方便地绘制P-R曲线,也为了便于比较,学者们常常使用11点标准查全率水平下的P-R曲线,即P-R曲线的横轴使用11点标准查全率(11standardrecalllevels)(0%,10%,20%,…,100%)。但在实际使用时,可能得不到完全的11点标准查全率,这就需要进行插值。插值方法有多种,这里给出一种:设rj(j∈{0,1,2,…,10}为第j个标准查全率(如r5是查全率为50%的参量)的一个参量,那么:(6-4)这是指第j个标准查全率水平的插补查准率是介于第j个和第j+1个查全率之间任意一个查全率所对应的最大查准率。另外一种插值方法是取往后的已知查全率对应的最大的精度值:(6-5)即查全率rj对应的查准率取其后的最大查准率,这样得到的P-R曲线是阶梯函数,具有单调性。对11点上的查准率求平均值,就得到11点平均查准率。

TREC评测采用式(6-5)的插值方法,本文也采用该方法进行插值。

【例6-2】

针对某次查询q在一个文档集中进行检索,已知对应的相关文档共有5个。分别采用两种检索策略进行查询得到不同的查询结果,如表6-3所示。试比较两个检索策略的检索效果。解:根据查全率和查准率的公式分别计算查全率和查准率,如表6-4所示。根据表6-4绘制出P-R曲线如图6-2所示。图6-2例6-2的P-R曲线从图6-2可看到,检索策略1的P-R曲线略高于检索策略2,检索策略1的检索效果略好于检索策略2。

利用式(6-5)介绍的插值方法,对例6-2进行插值修正,如表6-5所示。绘制出对应的11点标准查全率下的P-R曲线如图6-3所示。图6-3例6-1中11点标准查全率水平的P-R曲线在例6-1中,查准率-查全率的值都是针对某个特定查询的,实际使用中,往往通过执行多个不同的查询来评价检索算法或策略,这时,每个查询都将对应不同的P-R曲线。为了评价某一算法或策略对于所有测试查询的检索性能,可以使用平均查准率这个指标,定义如下:(6-6)式中:(r)是查全率为r时的平均查准率(averageprecision);Nq是使用的查询总数;Pi(r)是查全率为r时第i个查询的查准率。6.1.2其他评价指标

查全率和查准率一般呈现互逆的关系,即随着查全率的增加,查准率会降低。有的情况下,同时使用这两个指标并不能很好地反映事件的本质。例如:

(1)两个指标分别衡量了系统的某个方面,但是给比较带来了难度。因此需要考虑单一指标,将两个指标融成一个指标。

(2)两个指标都是基于文档集合进行计算,相关文档在返回集中的排列序号没有得到特别的体现。例如两个系统,对某个查询,返回的相关文档数目同样都是10,但是前者返回相关度最高的10条结果,后者返回相关度最低的10条结果,显然前者为优。但是根据上面基于集合的计算,显然两者指标一样,这是因为没有考虑到排序的关系。

(3)在网络信息检索时,文档集非常巨大,查全率难以计算。因此需要考虑在无法计算查全率的情况下,如何衡量系统性能的问题。

这里介绍一些其他的评价指标,检索性能评价人员可以根据需要选择使用。

1.调和平均值

调和平均值F是一个比较常用的单值指标。它综合考虑了查全率和查准率,但它并不是简单地对查全率和查准率取算术平均,其计算公式定义如下:(6-7)式中,F称为查全率R和查准率P的调和平均值,其取值范围在区间[0,1]上。如果结果集中没有包含相关文档,即没有相关文档被检出时,查全率和查准率都为零,相应地,这时的调和平均值也为零;如果结果集中的文档全部和查询相关,这时查全率和查准率都为1,对应的调和平均值也为1。当然这是个理想情况,很难达到。一般来说,只有查全率和查准率的值都较高时,调和平均值F的值才会相应地较高。因此,信息检索算法可以试图找到查全率、查准率之间的最大可能折中,以达到最大的调和平均值。

2.E指标

E指标也是综合考虑查全率和查准率的单值评价指标。调和平均值同等对待查全率和查准率,不偏重任何一方,而E指标允许用户指出自己更关注查全率还是更关注查准率。

E指标的定义如下:(6-8)式中:R和P分别是查全率和查准率;E称为R和P的E指标;β是用户指定的参数,反映对查全率和查准率的关注程度。当β=1时,

E指标和调和平均值F相同。当β>1时,表示用户对查全率更感兴趣;当β<1时,表示用户对查准率更感兴趣。不管β取值如何,E值都落在[0,1]区间。当查全率和查准率都为1时,E值为1;当查全率和查准率都为0时,E值为0。所以,一般来说,

E值越大,检索效果越好。

【例6-3】

针对某个查询q,在文档集中共有10个相关文档,采用6种不同的检索方法A、B、C、D、E、F,分别获得6个不同的结果集,见表6-6所示。试采用P-R曲线、11点平均查准率、F调和平均值、E指标等不同的指标评价6种检索方法的检索效果,比较而言,哪种检索方法更优?

解:首先分别计算查全率和查准率,结果如表6-7所示。绘制6种检索方法的P-R曲线(插值后)如图6-4所示。图6-4例6-4的P-R曲线从P-R曲线看到,检索方法A具有较好的检索效果,其次是检索方法D。

再来计算每种方法的11点平均查准率,如表6-8所示。从11点平均查准率来看,检索方法A具有较好的检索效果,其次是检索方法D和E,最差的是检索方法C。再来计算调和平均值和E指标,如表6-9所示。从表6-9看出,对应于6种检索方法,其最大调和平均值F依次为:0.82,0.47,0.5,0.63,0.63,0.63。可见,从调和平均值来看,检索方法A的效果最好,检索方法B的检索效果最差。

从表6-9还看出,对应于六种检索方法,当β=0.5时,其E指标最小取值依次为:0.08,0.47,0.5,0.27,0.35,0.40。可见检索方法A的检索效果最好,检索方法D次之。对应于6种检索方法,当β=2时,其E指标最小取值依次为:0.26,0.57,0.5,0.39,0.39,0.33。比较而言,检索方法A的检索效果最好,检索方法F次之。不妨来看看图6-5所示的E指标随查全率的变化趋势。图6-5不同检索方法的E指标变化图从两张图上都不难看出检索方法A的优势。

3.R-查准率

R-查准率是一个常使用的量化指标,既是一个单一指标,也考虑了排序的作用。

R-查准率是指在查询结果排序集中第R个位置对应的查准率,其中的R指文档集之中与当前查询相关的文档个数。下面举例来说明这个指标的计算。

【例6-4】

针对某次查询q在一个文档集中进行查询,假设与查询q相关的文档共有3个。分别采用两种检索策略进行查询得到不同的查询结果,如表6-10所示。试采用R-查准率比较两个检索策略的检索效果。

解:由题意知这里查询q相关的文档共有3个,所以:

对于检索策略1,R-查准率为2/3=0.67;

对于检索策略2,R-查准率为1/3=0.33。

单从R-查准率来看,检索策略1明显好于检索策略2的检索效果。

R-查准率的极值是100%,在这种情况下,检索结果集中排在前R位的文档全部是相关文档。

但是很多情况下,由于文档集太大,根本无法得到与某次查询相关的文档个数,R-查准率也无法计算。为此,有人对R-查准率的定义作了变通,把R看做查询结果集中排列在前面的R位,这时R可任取10,20,50,100或其他值。

4.P-R曲线的平衡点

前面介绍的P-R曲线简单直观,既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况。但是不同查询的P-R曲线经常交叉,在很多情形下难以明确表示两个查询的检索结果的优劣。

定义平衡点(breakpoint)为P-R曲线上P=R的那个点,这样可以直接利用平衡点的值进行单值比较。

5.平均查准率AP

平均查准率(AveragePrecision,AP):对不同查全率点下的查准率进行平均。AP的计算又分为以下几种情况:

(1)未插值的AP,直接根据返回结果,计算各查全率下的查准率的平均值。

(2)插值的AP。在查全率分别为0,0.1,0.2,…,1.0共11个标准查全率下的查准率求平均,等价于标准11点平均值。

【例6-5】

某个查询q共有6个相关文档,某系统针对该查询输出的排序结果集共有5篇相关文档,其位置分别是第1、第2、第5、第10、第20位,求该系统检索的平均查准率。

解:当

查全率=1/6时,查准率为100%;查全率=2/6时,查准率为100%;

查全率=3/6时,查准率为60%;

查全率=4/6时,查准率为40%;

查全率=5/6时,查准率为25%。

(1)未插值的平均查准率为

(2)插值的平均查准率为一般地,同一套系统对不同查询的AP值是不同的。系统评估要考虑对多个查询进行评估的指标。因此可以对AP取平均值,平均的方法也有两种:

(1)宏平均(MacroAverage):对每个查询求出某个指标,然后对这些指标进行算术平均。

(2)微平均(MicroAverage):将所有查询视为一个查询,对各种情况下的文档总数求和,然后进行指标的计算。比如微平均查准率可以这样计算:

【例6-6】

设有两个查询q1和q2,对应的相关文档数目分别为100个和50个,某信息检索系统使用查询q1检索,输出80个结果,其中相关文档数为40;该系统使用查询q2检索,输出30个结果,其中相关文档数为24。试计算宏平均查准率、微平均查准率以及微平均查全率。

解:当只考虑单个查询的时候,查全率和查准率分别如下:

对于查询q1:对于查询q2:宏平均指标:微平均指标:将两个查询看做一个查询,对应的相关文档数为100+50=150个;将两次查询结果看做一个查询结果,即输出结果为80+30=110个,相关文档数为40+24=64个,由此计算得:宏平均对所有查询一视同仁,微平均则受返回相关文档数目比较大的查询的影响。

有时,还会用到另外一个指标MAP(MeanAP),它是对所有查询的平均查准率AP再求宏平均。

6.Precision@N

对于网络信息检索,一个查询的标准答案,即相关文档,几乎是无法得到的,导致查全率也无法计算,这个时候可以选择不考虑查全率的性能评价指标,如Precision@N。Precision@N是指计算排序结果集中第N个位置上的查准率。对于搜索引擎来讲,大部分用户只关注前一两页的检索结果,所以P@10和P@20是非常有效的衡量指标。

7.平均排序倒数MRR

对于某些信息检索系统(如问答系统或主页发现系统),只关心第一个标准答案在排序结果集中的位置,越靠前越好,这个位置的倒数称为排序倒数RR(ReciprocalRank)。对所有查询的排序倒数求平均,则得到平均排序倒数MRR(MeanReciprocalRank)。

【例6-7】

设有两个查询q1和q2,检索系统对查询q1返回的标准答案在排序结果集中列第2,对查询q2返回的标准答案在排序结果集中列第4,试计算该检索系统的平均排序倒数指标MRR。解:对于查询q1,RR=1/2=0.5;对于查询q2,RR=1/4=0.25,则该检索系统的平均排序倒数为:

通常,排序倒数值越大,第一个标准答案的排序越靠前。极端情况下,在结果集中,没有标准答案,排序倒数趋近于零;第一个标准答案排在第1,则排序倒数为1。

8.面向用户的评价方法

前面介绍的评价指标,是比较客观的量化指标,是以检出文档与查询是否相关为基础的。但是,各个用户对相关性的认同是和用户自身的认识紧密相关的。因此,这里介绍一些面向用户的评价方法和指标[4],如覆盖率、新颖率、相对查全率等。

设存在一个文档集D,针对某个查询q,从这个文档集中检索出的文档集为R,其中相关文档集RR,不相关文档集RN;未被检索出的文档集为N,其中的相关文档集为NR,不相关文档集为NN;U是用户已知的相关文档集,UK是检出的用户已知的相关文档集,UN是检出的用户未知的相关文档集。定义6-3

覆盖率C是指实际检出的相关文档中用户已知的相关文档所占的比例,即:(6-9)式中,|UK|指检出的用户已知的相关文档个数;|UN|是检出的用户未知的相关文档个数。覆盖率反映了某种检索方法或某个检索系统检索出用户所需文档的能力,覆盖率越高表明这种能力越强。定义6-4

新颖率(Novelty)是指实际检出的相关文档中用户未知的相关文档所占的比例,即:(6-10)新颖率反映了某种检索方法或某个检索系统检索出新信息的能力,新颖率越高表明这种能力越强。

定义6-5

相对查全率是指检出的相关文档数量与用户期望检出的相关文档数量之比。

相对查全率反映了用户的期望满足度,相对查全率越高,用户越满意。

6.2信息检索评价基准

由于信息检索系统的测试通常在规范化环境下进行,受各种因素的影响,其正确性(Validity)主要与所设计的测试机制包括测试集(TestCollection)、测试的规则与程序、以及评估系统有效性的准则(EffectivenessMeasurement)等有关。用户进行信息检索的一般模式,是将要查询的问题形成查询问句输入检索系统,检索系统在索引库中进行检索与相关判断,将其认为可能符合需求的信息输出给用户。信息检索系统的测试便是仿真这样的过程,因此测试集通常会包括一组文档集、查询问题以及表示两者之间相关性的答案集(AnswerSet)。换句话说,测试集是测试时所使用的基础数据,参与测试的系统必须在其上运作,依据所制定的查询问题,以文件集作为检索的对象,并将相关判断结果视为标准答案,借此进行检索性能的评价。虽然信息检索系统的性能可以通过某个测试基准来评价,即检索效果可以通过某个给定的文档集、查询集和相关判断来评价。然而评价受到很多因素的影响,很难精确描述。由于评价环境的影响,某些性能数据仅在系统处于某个特定评价环境时才能得到。这样,由于测试环境不一致,没有公认的具有权威性的标准,就会导致众说纷纭的局面。

在这种情况下,各种参考文档集(ReferenceDocumentSet)不断提出,其中TREC[14]参考文档集因为其包含大量的信息和实验的彻底性,常用作参考测试集(ReferenceTestCollection)。本节先对目前广泛用于信息检索系统评价的基准测试集作概括性的介绍,在此基础上,介绍TREC测试集的一些基本情况,最后简要地介绍北大天网CWIRF(ChineseWebInformationRetrievalForum)中文Web检索评测[18]。6.2.1基准测试

自20世纪50年代开始的信息检索系统评估,多是在规范化的环境中进行测试的,通过一些量化准则,衡量不同技术或不同系统间检索性能的优劣。基准测试集主要由文档集(DocumentSet,DocumentCollection)、查询(Query,Topic)、相关判断(RelevantJudgment)三部分组成。评价的流程一般如图6-6所示。图6-6利用基准测试进行评价的过程示意图早期这方面的研究,最著名的是Cleverdon在1966年所进行的CranfieldⅡ计划[1],其实验是通过由一组文档集、查询问题以及相关判断(RelevanceJudgment)所组成的测试集(TestCollection)和有效性测度(EffectivenessMeasurement)来评估不同检索方式的优劣。除CranfieldⅡ外,还有如ADI、MEDLARS、TIME、CACM、CISI、NPL、INSPEC、ISILT、UKCIS、UKAEA、LISA、OHSUMED、CysticFibrosis和BMIR-J2等[5-12],依据其测试目的和测试对象等的不同,而各有不同的组成结构。但这些测试集的规模均不大,且同构性颇高,大多是为了个别的测试计划而建立的。由于这些测试集的规模与特性与真实的检索环境有相当大的差异,所以基于这些评估所开发的检索系统,在实际运作时往往无法获得良好的效益。因此依据它们进行的系统测试,有效性受到质疑。要完成一个测试集的建构是很耗费时间及人力的,尤其是在相关判断的部分。以CranfieldⅡ研究为例,若要将每个查询问题逐一与每篇文档比对其相关性,必须执行数十万次的相关判断,所付出的代价可想而知。因此,早期的测试集往往无法达到很大的规模。若能构建一个较完整的测试集,即使与系统的测试目的不尽符合,通常还是会有许多人重复使用,如CranfieldⅡ测试集中的子测试集(包含200篇文档及42个查询问题)[12]就被广泛引用。另外,也有一些研究将多个测试集结合起来,如SMART系统评估计划即采用了6个不同主题领域的测试集进行实验[13]。

1992年,美国国防部高等研究计划署(DefenseAdvancedResearchProjectsAgency,DARPA)与美国国家标准技术局(NationalInstituteofStandardsandTechnology,NIST)共同举办了文本检索会议(TextREtrievalConference,TREC)[14],通过大型测试集的构建,以及测试项目、测试程序和评估准则的制定,提供不同检索系统与检索技术之间的标准评估环境,使得测试环境更接近真实的情况,对检索技术的发展与系统效益的提升具有重要的贡献。TREC提供的大规模测试集,其文件集及查询问题的结构与特性亦与传统的测试集有显著差异,至今仍被广泛使用。另外,目前亦有一些其他语种的测试集正在研发中,如以日文为主的NTCIR(NACSISTestCollectionforIRSystems)[15]、IREX(InformationRetrievalandExtractionExercise)[16],以法文为主的AMMARYLLIS[17]等,以中文为主的CWT100G[18]等,它们均是仿效TREC测试集的架构而建立的。总之,近年来测试集的发展主要以TREC为榜样,无论在规模、组成特性等各方面都较以往有大幅的增进,且正在持续扩展之中。6.2.2TREC评测

1992年11月,第一届TREC在NIST举行。之后NIST和DARPA作为主办方开始每年举行一次TREC会议,会议的主要目的是推动大型测试集的实验研究。由于这个会议选用的测试集是在TIPSTER项目下建立起来的,故TREC测试集也称为TIPSTER或TIPSTER/TREC测试文档集。下面将简要介绍TREC会议的任务和TREC测试集及其主要组成部分。TREC测试集同其他测试集一样由文档集、查询(TREC术语集中称为主题)和相关判断组成。

TREC对学术界最重要的意义在于评测的标准化流程。在标准测试方法出现之前,信息检索方法之间很难进行有意义的横向比较。TREC通过提供标准的数据集和测试集并规定统一的运行方式,使公正的评测成为可能。通过十多年的研究与探索,一些优秀的算法表现出了很高的性能,逐渐被学术界广泛接受。对工业界来说,由于TREC任务很接近实际问题,所以TREC中应用的检索技术对它们有重要的实用价值。

1.TREC会议主要任务

在TREC的官方网站,可以看到TREC的主要目标包括:

(1)以大规模测试集为基础,推动信息检索的研究;

(2)为学术界、工业界和政府提供一个开放式的论坛,使与会者能交流研究的成果与心得,以增进学术界、产业界与政府的交流互通;

(3)提供基于现实问题的检索任务,经过对真实检索环境的模拟与重要改进,加速将实验室研究技术转化为商业产品;

(4)为工业界和学术界提供和改进适宜的评测方法,并开发更适合现有系统的评测方法。早期TREC会议的主要任务包括两项信息检索任务。第一个为即时(adhoc)检索,是针对确定文档集进行的新的查询。第二个是路由(routing)检索,即对文档常常发生变动的动态文档集执行确定的查询。在特别检索中,待检系统接受要测试的查询,并在事先指定的文档集中进行检索。

即时检索任务相当于传统的批处理检索试验,类似于我们传统的在图书馆查询资料的过程,文档集是已知的,而目标任务却是未知的或模糊的。TREC的这种任务是使用不同的查询问题,在同一文档集合中进行检索。参加者在开赛前只拥有文档集,所用自然语言检索式是在开赛时才交给参加者的。参加者可以先对数据库作各种各样的分析研究(包括建立词表),做好检索式样准备。路由选择检索则相当于定题检索的形式,它的信息需求是相对固定的,但文档集却随时间处于不断的变动之中。TREC对此使用同样的一批查询式,在不同的文档集中进行检索。待检系统接受要测试的信息查询以及两个不同的测试文档集。第一个文档集用来训练并对检索算法调整,第二个则用来对调整后的检索算法进行测试。参加者在开赛前仅有自然语言查询式和一个训练文档集合,真正的测试文档集到开赛时才发给参加者。参加者可以先对给定的查询问题使用训练集进行检索训练,作各种分析,不断调整其检索式的构造,直到提交给NIST最终的检索之后,就不能再对检索式进行修改了。随着互联网上信息种类的多样化,TREC又不断针对各种应用增加其包含的任务。自TREC-5之后,加入了交互(interactive)、自然语言(naturallanguage)、多数据库融合(multipledatabase)、跨语言(cross-language)、过滤(filter)等新的任务。近年来出现的主要是如下几种项目:跨语言检索、信息过滤、生物信息学(Genomics)检索、高精确检索(HighAccuracyRetrievalfromDocuments,HARD)、交互性检索、新颖(Novelty)性检索、问答(QuestionAnswering)、鲁棒性检索(RobustRetrieval)、垃圾邮件过滤(SPAM)、TB级检索(Terabyte)、Web检索、博客(Blog)检索、企业级(Enterprise)检索等。每届项目总是处于不断的发展变化之中,新的任务不断出现,达到目标或过时的项目则退出历史舞台。随着新的学科热点的形成,TREC总是在及时地跟进,加入新的项目,开拓新的研究领域。表6-11列出了截至2007年TREC举办过的测试项目。

2.TREC文档集

自1992年第一届TREC会议举行以来,TREC的文档集规模不断扩大,且被越来越多的研究人员和机构所接受和采用。第三届TREC会议时文档集已接近2GB;第六届TREC年会时已增加到5.8GB。除了文档集的规模之外,文档的异质性亦为一大特色。

TREC文档集主要收入新闻文件及少数期刊,主要包括WSJ(WallStreetJournal)、AP(AssiociatedPress(newswire))、ZIFF(ComputerSelectsarticles,Ziff-Davis)、FR(FederalRegister)、DOE(USDOEPublications(abstracts))、SJMN(SanJoseMercuryNews)、PAT(USPatents)、FT(FinancialTimes)、CR(CongressionalRecord)、FBIS(ForeignBroadcastInformationService)和LAT(LATime)等。为了便于分析,在TREC所有子库中的文档都用SGML(StandardGeneralizedMark-upLanguage)作了标引,而且所有文档编号字段等主要结构都相同,以便于检索系统进行解析(Parsing)。

下面是华尔街时报子库中标号为WSJ880406-0090的TREC文档的表示。表6-12是对TREC-6的光盘内容以及该文档集的一些简单统计数据[19]。

3.TREC主题

基准测试集中的查询在TREC测试集术语中称为主题(topic),TREC主题仍然采用标记语言描述,一般包括〈Total〉、标题〈Title〉、描述〈Description〉、相关叙述〈Narrative〉和概念〈Concepts〉等内容。

·

Title:标题,通常由几个单词构成,非常简短;

·

Description:描述,一句话,比Title详细,包含了Title的所有单词;

·

Narrative:详述,更详细地描述了哪些文档是相关的。

TREC-3的主题示例如下:

〈top〉

〈num〉Number:177

〈title〉Topic:EnglishastheOfficialLanguageintheU.S.

〈desc〉Description:

DocumentwillprovideargumentssupportingthemakingofEnglishthestandardlanguageoftheUS

〈narr〉Narrative:

ArelevantdocumentwillnoteinstancesinwhichEnglishisfavoredasastandardlanguage.Examplesarethepositiveresultsachievedbyimmigrantsintheareasofacceptance,greatereconomicopportunity,andincreasedacademicachievement.Reportsarealsodesiredwhichdescribesomeofthelanguagedifficultiesencounteredbyothernationsandgroupsofnations,e.g.Canada,Belgium,EuropeanCommunity,whentheyhaveoptedfortheuseoftwoormorelanguagesastheirofficialmeansofcommunication.Notrelevantarereportswhichpromotebilingualismormultilingualism.

〈/top〉TREC-4的主题举例:

〈top〉

〈num〉Number:217

〈desc〉Description:

Reportingonpossibilityofandsearchforextra-terrestriallife/intelligence.

〈/top〉

TREC是以仿真的方式建立查询主题,并非实际搜集真实的用户需求。为了使每次构建出的50个查询主题在描述方式、词汇运用等方面能有某种程度的一致性,自TREC-2开始,每届的查询主题均由一至两位专家负责制定。此外,为了使产生的查询主题难易适中,并反映真正的信息需求,TREC设立了一个特殊的筛选程序。主题制定者首先根据目标文件集所涵盖的主题范围,仿真约100个候选查询主题,透过在系统中的初步检索结果,观察查询主题在文件集中可能的相关文件与数量,其中含有太多、太少,或是含意模糊、难以判断之相关文件的查询主题,将会被删除。依此程序筛选出50个查询主题,经过主题制定者再次逐一检视与修改后,则成为最后的查询主题。信息检索系统采用TREC测试集来评估检索性能时,必须将主题(查询式)转化为系统的查询表达式,如布尔表达式、模糊表达式等,这个转换也是评价过程很重要的一环。

4.相关判断

相关判断是指对每个主题汇编出相关文档列表。对于大规模文档集合,列举每个查询的所有相关文档是不可能的,因此,不可能准确地计算查全率。TREC相关判断的方法主要采用缓冲池(Pooling)或称为收集池的方法:即对多个检索系统的前N个结果组成的集合进行标注,标注出的相关文档集合作为整个相关文档集合。这是因为相关文档的数量太多,通过人工逐篇判断是否相关几乎不太可能,所以选出各种来源的最有可能相关的文档形成“池”(pool),再人工判断“池”中的文档是否相关,没有被选进“池”的文档认为是不相关文档。缓冲池方法的具体评估过程是:针对每个查询主题,从参加评测者提交的结果中挑选其中一部分运行结果,一般选取每个运行结果的前n篇文档,去掉这些文档中的重复文档,构成一个文档池,然后再送回给该查询主题的制定者进行相关或不相关的二值判断。使用缓冲方式能透过多个不同的系统与不同的检索技术,尽量网罗可能的相关文档,借此减少人工判断的负荷。

表6-13分别列出Adhoc和Routing两个任务的TREC候选集合与实际相关文档的对照表。6.2.3Web检索评价

Web信息检索是针对网页的信息检索。对于Web信息检索系统(通常称为搜索引擎)来说,网页数以亿计,内容瞬息万变,查全率难以计算。对于查准率来说,在网络环境下进行相关性判断也面临许多新的问题。

随着各种搜索引擎的出现,人们也开始探索比较和评价其性能的方法。TREC从1999年开始,设立WebTrack测试项目,提供英文Web测试集。由于TREC提供的测试数据在信息检索领域具有较高的可信度,利用这些测试数据进行搜索引擎的性能评价工作也开展得较多。TRECWebTrack的组织者DavidHawking与NickCraswell利用TREC-8和TREC-9的测试数据进行搜索引擎(包括Google、lycos等11个搜索引擎)在线服务搜索性能比较的实验[20]。但是由于数据集内容差异很大,这些测试数据并不能使用TREC给出的测试标准答案来进行评测,因此其测试可信度就打了折扣。

TREC-11提出了两个关于Web检索的子任务:命名网页发现(NamedPageFinding)和主题发现(TopicDistillation)。命名网页发现任务是寻找可以发现用户所指定的特定网页的有效方法。目标网页通常只有一个。例如,对于查询“passportapplicationform”,检索系统应当返回URL为“/dsp11.pdf”的页面,它恰好是所要求的申请表的电子版。对于某些查询,正确结果可能不止一个,例如查询“womenonU.S.coins”对应的正确答案有三个,虽然内容相同,但它们的URL不同,因此是不同的页面。在主题发现任务中,关注的重点不再是孤立的单个页面,而是一些关键的页面,通过它们可以找到更多的相关资源。例如,如果同一站点包含大量相关的文档,但有一个入口点指向这些页面,那么只需返回这个入口点即可,返回所有相关页面并不会为结果加分。主题发现任务即主题网页检索是根据给出的150个涉及社会生活各个方面的检索问题,在一个源于现实网络环境的多达19GB的超文本信息库中,搜索最满足问题要求的一个或极少数几个答案。这些检索问题都是使用MSN搜索引擎的用户实际提出的,带有很大的普遍性且涉及社会生活各个方面。

主题发现任务的结果不再是单独的相关页面,而是“关键资源”。关键资源可以是以下几种资源:

(1)与主题相关的站点的主页;

(2)与主题相关的子站点的主页面;

(3)与主题高度相关的单个页面;

(4)包括许多与主题相关的链接的页面,即Hub页面;

(5)与主题相关的服务页面,如“/search/”所提供的服务。

简单地说,主题网页检索的目的就是在超文本信息库中搜索预知存在的、与所提问题最匹配的一个或极少数几个答案(通常用URL地址表示)。在搜索引擎返回的答案中,这个答案(地址)所处的位置尽可能地靠前。答案所处的位置成为评价搜索引擎性能的一个定量指标。该任务与用户实际使用搜索引擎的形式十分贴近,即在浩繁的网络数据中找出与用户要求最匹配的网页,因此也用来作为评价搜索引擎性能的一个衡量方式。该任务所采用的尽管仍是一个封闭的数据集合,但这个集合是从2002年当年标有“.gov”的政府相关网页中获得的,其实时性很高,答案集中的绝大部分网页可以在现实的网络环境中找到,因此,测试具有较高的可行性与可信性,有利于进行搜索引擎性能评价。标准答案的获取是性能评价方式中的关键,获取方式包括以下几种:

(1)从测试集出发,挑选出评价人员认为最符合要求的网页作为标准答案,对使用的搜索工具不限。

(2)从被评价的搜索引擎返回的结果集合出发,挑选出若干排序都比较靠前的网页作为标准答案。

TREC综合了以上两种方法,从被评价的搜索引擎返回的结果集合中挑选出若干排序都比较靠前的网页,让每个评价人员在其中挑选出自己认为最符合要求的一个或几个网页作为备选答案,再均衡几个评价人员的备选答案(例如取交集),以得到最后的标准答案。这种方案一方面尽可能地排除了人的主观因素对答案集的影响,另一方面也从搜索引擎的用户的角度给出了答案的设想。对不同搜索引擎的返回结果进行评价,就可以得到搜索引擎对这个测试集合中不同问题的查准率。TREC采用平均排序倒数MRR评价方式,即对每个问题,把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均,就得到了评价结果。6.2.4CWIRF评测

随着人们对中文信息检索技术的兴趣的提升,在TREC、NTCIR上也提出了面向中文信息检索的开放评价任务,但推出的中文数据集仍然偏小。缺乏大规模的中文Web测试集制约了中文信息检索技术的发展,为此,北大天网推出中文Web信息检索论坛(CWIRF),旨在与国内外信息检索领域的研究团队合作,互相验证彼此的研究成果,完善以中文为主的Web测试集CWT(ChineseWebTestcollection),共同推动中文检索技术的发展。以中文为主的Web测试集CWT由文档集、查询集和相关结果集组成。目前CWT数据集主要包括CWT100G和CWT200G。CWT100G是天网搜索引擎2004年6月搜集的国内5712710个网页,容量为90GB。CWT200G是天网搜索引擎2005年11月搜集的37482913个中文网页,容量为197GB。CWT数据集中每个网页的MIME类型都是“text/html”或者“text/plain”。

天网的原始网页信息是保存在磁盘中,原始网页信息的存储格式应当适合长期保存,并且具备简单性和容错性。考虑到以上因素,天网存储格式定义如下:version:1.0//版本号

url:///URL

origin:///原来的URL

date:Tue,15Apr200308:13:06GMT//抓取时间

ip:2//IP地址

unzip-length:30233//如果数据经过压缩,则需有此属性

length:18133//数据长度

//空行

XXXXXXXX//以下为数据

XXXXXXXX

XXXXXXXX//数据结束

//最后再插入一个空行天网CWT测试集的查询是这样构成的[21]:首先从2002年4月到2004年6月天网日志中采样获得待选集合,然后人工挑选编辑完成,包括主题提取和导航搜索(包括主页和指定页面查询)。主题提取的目的是对于一个特定主题发现一组关键资源。例如对于主题“linux”,CWT中的下面站点可能被认为是关键资源:

(1)/linuxorg。

(2)/os/29/,明辉开发者网络linux区。

(3)/,红旗Linux。

被判断为一个关键资源,返回页面应该是一个站点的好的首页。判断是否为一个好的首页,应该考查结果是否符合下面3个条件:

(1)是否大部

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论