第7章检索系统的评价_第1页
第7章检索系统的评价_第2页
第7章检索系统的评价_第3页
第7章检索系统的评价_第4页
第7章检索系统的评价_第5页
已阅读5页,还剩89页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

主讲教师:赵俊玲

河北大学管理学院0312-315181013831291580zhaojunling75@QQ:88259349本章内容检索系统评价的基本概念和类型性能评价指标和评价方法主要的测试集评价方案的设计与实施评价评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量在不同的系统、检索模型、检索算法之间做出选择。Toselectbetweenalternativesystems/retrievalmodels/algorithms验证系统是否能够满足当前用户和潜在用户的需求及潜在需求。Todetermineifasystemmeetsexpressedandunexpressedneedsofcurrentusersandnon-users验证系统的改进是否发生功效。ToimproveIRsystemsanddetermineifimprovementactuallyoccurred提高资源分配的合理性,争取再不增加投入的前提下保持或增加系统的效率与效益。Todevelopcostmodels(1)性能评价(performanceevaluation)测定检索系统的质量或服务效果,又称效果评价(effectivenessevaluation)(2)效益评价(benefitevaluation):测定系统所提供的服务使用户或系统本身获得的效益(经济效益和社会效益)哪个难度大?(1)20世纪50年代中期到60年代中期对各种检索语言和标引方法的比较和测评Cranfield评价项目:实验控制,查全率,查准率(2)60年代中期到70年代中期实用或实验性检索系统的评价,评价指标日趋完善。MEDLARS系统评价(兰卡斯特)SMART系统评价等(萨尔顿)SDI(定题服务)评价(3)70-90年代中期前半段主要集中在联机情报检索系统后半段从系统方面转移到检索者方面,开始注重用户的特征与检索成功率之间的关系。对Cranfield实验室模式提出批评,真实用户,面向用户的评价指标。(4)90年代至今(TREC时代)共同的、一致性的平台:TREC搜索引擎的评价相关性及其判断标准数据检索是确定性的,信息检索是相关性的。(1)基本含义检索系统针对用户的信息需求从文档集合检出的文档与用户需求之间的一种匹配关系。9相关性相关性是一种主观评价是不是正确的主题输入:“和服”;输出:“···咨询和服务···”由于分词错误,导致检索结果偏离主题是否满足用户特定的信息需求(informationneed)时效性,是不是新的信息输入:“美国总统是谁”;输出:“克林顿”信息已经过时权威性,是否来自可靠的信息源关系:信息与需求之间的关系性质直觉的:用户靠直觉理解相关性多维的:形式相关、语义相关等动态的:同一文档对不同用户同一文档对同一用户(不同时期)文档之间的关系会影响到相关性判断①二值相关:目前采用最普遍的一种判断标准1:相关0:不相关②多值相关判断标准取三个值或者5个值表示相关程度三值:0:不相关;1:比较相关;2:非常相关五值:0:绝对不相关;1:可能不相关;2:中立;3:可能相关;4:绝对相关③多维相关性判断标准4个纬度信息资源(surrogate,document,information)用户需求(RIN,PIN,request,query)时间:从用户需求产生到满足期间一些时间点和集合。组件componets(topic,task和context)13相关性判断的困难相关性不是二值评价,而是一个连续的量即使进行二值评价,很多时候也很难从人的立场上看,相关性是:主观的,依赖于特定用户的判断和情景相关的,依赖于用户的需求认知的,依赖于人的认知和行为能力时变的,随着时间而变化1主要性能评价指标查全率查准率响应时间收录范围用户负担输出方式(1)概念以一个检索提问去检索任何一个数据库都会出现4个相关量:检出的相关信息量、未被检出的相关信息量、检出的非相关信息量、未检出的非相关信息量。16查全率=a/a+c查准率=a/a+b信息检索结果共轭表相关信息指标检出信息指标相关信息量非相关信息量合计检出信息量aba+b未检出信息量cdc+d合计a+cb+da+b+c+dproportionofrelevantitemsretrievedoutofthetotalnumberofrelevantitemscontainedinadatabase检索出的相关文献/全部相关文献a/a+c和查全率相对是漏检率:c/a+c确定查全率是否困难?(1)Sampleacrossthedatabaseandperformrelevancejudgmentontheseitems.从数据库中抽样,然后对抽取得数据进行相关性判断。(2)Applydifferentretrievalalgorithmstothesamedatabaseforthesamequery.Theaggregateofrelevantitemsistakenasthetotalrelevantset.(pooling)用汇集法产生相关文献集合。对同一提问采用不同的算法进行检索,检索出来的相关文献的集合被用作全部相关文献集合。(3)利用引文作为相关文献集合,利用已知的相关文献中列举的参考文献目录作为相关文献集合。所以说,得出来的查全率只能是相对查全率abilitytoretrieve

documentsthataremostlyrelevant.检索出的相关文献/检索出的全部文献。a/a+b和查准率相对应的误检率:b/a+b在进行评价时,查全率和查准率结合使用。Usedtogether,the2ratiosexpressthefilteringcapacityofthesystem20查全率和查准率的关系101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾理想的信息检索系统应该是什么样子?P=1,R=1,forallthequeries有没有可能?Isitpossible?需求准确表达相关性判断匹配F-MeasureEMeasure(parameterizedFMeasure)R-PrecisionRecall/precisioncurve查全率查准率曲线图Onemeasureofperformancethattakesintoaccountbothrecallandprecision.Harmonicmeanofrecallandprecision计算查全率和查准率的调和平均数:只有查全率和查准率都比较高,才会得到较高的F值。Comparedtoarithmeticmean,bothneedtobehighforharmonicmeantobehigh.P=0.4R=0.8F=P=0.5R=0.7F=AvariantofFmeasurethatallowsweightingemphasisonprecisionoverrecall对F参数的修正,可以对查全率或查准率给与不同的重要性:Valueofcontrolstrade-off:=1:Equallyweightprecisionandrecall(E=F).>1:Weightprecisionmore.<1:Weightrecallmore.如果在实际评价时,对查全率和查准率有不同的侧重,可以用这一个指标。假设有R篇相关文献,计算检索结果中第R篇文献位置对应的查准率这里的R也可取值20,50,100R=#ofrelevantdocs=6R-Precision=4/6=0.6727全部提问式平均R点查准率

(AverageR-Precision)计算每个提问式的R-Precision的值,然后计算平均值。例如:假设有两个提问,第1个提问有50个相关网页,第2个提问有10个相关网页,某个系统对于第1个提问返回的前50个结果中有17个是相关的,对于第2个提问返回的前10个结果中有7个是相关的第1个提问的R-Precision为17/50=0.34在第2个提问的R-Precision为7/10=0.7提问集合的平均R-Precision为(17/50+7/10)/2=0.5228MAP(MeanAveragePrecision)MAP单个提问的平均查准率是每篇相关文档检索出后的查准率的平均值。所有提问的平均查准(MAP)是每个提问的平均查准率的平均值。MAP是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。29MAP举例假设有两个提问,提问1有4个相关网页,提问2有5个相关网页。某系统对于提问1检索出4个相关网页,其rank分别为1,2,4,7;对于提问2检索出3个相关网页,其rank分别为1,3,5。对于提问1,平均查准率为(1/1+2/2+3/4+4/7)/4=0.83对于提问2,平均查准率为(1/1+2/3+3/5+0+0)/5=0.45MAP=(0.83+0.45)/2=0.64课堂作业Consideraninformationneedforwhichthereare4relevantdocumentsinthecollection.Contrasttwosystemsrunonthiscollection.Theirtop10resultsarejudgedforrelevanceasfollows(theleftmostitemisthetoprankedsearchresult):1

RNRNN

NNNRR2

NRNNR

RRNNNWhatistheMAPofeachsystem?WhichhasahigherMAP?Doesthisresultintuitivelymakesense?WhatdoesitsayaboutwhatisimportantingettingagoodMAPscore?WhatistheR-precisionofeachsystem?(DoesitrankthesystemsthesameasMAP?)

31查准率直方图多个查询的R-Precision测度用来比较两个算法的检索纪录RPA/B=0:对于第i个查询,两个算法有相同的性能RPA/B>0:对于第i个查询,算法A有较好的性能RPA/B<0:对于第i个查询,算法B有较好的性能32查准率直方图0.00.51.01.5-0.5-1.0-1.512345678910QueryNumber28RR排序倒数和MRR平均排序倒数RR(ReciprocalRanking)是第一个相关文档出现位置的倒数经常用于评价只找到一个相关文档的情况,RR值具体为1/r,其中r为第一个相关文档在结果中排序数如果检索结果中没有相关文档,那么RR值为0。33MRR(MeanReciprocalRanking)平均排序倒数MRR是在RR的基础上对多个查询的RR结果取平均值。即对一个检索系统输入多个查询,分别得到每个查询的排序倒数,取平均即为MRR。计算公式如下:例如MRR=0.25就意味着检索系统平均在返回结果的第四个位置找到相关文档。然而RR评价是基于2元相关判断基础上的,因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别。Bpref指标只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下,bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为:35举例下面举个例子来说明bpref的性能,假设检索结果集S为:S={D1,D2·,D3*,D4*,D5·,D6,D7·,D8,D9,D10}其中D2、D5和D7是相关文档,D3和D4为未经判断的文档。对这个例子来说,R=3;bpref=1/3[(1-1/3)+(1-1/3)+(1-2/3)]36步骤一:对每一个提问式,计算不同查全率级别对应的查准率。可以有三点平均值、11点平均值两种方法三点取查全率为(0.25,0.50,0.75)11点则取查全率(0,0.1,0.2,0.3,。。。0.9,1.0)步骤二:对所有的提问式计算平均值。步骤三:生成查全率和查准率的曲线图步骤四:如果是要比较不同系统的功能,还要把不同系统的曲线图和在一起,以便进行比较。(1)对一个给定的提问式,得出一个排序的结果集。Foragivenquery,producetherankedlistofretrievals.(2)标出结果集中的相关文献Markeachdocumentintherankedlistthatisrelevant(3)计算结果集中每一个相关文献位置上的查全率和查准率。.Computearecall/precisionpairforeachpositionintherankedlistthatcontainsarelevantdocument.R=3/6=0.5;P=3/4=0.75Lettotal#ofrelevantdocs=6Checkeachnewrecallpoint:R=1/6=0.167; P=1/1=1R=2/6=0.333; P=2/2=1R=5/6=0.833; p=5/13=0.38R=4/6=0.667;P=4/6=0.667Missingonerelevantdocument.Neverreach100%recall对每一个标准的查全率的级别计算查准率。一般是分成11个级别。从0到10Interpolateaprecisionvalueforeachstandardrecalllevel:rj{0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0}r0=0.0,r1=0.1,…,r10=1.0第j个级别对应的查准率是在j和j+1之间任何一个查全率对应的查准率的最高值。Theinterpolatedprecisionatthej-thstandardrecalllevelisthemaximumknownprecisionatanyrecalllevelbetweenthej-thand(j+1)-thlevel:0.6RecallPrecision一组提问式的平均性能Typicallyaverageperformanceoveralargesetofqueries.计算所有提问式每一个查全率级别所对应的查准率的平均数。Computeaverageprecisionateachstandardrecalllevelacrossallqueries.PrecisionRleveli=∑(PrecisionRleveli,Q/NQ)绘制平均曲线图来评价整个系统的功能。Plotaverageprecision/recallcurvestoevaluateoverallsystemperformanceonadocument/querycorpus.Thecurveclosesttotheupperright-handcornerofthegraphindicatesthebestperformance这种情况下哪个系统更好,白色或者红色?请给出理由。precisionrecallxxxx没有考虑到结果集合中的不相关文献不是基于用户需求。忽略了提问式之间的差异检出的不相关文献/全部不相关文献b/b+d相对于查全率和查准率来说,不是那么重要。评价检索系统检出新的相关文献的能力检出的新的相关文献量/检出的相关文献总量Theproportionofitemsretrievedandjudgedrelevantbytheuserandofwhichtheywerepreviouslyunaware.Abilitytofindnewinformationonatopic.494覆盖率和新颖率面向用户的测度方法覆盖率:实际检出的相关文献中用户已知的相关文献所占比例新颖率:检出的相关文献中用户未知的相关文献所占的比例50图示覆盖率和新颖率相关文献|R|结果集|A|用户已知的相关文献|U|检出的用户以前未知的相关文献|Ru|检出的用户已知的相关文献|Rk|用户在检索过程中花费的智力和体力,包括构造提问式、进行检索和浏览检索结果等各个环节。Workrequiredfromtheuserinformulatingqueries,conductingthesearch,andscreeningtheoutput.Timeintervalbetweenreceiptofauserqueryandthepresentationofsystemresponses.检索结果的显示方式以及对用户利用检索结果能力的影响Influenceofsearchoutputformatontheuser’sabilitytoutilizetheretrievedmaterials.7显示格式formpresentation与某一提问相关的文献在文献集合中的分布密度。密度却大,越容易检出。与某一提问相关的文献量/文献总量thenumberofdocumentsrelatedtoaparticularrequestintheentiredatabase.Themoredensetheratio,theeasierasearchshouldbe8囊括值Generality主要用于比较两种不同的系统或算法。URR=number-unique-relevant/numberrelevantnumber-unique-relevant:用某种算法才能检索出来的相关文献Numberrelevant:有两种解释(1)TNRR(Totalnumberretrievedrelevant):检索出来的全部相关文献。(2)TURR(Totaluniquerelevantretrieved):全部只有用某种算法才能检索出来的文献之和。假设有四种算法,检索出来的结果集被分成13个子集A3H22B4I100C2J10D22K500E1L6F100M15G200见黑板算法一:有3个单独纪录(uniqueitems)A算法二:4个算法三:15个算法四:22个TNRR=A+B+……+M=985TURR=3+4+15+22=48算法URR/TNRRURR/TURR13/985=0.0033/48=0.0624/985=4/48=0.08315/985=15/48=0.31422/98522/48=0.49思考:在上述指标中,那些更侧重于用户?有学者提出我们需要一些以用户为中心的评价指标。包括满意度、提供信息度(Satisfaction,informativeness)时间、成本效益、错误率、任务分析(Time,cost-benefit,errorrate,taskanalysis)对用户特征的评价(Evaluationofusercharacteristics)对界面的评价(Evaluationofinterface)对交互过程的评价(Evaluationofprocessorinteraction)如果让你评价搜索引擎,你觉得可以从哪些方面进行评价,你觉得最大的困难是什么?1、相关性范畴概念理论相关性范畴是按照检索结果同检索课题的相关程度,把检索结果分别归入四个范畴。就是多值相关性判断范畴0:重复链接、死链和不相关联链接范畴1:技术上相关,但与用户需求没有相关性范畴2:潜在有用的链接,或者给出指向属于范畴3的链接范畴3:十分有用的链接前X命中记录查准率用来反映检索系统在前X个检索结果中向用户提供相关信息的能力P(20)看前20条记录中向用户提供相关信息的能力。怎么做呢?教材202页。?用所有搜索引擎得出的检索结果之和?数据库规模与内容:收录范围、重复率、死链接等。索引方法:索引方式、索引范围与深度检索功能:基本检索功能高级检索功能检索结果的处理:排序、显示内容和格式等分类功能用户界面(一)问题的提出分析实际检索系统往往很难,因此通过标准定制的数据来进行性能评价,也就是说通过给定一定的文献、提问式和相关性判断来进行评价。一个好的试验样本应该包括:(1)一组标准的文献和提问式(2)每一个提问式对应的相关文献集合1Smartcollection:/pub/smart2TREC:/3CFcollection4国内863项目为了对SMART测试项目所做的一个小规模的测试集.

(/pub/smart)CollectionNameNumberofDocumentNumberofQueriesRawSize(Mbytes)CACM3,204641.5CISI1,4601121.3CRAN1,4002251.6MED1,033301.1TIME425831.5(1)什么是TREC

文本检索会议,一开始是由国防部高级研究计划署资助的TIPSTER项目发起的。从1992年起每年举办一次,由美国国家标准技术组织和DARPA联合举办。参加者会得到用于培训和测试用的一系列的标准文献和提问,然后在会议上交流结果。TREC:TextREtrievalConference(/)

1为比较不同的检索技术提供了共同的基础。(相同的文献、相同的提问和相同的评价方法)2分享和交流发展样本的资源和经验。(资助主要来自政府)3鼓励产业界和学术界的参与4发展新的评价方法和技术,特别是评价新的检索系统的方法和技术。如网络检索、非英语系统、问答式系统等。1规模大Largescale(comparedtoafewMBintheSMARTCollection).2提供了相关性判断Relevancejudgmentsprovided.3美国政府的大力资助UndercontinuousdevelopmentwithsupportfromtheU.S.Government.4参加者广泛Wideparticipation:TREC1:28papers360pages.TREC4:37papers560pages.TREC7:61papers600pages.TREC8:74papers.TREC由一个程序委员会(包括来自政府、工业界和学术界的代表)管理。TREC以年度为周期运行。过程为:确定任务(1~2):NIST选择某些任务,制定规范参加者报名(2~3):参加者根据自己的兴趣选择任务参加者运行任务(3~9):参加者用自己的系统运行测试问题,给出结果并将它们提交给NIST结果评估(10):NIST使用固定的评测软件和工具对结果进行评估,并将结果返回给参加者大会交流(11马里兰州的Gaithersburg):论文交流测试文档集合检索问题集合正确答案集合为了反映现实主题的多样性,TREC测试文档在主题、文献风格和格式、长短、语种(英语和非英语)等几个方面综合考虑主要包括:

WSJ (WallStreetJournalarticles全文 550MAP(AssociatePressNewswire(1989)全文514MZIFF ComputerSelect)全文 493MFRFederalRegister(F法规文摘) 469MAbstractsfromDepartmentofEnergyreports190MUS.PAtent<DOC>

<DOCNO>WSJ870324-0001</DOCNO>

<HL>JohnBlairIsNearAccordToSellUnit,SourcesSay</HL>

<DD>03/24/87</DD>

<SO>WALLSTREETJOURNAL(J)</SO><IN>RELTENDEROFFERS,MERGERS,ACQUISITIONS(TNM)MARKETING,ADVERTISING(MKT)TELECOMMUNICATIONS,BROADCASTING,TELEPHONE,TELEGRAPH(TEL)</IN>

<DATELINE>NEWYORK</DATELINE>

<TEXT>JohnBlair&Co.isclosetoanagreementtosellitsTVstationadvertisingrepresentationoperationandprogramproductionunittoaninvestorgroupledbyJamesH.Rosenfield,aformerCBSInc.executive,industrysourcessaid.Industrysourcesputthevalueoftheproposedacquisitionatmorethan$100million....</TEXT></DOC>检索提问是自然语言的,不是提问式query.包括四个部分(1)序列编号(2)检索问题的标题(title)(3)对检索问题的简短描述(description)(4)对检索要求的说明(narrative)<top><head>TipsterTopicDescription<num>Number:066<dom>Domain:ScienceandTechnology<title>Topic:NaturalLanguageProcessing<desc>Description:DocumentwillidentifyatypeofnaturallanguageprocessingtechnologywhichisbeingdevelopedormarketedintheU.S.<narr>Narrative:Arelevantdocumentwillidentifyacompanyorinstitutiondevelopingormarketinganaturallanguageprocessingtechnology,identifythetechnology,andidentifyoneofmorefeaturesofthecompany'sproduct.<con>Concept(s):1.naturallanguageprocessing;2.translation,language,dictionary<fac>Factor(s):<nat>Nationality:U.S.</nat></fac>

<def>Definitions(s):</top>(1)二值判断模式:要么相关,要么不相关。如果一篇文献的任何部分和片段与某检索问题相关,则认为是相关文献(2)Pooling相关性判断:每个参与者都要想TREC提供排序后的检索结果集合,TREC将每一检索结果的前X篇(通常取100篇)汇集起来,去掉重复,构成全部相关文献集合)。Summarytablestatistics:Numberoftopics,numberofdocumentsretrieved,numberofrelevantdocuments.Recall-precisionaverage:Averageprecisionat11recalllevels(0to1at0.1increments).Documentlevelaverage:Averageprecisionwhen5,10,..,100,…1000documentsareretrieved.Averageprecisionhistogram:DifferenceoftheR-precisionforeachtopicandtheaverageR-precisionofallsystemsforthattopic.医学杂志上1239篇摘要.100个提问.3值相关性判断::0:Notrelevant.1:Marginallyrelevant.2:Highlyrelevant.由四个医学专家得出MEDLINEaccessnumberAuthorTitleSourceMajorsubjectsMinorsubjectsAbstract(orextract)ReferencestootherdocumentsCitationstothisdocumentAN74154352AUBurnell-R-H.Robertson-E-F.TICysticfibrosisinapatientwithKartagenersyndrome.SOAm-J-Dis-Child.1974May.127(5).P746-7.MJCYSTIC-FIBROSIS:co.KARTAGENER-TRIAD:co.MNCASE-REPORT.CHLORIDES:an.HUMAN.INFANT.LUNG:ra.MALE.SITUS-INVERSUS:co,ra.SODIUM:an.SWEAT:an.ABApatientexhibitedthefeaturesofbothKartagenersyndromeandcysticfibrosis.Atmost,totheauthors'knowledge,thisrepresentsthethirdsuchreportofthecombination.CysticfibrosisshouldbeexcludedbeforeadiagnosisofKartagenersyndromeismade.RF001KARTAGENERMBEITRKLINTUBERK83489933002SCHWARZVARCHDISCHILD43695968003MACEJWCLINPEDIATR10285971…CT1BOCHKOVADNGENETIKA(SOVIETGENETICS)111549752WOODREAMREVRESPIRDIS1138339763MOSSBERGBMTSINAIJMED44837977…QN00002QU

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论