信息检索系统的评价PPT课件_第1页
信息检索系统的评价PPT课件_第2页
信息检索系统的评价PPT课件_第3页
信息检索系统的评价PPT课件_第4页
信息检索系统的评价PPT课件_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,第三章信息检索系统的评价,.,2,评价,评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等;竞技体育:世界记录vs.世界最好成绩110米栏世界记录:梅里特,美国,1280男子马拉松世界最好成绩:保罗特尔加特,肯尼亚,2小时4分55秒,.,3,为什么要对IR进行评价?,信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动;从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量;,.,4,IR的评价指标,针对一个检索系统,可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能,因此相对来说较容易性能评价对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序,.,5,性能评价指标,在评价和比较检索系统的检索性能需要以下条件:一个文档集合C;系统将从该集合中按照查询要求检出相关文档。一组用户查询要求q1,q2,qn;每个查询要求qi描述了用户的信息需求。对应每个用户查询要求的标准相关文档集R1,R2,Rn;该集合可由人工方式构造。一组评价指标;这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值。,.,6,评价任务示例,.,7,整个文档集合的划分,Ra,未检索出的不相关文档,检索出的不相关文档,检索出的相关文档,未检索出的相关文档,检索出(Retrieved),未检索出(NotRetrieved),不相关(NotRelevant),相关(Relevant),整个文档集合C,.,8,四种关系的表示,.,9,准确率和召回率,正确率(Precision):检出的相关文档数与检出文档数的比值,也称为查准率;召回率(Recall):系统检出的相关文档数与实际相关文档数目的比值,也称为查全率。,.,10,示例,假设用户查询q为一个给定的查询式,而包含q的相关文档集合Rq为下面的文档集合:Rq=d2,d5,d9,d12,d23而针对q的检出相关文档集合为:Aq=d3,d4,d5,d6,d8,d10,d12,d19,d20,d23求检索的准确率和召回率。,.,11,准确率和召回率的关系,1,.,12,准确率/召回率曲线,假设用户查询q为一个给定的查询式,而包含q的相关文档集合Rq为下面的文档集合:Rq=d2,d5,d9,d12,d23检索系统对查询q返回的前10个文档Aq的排序为:1.d232.d33.d44.d55.d66.d87.d108.d129.d1910.d20,.,13,准确率/召回率曲线,.,14,11点标准召回率,计算召回率分别为0、10%、20%,100%下的准确率,准确率,0,0.2,0.4,0.6,0.8,1,0.2,0.4,0.6,0.8,1,召回率,.,15,平均准确率,上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:,Nq:是使用的查询总数Pi(r):是召回率为r时的第i个查询的准确率,.,16,单值评价方法,已检出相关文档的平均准确率均值(MAP)逐个考察检出新的相关文献,将准确率平均r为相关文档数。,第i个相关文档的位置,.,17,计算MAP举例,假设有两个查询,查询1有4个相关文档,查询2有5个相关文档。某系统对于查询1检索出4个相关文档,其排序分别为1,2,4,7;对于查询2检索出3个相关文档,其排序分别为1,3,5。计算的值。,.,18,单值评价方法,P10P10是系统对于查询返回的前10个结果的准确率。例:检索系统对查询q返回的前10个文档Aq的排序为:1.d232.d33.d44.d55.d66.d87.d108.d129.d1910.d20P10=30%(共有10篇检出文档,其中3篇为相关文档),.,19,单值评价方法,R准确率(R-Precision)单个查询的R准确率是检索出篇相关文档时的准确率;查询集合中所有查询的准确率是每个查询的准确率的平均值。R-Precision,前R篇文档中相关文档数,R,.,20,计算R准确率举例,假设有两个查询,第1个查询有50个相关文档,第2个查询有10个相关文档。某个系统对于第1个查询返回的前50个结果中有17个是相关的,对于第2个查询返回的前10个结果中有7个事相关的。分别计算查询1、查询2和查询集合的R准确率。,.,21,单值评价方法,准确率直方图多个查询的R-Precision测度用来比较两个算法的检索纪录RPA-B=0:对于第i个查询,两个算法有相同的性能RPA-B0:对于第i个查询,算法A有较好的性能RPA-B0:对于第i个查询,算法B有较好的性能,.,22,单值概括,0.0,0.5,1.0,1.5,-0.5,-1.0,-1.5,1,2,3,4,5,6,7,8,9,10,QueryNumber,2,8,.,23,作业,假设查询q为一个给定的用户查询,与q相关的文档集合Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123通过某一个检索算法得到的排序结果:1.d1236.d911.d382.d847.d51112.d483.d568.d12913.d2504.d69.d18714.d1135.d810.d2515.d3要求1.分别计算检索到相关文档时的召回率和准确率,并绘制准确率/召回率曲线;2.采用11点标准召回率方法计算召回率和准确率,并绘制插补后的准确率/召回率曲线;3.计算MAP值;4.分别计算检索返回前10个结果和返回前15个结果时的R准确率。,.,24,测试集(TestCollections),组成要素文件集(DocumentSet;DocumentCollection)查询问题(Query;Topic)相关判断(RelevantJudgment)用途设计与发展:系统测试评估:系统效能(Effectiveness)之测量比较:不同系统与不同技术间之比较评比根据不同的目的而有不同的评比项目量化的测量准则,如Precision与Recall,.,25,国外的评测,TREC评测文本检索会议(TextRetrievalConference,TREC)是信息检索(IR)界为进行检索系统和用户评价而举行的活动,它由美国国家标准技术协会(NIST)和美国高级研究计划局(DARPA)(美国国防部)共同资助,开始于1992年。NTCIR评测NTCIR(NACSISTestCollectionforIRSystems)始于1998年,是由日本国立信息学研究所(NationalInstituteofInformatics,简称NII)主办的搜索引擎评价型国际会议CLEF评测CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展,CLEF的目标只在于跨语言信息检索以及多语言信息检索方面,.,26,TREC评测,TREC:TextREtrievalConference(/)1992年开始,每年一次由美国国防部DefenseAdvancedResearchProjectsAgency(DARPA)和美国国家标准技术研究所NationalInstituteofStandardsandTechnology(NIST)联合发起参加者免费获得标准训练和开发数据参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者组织者对各参赛者的结果进行评价包括检索、过滤、问答等多个主题,.,27,TREC测试集,文档集合英语文档集合非英语文档集合文档内容:主要来自报纸、新闻及政府文档文档格式:采用SGML标记语言进行标记主题对检索系统用户的信息需求进行仿真,称为主题相关性判断,.,28,文档格式,WSJ880406-0090AT&TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlanJanetGuyon(WSJstaff)AmericanTelephone&TelegraphCroducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications.,.,29,TREC评测的评价方法,概括表统计准确率-召回率平均值文献级别平均值平均准确率,.,30,TREC评测的任务(Tracks),2013TRECTracks(8个)ContextualSuggestionTrackMicroblogTrackWebTrackTemporalSummarizationTrack,.,31,国内863评测介绍,全名:863计划中文信息处理与智能人机接口技术评测组织者:国家高技术研究发展计划(863计划)方式通过网络进行各单位在自己的环境中运行参评系统2005年11月召开研讨会2005年度评测内容机器翻译信息检索语音识别,.,32,863评测介绍信息检索评测,项目:相关网页检索任务定义:给定主题,返回数据中与该主题相关的网页。数据:CWT100g(中文Web测试集100g)根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页(有效网页:5,594,521)包括网页内容和Web服务器返回的信息真实容量为90GB。,.,33,主题,主题(Topic)模拟了用户需求,由若干字段组成,描述了用户所希望检索的信息。主题和查询的区别在于:主题是对信息需求的陈述,查询则是信息检索系统的实际输入。主题由4个字段组成:编号(num)标题(t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论