《信息检索评价》PPT课件.ppt

上传人：y*** IP属地：四川上传时间：2020-03-23 格式：PPT 页数：50 大小：500.51KB 积分：15 举报 版权申诉

已阅读5页，还剩45页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1 信息检索的评价哈工大计算机学院信息检索研究室2007 2 评价评价一般是指评估某个系统的性能某种产品的质量某项技术的价值或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能主要是其满足用户信息需求的能力进行评估的活动从信息检索系统诞生以来对检索系统的评价就一直是推动其研究开发与应用的一种主要力量信息检索的评价针对一个检索系统可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能因此相对来说较容易性能评价对于检索系统的性能来说除了系统的时间和空间因素之外要求检索结果能够按照相关度进行排序 3 相关度相关度理论假定对于一个给定的文档集合和一个用户查询存在并且只存在一个与该查询相关的文档集合检索系统的目标就在于检出相关文档而排除不相关文档 4 5 相关性相关性是一种主观评价是不是正确的主题输入和服输出咨询和服务由于分词错误导致检索结果偏离主题是否满足用户特定的信息需求 informationneed 时效性是不是新的信息输入美国总统是谁输出克林顿信息已经过时权威性是否来自可靠的信息源 6 评价IR系统的困难相关性不是二值评价而是一个连续的量即使进行二值评价很多时候也很难从人的立场上看相关性是主观的依赖于特定用户的判断和情景相关的依赖于用户的需求认知的依赖于人的认知和行为能力时变的随着时间而变化 7 检索的评价检索性能的评价检索结果的准确度检索任务批处理查询交互式查询实验室环境下主要是批处理查询具有良好的可重复性和可扩展性在评价和比较检索系统的检索性能需要以下条件一个文档集合C 系统将从该集合中按照查询要求检出相关文档一组用户查询要求 q1 q2 qn 每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集 R1 R2 Rn 该集合可由人工方式构造一组评价指标这些指标反映系统的检索性能通过比较系统实际检出的结果文档集和标准的相关文档集对它们的相似性进行量化得到这些指标值 8 相关性判断在早期的检索实验集合中相关性判断是全方位的就是说由专家事先对集合中每一篇文献与每一个主题的相关性做出判断由于TREC的文献集合如此庞大全方位的判断是不可行的因此TREC相关性判断基于检索问题所来自的测试文档集合并采用一种 pooling 的技术来完成 9 pooling 方法有以下两个假设假设绝大多数的相关文档都收录在这个文档池中没有进行判断的文档即未被认为是不相关的 pooling 技术的具体操作方法是针对某一检索问题所有参与其检索试验的系统分别给出各自检索结果中的前K个文档例如K 100 将这些结果文档汇集起来得到一个可能相关的文档池 pool 由检索评价专家进行人工判断最终评判出每一文档的相关性 10 11 相关文本检索出的文本全部文本集合准确率和召回率召回率 Recall 检出的相关文档数相关文档数准确率 Precision 检出的相关文档数检出文档数假设文本集中所有文献已进行了检查 12 准确率和召回率的关系 1 13 举例 ExampleRq d3 d5 d9 d25 d39 d44 d56 d71 d89 d123 通过某一个检索算法得到的排序结果 1 d123 6 d9 11 d382 d847 d51112 d483 d56 8 d12913 d2504 d69 d18714 d1135 d810 d25 15 d3 precision recall 100 10 66 20 50 30 40 40 33 50 14 一个查询的11个标准查准率 11个标准查全率水平所对应的查准率 0 10 20 100 0 20 40 60 80 100 120 20 40 60 80 100 120 interpolation precision 15 平均准确率上述准确率召回率的值对应一个查询每个查询对应不同的准确召回率曲线为了评价某一算法对于所有测试查询的检索性能对每个召回率水平下的准确率进行平均化处理公式如下 Nq thenumberofqueriesusedPi r theprecisionatrecalllevelrforthei thquery 多个查询下进行检索算法的比较对多个查询进行平均有时该曲线也称为查准率查全率的值如下为两个检索算法在多个查询下的查准率查全率的值第一个检索算法在低查全率下其查准率较高另一个检索算法在高查全率下其查准率较高 17 适应性合理估计需要了解集合的所有文献这两个指标相互关联评价不同方面结合在一起形成单个测度更合适测的是批处理模式下查询集合性能对现代信息检索系统交互式是重要特征对量化检索过程的性指标可能会更合适新的评价指标随着测试集规模的扩大以及人们对评测结果理解的深入更准确反映系统性能的新评价指标逐渐出现单值概括 19 单值概括 1 已检出的相关文献的平均准确率逐个考察检出新的相关文献将准确率平均Example1 d123 1 6 d9 0 5 11 d382 d847 d51112 d483 d56 0 66 8 d12913 d2504 d69 d18714 d1135 d810 d25 0 4 15 d3 0 3 1 0 66 0 5 0 4 0 3 5 0 57 20 单值概括 2 R Precision计算序列中前R个位置文献的准确率R指与当前查询相关的文献总数 1 d123 6 d9 2 d847 d5113 d56 8 d1294 d69 d1875 d810 d25 R 10and relevant 4R precision 4 10 0 4 1 d1232 d843 56 R 3and relevant 1R precision 1 3 0 33 21 单值概括 3 准确率直方图多个查询的R Precision测度用来比较两个算法的检索纪录RPA B 0 对于第i个查询两个算法有相同的性能RPA B 0 对于第i个查询算法A有较好的性能RPA B 0 对于第i个查询算法B有较好的性能 22 单值概括 3 1 0 0 0 5 1 0 1 5 0 5 1 0 1 5 1 2 3 4 5 6 7 8 9 10 QueryNumber 2 8 23 单值概括 4 概括统计表查询数检出的所有文献数量相关文献数应检出的相关文献数评价指标的不足前面提到的一些评价指标如R 准确率 MAP P 10等都只考虑经过pooling技术之后判断的相关文档的排序对判断不相关文档与未经判断的文档的差别并没有考虑而目前随着互联网的发展测试集越来越大由于相关性判断还基本上是人工判断因此建立完整的相关性判断变得越来越难 24 Bpref指标只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下 bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下 bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数具体公式为 25 举例下面举个例子来说明bpref的性能假设检索结果集S为 S D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 其中D2 D5和D7是相关文档 D3和D4为未经判断的文档对这个例子来说 R 3 bpref 1 3 1 1 3 1 1 3 1 2 3 26 单一相关文档检索的评价对于搜索引擎系统来讲由于没有一个搜索引擎系统能够保证搜集到所有的网页所以召回率很难计算因而准确率成为目前的搜索引擎系统主要关心的指标而当用户在使用Web搜索引擎的时候用户常常在找到一个好的页面后就不再继续察看排序列表其他结果只找出一个相关的文档的高准确率就是信息检索系统的一个重要任务 27 RR排序倒数和MRR平均排序倒数 RR ReciprocalRanking 是第一个相关文档出现位置的倒数经常用于评价只找到一个相关文档的情况 RR值具体为1 r 其中r为第一个相关文档在结果中排序数如果检索结果中没有相关文档那么RR值为0 28 MRR MeanReciprocalRanking 平均排序倒数 MRR是在RR的基础上对多个查询的RR结果取平均值即对一个检索系统输入多个查询分别得到每个查询的排序倒数取平均即为MRR 计算公式如下例如MRR 0 25就意味着检索系统平均在返回结果的第四个位置找到相关文档然而RR评价是基于2元相关判断基础上的因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别 30 其它测度方法调和平均值R j therecallforthej thdocumentintherankingP j theprecisionforthej thdocumentintheranking 31 Example 1 d1236 d911 d382 d847 d51112 d483 d56 8 d129 13 d2504 d69 d18714 d1135 d810 d2515 d3 33 3 33 3 25 66 6 20 100 32 其他测度方法 cont E指标允许用户根据需要调整精确率和召回率的比例 33 其他测度方法 cont 面向用户的测度方法覆盖率实际检出的相关文献中用户一致的相关文献所占比例新颖率检出的相关文献中用户未知的相关文献所占的比例 34 图示覆盖率和新颖率相关文献 R 结果集 A 用户已知的相关文献 U 检出的用户以前未知的相关文献 Ru 检出的用户已知的相关文献 Rk 35 测试集 TestCollections 组成要素文件集 DocumentSet DocumentCollection 查询问题 Query Topic 相关判断 RelevantJudgment 用途设计与发展系统测试评估系统效能 Effectiveness 之测量比较不同系统与不同技术间之比较评比根据不同的目的而有不同的评比项目量化的测量准则如Precision与Recall 国外的评测 TREC评测文本检索会议 TextRetrievalConference TREC 是信息检索 IR 界为进行检索系统和用户评价而举行的活动它由美国国家标准技术协会 NIST 和美国高级研究计划局 DARPA 美国国防部共同资助开始于1992年 NTCIR评测NTCIR NACSISTestCollectionforIRSystems 始于1998年是由日本国立信息学研究所 NationalInstituteofInformatics 简称NII 主办的搜索引擎评价型国际会议CLEF评测CLEF于2000年开始筹办是欧洲各国共同合作进行的一项长期研究计划主要想通过评测信息科技技术促进欧洲语言中的各种单一语言以及多语言信息技术的发展 CLEF的目标只在于跨语言信息检索以及多语言信息检索方面 37 TREC评测 Benchmark TREC TextREtrievalConference http trec nist gov 1992年开始每年一次由美国国防部DefenseAdvancedResearchProjectsAgency DARPA 和美国国家标准技术研究所NationalInstituteofStandardsandTechnology NIST 联合发起参加者免费获得标准训练和开发数据参加者在参加比赛时收到最新的测试数据并在限定时间内作出答案返给组织者组织者对各参赛者的结果进行评价包括检索过滤问答等多个主题 38 DocumentFormat StandardGeneralizedMark upLanguage SGMLWSJ880406 0090AT TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlanJanetGuyon WSJstaff AmericanTelephone TelegraphCo introducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications 39 TREC会议的评价测度概括表统计准确率召回率平均值文献级别平均值平均准确率 40 国内863评测介绍全名 863计划中文信息处理与智能人机接口技术评测组织者国家高技术研究发展计划 863计划方式通过网络进行各单位在自己的环境中运行参评系统2005年11月召开研讨会2005年度评测内容机器翻译信息检索语音识别 41 863评测介绍信息检索评测项目相关网页检索任务定义给定主题返回数据中与该主题相关的网页数据 CWT100g 中文Web测试集100g 根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1 000 614个主机从中采样17 683个站点在2004年6月搜集获得5 712 710个网页有效网页 5 594 521 包括网页内容和Web服务器返回的信息真实容量为90GB 42 主题主题 Topic 模拟了用户需求由若干字段组成描述了用户所希望检索的信息主题和查询的区别在于主题是对信息需求的陈述查询则是信息检索系统的实际输入主题由4个字段组成编号 num 标题 title 描述 desc 叙述 narr 43 主题实例下载香奈儿描述 mp3格式歌曲香奈儿的下载地址叙述仅检索具有歌曲香奈儿下载地址的网页有关香奈儿的介绍不在检索范围内提供非mp3格式下载地址的页面不在检索之列 44 查询的构造自动方式和人工方式自动方式是指在没有任何人为因素的影响下根据主题构造查询的方式除此之外的方式均为人工方式只允许以人工方式构造查询不允许在检索过程中加入任何人为因素 45 评测指标 1 MAP单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值主题集合的平均准确率 MAP 是每个主题的平均准确率的平均值 MAP是反

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《信息检索评价》PPT课件.ppt

文档简介

温馨提示

最新文档

评论