《信息检索评价》PPT课件.ppt_第1页
《信息检索评价》PPT课件.ppt_第2页
《信息检索评价》PPT课件.ppt_第3页
《信息检索评价》PPT课件.ppt_第4页
《信息检索评价》PPT课件.ppt_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 信息检索的评价 哈工大计算机学院信息检索研究室2007 2 评价 评价一般是指评估某个系统的性能 某种产品的质量 某项技术的价值 或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能 主要是其满足用户信息需求的能力 进行评估的活动从信息检索系统诞生以来 对检索系统的评价就一直是推动其研究 开发与应用的一种主要力量 信息检索的评价 针对一个检索系统 可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能 因此相对来说较容易性能评价对于检索系统的性能来说 除了系统的时间和空间因素之外 要求检索结果能够按照相关度进行排序 3 相关度 相关度理论假定 对于一个给定的文档集合和一个用户查询 存在并且只存在一个与该查询相关的文档集合检索系统的目标就在于检出相关文档而排除不相关文档 4 5 相关性 相关性是一种主观评价是不是正确的主题输入 和服 输出 咨询和服务 由于分词错误 导致检索结果偏离主题是否满足用户特定的信息需求 informationneed 时效性 是不是新的信息输入 美国总统是谁 输出 克林顿 信息已经过时权威性 是否来自可靠的信息源 6 评价IR系统的困难 相关性不是二值评价 而是一个连续的量即使进行二值评价 很多时候也很难从人的立场上看 相关性是 主观的 依赖于特定用户的判断和情景相关的 依赖于用户的需求认知的 依赖于人的认知和行为能力时变的 随着时间而变化 7 检索的评价 检索性能的评价检索结果的准确度检索任务批处理查询交互式查询实验室环境下主要是批处理查询 具有良好的可重复性和可扩展性 在评价和比较检索系统的检索性能需要以下条件 一个文档集合C 系统将从该集合中按照查询要求检出相关文档一组用户查询要求 q1 q2 qn 每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集 R1 R2 Rn 该集合可由人工方式构造一组评价指标 这些指标反映系统的检索性能 通过比较系统实际检出的结果文档集和标准的相关文档集 对它们的相似性进行量化 得到这些指标值 8 相关性判断 在早期的检索实验集合中 相关性判断是全方位的 就是说 由专家事先对集合中每一篇文献与每一个主题的相关性做出判断 由于TREC的文献集合如此庞大 全方位的判断是不可行的 因此TREC相关性判断基于检索问题所来自的测试文档集合 并采用一种 pooling 的技术来完成 9 pooling 方法有以下两个假设 假设绝大多数的相关文档都收录在这个文档池中没有进行判断的文档即未被认为是不相关的 pooling 技术的具体操作方法是 针对某一检索问题 所有参与其检索试验的系统分别给出各自检索结果中的前K个文档 例如K 100 将这些结果文档汇集起来 得到一个可能相关的文档池 pool 由检索评价专家进行人工判断 最终评判出每一文档的相关性 10 11 相关文本 检索出的文本 全部文本集合 准确率和召回率 召回率 Recall 检出的相关文档数 相关文档数准确率 Precision 检出的相关文档数 检出文档数假设 文本集中所有文献已进行了检查 12 准确率和召回率的关系 1 13 举例 ExampleRq d3 d5 d9 d25 d39 d44 d56 d71 d89 d123 通过某一个检索算法得到的排序结果 1 d123 6 d9 11 d382 d847 d51112 d483 d56 8 d12913 d2504 d69 d18714 d1135 d810 d25 15 d3 precision recall 100 10 66 20 50 30 40 40 33 50 14 一个查询的11个标准查准率 11个标准查全率水平所对应的查准率 0 10 20 100 0 20 40 60 80 100 120 20 40 60 80 100 120 interpolation precision 15 平均准确率 上述准确率召回率的值对应一个查询每个查询对应不同的准确 召回率曲线为了评价某一算法对于所有测试查询的检索性能 对每个召回率水平下的准确率进行平均化处理 公式如下 Nq thenumberofqueriesusedPi r theprecisionatrecalllevelrforthei thquery 多个查询下进行检索算法的比较 对多个查询 进行平均 有时该曲线也称为 查准率 查全率的值 如下为两个检索算法在多个查询下的查准率 查全率的值 第一个检索算法在低查全率下 其查准率较高 另一个检索算法在高查全率下 其查准率较高 17 适应性 合理估计需要了解集合的所有文献这两个指标相互关联 评价不同方面 结合在一起形成单个测度更合适测的是批处理模式下查询集合性能 对现代信息检索系统 交互式是重要特征 对量化检索过程的性指标可能会更合适 新的评价指标 随着测试集规模的扩大以及人们对评测结果理解的深入 更准确反映系统性能的新评价指标逐渐出现单值概括 19 单值概括 1 已检出的相关文献的平均准确率逐个考察检出新的相关文献 将准确率平均Example1 d123 1 6 d9 0 5 11 d382 d847 d51112 d483 d56 0 66 8 d12913 d2504 d69 d18714 d1135 d810 d25 0 4 15 d3 0 3 1 0 66 0 5 0 4 0 3 5 0 57 20 单值概括 2 R Precision计算序列中前R个位置文献的准确率R指与当前查询相关的文献总数 1 d123 6 d9 2 d847 d5113 d56 8 d1294 d69 d1875 d810 d25 R 10and relevant 4R precision 4 10 0 4 1 d1232 d843 56 R 3and relevant 1R precision 1 3 0 33 21 单值概括 3 准确率直方图多个查询的R Precision测度用来比较两个算法的检索纪录RPA B 0 对于第i个查询 两个算法有相同的性能RPA B 0 对于第i个查询 算法A有较好的性能RPA B 0 对于第i个查询 算法B有较好的性能 22 单值概括 3 1 0 0 0 5 1 0 1 5 0 5 1 0 1 5 1 2 3 4 5 6 7 8 9 10 QueryNumber 2 8 23 单值概括 4 概括统计表查询数检出的所有文献数量相关文献数应检出的相关文献数 评价指标的不足 前面提到的一些评价指标 如R 准确率 MAP P 10等 都只考虑经过pooling技术之后判断的相关文档的排序对判断不相关文档与未经判断的文档的差别并没有考虑而目前随着互联网的发展 测试集越来越大 由于相关性判断还基本上是人工判断 因此建立完整的相关性判断变得越来越难 24 Bpref指标 只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下 bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下 bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数 具体公式为 25 举例 下面举个例子来说明bpref的性能 假设检索结果集S为 S D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 其中D2 D5和D7是相关文档 D3和D4为未经判断的文档 对这个例子来说 R 3 bpref 1 3 1 1 3 1 1 3 1 2 3 26 单一相关文档检索的评价 对于搜索引擎系统来讲 由于没有一个搜索引擎系统能够保证搜集到所有的网页 所以召回率很难计算 因而准确率成为目前的搜索引擎系统主要关心的指标 而当用户在使用Web搜索引擎的时候 用户常常在找到一个好的页面后就不再继续察看排序列表其他结果 只找出一个相关的文档的高准确率就是信息检索系统的一个重要任务 27 RR排序倒数和MRR平均排序倒数 RR ReciprocalRanking 是第一个相关文档出现位置的倒数经常用于评价只找到一个相关文档的情况 RR值具体为1 r 其中r为第一个相关文档在结果中排序数如果检索结果中没有相关文档 那么RR值为0 28 MRR MeanReciprocalRanking 平均排序倒数 MRR是在RR的基础上对多个查询的RR结果取平均值 即对一个检索系统输入多个查询 分别得到每个查询的排序倒数 取平均即为MRR 计算公式如下 例如MRR 0 25就意味着检索系统平均在返回结果的第四个位置找到相关文档 然而RR评价是基于2元相关判断基础上的 因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别 30 其它测度方法 调和平均值R j therecallforthej thdocumentintherankingP j theprecisionforthej thdocumentintheranking 31 Example 1 d1236 d911 d382 d847 d51112 d483 d56 8 d129 13 d2504 d69 d18714 d1135 d810 d2515 d3 33 3 33 3 25 66 6 20 100 32 其他测度方法 cont E指标允许用户根据需要调整精确率和召回率的比例 33 其他测度方法 cont 面向用户的测度方法覆盖率 实际检出的相关文献中用户一致的相关文献所占比例新颖率 检出的相关文献中用户未知的相关文献所占的比例 34 图示覆盖率和新颖率 相关文献 R 结果集 A 用户已知的相关文献 U 检出的用户以前未知的相关文献 Ru 检出的用户已知的相关文献 Rk 35 测试集 TestCollections 组成要素文件集 DocumentSet DocumentCollection 查询问题 Query Topic 相关判断 RelevantJudgment 用途设计与发展 系统测试评估 系统效能 Effectiveness 之测量比较 不同系统与不同技术间之比较评比根据不同的目的而有不同的评比项目量化的测量准则 如Precision与Recall 国外的评测 TREC评测文本检索会议 TextRetrievalConference TREC 是信息检索 IR 界为进行检索系统和用户评价而举行的活动 它由美国国家标准技术协会 NIST 和美国高级研究计划局 DARPA 美国国防部 共同资助 开始于1992年 NTCIR评测NTCIR NACSISTestCollectionforIRSystems 始于1998年 是由日本国立信息学研究所 NationalInstituteofInformatics 简称NII 主办的搜索引擎评价型国际会议CLEF评测CLEF于2000年开始筹办 是欧洲各国共同合作进行的一项长期研究计划 主要想通过评测信息科技技术 促进欧洲语言中的各种单一语言以及多语言信息技术的发展 CLEF的目标只在于跨语言信息检索以及多语言信息检索方面 37 TREC评测 Benchmark TREC TextREtrievalConference http trec nist gov 1992年开始 每年一次由美国国防部DefenseAdvancedResearchProjectsAgency DARPA 和美国国家标准技术研究所NationalInstituteofStandardsandTechnology NIST 联合发起参加者免费获得标准训练和开发数据参加者在参加比赛时收到最新的测试数据 并在限定时间内作出答案 返给组织者组织者对各参赛者的结果进行评价包括检索 过滤 问答等多个主题 38 DocumentFormat StandardGeneralizedMark upLanguage SGMLWSJ880406 0090AT TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlanJanetGuyon WSJstaff AmericanTelephone TelegraphCo introducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications 39 TREC会议的评价测度 概括表统计准确率 召回率平均值文献级别平均值平均准确率 40 国内863评测介绍 全名 863计划中文信息处理与智能人机接口技术评测组织者 国家高技术研究发展计划 863计划 方式通过网络进行各单位在自己的环境中运行参评系统2005年11月召开研讨会2005年度评测内容机器翻译信息检索语音识别 41 863评测介绍 信息检索评测 项目 相关网页检索任务定义 给定主题 返回数据中与该主题相关的网页 数据 CWT100g 中文Web测试集100g 根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1 000 614个主机 从中采样17 683个站点 在2004年6月搜集获得5 712 710个网页 有效网页 5 594 521 包括网页内容和Web服务器返回的信息真实容量为90GB 42 主题 主题 Topic 模拟了用户需求 由若干字段组成 描述了用户所希望检索的信息 主题和查询的区别在于 主题是对信息需求的陈述 查询则是信息检索系统的实际输入 主题由4个字段组成 编号 num 标题 title 描述 desc 叙述 narr 43 主题实例 下载 香奈儿 描述 mp3格式歌曲 香奈儿 的下载地址叙述 仅检索具有歌曲 香奈儿 下载地址的网页 有关 香奈儿 的介绍不在检索范围内 提供非mp3格式下载地址的页面不在检索之列 44 查询的构造 自动方式和人工方式自动方式是指在没有任何人为因素的影响下根据主题构造查询的方式除此之外的方式均为人工方式 只允许以人工方式构造查询 不允许在检索过程中加入任何人为因素 45 评测指标 1 MAP单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值 主题集合的平均准确率 MAP 是每个主题的平均准确率的平均值 MAP是反

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论