信息检索评价指标PPT课件.ppt_第1页
信息检索评价指标PPT课件.ppt_第2页
信息检索评价指标PPT课件.ppt_第3页
信息检索评价指标PPT课件.ppt_第4页
信息检索评价指标PPT课件.ppt_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息检索的评价指标 高海燕2010114014 3 4 2020 1 信息检索的评价指标体系 评价IR的意义IR评价研究的内容和程序如何评价效果评价指标分类单个查询的评价指标多个查询的评价指标 3 4 2020 2 评价IR的意义 信息检索评价是对信息检索系统性能 主要满足用户信息需求的能力 进行评估的活动 通过评估可以评价不同技术的优劣 不同因素对系统的影响 从而促进本领域研究水平的不断提高 信息检索系统的目标是较少消耗情况下尽快 全面返回准确的结果 3 4 2020 3 IR评价研究的内容 效率 Efficiency 可以采用通常的评价方法 时间开销 空间开销 响应速度效果 Effectiveness 返回的文档中有多少相关文档 所有相关文档中返回了多少 返回得靠不靠前其他指标 覆盖率 Coverage 访问量 数据更新速度 3 4 2020 4 IR评价研究的程序 一项完整的检索评价工作可分为以下5个步骤 1 确定评价范围和目标 2 选择评价方式 3 设计或者制定评价方案 4 实施评价方案 5 总结与评价结论的形成 3 4 2020 5 在评价和比较检索系统的检索性能需要以下条件 一个文档集合C 系统将从该集合中按照查询要求检出相关文档一组用户查询要求 q1 q2 qn 每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集 R1 R2 Rn 该集合可由人工方式构造一组评价指标 这些指标反映系统的检索性能 通过比较系统实际检出的结果文档集和标准的相关文档集 对它们的相似性进行量化 得到这些指标值 6 3 4 2020 6 如何评价效果 相同的文档集合 相同的查询主题集合 相同的评价指标 不同的检索系统进行比较 TheCranfieldExperiments CyrilW Cleverdon 1957 1968 上百篇文档集合 SMARTSystem GeraldSalton 1964 1988 数千篇文档集合 TREC TextRetrievalConference DonnaHarman 美国标准技术研究所 1992 上百万篇文档 信息检索的 奥运会 3 4 2020 7 评价指标分类 对单个查询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标 通常用于对系统的评价 求平均 3 4 2020 8 9 相关文本 检索出的文本 全部文本集合 单个查询的评价指标 1 召回率 Recall 检出的相关文档数 相关文档数 也称为查全率 R 0 1 准确率 Precision 检出的相关文档数 检出文档数 也称为查准率 P 0 1 假设 文本集中所有文献已进行了检查 3 4 2020 9 10 举例 ExampleRq d3 d5 d9 d25 d39 d44 d56 d71 d89 d123 通过某一个检索算法得到的排序结果 1 d123 6 d9 11 d382 d847 d51112 d483 d56 8 d12913 d2504 d69 d18714 d1135 d810 d25 15 d3 precision recall 100 10 66 20 50 30 40 40 33 50 3 4 2020 10 关于召回率的计算 对于大规模语料集合 列举每个查询的所有相关文档是不可能的事情 因此 不可能准确地计算召回率缓冲池 Pooling 方法 对多个检索系统的TopN个结果组成的集合进行标注 标注出的相关文档集合作为整个相关文档集合 这种做法被验证是可行的 在TREC会议中被广泛采用 3 4 2020 11 关于召回率和正确率的讨论 2 虽然Precision和Recall都很重要 但是不同的应用 不用的用户可能会对两者的要求不一样 因此 实际应用中应该考虑这点 垃圾邮件过滤 宁愿漏掉一些垃圾邮件 但是尽量少将正常邮件判定成垃圾邮件 有些用户希望返回的结果全一点 他有时间挑选 有些用户希望返回结果准一点 他不需要结果很全就能完成任务 3 4 2020 12 单个查询评价指标 3 P和R融合 F值 召回率R和正确率P的调和平均值 ifP 0orR 0 thenF 0 else采用下式计算 E值 召回率R和正确率P的加权平均值 b 1表示更重视P 3 4 2020 13 14 Example 1 d1236 d911 d382 d847 d51112 d483 d56 8 d129 13 d2504 d69 d18714 d1135 d810 d2515 d3 33 3 33 3 25 66 6 20 100 3 4 2020 14 15 R Precision计算序列中前R个位置文献的准确率R指与当前查询相关的文献总数 1 d123 6 d9 2 d847 d5113 d56 8 d1294 d69 d1875 d810 d25 R 10and relevant 4R precision 4 10 0 4 1 d1232 d843 56 R 3and relevant 1R precision 1 3 0 33 单个查询评价指标 4 引入序的作用 3 4 2020 15 单个查询评价指标 5 引入序的作用 正确率 召回率曲线 precisionversusrecallcurve 检索结果以排序方式排列 用户不可能马上看到全部文档 因此 在用户观察的过程中 正确率和召回率在不断变化 vary 可以求出在召回率分别为 0 10 20 30 90 100 上对应的正确率 然后描出图像 3 4 2020 16 P R曲线的例子 某个查询q的标准答案集合为 Rq d3 d5 d9 d25 d39 d44 d56 d71 d89 d123 某个IR系统对q的检索结果如下 3 4 2020 17 P R曲线的例子 3 4 2020 18 P R曲线的插值问题 对于前面的例子 假设Rq d3 d56 d129 3 d56R 0 33 P 0 33 8 d129R 0 66 P 0 25 15 d3R 1 P 0 2 不存在10 20 90 的召回率点 而只存在33 3 66 7 100 三个召回率点 在这种情况下 需要利用存在的召回率点对不存在的召回率点进行插值 interpolate 对于t 如果不存在该召回率点 则定义t 为从t 到 t 10 中最大的正确率值 对于上例 0 10 20 30 上正确率为0 33 40 60 对应0 25 70 以上对应0 2 3 4 2020 19 P R曲线的优缺点 优点 简单直观 既考虑了检索结果的覆盖度 又考虑了检索结果的排序情况缺点 单个查询的P R曲线虽然直观 但是难以明确表示两个查询的检索结果的优劣 3 4 2020 20 单个查询评价指标 6 P R曲线的单一指标 BreakPoint P R曲线上P R的那个点这样可以直接进行单值比较11点平均正确率 11pointaverageprecision 在召回率分别为0 0 1 0 2 1 0的十一个点上的正确率求平均 等价于插值的AP 3 4 2020 21 P R曲线中的Breakpoint Breakpoint 3 4 2020 22 单个查询评价指标 7 引入序的作用 平均正确率 AveragePrecision AP 对不同召回率点上的正确率进行平均未插值的AP 某个查询Q共有6个相关结果 某系统排序返回了5篇相关文档 其位置分别是第1 第2 第5 第10 第20位 则AP 1 1 2 2 3 5 4 10 5 20 0 6插值的AP 在召回率分别为0 0 1 0 2 1 0的十一个点上的正确率求平均 等价于11点平均只对返回的相关文档进行计算的AP AP 1 1 2 2 3 5 4 10 5 20 5 倾向那些快速返回结果的系统 没有考虑召回率 3 4 2020 23 单个查询评价指标 8 不考虑召回率 Precision N 在第N个位置上的正确率 对于搜索引擎 考虑到大部分作者只关注前一 两页的结果 P 10 P 20对大规模搜索引擎非常有效NDCG 后面详细介绍 3 4 2020 24 单个查询评价指标 8 不考虑召回率 Bpref Binarypreference 2005年首次引入到TREC的Terabyte任务中只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下 bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下 bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数 具体公式为 25 3 4 2020 25 举例 下面举个例子来说明bpref的性能 假设检索结果集S为 S D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 其中D2 D5和D7是相关文档 D3和D4为未经判断的文档 对这个例子来说 R 3 bpref 1 3 1 1 3 1 1 3 1 2 3 26 3 4 2020 26 多个查询评价指标 9 平均的求法 宏平均 MacroAverage 对每个查询求出某个指标 然后对这些指标进行算术平均微平均 MicroAverage 将所有查询视为一个查询 将各种情况的文档总数求和 然后进行指标的计算如 MicroPrecision 对所有查询检出的相关文档总数 对所有查询检出的文档总数 宏平均对所有查询一视同仁 微平均受返回相关文档数目比较大的查询影响 3 4 2020 27 多个查询评价指标 10 宏平均和微平均的例子两个查询q1 q2的标准答案数目分别为100个和50个 某系统对q1检索出80个结果 其中正确数目为40 系统对q2检索出30个结果 其中正确数目为24 则 P1 40 80 0 5 R1 40 100 0 4P2 24 30 0 8 R2 24 50 0 48MacroP P1 P2 2 0 65MacroR R1 R2 2 0 44MicroP 40 24 80 30 0 58MicroR 40 24 100 50 0 43 3 4 2020 28 多个查询评价指标 11 MAP MeanAP 对所有查询的AP求宏平均多个查询下的查准率 查全率曲线 可通过计算其平均查准率得到 公式如下 Nq为查询的数量 P r 是指查全率为r时的平均查准率 pi r 指查全率为r时的第i个查询的查准率 3 4 2020 29 面向用户的评价指标 前面的指标都没有考虑用户因素 而相关不相关由用户判定 假定用户已知的相关文档集合为U 检索结果和U的交集为Ru 则可以定义覆盖率 Coverage C Ru U 表示系统找到的用户已知的相关文档比例 假定检索结果中返回一些用户以前未知的相关文档Rk 则可以定义出新颖率 NoveltyRatio N Rk Ru Rk 表示系统返回的新相关文档的比例 相对查全率 检索系统检索出的相关文档数量与用户期望得到的相关文档的数量的比例 查全努力 用户期望得到的相关文档与为了得到这些相关文档而在检索结果中审查文档数量的比率 3 4 2020 30 31 图示覆盖率和新颖率 相关文献 R 结果集 A 用户已知的相关文献 U 检出的用户以前未知的相关文献 Ru 检出的用户已知的相关文献 Rk 3 4 2020 31 搜索引擎的性能评价研究及评价指标 1 搜索引擎性能评价指标 1 数据库规模与内容 收录范围 数据库内容 更新频率 重复率 死链接率等 2 索引方法 索引方式 索引范围与深度等 3 检索功能 基本检索功能和高级检索功能 4 检索结果处理 排序方式 显示内容 格式 后处理功能 5 分类功能 分类类目体系的深度 数量 合理性等 6 用户界面 界面布局 联机帮助 界面定制 界面广告量 7 汉字处理 词语切分 多内码处理 转换 中英文混合检索 8 其他 响应时间 系统稳定性等 3 4 2020 32 搜索引擎的评价指标 查全率与查准率研究的新进展 相关性范畴范畴0主要包括重复链接 死链接 不相关链接范畴1主要包括技术上的相关链接 意指检索仅在技术上满足用户提问式 但与用户的需求没有相关性或者有相关性 但是内容太少或不充分范畴2主要包括潜在有用的链接 例如与用户需求某个方面有关但不详尽 或者仅给出了指向属于范畴3页面的链接范畴3主要包括十分有用的链接 3 4 2020 33 搜索引擎的评价指标 前X命中记录查准率P X 该指标主要用来反映信息检索系统在前X条检索结果中向用户提供相关信息的能力 下面以P 20 为例 说明P X 的含义与计算方法 对前20条命中结果记录进行相关性判断和检验 并对每条结果赋予相关系数0或1 对应到前面的 相关性范畴 概念 凡属于范畴3的结果记录均是相关的 凡属于范畴0的结果记录均是不相关的 而属于范畴1 2的结果记录则可能相关 也可能不相关 3 4 2020 34 搜索引擎的评价指标 其次 把前20条结果记录分成3组 1 3 4 10 11 20 并分别赋予它们不同的权值 搜索引擎在对检索结果输出或显示时 都采用了某种相关性排序方法 排在前面的结果记录在理论上应有较大的相关性 这里指定第一组 1 3 的权值为20 第二组 4 10 的权值为17 第三组 11 20 的权值为10 第三 计算P 20 的分子值 T 1 3 20 T 4 10 17 T 11 20 10 T表示各组结果记录中被判断为相关的记录数 P 20 的分母值 检索结果记录数超过20 3 20 7 17 10 10 279 检索结果记录数不超过20 279 20 N 10 N为命中记录总数 如某次检索只返回18条记录 则分母值 259 3 4 2020 35 其他评价指标 不同的信息检索应用或者任务还会采用不同的评价指标MRR MeanReciprocalRank 对于某些IR系统 如问答系统或主页发现系统 只关心第一个标准答案返回的位置 Rank 越前越好 这个位置的倒数称为RR 对问题集合求平均 则得到MRR 例子 两个问题 系统对第一个问题返回的标准答案的Rank是2 对第二个问题返回的标准答案的Rank是4 则系统的MRR为 1 2 1 4 2 3 8 3 4 2020 36 GMAP GMAP GeometricMAP TREC2004Robust任务引进先看一个例子从MAP 宏平均 来看 系统A好于系统B 但是从每个查询来看 3个查询中有2个TopicB比A有提高 其中一个提高的幅度达到300 3 4 2020 37 GMAP 几何平均值上面那个例子GMAPa 0 056 GMAPb 0 086GMAPa GMAPbGMAP和MAP各有利弊 可以配合使用 如果存在难Topic时 GMAP更能体现细微差别 3 4 2020 38 NDCG 每个文档不仅仅只有相关和不相关两种情况 而是有相关度级别 比如0 1 2 3 我们可以假设 对于返回结果 相关度级别越高的结果越多越好 相关度级别越高的结果越靠前越好 3 4 2020 39 NDCG 每一个文档都对它所在的位置有一定的贡献 其贡献值与文档的相关度有关 然后 从1到n的所有的位置上的贡献值都被加起来作为最终的评价结果 这样 一个一定长度的文档序列被转换成了一个相关分值的序列 给定一个排序后的文档序列 在第r位的NDCG值NDCG r的计算公式为 NDCG r Nr j从1到r的下式的和 2的r j 次幂1 log 1 j 其中r j 是第j个文档的级别 Nr是归一化参数 它使得最优的排序的NDCG r的值始终为1 如果结果序列中文档的个数n要少于r 则计算公式返回NDCG n的值 3 4 2020 40 NDCG 假设有四个不同级别的贡献值0 1 2和3 其中3代表最有价值而0表示没有价值 有一个由上述文档组成的序列 其各个位置上的文档所贡献分值为G G 3 2 3 0 0 1 2 2 3 0 这样 到第i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论