下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第三章 信息检索系统的评价,评价,评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等; 竞技体育:世界记录 vs. 世界最好成绩 110米栏世界记录:梅里特,美国,1280 男子马拉松世界最好成绩:保罗 特尔加特,肯尼亚,2小时4分55秒,为什么要对IR进行评价?,信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动; 从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量;,IR的评价指标,针对一个检索系统,可以从功能和性能两个方面对其进行分析评价 功能评价 可通过测试系统来判定是否支持某项
2、功能,因此相对来说较容易 性能评价 对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序,性能评价指标,在评价和比较检索系统的检索性能需要以下条件: 一个文档集合C; 系统将从该集合中按照查询要求检出相关文档。 一组用户查询要求q1, q2, , qn; 每个查询要求qi描述了用户的信息需求。 对应每个用户查询要求的标准相关文档集R1, R2, Rn; 该集合可由人工方式构造。 一组评价指标; 这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值。,评价任务示例,整个文档集合的划分,Ra,未检
3、索出的不相关文档,检索出的不相关文档,检索出的相关文档,未检索出的相关文档,检索出(Retrieved),未检索出(Not Retrieved),不相关(Not Relevant),相关(Relevant),整个文档集合C,四种关系的表示,文档集合C,相关文档集R,检出文档集A,检出的相关文档集Ra,准确率和召回率,正确率(Precision): 系统检索出的相关文档数与检索出文档数的比值,也称为查准率; 召回率(Recall): 系统检索出的相关文档数与实际相关文档数目的比值,也称为查全率。,示例,假设用户查询q为一个给定的查询式,其标准相关文档集合Rq为下面的文档集合: Rq=d2,d5,
4、d9,d12,d23 某检索系统针对查询q检索出的相关文档集合为: Aq=d3,d4,d5,d6,d8,d10,d12,d19,d20,d23 求检索系统的准确率和召回率。,10,准确率和召回率的关系,11,1,准确率/召回率曲线,假设用户查询q为一个给定的查询式,其标准相关文档集合Rq为下面的文档集合: Rq=d2,d5,d9,d12,d23 检索系统对查询q返回的前10个文档Aq的排序为:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20,准确率/召回率曲线,11点标准召回率,计算召回率分别为0、10%、20%, 100%下的
5、准确率,准确率,0,0.2,0.4,0.6,0.8,1,0.2,0.4,0.6,0.8,1,召回率,平均准确率,上述准确率、召回率的值对应一个查询 每个查询对应不同的准确/召回率曲线 为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:,Nq: 是使用的查询总数 Pi(r):是召回率为r时的第i个查询的准确率,单值评价方法,已检出相关文档的平均准确率均值(MAP) 逐个考察检出新的相关文献,将准确率平均 r为相关文档数。,第i个相关文档的位置,计算MAP举例,假设有两个查询,查询1有4个相关文档,查询2有5个相关文档。某系统对于查询1检索出4个相关文
6、档,其排序分别为1,2,4,7;对于查询2检索出3个相关文档,其排序分别为1,3,5。计算的值。,单值评价方法,P10 P10是系统对于查询返回的前10个结果的准确率。 例:检索系统对查询q返回的前10个文档Aq的排序为:1. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20 P10=30%(共有10篇检出文档,其中3篇为相关文档),单值评价方法,R准确率(R-Precision) 单个查询的R准确率是检索出篇相关文档时的准确率; 查询集合中所有查询的准确率是每个查询的准确率的平均值。 R-Precision,前R篇文档中相关文档数,
7、R,计算R准确率举例,假设有两个查询,第1个查询有50个相关文档,第2个查询有10个相关文档。某个系统对于第1个查询返回的前50个结果中有17个是相关的,对于第2个查询返回的前10个结果中有7个事相关的。分别计算查询1、查询2和查询集合的R准确率。,单值评价方法,准确率直方图 多个查询的R-Precision测度 用来比较两个算法的检索纪录 RPA-B=0:对于第i个查询,两个算法有相同的性能 RPA-B0:对于第i个查询,算法A有较好的性能 RPA-B0:对于第i个查询,算法B有较好的性能,单值概括,0.0,0.5,1.0,1.5,-0.5,-1.0,-1.5,1,2,3,4,5,6,7,8
8、,9,10,Query Number,2,8,作业,假设查询q为一个给定的用户查询,与q相关的文档集合Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123 通过某一个检索算法得到的排序结果: 1. d123 6. d9 11. d382. d847. d511 12. d483. d56 8. d129 13. d2504. d69. d187 14. d1135. d8 10. d25 15. d3 要求1.分别计算检索到相关文档时的召回率和准确率,并绘制准确率/召回率曲线; 2.采用11点标准召回率方法计算召回率和准确率,并绘制插补后的准确率/召回率曲线; 3.
9、计算MAP值; 4.分别计算检索返回前10个结果和返回前15个结果时的R准确率。,国外的评测,TREC评测 文本检索会议(Text Retrieval Conference,TREC)是信息检索( IR) 界为进行检索系统和用户评价而举行的活动, 它由美国国家标准技术协会(NIST) 和美国高级研究计划局(DARPA)(美国国防部) 共同资助,开始于1992年。 NTCIR评测 NTCIR(NACSIS Test Collection for IR Systems)始于1998年,是由日本国立信息学研究所(National Institute of Informatics,简称NII)主办的搜
10、索引擎评价型国际会议 CLEF评测 CLEF于2000年开始筹办,是欧洲各国共同合作进行的一项长期研究计划,主要想通过评测信息科技技术,促进欧洲语言中的各种单一语言以及多语言信息技术的发展, CLEF的目标只在于跨语言信息检索以及多语言信息检索方面,TREC评测,TREC: Text REtrieval Conference (/) 1992年开始,每年一次 由美国国防部Defense Advanced Research Projects Agency (DARPA)和美国国家标准技术研究所National Institute of Standards a
11、nd Technology (NIST)联合发起 参加者免费获得标准训练和开发数据 参加者在参加比赛时收到最新的测试数据,并在限定时间内作出答案,返给组织者 组织者对各参赛者的结果进行评价 包括检索、过滤、问答等多个主题,TREC测试集,文档集合 英语文档集合 非英语文档集合 文档内容:主要来自报纸、新闻及政府文档 文档格式:采用SGML标记语言进行标记 主题 对检索系统用户的信息需求进行仿真,称为主题 相关性判断,实例,文档格式, WSJ880406-0090 AT&T Unveils Services to Upgrade Phone Networks Under Global Plan
12、Janet Guyon (WSJ staff) American Telephone & Telegraph Co. introduced the first of a new generation of phone services with broad implications for computer and communications . . . . ,TREC评测的评价方法,概括表统计 准确率-召回率平均值 文档级别平均值 平均准确率,TREC评测的任务(Tracks),2013 TREC Tracks(8个) Contextual Suggestion Track Microbl
13、og Track Web Track Temporal Summarization Track ,29,国内863评测介绍,全名: 863计划中文信息处理与智能人机接口技术评测 组织者:国家高技术研究发展计划(863计划) 方式 通过网络进行 各单位在自己的环境中运行参评系统 2005年11月召开研讨会 2005年度评测内容 机器翻译 信息检索 语音识别,863评测介绍信息检索评测,项目:相关网页检索 任务定义:给定主题,返回数据中与该主题相关的网页。 数据:CWT100g (中文Web测试集100g) 根据天网搜索引擎截止2004年2月1日发现的中国范围内提供Web服务的1,000,614个主机,从中采样17,683个站点,在2004年6月搜集获得5,712,710个网页(有效网页:5,594,521) 包括网页内容和Web服务器返回的信息 真实容量为90GB。,主题,主题(Topic)模拟了用户需求,由若干字段组成,描述了用户所希望检索的信息。主题和查询的区别在于:主题是对信息需求的陈述,查询则是信息检索系统的实际输入。 主题由4个字段组成: 编号(num) 标题(title) 描述(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陕西省商南县2025-2026学年初三实战模拟考试物理试题含解析
- 湖南省永州零冷两区七校联考2026届初三大联考数学试题试卷含解析
- 大同市重点中学2026年下期初三第三次质量考评物理试题-含解析
- 护理不良事件减少患者伤害
- 护理信息学在社区护理中的应用
- 《没头脑和不高兴》整本书教学案例
- 休闲农业经营管理规范岗前培训试题及答案
- 专题九 图像色调的调整(课件)-职教高考电子与信息《图形图像处理》专题复习讲练测
- 2026二年级数学 北师大版儿童乐园除法学习
- 心理健康岗位责任制度
- 新媒体编创-图文 短视频 直播(微课版)PPT完整全套教学课件
- 新里程大学英语听说教程谭思坦课后部分参考答案
- 英语专业四级考试阅读技巧课件
- 1-船舶碰撞应急预案(预案-001)
- 医疗器械相关压力性损伤及预防
- 广联达软件学习报告
- GB/T 5825-1986建筑门窗扇开、关方向和开、关面的标志符号
- GB 28380-2012微型计算机能效限定值及能效等级
- 自我认知与职业生涯规划课件
- 中山市二次供水工程技术规程
- 高中思想政治学习方法指导课件
评论
0/150
提交评论