版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三章信息检索系统的评价评价评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值,或者是某项政策的效果等等;竞技体育:世界记录vs.世界最好成绩110米栏世界记录:梅里特,美国,12’’80男子马拉松世界最好成绩:保罗·特尔加特,肯尼亚,2小时4分55秒为什么要对IR进行评价?信息检索评价则是指对信息检索系统的性能(主要是其满足用户信息需求的能力)进行评估的活动;从信息检索系统诞生以来,对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量;IR的评价指标针对一个检索系统,可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能,因此相对来说较容易性能评价对于检索系统的性能来说,除了系统的时间和空间因素之外,要求检索结果能够按照相关度进行排序
性能评价指标
在评价和比较检索系统的检索性能需要以下条件:一个文档集合C;系统将从该集合中按照查询要求检出相关文档。一组用户查询要求{q1,q2,…,qn};每个查询要求qi描述了用户的信息需求。对应每个用户查询要求的标准相关文档集{R1,R2,…,Rn};该集合可由人工方式构造。一组评价指标;这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集,对它们的相似性进行量化,得到这些指标值。评价任务示例系统&查询1234…系统1,查询1d3d6d8d10系统1,查询2d1d4d7d11系统2,查询1d6d7d3d9系统2,查询2d1d2d4d13整个文档集合的划分Ra未检索出的不相关文档检索出的不相关文档检索出的相关文档未检索出的相关文档检索出(Retrieved)未检索出(NotRetrieved)不相关(NotRelevant)相关(Relevant)整个文档集合C四种关系的表示检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关相关文本检出相关文档相关文档检出文档检出不相关文档未检出相关文档准确率和召回率正确率(Precision):检出的相关文档数与检出文档数的比值,也称为查准率;召回率(Recall):系统检出的相关文档数与实际相关文档数目的比值,也称为查全率。示例假设用户查询q为一个给定的查询式,而包含q的相关文档集合Rq为下面的文档集合:Rq={d2,d5,d9,d12,d23}而针对q的检出相关文档集合为:Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}求检索的准确率和召回率。10准确率和召回率的关系11101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾准确率/召回率曲线假设用户查询q为一个给定的查询式,而包含q的相关文档集合Rq为下面的文档集合:Rq={d2,d5,d9,d12,d23}检索系统对查询q返回的前10个文档Aq的排序为:1.d23
2.d33.d44.d55.d66.d87.d108.d129.d1910.d20准确率/召回率曲线准确率00.20.40.60.810.20.40.60.81召回率11点标准召回率计算召回率分别为0、10%、20%…,100%下的准确率准确率00.20.40.60.810.20.40.60.81召回率平均准确率上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能,对每个召回率水平下的准确率进行平均化处理,公式如下:Nq:是使用的查询总数Pi(r):是召回率为r时的第i个查询的准确率单值评价方法已检出相关文档的平均准确率均值(MAP)逐个考察检出新的相关文献,将准确率平均r为相关文档数。第i个相关文档的位置计算MAP举例假设有两个查询,查询1有4个相关文档,查询2有5个相关文档。某系统对于查询1检索出4个相关文档,其排序分别为1,2,4,7;对于查询2检索出3个相关文档,其排序分别为1,3,5。计算MAP的值。单值评价方法P@10P@10是系统对于查询返回的前10个结果的准确率。例:检索系统对查询q返回的前10个文档Aq的排序为:1.d23
2.d33.d44.d55.d66.d87.d108.d129.d1910.d20P@10=30%(共有10篇检出文档,其中3篇为相关文档)单值评价方法R准确率(R-Precision)单个查询的R准确率是检索出R篇相关文档时的准确率;查询集合中所有查询的R准确率是每个查询的R准确率的平均值。R-Precision=前R篇文档中相关文档数R计算R准确率举例假设有两个查询,第1个查询有50个相关文档,第2个查询有10个相关文档。某个系统对于第1个查询返回的前50个结果中有17个是相关的,对于第2个查询返回的前10个结果中有7个事相关的。分别计算查询1、查询2和查询集合的R准确率。单值评价方法准确率直方图多个查询的R-Precision测度用来比较两个算法的检索纪录RPA-B=0:对于第i个查询,两个算法有相同的性能RPA-B>0:对于第i个查询,算法A有较好的性能RPA-B<0:对于第i个查询,算法B有较好的性能单值概括0.00.51.01.5-0.5-1.0-1.512345678910QueryNumber28作业假设查询q为一个给定的用户查询,与q相关的文档集合Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通过某一个检索算法得到的排序结果:
1.d123
6.d9
11.d38
2.d84 7.d511 12.d48
3.d56
8.d129 13.d250
4.d6 9.d187 14.d113
5.d8 10.d25
15.d3
要求1.分别计算检索到相关文档时的召回率和准确率,并绘制准确率/召回率曲线;
2.采用11点标准召回率方法计算召回率和准确率,并绘制插补后的准确率/召回率曲线;3.计算MAP值;4.分别计算检索返回前10个结果和返回前15个结果时的R准确率。测试集(TestCollections)组成要素文件集
(DocumentSet;DocumentCollection)查询问题
(Query;Topic)相关判断(RelevantJudgment)用途设计与发展:系统测试评估:系统效能(Effectiveness)之测量比较:不同系统与不同技术间之比较评比根据不同的目的而有不同的评比项目量化的测量准则,如Precision与Recall国外的评测TREC评测文本检索会议(TextRetrievalConference,TREC)是信息检索(IR)界为进行检索系统和用户评价而举行的活动,它由美国国家标准技术协会(NIST)和美国高级研究计划局(DARPA)(美国国防部)共同资助,开始于1992年。
NTCIR评测NTCIR(NACSISTestCollectionforIRSystems)始于1998
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年蚌埠市信访系统事业单位人员招聘考试备考试题及答案详解
- 2026中国人寿保险股份有限公司田阳支公司招聘100人笔试备考试题及答案解析
- 2026年昌都市民政系统事业单位人员招聘考试备考试题及答案详解
- 2026年亳州市红十字会系统事业单位人员招聘考试备考试题及答案详解
- 2026年大连市政府采购中心(公共资源交易中心)人员招聘考试备考试题及答案详解
- 2026福建省二建建设集团有限公司校园招聘11人考试模拟试题及答案解析
- 国家能源投资集团有限责任公司2026年度高校毕业生春季招聘考试模拟试题及答案解析
- 2026年宝鸡市辛家山马头滩林业局招聘(12人)考试参考题库及答案解析
- 2026年东莞市车辆管理系统事业单位人员招聘考试备考试题及答案详解
- 2026年鄂尔多斯市农产品检测中心人员招聘考试备考试题及答案详解
- 832个贫困县名单
- 开封滨润新材料有限公司 20 万吨年聚合氯化铝项目环境影响报告
- 离心泵的结构和工作原理
- 2023年广州市黄埔区中医院护士招聘考试历年高频考点试题含答案解析
- 第四章基层疾病预防控制与妇幼保健职能演示文稿
- 高考乡土散文的阅读技巧
- 电力建设施工质量验收及评价规程强制性条文部分
- JJG 1105-2015氨气检测仪
- GB/T 4295-2019碳化钨粉
- 西部钻探套管开窗侧钻工艺技术课件
- 徐汇滨江规划和出让情况专题培训课件
评论
0/150
提交评论