




已阅读5页,还剩29页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
信息获取技术的评估(RetrievalEvaluation),2004年12月2日,提要,引言常用的评估指标评估的实践(评测),引言,关于IR领域文本技术系统用户(普通,大量)文本语义的丰富性(以及文本集合本身的变化),用户需求的多样性,模型的简单化系统表现的终极评判在于它们所针对的用户群的评价(大量,长时间)对系统的评估常常是基于对所包含各项技术评估基础上的无论是从研究方法还是工程实践的角度,我们都需要能够评估各个单项技术对系统行为可能的贡献更进一步地,若能将设计指标和评价指标结合起来则最好,System=t1+t2+tl,系统包含若干技术,t某人发明了一个新的t,评价它的方式:用它替换系统中的相应技术,看对总的效果的贡献单独在一个评测环境中评价前者往往代价较高(时间,费用)例如研究搜索引擎排序算法的不一定有机会摆弄真正的,有大规模用户的搜索引擎后者可能和真实系统应用有距离能对这距离有把握也行,评估(技术,系统),用户关心(系统的):F=f1,f2,fn相关性,新颖性,完整性,速度,但代价等原因使完整的评估比较困难我们要确定(技术的):G=g1,g2,gm较小的代价能完成对它们的测试对它们测试的结果和f1,f2,fn有很好的对应最好还能有一套设计指标:P=p1,p2,pk能使我们心里有数:它们实现的程度对g1,g2,gm贡献的关系(防止“irrelevance”),汽车,用户关心:速度,启动加速度,刹车距离,发动机测试:转速,扭矩,马力发动机设计:排量,气缸数,点火方式,汽车工业的实践已经证明了它们之间对应关系的有效性(尽管不是100%),计算机,用户关心:速度性能测试:SPEC设计:主频,CPI,字长,Cache大小,计算机工业的实践也基本证明它们的对应关系是有效的,大学,用户(社会)关心:培养能够为人类社会的进步充分发挥潜能的人测试:政府高级官员的数量,大文豪、大科学家的数量,设计的具体追求:得奖数,发表论文数(影响因子),博士学位获得者人数,科研经费数,实践证明如何?,评估,不断地对现有的F,G,P(及其相互关系)提出疑问,提出改进,是研究评估的人们应该考虑的基本任务我们需要了解现在的F,G,P是些什么(如何定义的,如何能得到),但仅此不够。事物都是在一个“目的”和“手段”链中发展的,这种链接关系的紧密程度就决定了达到目的的优化程度(效果、效率),信息获取技术评估的“森林”,以批判的眼光看Pr,Re,F,“Precisionandrecallhavebeenusedextensivelytoevaluatetheretrievalperformanceofretrievalalgorithms.However,amorecarefulreflectionrevealsproblemswiththesetwomeasures.”(page81,ModernInformationRetrieval),先回顾它们的定义和计算,要评价技术T,对于给定的查询,q,总体文档集合D记R:D中和q相关文档的集合,|R|:R的大小A:算法T获取的文档集合,|A|:A的大小|Ra|:R和A交集的大小,查准率和召回率基础定义图示,Collection,AnswerSet|A|,RelevantDocs|R|,RelevantDocsinAnswerSet|Ra|,需要考虑的几个问题,定义了,不等于能算了如何算得针对(Q,D)的Pr,Re?另外,人们认为在一定的排序意义上考察Pr,Re更有意义。“rankedA”,沿着这个rank,考察“查准率(精度)随召回率变化的情况”符合许多IR系统的实际情况,通常都会在结果集合上定义一个序,平均精度,对recall增加时对应的精度求平均值和“原始定义”的区别?,这样的“平均精度”有什么不好?,“针对11点标准召回率的精度”,人们建议在一些特殊的点上给出Re和Pr的关系Re=0%,10%,100%,对应的Pr于是就能很方便地讲“召回率为20%的时候精度为X”之类的结论也还有“3点标准”的说法:25%,50%,75%如果D中相关文档的个数是10的倍数,且如果算法给出的“RankedA”包含了所有相关文档,得到这些点就会很简单;否则要考虑如何插值的问题,“省事的”例子,D=d1,d1000,对查询q,所有相关文档集合(共10个元素):Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123查询的返回结果序:d123*,d84,d56*,d6,d8,d9*,d511,d5*,d39*,d129,d187,d25*,d38,d44*,d57,d71*,d48,d250,d113,d3*,d200,d144,d11,d89*,d1,Ranking:*Recall:.1.1.2.2.2.3.3.4.5.5.5.6.6.7.7.8.8.8.8.9.9.9.911Precisio:1.5.67.5.4.5.43.5.55.5.45.5.46.5.46.5.47.5.42.45.43.41.39.42.4,11standardrecalllevel,其实只有10个点?,但实际上经常不是这样,得到的结果集合不包含所有的相关元素实践上常常只是返回排序较高的若干元素因此不能得到需要的recall值D中相关元素的个数不是10的倍数于是能直接得到的recall值不一定包含0%,10%,20%,30%,100%,例子,所有相关文档集合(共10个元素):Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123只能得到5个有效的recall值:10%,20%,30%,40%,50%,对查询q返回的结果序:d123*d84d56*d6d8d9*d511d129d187d25*d38d48d250d113d3*,插值(interpolation),目标是在11个标准召回率上都有精度值可以想出各种“合理的”方法(例如将已知的点连起来),不同的方法结果会不一样(因此做比较时要讲清楚)P(rj)=maxP(r),rjrrj+1取在下一个标准召回率之间的已知召回率对应的最大精度值P(rj)=maxP(r),rjr取往后的已知召回率对应的最大的精度值(这得到的是阶梯函数,单调性。如何考虑返回的结果不包括所有相关文档?,我们最终关心对Q的总体情况,ri取标准召回率,Nq是所考察Q的大小。这样得到一个技术(算法)在(Q,D)上精度的宏观表现,F指数,用一个量来表示precision和recall的综合效果How?人们定义:为什么不是:,A(P,R)和H(P,R)并不一致,例如:P1=0.1,R1=0.83:A(P1,R1)=0.42,H(P1,R1)=0.197;P2=0.3,R2=0.3:A(P2,R2)=0.3,H(P2,R2)=0.3也就是说,A(P1,R1)A(P2,R2),但H(P1,R1)H(P2,R2)(当然也可以举出它们一致的例子),指标定义的倾向,在P+R一定的情况下,希望它们接近。换句话说,这个指标不掩盖P,R一个方面特别的不足,召回不足分子小精度不够分母大,基于P,R,F的评估小结,给定包含一个新算法的IR系统(测试),一个测试文档集合D,一个查询集合Q=q一个事先确定的相关集合的集合G(Q)我们确定这个算法的P-R图和F值,流程,对于Q的每一个元素q:得到一个有序结果集s(q)=与G(q)对比,依序计算s(q)中元素的ri和pi,i=1,2,q选择一种合适的插值方式,得到pi在r=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1处的插值如果rq1,则令它其后的标准点上的p=0对Q的所有元素,在标准召回点上求p的平均值给出平均值的统计表和P-R图,还要算F:得出一个数,对每一个查询q,得到标准召回点上的F,即Fq(i)=2*pi*r(i)/(p(i)+r(i),i=0,.1,.2,.3,.4,.5,.6,.7,.8,.9,1在查询内求平均(micro-average)Fq=Fq(i),i=0,.1,.2,.9,1进一步在查询间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 全体员工安全教育培训课件
- 保密制度培训班课件
- 2025-2026学年江西省赣州市五校协作体物理高三上期末达标检测试题
- 不良贷款处置管理办法
- 企业端午节前安全培训课件
- 企业烫伤安全培训内容课件
- 建筑企业新质生产力发展
- 湖南娱乐垂钓管理办法
- 海上实验奖励管理办法
- 庆阳辅警考试题库(含答案)
- 灾害现场检伤分类
- 献唐学校及桂林路小学窗帘采购需求方案
- 装饰材料与构造
- GB/T 29781-2013电动汽车充电站通用要求
- 七年级上册劳技教案
- 培养科研素养提高科研能力课件
- 公司企业接收证明
- 苏州大学医学部操作技能直接观察评估(DOPS)评分表
- 暂时进出口协议范本样本
- (烹饪)基本功教学教案
- 第11章-网络故障诊断及排除ppt课件(全)
评论
0/150
提交评论