




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于用户群体行为分析的搜索引擎自动性能评价 http:/ 研究背景 信息检索系统的评价方法 基于用户行为分析的搜索引擎性能评价 演示系统:搜索仪 结论与未来工作研究背景 Web的发展带来了什么? 信息量的急剧增长 1994年,面向个人用户的浏览服务诞生 2002年,Web上所存储的数据超过500,000 TB 知识的获取空前简单与繁荣 “在信息化时代,知识实际上已经不是资源,智慧才是资源。” 从Web中有效的获取知识成为人们的必需技能 高科技企业员工1/3的时间用于查找资料研究背景 网络信息检索工具成为人们生活和工作中的重要信息获取手段 全球范围内84%的互联网用户使用搜索引擎,其中超过一半的
2、人几乎每天使用。 2007年1月,我国网民总人数为13700万人。 95%以上的中国网民使用过搜索引擎,84.5%的用户将搜索引擎作为得知新网站的主要途径。 商用搜索引擎竞争日趋激烈。 研究背景 性能评价对搜索引擎的重要作用对搜索引擎用户而言: 挑选最有利于获取信息的手段对搜索引擎工程师而言: 算法及数据处理方式有效性的判断对搜索引擎广告商而言: 挑选最有效的广告投放手段研究背景 搜索引擎评价的考察方式 搜索引擎作为网络服务供应商的属性 形式:用户问卷调查 举例:CNNIC中国搜索引擎市场调查报告 搜索引擎作为网络信息检索工具的属性 形式:传统的信息检索评价方法在网络环境中的应用。 举例:TR
3、EC VLC/Web/Terabyte track,SEWM评测等作为信息检索研究人员,我们的考察重点提纲 研究背景 信息检索系统的评价方法 基于用户行为分析的搜索引擎性能评价 演示系统:搜索仪 结论与未来工作信息检索系统的评价方法 评价在信息检索研究中发挥着重要的作用 评价在信息检索系统的研发中一直处于核心的地位,以致于算法与其效果评价方式是合二为一的(Saracevic, SIGIR 1995) 信息检索系统评价的起源 Kent等人第一次提出了关于Precision和Recall(开始称为relevance)的概念(Kent, 1955)信息检索系统的评价方法 信息检索系统评价的起源(续)
4、 Cranfield-like evaluation methodology Cranfield在上世纪伍十年代末到六十年代初提出了基于查询样例集、标准答案集和语料库的评测方案,被称为IR评价的“grand-daddy” 确立了评价在信息检索研究中的核心地位 Gerard Salton 与 SMART 系统 Sparck-Jones 的著作 “Information retrieval experiment” 在线:/iaui/894.02/projects/irlib/信息检索系统的评价方法 网络信息检索系统效果评价的现状 数据对象繁杂,标注困难
5、Voorhees 估计,对一个规模为800万的文档集合进行针对1个查询主题的相关性评判需要耗费1名标注人员9个月的工作时间 TREC提出pooling方法,在保证评价结果可靠性的基础上大大减少了评判工作量 缺点:处理的查询数目少,针对小规模的查询集合,仍需要耗费十余名标注人员1-2个月的工作时间 提高搜索引擎评价方法的自动化程度势在必行信息检索系统的评价方法 如何提高搜索引擎评价的自动化程度?查询样例选取标准答案标注查询样例集合标准答案集合检索系统查询结果信息检索系统的评价方法 核心问题: 如何提高答案标注的自动化程度 利用伪相关反馈的方法进行结果自动标注 伪相关反馈的结果被认为是答案 Sob
6、oroff et.al, 2001; Nuray et.al, 2003; Beitzel et.al., 2003 标注的准确程度和可靠性不高 对查询词的近义词集合进行标注 根据结果网页的查询词及近义词词频进行评判 Amitay et.al, 2004 初始标注工作量大,评判的可靠性不高信息检索系统的评价方法 核心问题: 如何提高答案标注的自动化程度 利用用户行为分析方法 Joachims et.al.(1997) 创建了一个元搜索接口,将不同搜索引擎的结果加以混杂,把用户点击不同结果的情况加以记录,并以此作为评判依据 用户行为分析的思路值得肯定 缺点:改变用户检索习惯、个体用户行为不可靠等
7、 我们的研究思路 通过对搜索引擎记录下的用户行为日志进行分析,不额外增加用户负担。 使用用户群体,而不是个体的点击行为作为依据提纲 研究背景 信息检索系统的评价方法 基于用户行为分析的搜索引擎性能评价 演示系统:搜索仪 结论与未来工作基于用户行为分析的性能评价 总体思路 基于Cranfield方式进行评价 丰富的研究经验:评价指标、查询样例选取策略等 便于与传统的手工标注评价方式进行比较 基于用户关注程度进行查询样例选取 基于用户行为信息进行答案自动标注 个体用户可能在点击过程中出现谬误 用户群体的点击信息则是很大程度上可靠的 统计用户群体的点击行为,进而对查询对应的结果进行标注搜索引擎效果自
8、动评价 基于用户关注程度进行查询样例自动挑选 频度高于100的查询:35177个( “搜狗” = 答案标注的难度较低搜索引擎效果自动评价 信息事务类查询的答案标注 以查询词”电影”为例 不同搜索引擎的点击分布差异大 存在着搜索引擎对用户行为的偏置性影响 索引数据偏置 检索策略偏置 结果不唯一,全面性难以保证 答案标注难度较大 需要借助多个搜索引擎的用户行为信息进行标注00.05123456789 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27baidugoogleyahoosogou搜索引擎效
9、果自动评价 自动评价流程数据预处理查询分类信息类标注导航类标注搜索引擎结果抓取性能评价指标计算与反馈搜索引擎日志搜索引擎效果自动评价 按信息需求将查询样例自动分类Yiqun Liu et al, Automatic Query Type Identification Based on Click Through Information Proceedings of the 3th Asia Information Retrieval Symposium, AIRS 2006搜索引擎效果自动评价 针对导航类查询的结果自动标注 利用单个搜索引擎的点击信息即可完成 焦点假设:不同用户具有相同的导航类
10、别检索需求时,他们的点击都会集中在其检索目标网页(或其镜像)上。 网页r 针对查询q的点击集中度 q的点击集中度最高的r即为其检索目标页面)(#)(#),(qofSessionrclicksthatqofSessionrResultqQueryClickFocus搜索引擎效果自动评价 针对导航类查询的结果自动标注 标注算法:寻找针对q的ClickFocus值最大的r 标注样例查询自动标注的URL读写网http:/ 针对信息事务类查询需求的答案自动标注 基于多搜索引擎用户行为挖掘1. 利用单搜索引擎用户行为挖掘方式,进行各自独立的标注2. 借鉴Pooling做法,综合不同标注者(这里为搜索引擎用
11、户的宏观行为)的意见搜索引擎效果自动评价 基于多搜索引擎用户行为挖掘的标注算法 需要考虑的因素 用户点击行为差异 用户访问量差异 查询分布差异 搜索引擎相对重要性的差异 综合考虑以上因素,计算某个结果对于某个查询的置信度)/(qurlPi搜索引擎效果自动评价 合并计算结果url对于查询q的置信度 基于单搜索引擎进行答案标注的可信度 依据查询用户数来计算jjjiiqSEPqSEurlPqurlP)|(),|()|()|(qSEPjjjjjSEinqofsessionSEinqofsessionqSEP)(log(#)(log(#)|(搜索引擎效果自动评价 单独某个搜索引擎标注答案的可信程度 依据
12、此搜索引擎的用户点击的宏观集中程度来确定),|(qSEurlPji)(#)(#),|(),|(jjijijiSEinqofSessionSEinurlclickthatqofSessionsqSEurlCDqSEurlP搜索引擎效果自动评价 查询点击分布合并模型其中, 反映不同搜索引擎在结果标注中的重要程度jjjijjjjjjjiiSEinqofSessionSEinurlclickthatqofSessionsSEinqofsessionSEinqofsessionqSEPqSEurlPqurlP)(#)(#)(log(#)(log(#)|(),|()|(j搜索引擎效果自动评价 例:查询“疯
13、狂英语”SE1SE2SE3/ / // SE4合并后的答案标注结果合并后的答案标注结果/ / 答案自动标注实验 实验数据 8个月查询日志(超过7亿条日志信息) 针对其中高频导航类查询进行自动标注 对每个时间段抽取约5%的数据进行手工检查时间段时间段标注查询数标注查询数检验样例检验样例数数样例集合样例集合准确度准确度Jun. 06 - Aug. 0613,902695 98.13%Sept.
14、06 - Nov. 0613,884694 97.41%Dec. 06 - Jan. 0711,296565 96.64%自动性能评价实验 与手工评价结果类似 手工评价结果与自动评价结果MRR值的相关系数达到0.965 SE1 SE2 SE3 SE4 SE5自动性能评价实验 使用不同日志数据的实验 使用单搜索引擎日志 SE1 SE2 SE3 SE4 SE5 SE6自动性能评价实验 使用不同类型日志数据的实验 使用多搜索引擎日志 SE1 SE2 SE3 SE4 SE5 SE6自动性能评价实验 使用不同类型日志数据的实验 使用多搜索引擎日志进行交叉评价(评价某搜索引擎性能时不使用其对应的日志数据)
15、 SE1 SE2 SE3 SE4自动性能评价实验 针对中文搜索引擎的评价实验 导航类信息需求 易于进行手工评价的比较 信息事务类信息需求 用于参照的手工评价结果的正确性本身难以保证 难以进行答案可靠性的验证 “搜索仪”的评价结果(参见演示)提纲 研究背景 信息检索系统的评价方法 基于用户行为分析的搜索引擎性能评价 演示系统:搜索仪 结论与未来工作搜索仪:评价搜索 Http:/searchE 搜索仪:评价搜索 Http:/searchE 搜索仪:评价搜索 主要特点 一定程度取代评价搜索引擎性能的繁琐手工标注操作 更加客观、标准均一 反馈周期更短 标注代表性更强 实现对数以千计查询主题的标注 功能
16、演示!提纲 研究背景 信息检索系统的评价方法 基于用户行为分析的搜索引擎性能评价 演示系统:搜索仪 结论与未来工作结论与未来工作 用户行为分析的方法一直是信息检索相关研究向前发展的推动力 实质:对人类信息获取规律的研究 基于用户行为分析的方法进行搜索引擎性能评价是适当的 搜索引擎的自动性能评价 导航类查询需求能够较好的实现自动评价 信息事务类查询仍需进一步的考察可能的未来应用方向 检索效果的实时监控 检索系统自身运营维护的需要 及时发现并预警系统问题 面向特定领域需求的性能评价 特定领域需求 = 特定领域查询词 针对特定领域需求,使用特定的查询词进行评价。可能的未来应用方向 汽车领域的搜索引擎
17、排名 查询词样例:现代、奇瑞汽车、宝马MAPs5s10P5P10MRRSE10.68480.89750.93850.38360.25530.7942SE20.67110.90570.94670.32790.20160.7684SE30.63170.91740.95870.38600.26650.8584SE40.61930.76640.79920.24750.14800.6810SE50.59720.82790.88520.28110.18520.7004SE60.45840.6230.72130.16310.11110.5308可能的未来应用方向 流行歌手领域的搜索引擎排名 查询词样例:周杰
18、伦、刘德华、林心如MAPs5s10P5P10MRRSE10.57720.78960.83540.26010.17130.6654SE20.52160.69370.75190.22110.14850.6178SE30.48440.6220.66920.18230.11170.5386SE40.37250.50.56550.14120.08720.4158SE50.36830.54570.62350.15120.10080.4297SE60.35720.43510.47630.12060.07080.3829部分相关文献Yiqun Liu, Yupeng Fu, Min Zhang, Liyun Ru, Shaoping Ma. 2007. Automatic search engine performance evaluation with click-through data analysis. In Proceedings of the 16th international Conference on World Wide Web, WWW 07. 1133-1134.刘奕群,张敏,金奕江,马少平,一种搜索引擎性能评价的自动化处理方
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高性能中级维修电工及技能培训考核试题(附答案)
- 2025年高考时事政治题库及参考答案详解【预热题】
- 2025年高级会计师资格考试高级会计实务试题及答案
- 宁化护理笔试题及答案
- 老年俱乐部管理办法
- 舆论引导员管理办法
- 计时工退出管理办法
- 贷款利息优惠管理办法
- 人防在建工程管理办法
- 中央加强教师管理办法
- 教科版四年级上册科学全册教案
- 水稻螟虫绿色防控
- 家电合伙合同(标准版)
- 图形动画毕业设计
- 工会劳动竞赛课件
- 2025-2026学年苏教版小学数学五年级上册教学计划及进度表
- 2025年建筑工程-安全员C证-安全员(C证·上海)历年参考题库典型考点含答案解析
- 光伏项目施工组织设计方案
- 2025政府采购评审专家入库题库与答案
- 仪表安全知识培训课件
- 2025年三级老年人能力评估师考试题库(附答案)
评论
0/150
提交评论