




已阅读5页,还剩67页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中科院计算所软件室 王 斌 要内容 一、 二、 三、 绍以及我们的工作 第一部分 展与目标 本检索会议 一开始仅仅面向文本,现在处理对象更广 情报分析和处理 组织者 政府部门 军方 会议情况 评测会议 19922002, 11届 包括来自政府、工业界和学术界的代表 )管理。 程为: 确定任务 (12): 定规范 参加者报名 (23):参加者根据自己的兴趣选择任务(报名免费,大部分数据也免费!) 参加者运行任务 (39):参加者用自己的系统运行测试问题,给出结果并将它们提交给 结果评估 (10): 将结果返回给参加者 大会交流 (11 马里兰州的 论文交流 总目标:支持在信息检索领域的基础研究,提供对大规模文本检索方法的评估办法 测试集合 的信息检索方法的研究 流研究思想 的论坛,增进工业界、学术界和政府部门之间的互相了解; 高信息检索技术 从理论走向商业应用 的速度 高评估技术 的可用性,并开发新的更为适用的评估技术。 历届 5 Ad 1 Ad 2 Ad 6 8 1 6 6 A/0 9 5 历届 0102030405060708090100. ( . . . .(釜项 ?) . . (华 ) . .(. . &10 . . . 0 . . 0&11(复旦 ) . 1(中科院计算所 ) . 工大 ) 测试数据和测试软件 由 多家单位免费提供,但少数数据有所修改,而且必须签订协议 每年使用的数据可以是新的,也可以是上一年度已经使用过的 何组织和个人都可以用它对自己的系统进行评测 第二部分 相关名词、评测方法 名词定义 预先确定的问题,用来向检索系统提问 自动或者手工 ) 包括训练集和测试集合 ( 相关性评估,人工或者自动 题,通常由几个单词构成,非常简短 述,一句话,比 含了 述,更详细地描述了哪些文档是相关的 351 is on in in is in 使用 按照会议要求,可以利用 造适当的查询条件 可以使用任何方式构造查询条件,这包括手工的和自动的两大类。但提交查询结果时要注明产生方式。 评测方法 基于无序集合的评测:返回结果无顺序 于有序集合的评测: Pn/他评测方法 关性评估过程 (1) 对于每一个 每个运行结果中取头 100个文档,然后用这些文档构成一个文档池,使用人工方式对这些文档进行判断。相关性判断是二值的:相关或不相关。 没有进行判断的文档被认为是不相关的。 相关性评估过程 (2) 出大量参数化的评测结果(主要是 根据这些评测数据,参加者可以比较彼此的系统性能。 其他 第三部分 要任务介绍以及我们的工作 目的、方法与结果 eb 加 务 顺序扫描文档流中的每个文档,在当前的 定是否要检出。 数据集 100个 种风格。 83,650篇文档 , 720,000多文档 ,任务 个 个 返回结果要排序 应用场景 个性化网络信息推送 敏感信息发现 网络信息分类 个人兴趣的跟踪 前 50(101 由 后 50(151 做自动构造的。 每个 部分均可用于过滤过程。 100个 果分别评测。 is to s) to or or of or be of 比 ) 31 19 312 据集 使用 ,来自 83,650篇文档 ,大约 400M。 720,000多文档 ,大约 5G。 辅助数据: 供反馈的答案集合 (每个 关,不相关,未知, 止作弊 ) 文件访问的顺序。 程序运行时间: 小时, 20M/m (主要是由于反馈量减少 ) 统框架 特征选择 用户兴趣 (始化 扫描文档 计算 档的相似度 训练集合 相似度 阈值 ? o 输出结果文档 o/不确定 是否相关 ? *R+B*N+ C* * R+ P=R+/(R+N+), R=R+/(R+ +1/P) 归一化平均得到 似于 未判定 未判定 + / A N+ / B - / C D 要算法 在 tf*tf*)改为) 3 适当比例的 根据前两者从训练集中筛选出来的适量伪正例。 通过经验和训练确定初始值,在反馈过程中调整。 =Pn+a*b*b*大集合结果好,小集合结果很差,零太多 优化方法太简单 特征选择有待改进 是否尝试语义特征项? 改进了原来的互信息特征选择算法,在整个训练集上计算各个 3个种子和适量的扩展文档组成 “ 相关文档集 ” ,训练集中剩下的文档作为 “ 不相关文档集 ” 。 鉴于 来的特征选择算法几乎失效,故最后直接用 3个种子,原始 改进了原来的针对 入了局部最优策略,追求各个反馈区间的局部最优值来达到全局的最优值;同时尽量避免 0返回的出现。 对小样本训练集进行优化处理:根据扩展时伪相关文档数的多少决定是否应扩大 “ 正例样本集 ” ,小于某一阈值的样本集将被复制若干遍。 实验结果表明,改进的特征选择算法略好于旧的特征选择算法,并且可以控制小样本训练集的优化。提高 6%。 局部最优策略的引入是成功的,可进一步使结果由 提高 23%。 目由 84个增加到 100个,每个 个变为 3个。 不再给出训练 /测试集合中的全部正反例答案,改为只给出部分正例和反例,训练 /测试集合中的其他文档将作为未判定文档对待。即过滤过程中的反馈是不充分的。 同的 1110 由于测试集合的标准答案只给出一部分,因而过滤时继续使用原来的优化策略无法获得充分的反馈信息; 已知的部分答案在整个测试集合中所占的比例无法得知,因而不能控制未判定文档(返回比例,从而无从把握最终返回文档的数量。 原来的优化策略有些可能不再适用,需要重新修正。 1) 鉴于已知正反例答案的不完全性,我们已经尝试了 3种方法控制过滤反馈的效用: ( 1)通过正例 /反例的相对比例来调节过滤阈值,即不考虑返回结果中的未判定文档。 缺点:不能保证在已知正反例构成的小集合上很好的结果可以推广到整个测试集合上,取决于各个 2) ( 2)利用过滤时获得的正反例信息构造正例中心和反例中心,再用正反例中心分割未判定文档,形成伪正例 /伪反例集合,从而模拟出已知整个测试集的正反例答案的情况,这使得 优点:返回文档的数量较多,当实际相关文档较多时有优势。 缺点:正反例中心的初值似乎对未判定文档的分类影响很大,目前还没有找到较好的构造方法。 3) ( 3)假定测试集合中已知的相关文档足够多,据此把过滤时遇到的未判定文档大部或者全部作为反例文档对待。 优点:可以有效控制返回文档的数量。 缺点:不能保证假设成立,当实际相关文档确实较少时有优势;但是当实际相关文档集合较已知正例答案大很多时,损失也大。 案三的假设比较合理。 根据以上实验结果的比较分析,最终确定以方案三为基础,经过改进后形成最终的反馈方案。 优化方案仍采用局部最优策略,然后针对未判定文档的处理作相应调整。 D 11U 11F (= (= (= (= (= (= = 排名第一 ! 排名情况 根据 4) 微软剑桥研究院 ) 根据 4) 个 找到用户命名的网页,例如 找到与内容相关的 以是 相关站点的主页 相关子站点的主页 高度相关的单个页面 数据集 A eb 002). of 18G 00k (5G 8G) 1) 50个 in or of in or to in of To be be on 2) 150 系统框架 指导原则:以 导 组织形式:考虑到实际情况,以松散耦合的形式为主,系统的组成部分相对独立,每一部分考虑一个单独的因素,最后以线性组合的形式综合考虑。 组成部分 纯内容 文档结构 (标题,格式信息等 ) 链接文本 (链接分析 内容检索 经过对比试验,选定了 方式作为内容权重计算公式。在 年的结果是 达到 用纯内容检索得到的 过上届参加者使用内容检索得到的结果。 文档结构信息 结构信息对于文档的精确定位有重要作用。由于超文本分析的复杂性,目前只使用了文档的 单独使用结构信息进行检索, 于内容检索。 链接分析 试图利用文档之间的链接关系发现重要资源 主要利用 原始算法存在缺陷,主要是计算结果存在 再和原主题紧密相关。对算法的迭代过程进行了改进,把页面的内容相关值(由内容检索得到 )作为一个因子乘在 对排名靠后的页面的影响度进行了衰减。结果有所改善,但仍不能取得满意的结果。 链接文本 链接文本在检索中所起的作用类似于结构信息,有助于文档的精确的定位。 单独使用链接文本检索, 低于内容检索的结果。 尝试利用 单独使用 确率较低 与内容检索所得结果进行组合,最高可提高1%,但较难调整参数。 经过分析,发现利用 此 实验结果 D 14/150 18/150 16/150 18/150 16/150 18/150 27/150 14/150 27/150 14/150 (1020304050600 1 2 3 4 5 6 7 8 9 10正确结果在返回结果中的序号在所有果 按照 T c 的 r a n k 分布图 ( i c t n 0
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 呼吸内科疾病诊断相关病例选择题试题附答案
- 数学专业素养试卷及答案
- 2025年初中物理考试试题及答案
- 化学社会责任素养担当精神评价试题
- 骨科护士考试题目及答案
- 宫斗考试题大全及答案
- 2025年高考物理弹簧与连接体模型深化试题
- 2025年高考物理“预测适应”趋势把握试题(二)
- 工程燃烧学考试题及答案
- 高职模拟导游考试题及答案
- 月考成绩分析会校长讲话:3组数据揭短板5步整改提质效
- 2025年公共基础知识考试题库(附答案)
- 装饰装修应急预案及突发事件的应急措施
- 畜禽养殖场聘用技术人员合同7篇
- 水务理论知识考试题库及答案
- 2025年工会考试真题题库(附答案)
- 浙江国企招聘2025安邦护卫集团总部及下属单位部分岗位公开招聘16人笔试参考题库附带答案详解
- (2024新版)七上第14课:丝绸之路的开通与经营西域
- GB/T 42125.9-2025测量、控制和实验室用电气设备的安全要求第9部分:能测量电网电源电压的家用和专业用手持万用表和其他仪表的特殊要求
- 小儿鼾症课件
- 国开2025年《人文英语4》综合测试答案
评论
0/150
提交评论