【毕业学位论文】(Word原稿)中文网页信息检索测试集的构建、分析及应用_第1页
【毕业学位论文】(Word原稿)中文网页信息检索测试集的构建、分析及应用_第2页
【毕业学位论文】(Word原稿)中文网页信息检索测试集的构建、分析及应用_第3页
【毕业学位论文】(Word原稿)中文网页信息检索测试集的构建、分析及应用_第4页
【毕业学位论文】(Word原稿)中文网页信息检索测试集的构建、分析及应用_第5页
已阅读5页,还剩66页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士研究生学位论文 题 目 : 中文 网页 信息 检索 测试集 的 构建 、分析 及 应用 姓 名 : 学 号 : 院 系: 信息科学技术学院 专 业: 计算机软件与理论 研究方向 : 计算机网络与分布式系统 导 师 : 教授 二 七年五 月 版权声明 任何收存和保管本 论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。 I 摘 要 随着 迅速发展 , 息检索技术成 为 研究者广泛关注的话题 ,但 缺少合适的测试评测机制 制约了中文 网页 信息检索技术的发展 。 参考国外测试集的构建经验, 我们 构建 了 大规模中文网页 信息 检索 测试集 并 组织了文网页检索评测, 希望在国内外各个研究小组的共同参与下建立并完善 起推动中文 网页 信息 检索技术的发展。 本文 在信息 检索评测领域 有如下贡献: 1 实施并构建了大规模中文网页 信息 检索 测试集 本研究详细介绍了测试集的 三个 部分 文档集、查询主题集和相关文档集 的 构建 过程 , 实施 过程致力于使测试集具有较高的质量 。 构建 了三个 测试集: 括 285 个 主题提取 主题 和 1,185 个 导航搜索 主题 ,并对 主题 构建了相关文档集。 该系列测试集在 文 网页 检索评测 中被 指定为测试集, 供数十家研究机构使用。本 文 提出的构建测试集的方法为以后的研究提供了参考。 2 对 试集 的 三个部分 进行了分析 , 研究 结果 表 明 试集具有可用性,能作为进一步信息检索与评测研究的基础。 首先, 文档集 在 网站规模 上近似 服从 布,网页出度 近似 服从幂级数 规 律 ,与真实的 点相似;其次, 询主题大部分是 4 个汉字 、 2 个词 构成 的词组 ,这与查询日志中的查询词统计规律 相似 , 在一定程度上能反映真实的检索情况 , 题难易度均匀分布 ,兼顾了难、中、易三类主题 ; 最后, 相关判断完整性分别约为 80%和 66%,基于它的评测结果是可靠的 , 而对 相关文档集 一致性进行分析 得到的结论是: 相关 判断 的第二个步骤“检 查”是必要的。 3 组织了 文网页检索评测, 将 试集应用于评测中。 我们给国内信息检索研究者提供了一个标准 规范 的评测平台 , 对从 2004 年开始的历届评测情况进行了总结,详细介 绍了评测流程、评测任务、检索结果提交格式等 ,对评测结果进行了分析 。评测相关的数据都放在评测网站 , 包括历届的评测通知、评测指南、 提交的检索结果及 技术报告等 。 另外还 提供了 链接提取等工具,帮助信息检索研究者更好的 使用 关键词 : 信息检索 , 评测,测试集 ,文档集,查询主题 ,相关判断 I I a by of to of we eb we R 1. A of in 85 ,185 in WT be to of eb 2. of is 1) eb in of 2) of up by is to 3) of is 0% 6% on is is 3. We eb WT a R of is at , 录 第一章 引言 . - 1 - 研究背景 . - 1 - 本文主要贡献 . - 2 - 本文组织 . - 4 - 第二章 相关研究 . - 5 - 测试集 . - 5 - 早期测试集 . - 7 - 试集 . - 8 - 其它的测试集 . - 11 - 评测项目 . - 11 - 评测指标 . - 12 - 第三章 构建 . - 15 - 引言 . - 15 - 文档集的构建 . - 16 - 文档集构建的几点考虑 . - 16 - 构建过程及结果 . - 16 - 查询主题集的构建 . - 18 - 构建流程 . - 18 - 题的构建 . - 20 - 题的构建 . - 23 - 构建结果 . - 25 - 相关文档集 的构建 . - 25 - 初步评测 . - 27 - 检查 . - 28 - 构建结果 . - 28 - 第四章 析 . - 30 - 文档集分析 . - 30 - V 网站规模分布 . - 30 - 网页出度分布 . - 31 - 相关文档数分布 . - 32 - 查询主题集分析 . - 33 - 题长度 . - 33 - 题难易度 . - 34 - 相关文档集分析 . - 37 - 相关文档集完整性 . - 38 - 相关文档集一致性 . - 42 - 第五章 文网页检索评测 . - 47 - 引言 . - 47 - 届评测情 况 . - 47 - 测流程 . - 50 - 评测任务 . - 50 - 务 . - 50 - 务 . - 51 - 检索结果提交 . - 51 - 评测 结果及分析 . - 53 - 评测结果 . - 53 - 有效的检索技术 . - 54 - 第六章 总结与展望 . - 56 - 总结 . - 56 - 展望 . - 57 - 参考文献 . - 58 - 致谢 . - 61 - 目录 图 2信息检索评测系统示意图 . - 6 - 图 2档示例 . - 9 - 图 2 查询主题示例 . - 10 - 图 2信息检索性能评测示意图 . - 13 - 图 3搜狗网页分类目录 . - 19 - 图 3题示例 . - 20 - 图 3搜狗网页分类目录浏览图 . - 21 - 图 3索界面 . - 22 - 图 3题示例 . - 23 - 图 3览工具界面 . - 24 - 图 3相关判断工具主界面 . - 26 - 图 4网站规模分布 . - 31 - 图 4网页出度分布 . - 31 - 图 4题字数 . - 34 - 图 4题词数 . - 34 - 图 4题难易度 . - 35 - 图 4D 主题难易度 . - 36 - 图 4题相关文档数变化 . - 39 - 图 4题相关文档数变化 . - 39 - 图 4新发现的相关文档数变化 . - 41 - 图 4 相关性 . - 42 - 图 5号文件格式 . - 48 - 图 5号文件的 格式 . - 48 - 图 5务提交结果格式示例 . - 52 - 图 5务提交结果格式示例 . - 52 - 目录 表 2早期测试集 . - 8 - 表 3档集 . - 18 - 表 3相关判断初步评测统计 . - 27 - 表 3务相关文档数统计 . - 29 - 表 3常见问题及解决方法 . - 29 - 表 4实际相关文档对照表 . - 32 - 表 4相关文档数在文档集上的分布 . - 33 - 表 4主题难易度与相关文档数的相关性 . - 37 - 表 4主题随相关文档数变化的分布 . - 44 - 表 4相关文档集中的文档数 . - 44 - 表 4相关判断的重叠度 . - 45 - 表 4评测结果相关 性 . - 45 - 表 5测数据统计表 . - 48 - 表 5测参加单位 . - 49 - 表 5务评测结果统计表 . - 53 - 表 5务评测结果统计表 . - 53 - 北京大学硕士学位论文 中文网页信息检索测试集的构建、分析及应用 - 1 - 第一章 引言 研究背景 长久以来,人们对信息的需求从未间断过。 20 世纪 40代 ,人们开始了对信息进行检索的活动 , 1951 年 首 次提出了 “ 信息检索( ”的 概念 : “ 信息检索是信息的潜在用户将信息需求转换为一张文献来源信息列表的过程或方法,而这 些文献包含有对其有用的信息 ” 1。 自从 1945 年 出利用信息技 术来解决“使大量信息更容易获取的难题”后,信息检索 技术就 迅速发展起来 , 其研究领域也 从 最初的科学技术领域扩展到人类活动的各个方面。 20 世纪 90 年代, 随着 迅速发展, 人们进入了一个信息极度丰富的社会, 息检索技术成 为 研究者广泛关注的话题 , 以搜索引擎为代 表的信息检索技术已经取得了巨大的成功, 百度等搜索 引擎已经深入到人们日常学习和工作中,成为获取信息不可或缺的工具。而 如何评测 这些 检索系统的性能 也越来越受到关注 。 实际上, 检索系统评测 自 信息检索系统 诞生以来 就从未间断过。信息检索评测 对系统的研究、设计与发展一直有着显著的影响力。通过评测,研究者能 够 验证系统的效益、比较各种检索技术的优劣,不断改进检索系统,使系统的性能更加完善 ,能正确 引导研究发展方向 。基于用户主观使用感受的评测方法不客观、不可靠,所以必须采用一套客观的评测体系,这种评测 不受人主观感觉的影响,并且评测结果通常都成立。一般的,这种评测体系具有以下特点:明确的形式化研究任务、公开的训练与测试数据、公开的评测比较。 早期检索系统评测最著名的研究是 1950 年代末期开始进行的验 2。它开创了以测试集( 合评测指标( 评测系统的模式。所谓测试集,是一种在规范化环境中测试系统性能的机制,包括查询问题( 文档集( 及相关判断( 个部分。评测指标则一般采用 查准率 和 查全 率。 验 首北京大学硕士学位论文 中文网页信息检索测试集的构建、分析及应用 - 2 - 开规范化评测之先河,它的评测模式 为后续的评测研究奠定了基础, 至今仍占有举足轻重的地位。 验 之后的二十多年间,也有研究机构做了类似 实验 , 构建了一些测试 集 , 但这些 早期的测 试集规模通常不大,与真实的检索环境之间存在着较大差异。基于这样的 测试集所开发的检索系统,在实际应用中往往受到极大的限制。这些测试集 存在两个根本缺陷:一是缺少在相同的测试数据上使用相同评测方法的跨系统公开评测;二是缺少真实的大规模测试集。 但是, 构建大 型测试集需要耗费相当可观的人力 物力,这对大多数单位来说是不堪负荷的 。 为了促进信息检索技术的发展, 美国国防部高级研究项目计划局 ( 称 和 美国国家标准与技术局( 称 1992 年共同举办了文本检索会议( 称 3, 4。 过构建大型的测试集,提出不同 的评测项目 和评测指标等,提供不同检索技术与检索系统之间的标准评测环境。参加 评测单位除了要提交系统的运行结果之外 ,还可以参加研讨会,与会者可以分享结果。 得了国际性的威望,在信息检索评测领域起到了很好的示范作用。除了 ,已有针对不同语言设计的类似机制开始运作,如欧洲各国联合举办的 跨语言 评测 论坛 5、 法国信息技术局构建 了 法文的 、 日本国立情报学研究所( 称 主 办 的 评测会议 7等 等 。 反观国内,中文信息处理技术在最近几十年 取得了长足发展,但专门针对中文的评测项目的缺乏使中文信息处理技术不能得到有效检验。 缺乏大规模的中 文测试集是制约中文 网页 信息检索技术前进的障碍 , 因此,我们希望在国内外各个研究小组的共同参与下建立并完善以中文为主的 网页 信息检索 测试集 一起推动中文 网页 信息 检索技术的发展 8。 本文主要贡献 缺乏大规模的中文 网页 测试集制约了中文检索 技术的 发展,为了改变这种局面, 参考 年的成功经验, 我们构建了大规模中文网页信息检索测试集北京大学硕士学位论文 中文网页信息检索测试集的构建、分析及应用 - 3 - 在 全国搜索引擎和网上信息挖掘学术研讨会 (简称 议 上 从 2004 年开始 举办了 中文 网页 检索评测项目 ,即 文 网页 检索评测 , 网页 检索评测主要目的是通过 网页测试集研究各种检索技术的优劣,以改进检索系统在真实 网页 环境下的性 能 。 评测 有两个子 任务 ,分别是 务( 主题提取任务) 和 导航搜索任务 ), 这两个任务 能够较好地反映 网页 检索中的用户需求 。 其中 务 混合了 两类 任务:主页查询 ( 和指定页面查询 ( 分别是查找主页和查找指定页面 。 本文在信息检索评测领域 主要 有如下贡献: 1 实施并构建了大规模 的中文 网页 信息 检索 测试集 本研究详细介绍了测试集的 三个部分 文档集、查询主题集 ( 或称为 主题集) 和相关文档集 (或称为相关判断集) 的构建过程。 为了使构建的 文档集 相对于 真实 有较高的代表性, 我们 根据中文网页分布特点来确定网站的采样策略和抓取策略 , 通过 对初始站点列表的过滤、消重、采样等环节的 处理, 最后构建了三个测试集: 在构建查询主题时, 为了使主题的描述方式等方面 具有一定程度的一致性, 查询 主题集每年由 23 位专门的构建人员来构建, 论文详细讲解了主题构建的流程、选 取尺度 及 构建技巧 等 , 最后构建了 285个 题 ( 评测中 保留了 231 个主题) 和 1,185 个 题 ; 相关文档集的构建在测试集中 是比较耗费人力物力 的工作, 在构建相关 文档集 时采用了 初步评测和检查 相结合的 方法 。 该 系列 测试集 在 文 网页 检索评测 中被 指定为测试集,供数十家研究机构使用。本 文 提出的构建测试集的方法为以后的研究提供了参考。 2 为了考查测试集的质量,我们 对 试集的三个 组成部分 分别 进行了分析 ,研究结果表明 试集具有可用性,能作为进一步信息检索与评测研究的基础。 首先 , 对文档集从网站规模和网 页出度的角度 进行了 分析 , 发现 网站 规模 近似 服从 布,网页 出度 近似 服从 幂级数 规律 , 相对于真实的 一定的代表性 ; 其次 , 对 务查询主题从主题长度及主题难易度两个方面进行了分析,发现 询主题大部分是由 4 个 汉 字 、 2 个词构成的词组 , 这北京大学硕士学位论文 中文网页信息检索测试集的构建、分析及应用 - 4 - 与查询日志中的查询 词 统计规律相似 , 说明了 主题 在一定程度上 能够 反映真实的检索情况 , 并且构建的 主题难易度均匀分布, 兼顾了难 、 中 、 易 三类 主题, 另外对主题难易度分析还发现 相同 主题在不同测试集上 的难易度 是没有关联的 ; 最后 , 对 务 相关判断 的 完整性和一致性 进行了估计和分析 , 得出 如下两个结论: 第一, 相关 判断 完整性分别约为 80%和 66%,评测结果可靠性比较高 ; 第二, 相关判断的第二个步骤“检查”是必要的。 3组织了 文网页检索评测, 将 试集应用于评测中。 该评测 给国内的信息检索研究者提供了一个标准 规范 的评测平台, 提供统一的测试集、评 测项目和评测指标,对参与评测的系统进行评测。 我们 对 2004 年到 2007年间举办的四届评测进行了总结,包括 评测流程、评测任务、检索结果提交格式及评测结果 等。评测相关的数据都放在评测网站 , 包括历届的评测通知、评测指南、 查询主题集、相关文档集、参加评测单位提交的检索结果及 技术报告等 , 另外 我们还提供了链接提取等工具,帮助信息检索研究者更好的使用 评测结果进行了分析,发现利用 征 和 链接文本等 技术可以提高 网页 检索系统的性能。 本 文组织 本文 第一章 介绍了 本文 的 研究背景 及 本文 主要贡献 ; 第二章 是 相关研究, 介绍了 信息检索评测 中的 测试集 、常见的 评测项目及 评测指标 等; 第 三 章 介绍了 大规模中 文网页 信息检索 测试集 构建方法 ,详细介绍了 文档集、 查询 主题集和 相关文档 集的构建过程 及构建结果 ;第四 章对 三个 组成 部分分别进行了分析; 第 五 章对 历届 测 进行了总结 ; 最后一章是本文的总结和工作展望 。 北京大学硕士学位论文 中文网页信息检索测试集的构建、分析及应用 - 5 - 第二章 相关研究 信息检索评测自计算机信息检索问世以来,就一直是一个热门话题。在长期的评测实践中,研究人员已经总结出一些比较合理的评测方法和评测指标,检索评测研究的可行性明显增强。系统评测有不同的评测研究类型 9,例如侧重系统软件功能的功能测试;侧重系统的时间与空间复杂度的系统性能评测等。在 数据检索系统中,时间与空间 复杂度是 考查 的重点。 信息检索任务的特点是 用户输入的查询请求常常是模糊的,检索结果往往不是确切的答案,需要 对检索结果按照它们与查询请求的相关度进行排序。 信息检索系统 需要对 检索结果 的准确度进行评测,这种类型的评测叫做检索性能评测( 。 在各种类型的 评测研究中,检索性能评测是其中的研究重点和核心 。 检索性能评测 分为实验室评测和真实环境的评测,虽然基于真实环境的评测是一种趋势,但由于实验室在封闭环境下测试的可重复性 和可扩展性 , 实验室评测仍然占主导地位。 实验室评测通常基于测试集和一定 的评测指标来完成。 本章 第一节 介绍测试集 的 概念 及 几个 重要的测试集 ,包括 早期测试集的代表I、 其它几个 规模较小的测试集 及 近年 来规模较大且有影响力的测试集 ; 第二节 介绍 常见的 评测项目; 第三节介绍 常用的 评测指标。 测试集 信息检索研究者为了评测自己构建的 系统的优劣,通常会进行一系列的实验来验证,而实验所需的测试资料,则依据各自的目的而独立构建。 为了使系统能够在统一的测试集上进行验证,出现了 很多 公开的 测试集, 如 I、 10, 11, 12, 13。 测试集 的存在 提高了评测的公平性 ,但早期的 测试集规模都不大,且同质性较高,在实际运用中存在着较大的限制。 1992 年开始构建大规模的 测试集 3, 取得了国际性的威望,在信息检索评测领域起到了很好的示范作用。除了 ,已有针对不同语言设计的类似机制开始运作,如欧洲各国联合举办的 语言 评测 论坛 5,法北京大学硕士学位论文 中文网页信息检索测试集的构建、分析及应用 - 6 - 国信息技术局则构建了法文的 ,日本国立情报学研究所( 称 办了 测会议 7等,我们则构建中文 网页 信息 检索 测试集 。 测试集在整个信 息检索评测中的角色可 以 从图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论