【毕业学位论文】（Word原稿）中文网页信息检索测试集的构建、分析及应用

上传人：O*** IP属地：江苏上传时间：2017-04-17 格式：DOC 页数：71 大小：1.36MB 积分：20 举报 版权申诉

【毕业学位论文】（Word原稿）中文网页信息检索测试集的构建、分析及应用_第2页

【毕业学位论文】（Word原稿）中文网页信息检索测试集的构建、分析及应用_第3页

【毕业学位论文】（Word原稿）中文网页信息检索测试集的构建、分析及应用_第4页

【毕业学位论文】（Word原稿）中文网页信息检索测试集的构建、分析及应用_第5页

已阅读5页，还剩66页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

硕士研究生学位论文题目：中文网页信息检索测试集的构建、分析及应用姓名：学号：院系：信息科学技术学院专业：计算机软件与理论研究方向：计算机网络与分布式系统导师：教授二七年五月版权声明任何收存和保管本论文各种版本的单位和个人，未经本论文作者同意，不得将本论文转借他人，亦不得随意复制、抄录、拍照或以任何方式传播。否则，引起有碍作者著作权之问题，将可能承担法律责任。 I 摘要随着迅速发展，息检索技术成为研究者广泛关注的话题，但缺少合适的测试评测机制制约了中文网页信息检索技术的发展。参考国外测试集的构建经验，我们构建了大规模中文网页信息检索测试集并组织了文网页检索评测，希望在国内外各个研究小组的共同参与下建立并完善起推动中文网页信息检索技术的发展。本文在信息检索评测领域有如下贡献： 1 实施并构建了大规模中文网页信息检索测试集本研究详细介绍了测试集的三个部分文档集、查询主题集和相关文档集的构建过程，实施过程致力于使测试集具有较高的质量。构建了三个测试集：括 285 个主题提取主题和 1,185 个导航搜索主题，并对主题构建了相关文档集。该系列测试集在文网页检索评测中被指定为测试集，供数十家研究机构使用。本文提出的构建测试集的方法为以后的研究提供了参考。 2 对试集的三个部分进行了分析，研究结果表明试集具有可用性，能作为进一步信息检索与评测研究的基础。首先，文档集在网站规模上近似服从布，网页出度近似服从幂级数规律，与真实的点相似；其次，询主题大部分是 4 个汉字、 2 个词构成的词组，这与查询日志中的查询词统计规律相似，在一定程度上能反映真实的检索情况，题难易度均匀分布，兼顾了难、中、易三类主题；最后，相关判断完整性分别约为 80%和 66%，基于它的评测结果是可靠的，而对相关文档集一致性进行分析得到的结论是：相关判断的第二个步骤“检查”是必要的。 3 组织了文网页检索评测，将试集应用于评测中。我们给国内信息检索研究者提供了一个标准规范的评测平台，对从 2004 年开始的历届评测情况进行了总结，详细介绍了评测流程、评测任务、检索结果提交格式等，对评测结果进行了分析。评测相关的数据都放在评测网站，包括历届的评测通知、评测指南、提交的检索结果及技术报告等。另外还提供了链接提取等工具，帮助信息检索研究者更好的使用关键词：信息检索，评测，测试集，文档集，查询主题，相关判断 I I a by of to of we eb we R 1. A of in 85 ,185 in WT be to of eb 2. of is 1) eb in of 2) of up by is to 3) of is 0% 6% on is is 3. We eb WT a R of is at , 录第一章引言 . - 1 - 研究背景 . - 1 - 本文主要贡献 . - 2 - 本文组织 . - 4 - 第二章相关研究 . - 5 - 测试集 . - 5 - 早期测试集 . - 7 - 试集 . - 8 - 其它的测试集 . - 11 - 评测项目 . - 11 - 评测指标 . - 12 - 第三章构建 . - 15 - 引言 . - 15 - 文档集的构建 . - 16 - 文档集构建的几点考虑 . - 16 - 构建过程及结果 . - 16 - 查询主题集的构建 . - 18 - 构建流程 . - 18 - 题的构建 . - 20 - 题的构建 . - 23 - 构建结果 . - 25 - 相关文档集的构建 . - 25 - 初步评测 . - 27 - 检查 . - 28 - 构建结果 . - 28 - 第四章析 . - 30 - 文档集分析 . - 30 - V 网站规模分布 . - 30 - 网页出度分布 . - 31 - 相关文档数分布 . - 32 - 查询主题集分析 . - 33 - 题长度 . - 33 - 题难易度 . - 34 - 相关文档集分析 . - 37 - 相关文档集完整性 . - 38 - 相关文档集一致性 . - 42 - 第五章文网页检索评测 . - 47 - 引言 . - 47 - 届评测情况 . - 47 - 测流程 . - 50 - 评测任务 . - 50 - 务 . - 50 - 务 . - 51 - 检索结果提交 . - 51 - 评测结果及分析 . - 53 - 评测结果 . - 53 - 有效的检索技术 . - 54 - 第六章总结与展望 . - 56 - 总结 . - 56 - 展望 . - 57 - 参考文献 . - 58 - 致谢 . - 61 - 目录图 2信息检索评测系统示意图 . - 6 - 图 2档示例 . - 9 - 图 2 查询主题示例 . - 10 - 图 2信息检索性能评测示意图 . - 13 - 图 3搜狗网页分类目录 . - 19 - 图 3题示例 . - 20 - 图 3搜狗网页分类目录浏览图 . - 21 - 图 3索界面 . - 22 - 图 3题示例 . - 23 - 图 3览工具界面 . - 24 - 图 3相关判断工具主界面 . - 26 - 图 4网站规模分布 . - 31 - 图 4网页出度分布 . - 31 - 图 4题字数 . - 34 - 图 4题词数 . - 34 - 图 4题难易度 . - 35 - 图 4D 主题难易度 . - 36 - 图 4题相关文档数变化 . - 39 - 图 4题相关文档数变化 . - 39 - 图 4新发现的相关文档数变化 . - 41 - 图 4 相关性 . - 42 - 图 5号文件格式 . - 48 - 图 5号文件的格式 . - 48 - 图 5务提交结果格式示例 . - 52 - 图 5务提交结果格式示例 . - 52 - 目录表 2早期测试集 . - 8 - 表 3档集 . - 18 - 表 3相关判断初步评测统计 . - 27 - 表 3务相关文档数统计 . - 29 - 表 3常见问题及解决方法 . - 29 - 表 4实际相关文档对照表 . - 32 - 表 4相关文档数在文档集上的分布 . - 33 - 表 4主题难易度与相关文档数的相关性 . - 37 - 表 4主题随相关文档数变化的分布 . - 44 - 表 4相关文档集中的文档数 . - 44 - 表 4相关判断的重叠度 . - 45 - 表 4评测结果相关性 . - 45 - 表 5测数据统计表 . - 48 - 表 5测参加单位 . - 49 - 表 5务评测结果统计表 . - 53 - 表 5务评测结果统计表 . - 53 - 北京大学硕士学位论文中文网页信息检索测试集的构建、分析及应用 - 1 - 第一章引言研究背景长久以来，人们对信息的需求从未间断过。 20 世纪 40代，人们开始了对信息进行检索的活动， 1951 年首次提出了 “ 信息检索（ ”的概念： “ 信息检索是信息的潜在用户将信息需求转换为一张文献来源信息列表的过程或方法，而这些文献包含有对其有用的信息 ” 1。自从 1945 年出利用信息技术来解决“使大量信息更容易获取的难题”后，信息检索技术就迅速发展起来，其研究领域也从最初的科学技术领域扩展到人类活动的各个方面。 20 世纪 90 年代，随着迅速发展，人们进入了一个信息极度丰富的社会，息检索技术成为研究者广泛关注的话题，以搜索引擎为代表的信息检索技术已经取得了巨大的成功，百度等搜索引擎已经深入到人们日常学习和工作中，成为获取信息不可或缺的工具。而如何评测这些检索系统的性能也越来越受到关注。实际上，检索系统评测自信息检索系统诞生以来就从未间断过。信息检索评测对系统的研究、设计与发展一直有着显著的影响力。通过评测，研究者能够验证系统的效益、比较各种检索技术的优劣，不断改进检索系统，使系统的性能更加完善，能正确引导研究发展方向。基于用户主观使用感受的评测方法不客观、不可靠，所以必须采用一套客观的评测体系，这种评测不受人主观感觉的影响，并且评测结果通常都成立。一般的，这种评测体系具有以下特点：明确的形式化研究任务、公开的训练与测试数据、公开的评测比较。早期检索系统评测最著名的研究是 1950 年代末期开始进行的验 2。它开创了以测试集（合评测指标（评测系统的模式。所谓测试集，是一种在规范化环境中测试系统性能的机制，包括查询问题（文档集（及相关判断（个部分。评测指标则一般采用查准率和查全率。验首北京大学硕士学位论文中文网页信息检索测试集的构建、分析及应用 - 2 - 开规范化评测之先河，它的评测模式为后续的评测研究奠定了基础，至今仍占有举足轻重的地位。验之后的二十多年间，也有研究机构做了类似实验，构建了一些测试集，但这些早期的测试集规模通常不大，与真实的检索环境之间存在着较大差异。基于这样的测试集所开发的检索系统，在实际应用中往往受到极大的限制。这些测试集存在两个根本缺陷：一是缺少在相同的测试数据上使用相同评测方法的跨系统公开评测；二是缺少真实的大规模测试集。但是，构建大型测试集需要耗费相当可观的人力物力，这对大多数单位来说是不堪负荷的。为了促进信息检索技术的发展，美国国防部高级研究项目计划局（称和美国国家标准与技术局（称 1992 年共同举办了文本检索会议（称 3， 4。过构建大型的测试集，提出不同的评测项目和评测指标等，提供不同检索技术与检索系统之间的标准评测环境。参加评测单位除了要提交系统的运行结果之外，还可以参加研讨会，与会者可以分享结果。得了国际性的威望，在信息检索评测领域起到了很好的示范作用。除了，已有针对不同语言设计的类似机制开始运作，如欧洲各国联合举办的跨语言评测论坛 5、法国信息技术局构建了法文的、日本国立情报学研究所（称主办的评测会议 7等等。反观国内，中文信息处理技术在最近几十年取得了长足发展，但专门针对中文的评测项目的缺乏使中文信息处理技术不能得到有效检验。缺乏大规模的中文测试集是制约中文网页信息检索技术前进的障碍，因此，我们希望在国内外各个研究小组的共同参与下建立并完善以中文为主的网页信息检索测试集一起推动中文网页信息检索技术的发展 8。本文主要贡献缺乏大规模的中文网页测试集制约了中文检索技术的发展，为了改变这种局面，参考年的成功经验，我们构建了大规模中文网页信息检索测试集北京大学硕士学位论文中文网页信息检索测试集的构建、分析及应用 - 3 - 在全国搜索引擎和网上信息挖掘学术研讨会 (简称议上从 2004 年开始举办了中文网页检索评测项目，即文网页检索评测，网页检索评测主要目的是通过网页测试集研究各种检索技术的优劣，以改进检索系统在真实网页环境下的性能。评测有两个子任务，分别是务（主题提取任务）和导航搜索任务），这两个任务能够较好地反映网页检索中的用户需求。其中务混合了两类任务：主页查询（和指定页面查询（分别是查找主页和查找指定页面。本文在信息检索评测领域主要有如下贡献： 1 实施并构建了大规模的中文网页信息检索测试集本研究详细介绍了测试集的三个部分文档集、查询主题集（或称为主题集）和相关文档集（或称为相关判断集）的构建过程。为了使构建的文档集相对于真实有较高的代表性，我们根据中文网页分布特点来确定网站的采样策略和抓取策略，通过对初始站点列表的过滤、消重、采样等环节的处理，最后构建了三个测试集：在构建查询主题时，为了使主题的描述方式等方面具有一定程度的一致性，查询主题集每年由 23 位专门的构建人员来构建，论文详细讲解了主题构建的流程、选取尺度及构建技巧等，最后构建了 285个题（评测中保留了 231 个主题）和 1,185 个题；相关文档集的构建在测试集中是比较耗费人力物力的工作，在构建相关文档集时采用了初步评测和检查相结合的方法。该系列测试集在文网页检索评测中被指定为测试集，供数十家研究机构使用。本文提出的构建测试集的方法为以后的研究提供了参考。 2 为了考查测试集的质量，我们对试集的三个组成部分分别进行了分析，研究结果表明试集具有可用性，能作为进一步信息检索与评测研究的基础。首先，对文档集从网站规模和网页出度的角度进行了分析，发现网站规模近似服从布，网页出度近似服从幂级数规律，相对于真实的一定的代表性；其次，对务查询主题从主题长度及主题难易度两个方面进行了分析，发现询主题大部分是由 4 个汉字、 2 个词构成的词组，这北京大学硕士学位论文中文网页信息检索测试集的构建、分析及应用 - 4 - 与查询日志中的查询词统计规律相似，说明了主题在一定程度上能够反映真实的检索情况，并且构建的主题难易度均匀分布，兼顾了难、中、易三类主题，另外对主题难易度分析还发现相同主题在不同测试集上的难易度是没有关联的；最后，对务相关判断的完整性和一致性进行了估计和分析，得出如下两个结论：第一，相关判断完整性分别约为 80%和 66%，评测结果可靠性比较高；第二，相关判断的第二个步骤“检查”是必要的。 3组织了文网页检索评测，将试集应用于评测中。该评测给国内的信息检索研究者提供了一个标准规范的评测平台，提供统一的测试集、评测项目和评测指标，对参与评测的系统进行评测。我们对 2004 年到 2007年间举办的四届评测进行了总结，包括评测流程、评测任务、检索结果提交格式及评测结果等。评测相关的数据都放在评测网站，包括历届的评测通知、评测指南、查询主题集、相关文档集、参加评测单位提交的检索结果及技术报告等，另外我们还提供了链接提取等工具，帮助信息检索研究者更好的使用评测结果进行了分析，发现利用征和链接文本等技术可以提高网页检索系统的性能。本文组织本文第一章介绍了本文的研究背景及本文主要贡献；第二章是相关研究，介绍了信息检索评测中的测试集、常见的评测项目及评测指标等；第三章介绍了大规模中文网页信息检索测试集构建方法，详细介绍了文档集、查询主题集和相关文档集的构建过程及构建结果；第四章对三个组成部分分别进行了分析；第五章对历届测进行了总结；最后一章是本文的总结和工作展望。北京大学硕士学位论文中文网页信息检索测试集的构建、分析及应用 - 5 - 第二章相关研究信息检索评测自计算机信息检索问世以来，就一直是一个热门话题。在长期的评测实践中，研究人员已经总结出一些比较合理的评测方法和评测指标，检索评测研究的可行性明显增强。系统评测有不同的评测研究类型 9，例如侧重系统软件功能的功能测试；侧重系统的时间与空间复杂度的系统性能评测等。在数据检索系统中，时间与空间复杂度是考查的重点。信息检索任务的特点是用户输入的查询请求常常是模糊的，检索结果往往不是确切的答案，需要对检索结果按照它们与查询请求的相关度进行排序。信息检索系统需要对检索结果的准确度进行评测，这种类型的评测叫做检索性能评测（。在各种类型的评测研究中，检索性能评测是其中的研究重点和核心。检索性能评测分为实验室评测和真实环境的评测，虽然基于真实环境的评测是一种趋势，但由于实验室在封闭环境下测试的可重复性和可扩展性，实验室评测仍然占主导地位。实验室评测通常基于测试集和一定的评测指标来完成。本章第一节介绍测试集的概念及几个重要的测试集，包括早期测试集的代表I、其它几个规模较小的测试集及近年来规模较大且有影响力的测试集；第二节介绍常见的评测项目；第三节介绍常用的评测指标。测试集信息检索研究者为了评测自己构建的系统的优劣，通常会进行一系列的实验来验证，而实验所需的测试资料，则依据各自的目的而独立构建。为了使系统能够在统一的测试集上进行验证，出现了很多公开的测试集，如 I、 10， 11， 12， 13。测试集的存在提高了评测的公平性，但早期的测试集规模都不大，且同质性较高，在实际运用中存在着较大的限制。 1992 年开始构建大规模的测试集 3，取得了国际性的威望，在信息检索评测领域起到了很好的示范作用。除了，已有针对不同语言设计的类似机制开始运作，如欧洲各国联合举办的语言评测论坛 5，法北京大学硕士学位论文中文网页信息检索测试集的构建、分析及应用 - 6 - 国信息技术局则构建了法文的，日本国立情报学研究所（称办了测会议 7等，我们则构建中文网页信息检索测试集。测试集在整个信息检索评测中的角色可以从图

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）中文网页信息检索测试集的构建、分析及应用

文档简介

温馨提示

最新文档

评论