【毕业学位论文】(Word原稿)中文Web测试集CWT200g之文档集的构建-计算机系网络与分布式系统_第1页
【毕业学位论文】(Word原稿)中文Web测试集CWT200g之文档集的构建-计算机系网络与分布式系统_第2页
【毕业学位论文】(Word原稿)中文Web测试集CWT200g之文档集的构建-计算机系网络与分布式系统_第3页
【毕业学位论文】(Word原稿)中文Web测试集CWT200g之文档集的构建-计算机系网络与分布式系统_第4页
【毕业学位论文】(Word原稿)中文Web测试集CWT200g之文档集的构建-计算机系网络与分布式系统_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京大学 本科生毕业论文 中文 1 本科 毕业论文评语 学生姓名 学号 00208087 成绩 论文题目 中文 指导教师意见 秦琦同学的毕业设计论文工作涉及信息检索领域中评测集的构建工作,针对中文 息检索评测的需求,构建了 00 GB 文档集。目前该测试集已经用于 列测试集是针对中文信息检索评估而制作的大规模 试集。该测试集的 第二版 针对 存在的问题,加入垃圾站点过滤和网页级别的重复内容过滤,并采取新的网页抓取策略,在提供更大的信息量的同时,保证整个数据集的内容质量。 论文对于 种子站点列表制作、垃圾站点消除、抓取策略和后期的消重、采样工作进行介绍。特别对于制作过程中不同于 步骤进行了重点分析与讨论。 毕设期间,秦琦同学工作努力,态度积极,按计划完成了任务,表现出一定的自主研发能力和较强的动手能力。 指导教师 ( 签字 ) 年 月 日 北京大学 本科生毕业论文 中文 2 摘要 在信息检索领域中,信息检索系统评估对于信息检索系统的研究、开发和应用有着显著的影响。大规模的测试集被认为是信息检索系统评估工作的基础,其质量决定着评估工作的效率和评估结果的准确定。 列测试集是北京大学网络实验室面向中文信息检索评估而制作的大规模网络测试集。该测试集的第二版 针对 存在的主要 问题,加入垃圾站点过滤和网页级别的重复内容过滤,并采取新的网页抓取策略,在提供更高的信息量的同时,保证整个数据集的内容质量。本文首先对 索引擎以及当前被广泛使用的 试集进行介绍,然后在对 统介绍了 圾站点消除、抓取策略和后期的消重、采样工作进行介绍。特别对于 作过程中不同于 步骤进行了重点分析与讨论。最后,本文对以上工作进行了总结和展望。 关键词 信息检索, 测试集 , 文档集 . 北京大学 本科生毕业论文 中文 3 On of et of a - n R ( R an on R. a is of of is to be a of of of of WT is a of by ab of on R in to in to as as of of of in A is at of 北京大学 本科生毕业论文 中文 4 目录 第一章 引言 . 5 . 5 试集 . 6 试集 . 7 . 8 第二章 . 10 档集构造的几点考虑 . 10 . 11 第三章 . 12 文网页分布特点 . 12 . 14 . 18 页的抓取 . 21 期处理 . 22 第四章 . 24 模统计 . 24 站域名统计 . 24 网页形式分类 . 25 省网页统计 . 25 第五章 总结 . 27 参考文献 . 28 致谢 . 29 北京大学 本科生毕业论文 中文 5 第一章 引言 的简称,中文名字为“万维网”。它是一种基于 主从结构分布式网络信息系统,也是目前应用范围最广且最为成功的 务。 初是在 1989 年 3 月,由欧洲量子物理实验室 物理学家 出的。 1990 年在自己编写的图形化 览器“ 显示了最早的 面。随后 在 1991 年, 式发布了 核心是超文本( 超媒体( 术。超文本与普通文本的不同点就在于超文本中加入了指向其他超文本的超链接 (打破了传统文本的线性组织方式,使超文本之间能够以链接组织到一起。通过超链接用户可以很方便的在超文本之间进行跳转,浏览相关的内容。这种文本的组织方式更接近人们的思维方式和工作方式。超媒体不仅可以包含文字,还可以包含图形、图像、动画、声音和视频片断,这些媒体之间也使用超链接来组织。超文本和超媒体技 术为用户浏览信息提供了极大的便利,它使得用户在通过 览器访问信息资源的过程中,无须再关心一些技术细节。只需通过简单的方法就可以迅速的取得丰富的信息资料。这种便利也促成了 在最近几年中, 快的速度扩大着。 1997年 12月, 互联网上大约有 3亿 2000万网页 1。 而 根据 索引擎在 2002 年 4 月索引网页表明,网页数已经超过 20 亿。 根据 止到 2005 年 12 月 31 日的统计表示,我国网站数 已经达到 694, 200个,一年增加 25, 300个 ,增长率为 2 。百度于 2005年 7月 27日正式宣布,百度索引的网页数量已经达到 8亿。天网实验室在今年年初的统计结果显示,目前中国国内的网页数量已经达到 11 亿。如此大规模的信息资源,没有统一的组织和规划,很难迅速有效的找到有用的信息。 信息检索 )技术和搜索引擎则为这些问题提供了最有效的解决方法。搜索引擎通过维护一个大规模的再现资源数据库来为用户提供搜索服北京大学 本科生毕业论文 中文 6 务,它通常由搜集系统,索引系统以及相关性判断系统组成。当前最具代表性的搜索引擎有 度和天网等。 试集 测试集是用来测试信息检索系统性能的 一套 标准数据的集合 。大规模数据集是加速信息提取领域研究的基础。任何信息检索系统在大规模测试集上的性能表现能够从一定程度上体现 出 该系统在实际应 用中的性能。任何信息系统只有在通过大规模测试集上的测试并给出 满 意的结果后,才能进入实际应用。由此也可看出,大规模测试集和评测是 改进信息检索技术和信息检索系统的关键。 一个完整的测试集由三部分组成:文档集、查询集和相关判断集。文档集是一组文档的集合,该组文档的内容用来被信息检索系统进行 文字分析。它是信息系统评估的数据基础。查询集是向信息检索系统提出的问题的集合。这些问题依据信息检索系统和所需进行评估的项目不同,可以是一个或一组关键词, 也可以是一段描述。通常这些问题由建立相关判断集的人员来制作 。由于相关判断集的制作非常耗费时间,所以这些问题的数量通常控制在几百个 左右。相关判断集是对应查询集中问题所给 的 一组 标准答案的集合,它被用来对比信息检索系统对于查询集中的问题所给出的答案。信息系统所给出的答案和相关判断集中的答案越相近,则证明该信息检索系统的质量越高。因 此,相关判断集的正确性和权威性至关 重要。通常,相关判断集通过人为 手动判断获得。 由于当今 模的飞速发展, 的信息已经能够覆盖很广泛的范围,因此最常用的一个构造测试集的方法就是构造一个 子集,使用这种方法所获得的集合 叫做 试集。目前,世界上已经有 别提供了面向英文和日文 检索系统 的 试集。 于 用何种方法来构造大规模的 集,以使其能够很好的体现出实际 统的特点是最重要的问题。文档集质量的高低 直接决定了整个测试集的质量和信息检索系统评估工作的效果。 北京大学 本科生毕业论文 中文 7 试集 为了促进信息检索的研究与应用的发展,美国国防部高等研究计划局(称 美国国家标准技术局(称 同举办了 过自己制作的大型测试集,定制各种测试项目 、测试程序及测量标准,组合成一套评估检索系统的机制。 1992 年举办 了 第一届 会议,其后持续每年年底举办 。除了与会者依据大会提供的测试集送回各个测试项目的资料以进行评估之外,还会有为期三天的研讨会,与会者可以在会中发表信息检索 系统的架构、评估结果,并相互讨论切磋 3。 1. 以大规模测试集为基础,推动信息检索领域的研究; 2. 通过开放式的论坛,促进与会者交流研究成果与心得,以增进学术界、产业界与政府的交流互通; 3. 通过展示在处理实际问题的检索方法上的实质改进 ,加快技术从研究到商业化的转变速度; 4. 发展适当缺据应用性的评估技术,供各界遵循采用,包括开发更加适用于现有系统的新的评估技术。 从 始, 始使用 试集完成评估工作。 试集的特征如下 : 抓取 2002年早期 ); 在抓取一百万 还包括 为像基于链接的排序这样的应用提供了重复表 (重定向表( 单文件大 小限定在 100从 358 严格的文件检查 (没有二进制文件 ); 北京大学 本科生毕业论文 中文 8 比 数更少,但更大的平均文当大小 。 测试集统计信息 4 文档数 1,247,753 ,053,372(依据服务器提供的 31,333 3,754 3,842 ,673 其他文本文档 44 包 4,613 总 大小 9,455,030,550平均包大小 217435平均文档大小 5,592文档限制大小 100际上约 100空文档 55 00GB 由北京大学网络与分布式实验室天网组制作的针对于中文信息检索领域的中文 试集。它 根据 天网搜索引擎截止 2004年 2月 1日发现的中国范围内提供 00,614个主机, 从中采样 17,683个站点,在 2004年 6月搜集获得 5,712,710个网页, 包括网页内容和 量为 90 其中每个网页对应的服务器返回信息中的 者 据集 从 2004 年 6 月 16 日 开始提供下载。 在中文信息检索领域, 至 2006年 3月申请该测试集的研究机构已经北京大学 本科生毕业论文 中文 9 超过 30 家,连续两年( 2004 年和 2005 年 )被 文 息检索评测和863信息检索评测指定为测试集。 北京大学 本科生毕业论文 中文 10 第二章 档集构造的几点考虑 通常来说,文档集相比 试集的其他组成部分起着更至关重要的作用。由于当今 域的技术应用基本都面对 因此 选取制作的文档集应该能够很好的体现出真实 境所具有的特点。从而 一个高质量的文档集应该具有非常广的主题范围,同时又具有相当的规模。一般来讲,这两点在实际当中是相辅相成的。 , 6等人针对文档集的代表性提出了三个问题: 1) 文档集应该使用静态的采集还是应该使用动态采集? 2) 这个文档集相对于父集的代表性有多大? 3) 能够满足一般和特殊 对于第一个问题,我们倾向于采用静态的方式来采集构造大规模文档集的网页。所谓静态的采集是指所有的网页在特定的一段时间内抓取的;而动态采集指的是动态 增量的搜集,即在任何时间搜集到的网页都可以随时添加到大的文档集 当中。虽然对于搜索引擎来说,动态增量的采集方法更为灵活并且效果更好,但是动态的采集策略却会给文档集的构造带来麻烦。首先,增量搜集会给文档集消 除冗余带来麻烦。在下文将可以看到, 用了 于需要对比所有网页的 来判断数据集内网页是否重复,因此这种方法的计算量是非常大的。如果采用动态的采集方法,对于每次的增量采集,采集到的集合中都可能包含与文档集中相重复的网页。因此,每当要把搜集到的网页添加到文档集当中,都必须进行一次消重操做,这会导致数据集构造构成对系统资源的需求增加,同时延长数据集构造的时间跨度。其次,增量采集很可能导致对网站大小的错误估计,因而影响采样。文档集构造的一个核心问 题就是对于文档的采样策略。当前的采样策略都是基于网站规模的,如果采用增量搜集的话,每次加入的网页可能会影响到站点下网页的多少,因而会影响到采样的结果。对于整个文档集的构造来说,我们希望能够在通过一定的搜集策略下,很好的描绘出网站的大小,然后再针对于文档集进行采样。然而,增量采集的过程会使特北京大学 本科生毕业论文 中文 11 定搜集策略对网站规模的估计失效,从而给文档集的构造带来意想不到的结果。再次,增量采集的时间跨度比静态采集的时间跨度更大,因此制作出来的文档集更容易被网站内容在时间上的变化所影响。而实际中,我们更希望文档集是 某一特定 时间点上的子集,因此时间跨度相对较小的静态采集才是首选。 对于第二个问题,要使文档集能够具有代表性,首先要让文档集具有 一定 规模,能够容纳下相当数量的网页。天网实验室孟涛同学在 2006 年初已经收集到的属于中国的网页已经达到 11 亿之多 。因此我们新的数据集也必须能在容量上跟上发展速度。然而,从另一个角度说,如果一味增大测试集的规模,将会使相关判断集的制作非常消耗人力。因此我们必须在代表性和规模之间作出权衡。其次,这个大规模的数据集必须能够比覆盖尽可能多的主体,保持内容上的多样性。相比 的抓取仅仅局限在 前 包含英文网页 )。仅从这一点上,就保证了 外, 相对于网页采集过程中还 加入了动态网页的搜集,并 采用了一系列策略来保证能够很好的体现网站规模的同时,避免抓取的网页全部集中在很少的网站上。从而尽可能覆盖更多的网站,以达到提高内容多样性的目的。 对于第三个问题, 档集大小的设定,更多的是考虑到数据易用性。由于在 2006 年初, 200G 300G 的 盘的价格已经达到可以接受的范围,因此,我们将数据集的规模设定在 200时为了能提供更多的信息,我们在保存的时候使用了压缩的天网格式。 况 根据天网搜索引擎在 2005 年 11 月份搜集网页所发现的中国范围内提供务的 627, 036 个主机,通过 一系列处理和过滤后 得到 88, 303 站点 。然后对这些站点进行网页搜集,每个网站的搜集深度为 3,单个网站搜集的数据量不限,得到初始数据集。 所有搜集的网页都具有 者 性。 然后 针对得到的原始数据集进行后期处理和 采样,得到容量为 197共 包括 29, 100个站点, 37, 482, 913个网页。 北京大学 本科生毕业论文 中文 12 第三章 文网页分布特点 在构造 试集文档集的过程中,最首要的任务就是要保证所构造的文档集有足够的代表性,能够体现出中文 实际特点,从而给中文信息检索系统的研究提供一个高质量的测试环境。这一切又归结为两个核心问题,一个是如何采样 点,另一个是如何抓取采样站点上的网页。而站点采样的策略又是 和中文网页分布特点紧密相连,因此在确定采样策略之前,有必要对中文网页的分布特点加以总结。 在 页的分布呈现 9。 小” y 和这个事物的排序位置有关。哈佛大学的语言学教授 试图决定第三个、第八个和第一百个常用的单词的“大小”。这里的大小实际上指的是单词在英文中的使用频率,而不是单词的长短。 则的可以表述为发生频率排在第 r 位的事物的大小反比与他的位置 r,或 : y 于网页分布来说,这里的位置 r 指的是网站大小,而发生频率指的是这个大小的网站的数量。在此,我们定义一个网站的大小等于属于这个网站的网页的个数。因而,网页的分布符合 则 就意味着拥有越多网页的网站,即越大的网站,个数往往越小;而拥有越少网页的网站,则会越 多。 对于中文网页的分布和规模,已经作过很多的工作来证实它的分布是符合则的。根据天网截止到 2004 年 2 月的搜集工作,天王搜索引擎一共在 1, 000, 614个网站中搜集了 2亿网页,其具体的分布图如下: 北京大学 本科生毕业论文 中文 13 可以很明显的看到,这个网站大小的分布图整 体上呈现出一个 L 字的形状。根据数据统计结果,仅有 网站拥有 500 或者更多的网页,而大多数的网站只有不到 300个网页。 为了检验这个分布是服从指数分布的 10,我们将网站数量和网站规模分别取对数后,得到下图: 北京大学 本科生毕业论文 中文 14 可以看到我们得到了一条比较平整的线,线的斜率为 此,中文网页的分布是服从指数分布 (等同于 则 )的。中文网页的分布特点将对我们的采样策略和抓取策率起到重要的作用。 基本选取 种子站点是将在后面网页抓取阶段进行网页抓取的网站。为了得到良好的种子站点 ,我们首先针对天网的搜集系统在 2005年 11月份所收集的约四亿网页数据进行了处理。这四亿网页数据被分别保存在 6台主机上,所有的数据文件都按照天网格式保存。首先,我们根据天网数据格式,将所有网页的 取出来,然后保存在相应的主机中,从而对于每个主机,我们获得了一个 表。随后,我们通过使用 作了一个统计程序,它负责从 后将对应的主机名插入到 据库中,并设置计数为 1。如果对应的主机名已经存在,则将数据库中的主机名称的计数加 1,最终统计出每个 主机名称下的网页数,程序的流程如图 3所示。最后,因为统计出来的主机规模数据分别存放在 6台机器上,我们还需要将六份单独的统计结果进行归并。然而由于不能保证6 台机器之间没有重复的主机名,因此为保证统计结果的正确定, 程序 按照与前面北京大学 本科生毕业论文 中文 15 统计程序相类似的方法来进行归并。不同之处在于,对于未曾在数据库中出现的主机名,需要根据已有的统计结果设置初值;当主机名已经报数据库中时,需要根据要添加的项目的计数来修改数据库中项目的计数,如图 4所示。 通过对分布在 6台机器上主机上的网站规模统计信息的合并,我们便获得了初始主机统计结 果,我们称这个主机列表为中的主机集合为0D。通过统计,我们一共获得了 627, 036 个独立主机地址,所有的主机名称都按照“协议 :/主机名 :端口 /”的格式进行保存。 在接下来的处理过程中,我们要对0有效性的检验中,我们主要处理如下几类问题: 1) 处理并消除由程序或网络传输北京大学 本科生毕业论文 中文 16 原因所造成的错误的主机名称, 2) 主机访问有效性的测试,并去除掉网络访问失败的主机名称, 3) 最后通过 的别名, 4) 去除所有非正式服务的主机。 如前所述,0着每一步的处理,我们或获得新的主机名称集合,我们一次命名为i=1, 2, 3, 4。下面的任何一步所获得的主机名称集合经过处理后得到的。对主机名称的具体处理过程如下: 1) 在程序处理的过程中,由于网络连接的问题,有可能造成抓取的网页和在网站上的网页不符,因此有可能造成网页内部所包含的链接信息发生错误,从而给出错误的主机名称。同时由于程序自身存在的问题,也会造成主机名称发生错误。由于这部分的错误非常明显,我们通过程序对一些常发生错误的判断和手动的判断,可以去除大部分的主机名称错误。 少量 未能在这个阶段去除的错误主机名,则可以在网络访问测试阶段去除掉。 最终,我们得到了无格式错误的主机地址列表1D 。 2) 在去除明显的主机名成错误后 ,我们希望进一步验证这些主机是可以访问的。所以验证有效性这一过程中,首要面对的问题就是通过什么手段来确认这些主机是可以访问的。在 制作过程中,主机名称网络访问测试由两部组成: a. 证。在这一步中,程序通过向 务器发送主机名成,让 果该站点无效,则 b. 实际访问网站。通常来说,程序会以主机名来直接进行访问,这样访问的便是该网站的首页。然而,在测试中发现虽然大部分的主机名称都能通过 测,只有很少的 返回错误信息,但在访问首页的过程中,仍有很多网站访问失败。所以在 际制作 过程中,我决定通过 称地址 抓取网站首页 来代替 的两步验证 。这样做的好处一是可以省去单独的 高效率。 因为 且在抓取首页的过程中还要再次通过 而 因此没有必要单独设立 二是 科生毕业论文 中文 17 问有很好的支持,通过对其参数的 调整 ,可以很方便的控制对主机访问的方式。因此,最终 放案是通过 序访问主机名 对应的地址,抓取主机的首页来确认该主机可以访问。在程序中,我们使用如下方式来运行 T 20 其中, 0 指将抓取网页的超时设置为 20秒, 指对于抓取不成功的网页,重试 2次。 在抓取网站首页中面对的另外一个很重要的问题就是访问网站的速度很慢,将一个主机的首页保存下来往往需要几秒到几十秒的时间。然而对于无效的主机地址,则只能让程序触发超时错误,并完成相应的重试次数才可以结束。根据我们设置的参数,这一过程至少需要 40 秒的时间。能够提高 整个验证过程速度的最佳方法就是使用多线程。我们让每一个线程的对应一个主机名称,同时打开 200 个线程,即同时访问 200个主机。通过这种方式,能够增大对网络带宽的利用,不必因为一个主机地址无效而导致其他任务为此等待。通过使用多线程,我们只需 4个小时就可以在一台服务器上完成 60多万主机有效性的检测。 然而在多 线程抓取的过程中,还有一个问题需要处理,就是抓取回来的主机首页如何 保存。因为 序在使用过程中,需要将抓取回来的网页保存在指定名称的文件中。如果对于所有线程指定同一个文件名,那么由于线程可以并发,那么 可能造成多个线程对同一个文件的交叉读写,破环文件内容,并对后一步的重产生严重影响。为了解决这一问题,程序中对于每一个线程给定了一个唯一的编号 (实际为线程的序号 ),使 据这一编号来命名临时的文件。由于这一编号对于所有线程来说是唯一的,因此就消除了多个线程读写同一个文件的可能。 通过排除不能访问的无效主机地址,我们获得了有效主机地址列表 2D 。 3) 在实际的 ,同一个网站有可能会有多个名字与它对应。在访问时,对于这个网站的每个名字,我们获得的信 息是相同的。实际上,这种情况往往是多个主机名所对应的服务器是相同的。由于这种冗余信息对于提高数据集的质量北京大学 本科生毕业论文 中文 18 是毫无意义的,因此有必要在抓取之前将这些网站的别名过滤掉。对于确定两个主机名所对应的站点是否相同最基本的办法是比较这两台主机上的所有页面,然而由于客观资源的限制,这种方法很难实现。由于 特点就是通过超链接彼此相连,而这些超链接信息 都保存在网页当中,因此我们只需判断两个主机名称所对应的服务器的首 页是否相同,即可判断出两个网站是否相同。 法是一种在网络和信息安全领域广为应用的算法。由于其自身重 复的可能极低,因此在计算机网络中往往使用 作为一个文件或网页的唯一标识符。为了避免在消重的过程中保存大量无用的网页并且进一步提高效率,在网页抓取完毕后,程序自动根据网页的内容计算出这个网页所对应的 。保存的在临时文件中的网页在计算完 后便被删除,以释放磁盘空间。接下来,我们再次通过 们将主机的 主机名称作为记录中的数据项,将所有通过网络访问的所有主机的信息输入到数据库中。在插入的过程中,如果有任何两个主机的 相同,则表示 他们指向的是同一个网站,因此只需在其中选择一个主机名称保存下来即可。最后将数据库中的所有记录输出到文件中,就得到了没有重复的主机列表3D。 4) 通过以上处理,我们已经获得了确定可以访问的没有重复的主机名成列表,但是这些主机中还会有很多主机是我们不希望收集到文档集当中的。 根据制作经验 , 通过非默认端口 (80 端口 )提供 务的站点主要是为测试使用,这些网站的信息量很少,对于测试集来说意义不大。因而,所有标注非 80 端口的主机名成都被从我们的主机名列 表中去掉。另外,以 为主机名称的网站由于没有 验证过程,也被认为是非正式的网站。为了保证文档集的质量,我们将这些主机地址也从我们的列表中删除。通过这一步我们最终获得 4D 。 虽然通过 所述过程,我们已经把大部分不符合要求的网站清除掉,但是还有一类网站对于文档集的构造来说是毫无意义的,那就是垃圾网站。垃圾网站的一大特点就是虽然它有很丰富的链接资源,但是这些网页本身的内容是没有意义的,而且很多这样的网站都是由特定的模版生成的,他们的网 页中的链接往往是链北京大学 本科生毕业论文 中文 19 向其他网站的广告或者是其他垃圾网站自动生成的网页。虽然这类网站的实际内容很少,但数量上却具有相当规模。比如提供个人域名的网站“ 他下面的网站“ “ 然他们的首页拥有不同的 ,但是通过浏览可以发现这两个站的首页非常相近,而且首页上几乎没有对于构造测试集有用的信息。因此这些无用的网站必须能够被识别出来,并从列表中除去。去除垃圾网站我们分别使用了自动和手动两种方法,具体如下: 1) 自动垃圾过滤:天网实验室孟涛同学在 1 月份进行 10 亿网页的过程中,根据实践积累了一个垃圾网站的主机地址列表。这个列表中包含了一些常见的垃圾网站和有用信息很低的网站的域名,共 3, 349 个。根据这一列表,我们通过正则表达式对包含列表中的域名的所有主机地址进行了过滤。通过这一过程,我们从4D 中的 285, 470个网页中去掉了 71, 059个主机地址。 2) 手动垃圾处理:通过上述过程,我们已经去除掉了大部分的垃圾网站,然而还是会有一些垃圾站点包含在列表中。为了提高文档 集的质量,这些网站只能通过认为的手动判断。这些主机的分布如图 6。可以看到在网站规模小于 500 处有几个脱北京大学 本科生毕业论文 中文 20 离周围点过多的点,在此 称 为异点。根据互联网网页分布的规律,这些 异 点很可能是因为 对应了大量 自动生成的无用站点 而高于其他分布点 。于是我们将这些异点所对应的网站列表进行单独分析,发现这些网站列表中包含很多拥有共同域名的网站,因此推测这些网站应该是垃圾网站。为了进一步确认,我们随机选取这些域名下的 5 个网站进行访问。通过认为的识别最终确定了这些网站确为垃圾网站。 另外,通过人工浏览站点列表来检查是否存在大量相同域的站点 ,可以进一步发现异点没能表现出来的垃圾网站。 通过这 两种方法,大部分具有相同域名的垃圾都可以被有效清除。我们在实际中 共清除了 6, 728 个主机地址。另外,我们还进一步过滤了使用数字开头 (在第一个主机名中的点之前 )的主机地址,因为这种主机通常都是程序自动生成或无用的网站,共过滤掉 39, 419 个主机地址。过滤后分布图如下: 通过上述处理,可以看到图形上不够平整的点已经基本消除,然而在接近于零的位置,图形依然很不平滑。因此考虑到这些网站所包含的页面链接很少,搜集北京大学 本科生毕业论文 中文 21 他们对于文档集能提供的信息和链接关系不多,而且 通 过人为随机采样验证 这些站点中大多数都属于垃圾站点,因此我们将所有页面数小于 10 的主机地址全部清除,共除去 17, 244个主机地址。 页的抓取 经过一系列的过滤和处理,我们得到了 88,303 个种子站点地址来进行网页的抓取。网页的抓取的过程中,并不是所有的网页都需要从网站上抓取下来。因为目前的信息检索系统主要面对的都是具有“ “ 型的文档,因此在抓取过程中,我们仅保存服务器返回类型为上述两种类型的文档。其次,由于中文 有很多网站采用了动态 页面 技术,因此 在网页抓取过程中,我们保留了所有具有动态生成的网页( 收录此类网页)。 抓取过程中面对的两个主要的问题是原始网页的保存格式和对于网页抓取的策略。对于原始网页的保存格式,我们采用如下策略: 1) 所有的网页都按照压缩的天网格式。服务器传回的 信息和网页的原文经过 加在天网格式头的后面。 2) 对于同一个主机名下的网页,都保存在以主机名( )命名的文件夹下的 3) 所有以主机命名的文件夹都根据主机名 称计算的哈希值分别存放在 56个文件夹中。哈希算法采用的是 C+的 配方法为,使用 计算出主机名称的哈希值之后,将该哈希值模 256,所得结果前面加上“ 为该主机文件夹所在的文件夹。经过这样的映射之后,使得每一个“ 头的文件夹下的数据都保持在约 180右。 通过这样的存储结构,能够很快的确定一个主机对应的数据文件的位置。同时,通过将 网页 数据进行压缩,也有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论