【毕业学位论文】（Word原稿）近似镜像网页检测算法及其评测-计算机网络技术

上传人：O*** IP属地：江苏上传时间：2016-07-04 格式：DOC 页数：46 大小：654.50KB 积分：24 举报 版权申诉

【毕业学位论文】（Word原稿）近似镜像网页检测算法及其评测-计算机网络技术_第2页

【毕业学位论文】（Word原稿）近似镜像网页检测算法及其评测-计算机网络技术_第3页

【毕业学位论文】（Word原稿）近似镜像网页检测算法及其评测-计算机网络技术_第4页

【毕业学位论文】（Word原稿）近似镜像网页检测算法及其评测-计算机网络技术_第5页

已阅读5页，还剩41页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

中文摘要 I 近似镜像网页检测算法及其评测中文摘要 I 摘要随着网页数量的急剧增长，近似镜像（页的数量也在不断增加。近似镜像网页的存在，严重影响了搜索引擎的检索结果。如果我们能将搜集到的网页中的近似镜像网页去掉，可以提高搜集系统和索引系统效率，用户查询时也不会出现大量内容重复的网页。去除镜像网页的算法即是近似镜像网页检测算法。本文在大量实验和真实数据分析的基础上，得到了如下研究成果和结论： 1) 提出了一种全文分块签名的多指纹近似镜像网页检测算法。该算法利用网页的标签树结构选取文本块生成纹序列，先通过部分预消重处理，然后将预消重处理的结果网页对两两比较得到算法的最终结果。设网页个数为 N，每个网页的列长度为 m，则算法的时间和空间复杂度分别是 )( 22 和 )( 2) 设定了针对近似镜像网页检测算法的评测与比较方法。该方法延续了传统的近似镜像网页检测算法的评测方法，并且重点分析了不同近似镜像检测算法结果的差集，提出了相对精确比的概念，并以次作为算法优劣性的评判标准。 3) 本文在 1,000,000网页的数据集内评测了全文分块签名的多指纹近似将向网页检测算法的性能，并利用天网现用的近似镜像网页检测算法作为基准程序，进行了优劣性的对比分析。关键词：万维网、搜索引擎、近似镜像、 I on to an in If we it we of be on a of of 1) a D5 of a by of in m of 2) By of s a of to is in to 3) to on ,000,000 in 录录摘要 . I 英文摘要） . 一章引言 . 1 近似镜像网页背景介绍 . 1 近似镜像网页算法研究现况 . 5 基于内容的近似镜像网页检测（ . 5 基于链接的近似镜像网页检测（ . 7 基于链接信息的近似镜像网页检测（ . 8 本文研究的主要内容 . 8 第二章相关研究 . 10 相关研究介绍 . 10 本文的贡献 . 12 第三章近似镜像网页的定义 . 14 相同网页 . 14 相似网页 . 15 相似网页类 . 17 第四章近似镜像网页检测算法 . 19 程序流程 . 19 算法描述 . 20 . 20 . 20 算法分析 . 21 第五章近似镜像网页检测算法的评测 . 24 基准程序 . 24 评测指标的定义 . 25 查准率（ . 25 查全率 / 覆盖率（ . 26 目录算法复杂度（ . 26 差集（分析和相对精确比 . 27 第六章实验结果和结论 . 29 实验数据集 . 29 多指纹镜像网页检测算法的参数分析 . 29 测试数据集大小对实验结果的影响 . 33 同现有程序的比较 . 35 结论 . 36 进一步的工作 . 37 参考文献 . 39 致谢 . 41 第一章引言 - 1 - 第一章引言近似镜像网页背景介绍随着互联网的不断发展，人们越来越多地在互联网上发布和获取信息。布、加工和处理的主要平台。传统的互联网应用技术大多是基于文档内容的，与经典的信息检索技术和数据库技术有着密切的联系。但是，互联网中特有的许多问题，使得互联网应用技术很难有效地应用。大量重复的网页文档就是其中的一个问题。我们都知道，存在网页内容转载的情况，我们把转载的网页称为原始网页的镜像。如果是热门话题、重大新闻或经典文章，则转载的频率会很高。因此，存在大量的镜像网页。并且整个网页集会经常被各个服务器备份，以提供更快的本地访问。比较常见的镜像网页是技术文档。例如，考手册（是一个 25 包含数千个网页的网页集，它在全球有超过 180 个镜像。其他常见的镜像网页还有政府部门的法令、通告。例如，公安部颁布的计算机信息网络国际联网安全保护管理办法在国内的网站上有一百二十个镜像。另外，还有重大新闻、热点新闻和提供一定服务的网站和网页，如各类提供影视、音乐、图书服务的站点。大量的镜像网页并不是对原始网页的简单拷贝，而是将要转载的内容放在新的模板中再提供服务。我们称这样的网页为近似镜像网页。通过分析，我们将网上存在的近似镜像网页或网页集分为以下几种：完全重复的镜像网页。例如法律文件、热门网站的镜像站点等等。产生这些近似镜像网页的原因一般来说有：第一章引言 - 2 - 镜像站点，即完全相同的网页存在于网络的不同位置。动态动态网页的不固定的。即同一个页面可以和多个对应。我们访问该页面时，是应用数来打开该内容的详细资料页面。一般情况下，整个互联网上静态网页比动态网页质量要高很多。因此，很多搜索引擎会优先收录静态网页，而在搜索结果中，静态网页往往也比相同的内容的动态网页排名要靠前。非法的重复：网络垃圾、陷阱站点等。些站点甚至可生成无穷无尽、对搜索引擎毫无意义的网页，这些站点构成网页搜集系统的陷阱。一些提供数据库查询的网站便是典型的例子。部分重复，即近似镜像的网页。这些网页可能是在模板、格式、站点管理员签名等方面有所改动，但是网页正文部分的内容是几乎完全相同的。例如，相同的文档可能在网上存在不同格式的版本。这些网页也有可能是内容部分重复的网页。例如未更新的文档。这些近似镜像的网页正是本文研究的重点和难点。产生这些近似镜像的网页的原因可能有：更新频率：一个网页集的主要备份通常被及时更新，但是其镜像备份可能几天、几周、几各月才被更新一次。这些成套网页集的镜像备份由于其更新频率过低而通常是过时的。部分镜像：每个镜像网页集覆盖主要备份的程度都是不同的。大多数情况下，网页集合是被全部镜像的。在其他一些情况下，只有部分网页被拷贝，并且保留了指向其他镜像站点或是主要备份的链接。不同的格式：主要网页和备份网页的格式可能是不一样的。例如，一个网页可能用的是件，而另一个采用者式。对于我们在搜索引擎方面的应用来说，我们希望不同格式的两个网页是“相似的”。第一章引言 - 3 - 不同模板：商业网站中的网页通常都是由同一个模板自动生成的。这些网页被加入了一些导航条、广告、图片、版权信息等网页噪音。这样它们就会和其他网站中相同内容的网页有一些不同。部分抓取：搜集端可能没有足够的资源来获取所有的数据，或者搜集端本身出现错误。所以即使两个网页是完全重复的，搜集端所抓取到的网页也可能是不一样的。随着站点和网页的增加，近似镜像网页的存在越来越引起了人们的重视。人在 1996 年对集到的 30,000,000 个网页进行实验得出结论：有近 18的网页是完全相同的。有 41的网页是具有 50的相似性et 1997。人在 1999 年利用索到的 25,000,000 个网页的数据集统计得出约 48的网页是重复的 et 2000。国内的网页重复现象更为严重，中国互联网上从 2002 年 12 月至 2003 年 4月的网页，去掉完全拷贝的镜像网页后只剩 3000 万，再去掉转载形成的近似镜像网页后只剩余 1800 万。从上面的数字我们可以看出，随着互联网上网页的增多，近似镜像网页所占的比例也在不断增大。近似镜像网页的存在已经成为了一个很严重的问题。它所带来的代价就是：资源的浪费：花费大量的时间抓取重复的网页并花费大量的磁盘空间存取；索引负担：建立索引时，必须对大量的重复网页建立索引，使倒排文件变得庞大；影响服务效果：庞大的倒排文件直接影响提供服务时的响应速度，并且检索结果中会出现大量的重复结果，毫无价值，降低用户满意程度。第一章引言 - 4 - 所以，如何快速准确地发现这些内容上近似镜像网页已经成为提高搜索引擎服务质量的关键技术之一。近似镜像网页检测算法，就是在这样的需求下产生的。近似镜像网页检测算法，就是在给定大数据量的随机文件（即网页）的数据集，从中发现近似镜像网页的算法。在搜索引擎中，如果我们能将搜集到的网页中的近似镜像网页去掉，而后再建索引提供服务，这样用户查询时就不会出现大量内容重复的网页。这个去除镜像网页的过程被称为消重。所以，我们有时也称近似镜像网页检测算法为消重算法。近似镜像网页检测算法的目的是自动的识别网上的重复的文档，这样以下方面的任务就可以被更有效地执行。网页存储：近似镜像网页的存储浪费了大量的空间。如果我们能够找出这些近似镜像网页并从数据库中去掉，就能够节省一部分存储空间，进而可以存放更多的有效网页内容，同时也提高了索的质量。网页搜集：网页搜集器为搜索引擎及其他数据挖掘应用获取网页。如果我们能够通过对以往搜集信息的分析，预先发现近似镜像网页，在今后的网页搜集过程中就可以避开这些重复的网页或者整个网页集，从而提高有效网页的搜集速度，网页搜集器将可以更快的完成它的工作。另外，如果某个网页的镜像度较高，也就预示着该网页相对重要。如果搜集网页时赋予它较高的优先级，搜集器在相同时间内就可以搜集到更多的重要网页。网页排名：在通常意义下，镜像度越高的网页越重要。所以查询结果可以根据重复系数排名。当搜索引擎系统在响应用户的检索请求并对输出结果排序时，应该赋予它较高的权值。另外，如果我们能发现近似镜像的网页类，那么把它显示在查询结果里，或者提供整个镜像网页类的入口，将会是非常有用的。网页博物馆：网页博物馆或者档案馆是以历史性的目的，存储现在引言 - 5 - 的一个子集。如果网页博物馆不能存储整个的网络的话，它将优先存储那些已知存在镜像的网页，尤其是存在镜像的网页集，因为它们展示的是一个连贯的知识体系，具有一定的重要性。似镜像网页检测算法研究现况如果我们对于现有的各种近似镜像网页检测算法进行整理分类，将得到以下几种主要的研究方向。于内容的近似镜像网页检测（基于关键词提取的近似镜像网页检测当前比较成功的搜索引擎系统大多是基于关键词匹配来完成用户的检索请求的。典型的系统即是北大的“天网”系统天网。通常这类系统在对已抓取回来的网页进行分析时，要提取网页中出现的关键词和摘要信息，并以关键词或者摘要作为网页的特征项。 1. . . 30 29 20 . 1 网页的向量空间表示第一章引言 - 6 - 如果我们令 ,., 21 来表示网页的集合， ,., 21 表示特征项集，它由网页集中的所有或部分特征项组成。如图示，网页特征项空间中的向量 ., 21 表示，其中： )( (示特征项网页的权值，示特征项网页出现的频率，称为项频，表示网页集 P 中出现了特征项网页数目的倒数，称为反向网页频率。在很多的文档自动分类系统中，任意两个网页相似度通常用其对应向量夹角余弦值来定义（如公式 (示），向量夹角越小（即夹角余弦值越大）表明其相似度越高。 ),c o s (et 2000 提出了基于文档向量空间模型（的 5 种近似镜像网页检测算法，并利用 2000 年的 “天网” 搜索引擎系统天网对这 5 种算法进行了实际评测。这些方法被证明是非常成功的，能够以极小的时间复杂度和空间复杂度来获得较高的查全率，同时保持了很高的查准度。北大天网搜索引擎系统的现在所用近似镜像网页检测算法就是在基于 et 2000算法基础上考虑了网页噪音消除后的算法。本文就是该算法作为评测算法的基准程序的。详见节。基于全文分段匹配的近似镜像网页检测这类算法采用的是一种对全文分段签名的方法。这种算法把一篇网页按一定的原则分成 m 段（如每 n 行作为一段，或利用文本的自然段等等），然后对每一段进行签名（即计算指纹），于是每一篇文档就可以用对于两篇文档，当它们的 m 个签名中有 t 个相同时（ t 是系统定义的阈值），则第一章引言 - 7 - 认为它们是互为近似镜像网页。 1998 提出的近似镜像网页检测算法就是一种全文分段签名的算法。作者使用的是将全文每 n 行作为一段的分段方法。他还比较了参数 n 的选择对于近似镜像网页检测效果的影响。例如，将全文做一整段、每四行做一段、每两行做一段等等。该算法使用对三元组排序的方法避免了对所有网页作两两比较，使算法复杂度有所降低。本文所提出的近似镜像网页检测算法，也是一种全文分块的近似镜像网页检测算法。并且我们针对海量数据的特点将算法做了一些优化。基于模板消噪的近似镜像网页检测模版因素给近似镜像网页检测算法的准确性有很大的影响。由于大量的近似镜像网页并不是对原始网页的简单拷贝，而是将要转载的内容放在新的模板中再提供服务。因此模板中的内容就会干扰算法程序对近似镜像网页的判断，从而导致错误的检测结果。常见的错误结果有以下两种情况：相同的主题内容，由于放在了不同的模板中（噪音内容不同）导致应该被消掉但实际上被近似镜像网页检测程序判断为非镜像网页而保留；不同的内容，由于放在了相同的模板中导致不应该被消掉但实际上被近似镜像网页检测程序判断为镜像网页而消掉。基于模板噪音消除的近似镜像网页检测就是先对网页进行净化，去掉网页的模板噪音内容，进而提取出网页的正文，然后再结合其他近似镜像网页检测方法对网页的正文进行消重的方法。于链接的近似镜像网页检测（这里的链接，指的是网页的入链。我们可以用所有连向网页 u 的网页的标识 ,例如为网页如果两篇网页中的具有相近的特征项，我们就第一章引言 - 8 - 可以说两个网页是近似的。正如 1999的研究显示，基于连接的近似镜像网页检测方法的缺点是那些只有少量入链的网页只有很少的引用数据，它们一般不会出现在查询中，也不可能显示在查询结果中。这样，那些还没有被其他网页链接的新网页就不可能在近似镜像网页检测结果中显示了。于链接信息的近似镜像网页检测（链接信息，是指出现或邻近于指向网页 u 的链接边中的文字。即常见的链接信息窗口（实际上，很多网络信息提取任务都使用了链接信息窗口 000。链接信息窗口通常包含一个人工创建的目标文档的摘要。这个摘要包含了很明显的人工总结信息和人工分类信息。文研究的主要内容由于多数搜索引擎返回结果界面是一个个独立的网页，而不是网页集。所以本文中，我们主要分析针对单个网页的近似镜像网页检测算法。关于针对网页集的近似镜像网页集的检测算法，可以参考 et 2000。我们首先分析了近似镜像网页的含义，明确了相同和相似网页的定义，并在此定义的基础上，提出了一种全文分块签名的多指纹近似镜像网页检测算法。该算法利用网页的标签树结构选取文本块生成纹序列，先通过部分后将预消重处理的结果网页对两两比较得到算法的最终结果。设网页个数为 N，每个网页的列长度为 m，则算法的时间和空间复杂度分别是 )( 22 和 )( 然后我们设定了针对近似镜像网页检测算法的评测与比较方法。该方法延续了传统的近似镜像网页检测算法的评测方法，并且重点分析了不同近似镜像检测算法结果的差集，提出了相对精确比的概念，并以次作为算法优劣性的评判第一章引言 - 9 - 标准。最后，本文在 1,000,000 网页的数据集内评测了全文分块签名的多指纹近似将向网页检测算法的性能，并利用天网现用的近似镜像网页检测算法作为基准程序，进行了优劣性的对比分析。在第二章中，我们介绍了相关的研究工作，并提出了本文的贡献。在第三章中，我们讨论了网页的相似性标准。然后在第四章中，我们介绍了本文所使用的近似镜像网页检测算法。在第五章中，我们分析了如何评测近似镜像网页检测算法的性能。以及在第六章中，我们分析了实验数据并得出了结论。第二章相关研究 - 10 - 第二章相关研究关研究介绍国际上对近似镜像文档检测算法的研究最初主要是针对大型文件系统的，后来又被拓展应用于数字化图书馆项目和搜索引擎系统。美国学的研究人员采用计算文档的重叠程度的方法来发现一个大型文件系统中的相似文件1993。作为 N. 型系统 995, 用于发现相似的数字化文档。后来基础上，提出了一种全文分段签名的近似镜像网页检测算法 998，并将此用于统。现在，世界上成功的搜索引擎一个都有一套自己的近似镜像网页检测算法，并不断改进着。 et 1997 提出了一种有效的识别文件的文本相似性的方法，并将这种方法用于集到的的所有网页。作者首先相对于定义了与位置无关的为网上所有资源的标识符。然后作者定义了相似度（包含度（个数学标准来度量文本之间的相似性。通过计算所有网页对的相似度和包含度，作者识别了所有相似网页对，并建立了所有相似网页类。并且将结果用于“ 务、网页搜索结果的过滤、广泛分布的镜像文件的更新和违反知识产权的剽窃行为的检测等等应用。 et 2000对型系统的近似镜像检测算法 995 作了进一步改进，并应用于学开发的章相关研究 - 11 - 搜索引擎系统文章提出了如何利用重复文本集和超文本网页集来提高搜索引擎抓取器、网页档案馆和网页排名函数等应用的效果。文章首先定义了近似镜像网页集的概念，并提出了一种有效的识别近似镜像网页集的算法。这是一种增式搜索最优子图的算法。对于处理大量网页十分有效。作者利用集到的 25,000,000 个网页，约 150 数据集做了实验。使用不同参数的近似镜像网页检测查重算法，作者得出结论： 25,000,000 个网页中有 36 48的网页是重复的。并且通过分析实验结果，将这些网页集分为大量重复的网页集，多名服务器和噪音等种类。作者还利用近似镜像网页集的结果改进了两个实际应用。利用重复或相似网页的结果，工作量减少了 40 。相同时间内，搜集器抓取到 35,000,000 个网页，约 250在这些网页中，重复率由 48降低到 13 。并且消除了重复文档的查询结果界面更加有序且方便于用户。 et 2000 利用文档的向量空间的表示，为基于关键词匹配的搜索引擎系统提出了 5 种近似镜像网页检测算法，并利用“天网”系统天网对这 5 种算法进行了实际评测。另外作者还将它们与现有的方法进行了对比分析。实际评测以及与现有方法进行对比分析后，表明这些方法是非常成功的，能够以极小的时间复杂度和空间复杂度来获得较高的查全率，同时保持了很高的查准率。文章所论述的近似镜像检测算法已成功地被用于消除“天网” 搜索引擎系统的近似镜像网页，同时它们也可广泛应用于数字化图书馆的搭建。 et 2004 针对需求，设计了一种网页预处理的框架和方法。其预处理包括三个方面：网页净化，网页消重和网页整合，并最后将网页转化为一种通用的式。算法首先对网页进行标签树构造，然后对标签树中的结点进行剪裁以达到净化的目的。算法针对主题网页、目录性网页和图片网页的不同特征，采用了不同的净化方法。该方法已经应用于天网搜索引擎系统的网页消重过程和网页自动分类系统。 “天网”搜索引擎系统现第二章相关研究 - 12 - 在已经采用了这种预处理的框架。本文采用的基准算法即是的其中包括网页净化的消重算法。文的贡献从近似镜像网页检测的背景和相关研究，我们可以看到本文的贡献在于：可计算的相似性的衡量标准：我们精化了相同和相似网页的标准。这个标准，除了是一个“ 正确 ”的标准外，我们还能有效地在以上的硬盘数据上进行计算。我们的定义是精确性和在海量数据上的可计算性的折衷。因为网上的数据量是惊人的，大约在几亿网页和几百数量级上，并且还在迅速增长着。所以，无论我们用什么标准来定义重复的网页，我们必须针对这么大的数据量。对于多指纹的近似镜像网页检测的优化：多指纹的近似镜像网页检测算法都基于这样一个基本思想：为每个文档计算出一组指纹（若两个文档拥有一定数量的相同指纹，则认为这两个文档的内容重叠性较高，也即两者是互为近似镜像的。假设数据集为我们为每个网页生成对于似镜像的时间代价就是 )( 22 这样的计算量，对于 N 为上亿个数据集来说是不可能完成的。所以，一般的全文签名算法都会对数据作一些处理以降低算法的复杂度。1998 的算法使用对三元组排序的方法避免了对所有网页作两两比较，使算法复杂度有所降低。但是该算法的空间复杂度和时间复杂度仍然是相当大的，若应用于海量的搜索引擎系统，仍然难以取得理想的效果。我们的算法在生成每个网页的指纹的时候，对于这章相关研究 - 13 - 序（例如可按照所对应文本块的大小）。这样，在比较网页指纹组的时候，我们只对于在前 0对于任何一个超文本链接存在得 M( 需要说明的是，我们定义两个超文本链接是相同的，当且仅当这两个超文本链接在各自文本中所在的位置是相同的，它们的连接信息是相同的，并且它们所指向的页面是相同的。正如我们在引言中介绍的，许多对于近似镜像网页的应用并不关心严格的相同性。所以，我们需要放宽定义 1来得出我们对于相似的网页的定义。对于定义1 的不同的扩展，就会得到不同的相似网页的定义和基于这个定义之上的近似镜像网页检测算法。因为存在各种方法来放宽这个定义，我们需要遵循两条原则：我们需要一个符合我们直觉的相似性定义。也就是说，我们对于网页集的相似性定义，必须同我们实际生活中说“两个复制很接近”相吻合。我们必须能够在大量网页上有效并且自动地计算其相似性。在第三章的剩下的篇幅，我们将讨论符合这两条标准的扩展性定义。第三章相似网页的定义 - 15 - 似网页由定义 1 可以看出，对于定义 1 的放宽，包括对于网页内容和网页链接结构两方面定义的放松。在本文中，我们主要讨论对于网页文本内容相似方面的扩展，而不考虑网页中所包含的超文本链接和链接信息等。针对超文本链接和链接信息的相似网页的定义可以参考 1999。所以在本文中，如果没有明确说明，我们所指的网页是它的文本内容。我们可以用很多种方式来定义两个网页文本内容的相似性。例如，我们可以用信息提取中的文档向量空间模型的定义计算两个网页向量的夹角来决定网页的相似度。我们也可以用数据挖掘技术先将网页聚类，再定义每个组中的网页对为相似。第三个方法就是通过计算各个文章中相同块（例如句子或者段落）的个数来计算文本的重叠率。在所有的方法中，都有一个阈值来标记两个网页的相似程度（例如，相同的单词的个数、 n 维向量的距离或者相同的块的个数）。这个参数需要根据经验值调整以满足不同应用的需要。即定义 2 的描述。定义 2（相似的网页）定义 ST(pi,一个判定网页对 (pi,相似程度的测试，且 0 ST(pi, 1。当 ST(pi, 1，网页定一个相似程度测试 ST(pi, 阈值 t，基于这个测试我们可以说这两个页面pi,果 ST(pi, t。记作 pi 在先前的工作 995 中，我们已经知道了这个对于近似镜像网页定义有效地接近了人们现实中对于相似内容的网页的定义。（这些文章中也讨论了如何进行文本块和阈值 et 1997 也报道了相似的结果。并且，这些参考文献同样显示了进行相似性检测的代价是很低的，所以在很大的网页集中计算页面的相似性是可行的。所以，我们在实验中采用的正是这种相似性的定义。第三章相似网页的定义 - 16 - 正如我们前面所说的，对于文本的相似性计算主要有计算空间向量夹角，聚类和计算文本重叠度三种方法。 et 2000和 et 2004采用的是基于文档向量空间模型的单像网页检测算法，但是由于单指纹的方法很敏感，只要提取的关键词不同，那么生成的指纹一定不同。而且，指纹的差别不能体现网页的差别。所以我们希望用多对于聚类的方法，多用于数据库记录的消重。由于聚类需要 )( 2相似度计算，因此开销很大。对于数据库记录还可以接受，但对于文档则比较困难。所以我们在实验中使用的是计算文本重叠率的方法，并扩展了这个方法。为了计算文本的重叠率，我们首先进行网页格式分析，把每个式的原始网页按照其内部标签建立网页的标签树，提取标题和正文的文本块。对于每个文本块，我们生成一个 16 位的纹。如果两个页面有多于阈值 t 个的具有相同指纹的块，那么我们就称这两个页面是相似的。定义 3 描述的就是我们算法的基本思想。定义 3 定义 m (m 1)个纹的测试 pi,下：假设网页个网页块 2, 页块按重要性排序），取前 m（网页块生成纹对于网页对 (pi,定义 pi, m0/m，其中 pi,个数。易得，给定阈值 t，如果 pi,t，则称这两个页面 pi,作 pi 对于大规模的网页集合来说，不能否认， m 个纹的近似镜像网页检测算法的时间代价比较高，对于数量为 N 的网页集合来说，其时间代价为)( 22 我们可以对 m 个纹近似镜像网页检测算法进行合理的简化，以得到更更高的性能。最简单的例子是取 m=1，用单一的纹作为网页的指纹，即是常说的单似镜像网页检测。但是由于敏感性比较高，单丢失文本中的一些信息，所以近似镜像网页检测的准确性没有多章相似网页的定义 - 17 - 近似镜像网页检测的好（见第六章的实验数据分析）。尽管用代价高的算法性能可能会受影响，我们需要在近似镜像网页检测准确性和时间复杂度之间作一个权衡。似网页类显然，网页的相同性具有传递性，那么网页的相似性是否具有传递性呢？按照我们直观的理解，网页的相似性是具有传递性的，即对于任意三个网页果且有但是定义 2， 3 中对于网页的相似性的定义并不具有严格的传递性。即可能出现这种情况：存在 3 个网页，似于似于是不相似。那么我们是希望这三个网页是相似的，还是希望仅仅考虑两个相似对？我们的选择是希望判断这三

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【毕业学位论文】（Word原稿）近似镜像网页检测算法及其评测-计算机网络技术

文档简介

温馨提示

最新文档

评论

【毕业学位论文】（Word原稿）近似镜像网页检测算法及其评测-计算机网络技术

文档简介

温馨提示

最新文档

评论

相关文档