java爬虫技术之爬取策略_第1页
java爬虫技术之爬取策略_第2页
java爬虫技术之爬取策略_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、java爬虫技术一内功修炼之网络爬虫爬取策略(三)在小奇及同门经过一段时间的知识消化和休息之后,传功长老乂开始讲解自 己的爬虫经验与技巧。接下来主要说一下网络爬虫的爬取策略:深度优先策略:深度优先遍历策略是指网络爬虫从起始页开始,一个链接一 个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪,直至结 束。如图:深度优先采集规则:先采集A-F-G这条线 再釆集E-H-I这条线 软 后再采集BCD节点。深度优先策略是一种在开发爬虫工具早期使用较多的方法。它的U的是要达 到被搜索网页结构的叶节点(即那些不包含任何超链接的HTML文件)。在一 个HTML文件中,当一个超链接被选择后,被链接

2、的HTML文件将执行深度优先 搜索,即在搜索其余的超链接结果之前必须先完整的搜索单独的一条链。深度优 先搜索沿着HTML文件上的超链接直到不能在深入为止,然后返回到某一个 HTML文件,再继续选择该HTML文件中的其他超链接。当不再有超链接可选择 时,说明搜索已经结束。优点:能遍历一个web站点或深层次嵌套的文档集合。缺点:因为web结构 相当深,有可能是死循环,有一旦进去就可能再也出不来的情况的发生。宽度优先策略:宽度优先策略的基本思路:将新下载网页中发现的超链接直 接插入到待抓取URL队列的末尾。也就是指网络爬虫会先抓取网页中所有链接的所有网页,然后再选择其中一个链接网页继续抓取在此网页中

3、的所有网页。宽 度优先采集的规则,如右图:采集顺序为A-B-C-D-F再采集GHL在宽度优先搜索中,先搜索完一个web页面中所有的超链接,然后再继续搜 索下一层,直到底层为止。例如:一个HTML网页文件中有三个超链接,选择其 中之一并处理相应的HTML文件,然后不再继续选择笫二个HTML文件中的任何 超链接,而是返回并选择第二个超链接,处理相应的HTML文件,再返回选择第 三个超链接并处理相应的HTML文件。一旦一层上的所有超链接都已被选择,就 可以开始在刚才处理过的HTML文件中搜索的其余的超链接。这就保证了对浅层 的首先处理。当遇到一个无穷无尽的深层分支时,不会导致陷入死循环当中出不 来的

4、情况方生。宽度优先策略优点:它能在两个HTML文件之间找到最短路径。宽度优先策 略通常是实现爬虫的最佳策略,因为他容易实现,而且具备大多数期望的功能。 缺点:如果要遍历一个指定的站点或者深层嵌套的HTML网页集用宽度优先搜 索则需要花费比较长的时间才能到达深层次的HTML文件。综合上述:考虑以上儿种策略和国内信息导航系统搜索信息的特点,国内一 般采用宽度优先策略为主,线形搜索策略为辅的爬取策略。对于某些不被引用或 很少被引用的HTML文件,宽度优先策略可能会遗漏这些孤立的信息源,可以使 用线性搜索策略作为爬取的补充。非完全PageRank策略:PageRank算法是谷歌搜索引擎页面抓取采用的算

5、法。 非完全PageRank策略基本思路是对于已经下载的网页,加上待抓取URL队列中 的URL-起,形成网页集合,在此集合内进行PageRank计算,计算完成后,将 待抓取URL队列里的网页按照PageRank得分山高到低排序,形成的序列就是爬 虫接下来应该依次抓取的URL列表。缺点:如果每次新抓取到一个网页,就进 行重新计算新的非完全PageRank,明显效率太低。折中办法是网页攒够K个计 算一次。OCIP 策略(Online Page Importance Computation)即在线页面重要性II 算 基 本思路:在算法开始之前,每个互联网页面都给予相同的现金J每当下载了 某个页面P后

6、,P就将自己拥有的现金平均分配给页面中包含的链接页面,把自 己的现金清空。而对于待爬取URL队列中的网页,则根据其手头拥有的现金" 金额多少排序,优先下载“现金"最多的网页,OPIC从大的框架上与PageRank思 路基本一致。与PageRank的区别在于:PageRank每次需要迭代计算,而OPIC 策略不需要迭代过程。所以计算速度远远快与PageRank,适合实时计算使用。 同时,PageRank在计算时,存在向无链接关系网页的远程跳转过程,而OPIC没 有这一计算因子。实验结果表明,OPIC是较好的重要性衡量策略,效果略优于 宽度优化遍历策略。大站优先策略(Larger Sites First)大站优先策略思路:以网站为单位来选题 网页重要性,对于待爬取URL队列中的网页,根据所属网站归类,如果哪个网站 等待下载的页面最多,则优先下载这些链接,其本质思想倾向于优先下载大型网 站。因为大型网站往往包含更多的页面。鉴于大型网站往往是著名企业的内容, 其网页质量一般较高,所以这个思路虽然简单,但是有一定依据。实验表明

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论