网络爬虫文档_第1页
网络爬虫文档_第2页
网络爬虫文档_第3页
网络爬虫文档_第4页
网络爬虫文档_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本文格式为Word版,下载可任意编辑——网络爬虫文档网络爬虫文档

一、

爬虫基本知识

1、传统爬虫

从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定中止条件。

2、聚焦爬虫

聚焦爬虫的工作流程较为繁杂,需要根据一定的网页分析算法过滤与主题无关的链接,保存有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的探寻策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时中止。

3、传统爬虫的局限性

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用探寻引擎所返回的结果包含大量用户不关心的网页。

(2)通用探寻引擎的目标是尽可能大的网络覆盖率,有限的探寻引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用探寻引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。

(4)通用探寻引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

4、聚焦爬虫解决的三个主要问题(1)对抓取目标的描述或定义;

①基于目标网页特征

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。具体的方

法根据种子样本的获取方式可以分为:(1)预先给定的初始抓取种子样本;(2)预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;(3)通过用户行为确定的抓取目标样例。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。

②基于目标数据模式

基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。

③基于领域概念

另一种描述方式是建立目标领域的本体或词典,用于从语义角度分析不同特征在某一主题中的重要程度。

(2)网页或数据的分析与过滤;

①基于网络拓扑

基于网页之间的链接,通过已知的网页或数据,来对与其有直接或间接链接关系的对象(可以是网页或网站等)作出评价的算法。又分为网页粒度、网站粒度和网页块粒度这三种。(均与pagerankHITS算法有关)PageRank

基本思想:假使网页T存在一个指向网页A的链接,则说明T的所有者认为A比较重要,从而把T的一部分重要性得分赋予A。这个重要性得分值:PR(T)/C(T)

其中PR(T)为T的PageRank值,C(T)为T的出链数,则A的PageRank值为一系列类似于T德页面重要性得分值的累加。

优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询相应时间。

不足:人们的查询具有主体特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank有很严重的对新网页的歧视。HITS

一个网页重要性的分析的算法,根据一个网页的入度(指向此网页的超链接)

和出度(此后网页指向别的网页)来衡量网页的重要性。其最直观的意义是假使一个网页的重要性很高,则他所指向的网页的重要性也高。一个重要的网页被另一个网页所指,则说明指向它的网页重要性也会高。指向别的网页定义为Hub值,被指向定义为Authority值。

寻常HITS算法是作用在一定范围的,譬如一个以程序开发为主题网页,指向另一个以程序开发为主题的网页,则另一个网页的重要性就可能比较高,但是指向另一个购物类的网页则不一定。

在限定范围之后根据网页的出度和入度建立一个矩阵,通过矩阵的迭代运算和定义收敛的阈值不断对两个向量Authority和Hub值进行更新直至收敛。

②基于网页内容

基于网页内容的分析算法指的是利用网页内容(文本、数据等资源)特征进行的网页评价。网页的内容从原来的以超文本为主,发展到后来动态页面(或称为HiddenWeb)数据为主,后者的数据量约为直接可见页面数据(PIW,PubliclyIndexableWeb)的400~500倍。另一方面,多媒体数据、WebService等各种网络资源形式也日益丰富。因此,基于网页内容的分析算法也从原来的较为单纯的文本检索方法,发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。本节根据网页数据形式的不同,将基于网页内容的分析算法,归纳以下三类:第一种针对以文本和超链接为主的无结构或结构很简单的网页;其次种针对从结构化的数据源(如RDBMS)动态生成的页面,其数据不能直接批量访问;第三种针对的数据界于第一和其次类数据之间,具有较好的结构,显示遵循一定模式或风格,且可以直接访问。

③基于用户访问行为(3)对URL的探寻策略。

①广度优先探寻策略

广度优先探寻策略是指在抓取过程中,在完成当前层次的探寻后,才进行下一层次的探寻。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先探寻方法。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先探寻与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。

②最正确优先探寻策略

最正确优先探寻策略依照一定的网页分析算法,预计候选URL与目标网页的相像度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取。它只访问经过网页分析算法预计为“有用〞的网页。存在的一个问题是,在爬虫抓取路径上的很多相关网页可能被忽略,由于最正确优先策略是一种局部最优探寻算法。

③深度优先探寻策略

度优先探寻时一种在开发爬虫早期使用较多的方法。它的目的是要达到被探寻结构的叶结点(即那些不包含任何超链的HTML文件)。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先探寻,即在探寻其余的超链结果之前必需完整地探寻单独的一条链。深度优先探寻沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时,说明探寻已经终止。爬行策略①选择策略

就现在网络资源的大小而言,即使很大的探寻引擎也只能获取网络上可得到资源的一小部分。由劳伦斯河盖尔斯共同做的一项研究指出,没有一个探寻引擎抓取的内容达到网络的16%(劳伦斯河盖尔斯,2023)。网络爬虫寻常仅仅下载网页内容的一部分,但是大家都还是猛烈要求下载的部分包括最多的相关页面,而不仅仅是一个随机的简单的站点。

这就要求一个公共标准来区分网页的重要程度,一个页面的重要程度与他自身的质量有关,与依照链接数、访问数得出的受欢迎程度有关,甚至与他本身的网址(后来出现的把探寻放在一个顶级域名或者一个固定页面上的垂直探寻)有关。设计一个好的探寻策略还有额外的困难,它必需在不完全信息下工作,由于整个页面的集合在抓取时是未知的。

Cho等人(Choetal,1998)做了第一份抓取策略的研究。他们的数据是斯坦福大学网站中的18万个页面,使用不同的策略分别模仿抓取。排序的方法使用了广度优先,后链计数,和部分pagerank算法。计算显示,假使你想要优先下载pagerank高的页面,那么,部分PageRank策略是比较好的,其次是广度优先和后链计数。并且,这样的结

果仅仅是针对一个站点的。

Najork和Wiener(NajorkandWiener,2023)采用实际的爬虫,对3.28亿个网页,采用广度优先研究。他们发现广度优先会较早的抓到PageRank高的页面(但是他们没有采用其他策略进行研究)。给出的解释是:“最重要的页面会有好多的主机连接到他们,并且那些链接会较早的发现,而不用考虑从哪一个主机开始。〞

Abiteboul(Abiteboul等人,2023),设计了一种基于OPIC(在线页面重要指数)的抓取战略。在OPIC中,每一个页面都有一个相等的初始权值,并把这些权值平均分给它所指向的页面。这种算法与Pagerank相像,但是他的速度很快,并且可以一次完成。OPIC的程序首先抓取获取权值最大的页面,试验在10万个幂指分布的模拟页面中进行。并且,试验没有和其它策略进行比较,也没有在真正的WEB页面测试。

Boldi等人(Boldietal.,2023)的模拟检索试验进行在从.it网络上取下的4000万个页面和从webbase得到的1亿个页面上,测试广度优先和深度优先,随机序列和有序序列。比较的基础是真实页面pageRank值和计算出来的pageRank值的接近程度。令人诧异的是,一些计算pageRank很快的页面(特别明显的是广度优先策略和有序序列)仅仅可以达到很小的接近程度。

Baeza-Yates等人(Baeza-Yatesetal.,2023)在从.gr域名和.cl域名子网站上获取的300万个页面上模拟试验,比较若干个抓取策略。结果显示OPIC策略和站点队列长度,都比广度优先要好;并且假使可行的话,使用之前的爬行抓取结果来指导这次抓取,总是十分有效的。

Daneshpajouh等人(Daneshpajouhetal.,2023)设计了一个用于寻觅好种子的社区。它们从来自不同社区的高PageRank页面开始检索的方法,迭代次数明显小于使用随机种子的检索。使用这种方式,可以从以前抓取页面之中找到好的种子,使用这些种子是十分有效的。②重新访问策略

网络具有动态性很强的特性。抓取网络上的一小部分内容可能会花费真的很

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论