




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、网络爬虫技术网络机器人1. 概念:它们是 Web上独自运行的软件程序,它们不断地筛选数据,做出自己的决定,能够使用 Web获取文本或者进行搜索查询,按部就班地完成各自的任务。2. 分类:购物机器人、聊天机器人、搜索机器人(网络 爬虫)等。搜索引擎1. 概念:从网络上获得 网站网页资料,能够建立数据库并提供查询的系统。2. 分类(按工作原理 ):全文搜索引擎、分类目录。1全文搜索引擎数据库是依靠网络爬虫通过网络上的各种链接自动获取大量 网页信息内容,并按一定的规则分析整理形成的。(百度、Google)2分类目 录:按 目录分类 的网站链 接列表而 已,通 过人工的 方式收集 整理网 站资料形成的
2、 数据库。(国内的搜狐)网络爬虫1. 概念:网络爬虫也叫 网络蜘蛛,它是一个按照一定的规则自动提取网页程序,其会自动的通过网络抓 取互联网上的网页,这种技术一般可能用来检查你的站点上所有的链接是否是都是有 效的。当然,更为高级的技术是把网页中的相关数据保存下来,可以成为搜索引擎。搜索引擎使用网络爬虫寻找网络内容,网络上的HTML文档使用超链接连接了起来,就像织成了一张网,网络爬虫也叫网络蜘蛛,顺着这张网爬行,每到一个网页就用抓取程序将这个网页抓下来,将内容抽取出来,同时抽取超链接,作为进一步爬行的线索。网络爬虫 总是要从某个起点开始爬,这个起点叫做种子, 你可以告诉它,也可以到一些网址列表网站
3、上获取。2. 区别:网络爬虫分类通用爬虫聚集爬虫工作原理从一个或多个初始网页的URL开始,获取初始网页的 URL,抓取网 页的同时,从当前网页提取相关的 URL放入队列中,直到满足程序的 停止条件。根据一定的网页分析算法过滤与主题无 关的链接,保留有用的链接 (爬行的范围 是受控的)放到待抓取的队列中,通过一 定的搜索策略从队列中选择下一步要抓 取的URL,重复以上步骤,直到满足程 序的停止条件。不同点1. 增加了一些网页分析算法和网页搜 索策略2. 对被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检 索,这一过程所得到的分析结果还可能对以后的抓取过程给出反
4、馈和指导。缺点1. 不同领域、不同背景的 用户有 不冋的检索目的和需求,通用 搜索引擎所返回的结果包含 大量用户不关心的网页。2. 通用引擎的目标是大的网络覆 盖率。3. 只支持关键字搜索,不支持根据 语义的搜索。4. 通用搜索引擎对一些像图片、音频等信 息含量密集且具有一 定结构的数据 无法获取。1. 对抓取目标的描述或疋义。2. 对网页和数据的分析和过滤。3. 对URL的搜索策略。 以上三个是需要解决的问题。算法广度优先算法现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取
5、方式可分为:(1)预先给定的初始抓取种子样本;(2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;(3)通过用户行为确定的抓取目标样例,分为:a)用户浏览过程中显示标注的抓取样本;b)通过用户日志挖掘得到访问模式及相关样本。其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。3算法/策略名称网页分析算法网页搜索策略分类1 基于网络拓扑结构1网页粒度分析算法2网站粒度分析算法3网页块粒度分析算法2基于网页内容1针对以文本和超链接为主的 网页2针对从结构化的数据源动态生 成的网页。3针对数据介于第一类和第二类 之间3基于用户访问行为1.深度优先策略
6、2 .广度优先策略3 .取佳优先策略一些算法的介绍1网页分析算法1.1 基于网络拓扑的分析算法基于网页之间的链接, 通过已知的网页或数据, 来对与其有直接或间接链接关系的对象 (可以是网页或网站等) 作出评价的算法。 又分为网页粒度、 网站粒度和网页块粒度这三种。1.1.1网页(Webpage)粒度的分析算法PageRank和HITS算法是最常见的链接分析算法,两者都是通过对网页间链接度的递归 和规范化计算,得到每个网页的重要度评价。PageRa nk算法虽然考虑了用户访问行为的随机性和 Sink 网页的存在,但忽略了绝大多数用户访问时带有目的性,即网页和链接与查询 主题的相关性。针对这个问题
7、, HITS 算法提出了两个关键的概念:权威型网页(authority )和中心型网页( hub)。基于链接的抓取的问题是相关页面主题团之间的隧道现象, 即很多在抓取路径上偏离主 题的网页也指向目标网页,局部评价策略中断了在当前路径上的抓取行为。文献21提出了一种基于反向链接(BackL ink)的分层式上下文模型(Con text Model),用于描述指向目标 网页一定物理跳数半径内的网页拓扑图的中心 Layer0 为目标网页,将网页依据指向目标网 页的物理跳数进行层次划分,从外层网页指向内层网页的链接称为反向链接。1.1.2 网站粒度的分析算法网站粒度的资源发现和管理策略也比网页粒度的更
8、简单有效。网站粒度的爬虫抓取的关键之处在于站点的划分和站点等级(SiteRank)的计算。SiteRank的计算方法与PageRank类似,但是需要对网站之间的链接作一定程度抽象,并在一定的模型下计算链接的权重。网站划分情况分为按域名划分和按 IP 地址划分两种。文献 18讨论了在分布式情况下, 通过对同一个域名下不同主机、服务器的 IP 地址进行站点划分,构造站点图,利用类似 Pa geRank的方法评价SiteRank。同时,根据不同文件在各个站点上的分布情况,构造文档图, 结合SiteRank分布式计算得到 DocRank。文献18证明,利用分布式的 SiteRank计算,不仅 大大降低
9、了单机站点的算法代价, 而且克服了单独站点对整个网络覆盖率有限的缺点。 附带 的一个优点是,常见 PageRank 造假难以对 SiteRank 进行欺骗。1.1.3 网页块粒度的分析算法在一个页面中, 往往含有多个指向其他页面的链接, 这些链接中只有一部分是指向主题 相关网页的,或根据网页的链接锚文本表明其具有较高重要性。但是,在PageRank和HITS 算法中,没有对这些链接作区分,因此常常给网页分析带来广告等噪声链接的干扰。在网 页块级别 (Block进行链接分析的算法的基本思想是通过 VIPS 网页分割算法将网页分为不同的网页块(page block),然后对这些网页块建立page和
10、block的链接矩阵,分别记为Z和X。于是,在page page图上的网页块级别的 PageRank为W; 在 block图上的 BlockRank 为。 已经有人实现了块级别的PageRank和HITS算法,并通过实验证明,效率和准确率都比传统的对应算法要好。1.2 基于网页内容的网页分析算法 基于网页内容的分析算法指的是利用网页内容 (文本、 数据等资源) 特征进行的网页评 价。网页的内容从原来的以超文本为主,发展到后来动态页面(或称为Hidden Web)数据为主,后者的数据量约为直接可见页面数据(PIW,Publicly Indexable Web)的400500倍。另一方面,多媒体数
11、据、 Web Service 等各种网络资源形式也日益丰富。因此,基于网页内容的分析算法也从原来的较为单纯的文本检索方法, 发展为涵盖网页数据抽取、 机器学 习、数据挖掘、 语义理解等多种方法的综合应用。 本节根据网页数据形式的不同, 将基于网 页内容的分析算法, 归纳以下三类: 第一种针对以文本和超链接为主的无结构或结构很简单 的网页;第二种针对从结构化的数据源(如RDBMS )动态生成的页面,其数据不能直接批量访问; 第三种针对的数据界于第一和第二类数据之间, 具有较好的结构, 显示遵循一定模 式或风格,且可以直接访问。1.2.1 基于文本的网页分析算法1) 纯文本分类与聚类算法 很大程度
12、上借用了文本检索的技术。 文本分析算法可以快速有效的对网页进行分类和聚 类,但是由于忽略了网页间和网页内部的结构信息,很少单独使用。2) 超文本分类和聚类算法2> 网页搜索策略2. 广度优先搜索策略 广度优先搜索策略是指在抓取过程中, 在完成当前层次的搜索后, 才进行下一层次的搜 索。该算法的设计和实现相对简单。 在目前为覆盖尽可能多的网页, 一般使用广度优先搜索 方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。 其基本思想是认为与初始 URL 在一定链接距离内的网页具有主题相关性的概率很大。 另外一种方法是将广度优先搜索与网 页过滤技术结合使用, 先用广度优先策略抓取网页, 再将
13、其中无关的网页过滤掉。 这些方法 的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。2. 最佳优先搜索策略 最佳优先搜索策略按照一定的网页分析算法,预测候选 URL 与目标网页的相似度,或 与主题的相关性,并选取评价最好的一个或几个 URL 进行抓取。它只访问经过网页分析算 法预测为 “有用 ”的网页。存在的一个问题是, 在爬虫抓取路径上的很多相关网页可能被忽略, 因为最佳优先策略是一种局部最优搜索算法。因此需要将最佳优先结合具体的应用进行改 进,以跳出局部最优点。 将在第 4 节中结合网页分析算法作具体的讨论。 研究表明, 这样的 闭环调整可以将无关网页数量降低
14、 30%90% 。3 搜索引擎原理之网络爬虫是如何工作的? 在互联网中, 网页之间的链接关系是无规律的, 它们的关系非常复杂。 如果一个爬虫从 一个起点开始爬行, 那么它将会遇到无数的分支, 由此生成无数条的爬行路径, 如果任期爬 行,就有可能永远也爬不到头, 因此要对它加以控制, 制定其爬行的规则。 世界上没有一种 爬虫能够抓取到互联网所有的网页, 所以就要在提高其爬行速度的同时, 也要提高其爬行网 页的质量。网络爬虫在搜索引擎中占有重要位置, 对搜索引擎的查全、 查准都有影响, 决定了搜索 引擎数据容量的大小, 而且网络爬虫的好坏之间影响搜索引擎结果页中的死链接的个数。 搜 索引擎爬虫有深度优先策略和广度优先策略,另外, 识别垃圾网页, 避免抓取重复网页, 也是高性能爬虫的设计目标。爬虫的作用是为了搜索引擎抓取大量的数据, 抓取的对象是整个互联网上的网页。 爬虫 程序不可能抓取所有的网页,因为在抓取的同时,Web 的规模也在增大,所以一个好的爬虫程序一般能够在短时间内抓取更多的网页。 一般爬虫程序的起点都选择在一个大型综合型 的网站,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB61T 842-2014 水稻 星火AR363规范
- 水库施工期排水与防洪方案
- 工程工担保合同5篇
- 2025年亳州蒙城县高中阶段学校第二次公开引进人才12名备考练习题库及答案解析
- 2025内蒙古通辽经济技术开发区蒙东中等职业学校招聘37人备考练习试题及答案解析
- 牲畜家禽屠宰场工人安全培训与管理方案
- 城乡供水工程验收与评估方案
- 2025年无锡大学考试题目及答案
- 2025年包装世界试题及答案
- 车位租赁合同样书
- 2025年国家统一司法考试真题及答案
- 绿色矿山培训课件
- 纪念抗美援朝队会课件
- 2025-2026学年人教版(2024)小学数学三年级上册(全册)教学设计(附目录P296)
- 2025广东茂名市信宜市供销合作联社招聘基层供销社负责人2人笔试模拟试题及答案解析
- 医院护理人文关怀实践规范专家共识
- 成人反流误吸高危人群全身麻醉管理专家共识(2025版)解读
- 碳中和技术概论全套教学课件
- 材料风险调差表
- 网店美工与视觉设计全书ppt完整版课件最全电子教案正本书教学教程
- 《中国古典舞》PPT课件
评论
0/150
提交评论