版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络爬虫、网络爬虫的类型和反爬机制网络爬虫概述CHAPTER14网络爬虫概述网
络
爬
虫网络数据采集的关键技术按照一定规则自动地抓取万维网信息的程序或脚本被广泛用于互联网搜索引擎或其他需要网络数据的企业可自动采集其能够访问到的页面内容,以获取网站内容CONTENTS目
录01什么是网络爬虫02网络爬虫的类型03反爬机制CONTENTS目
录04网页基础知识05使用Python实现HTTP请求06定制requests及解析网页网络爬虫概述什么是网络爬虫一个自动提取网页的程序0102搜索引擎从万维网上下载网页03搜索引擎的重要组成部分网络爬虫概述爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件网络爬虫概述网络爬虫的行为和人们访问网站的行为是类似的
(如用户平时到天猫商城购物)单击进入天猫商城打开浏览器浏览商品价格、详情参数、评论选择所需商品类目(站内搜索)搜索天猫商城单击链接下一个商品页面网络爬虫概述网络爬虫的类型通用网络爬虫聚焦网络爬虫增量式网络爬虫深层网络爬虫网络爬虫概述通用网络爬虫通用网络爬虫又称“全网爬虫(ScalableWebCrawler)”,爬行对象从一些种子URL扩充到整个Web,架构主要为门户站点搜索引擎和大型Web服务提供商采集数据网络爬虫概述通用网络爬虫的结构页面爬行模块页面分析模块链接过滤模块初始URL集合URL队列页面数据库网络爬虫概述常用的爬行策略深度优先策略广度优先策略网络爬虫概述聚焦网络爬虫选择性地爬行预先定义好的主题相关页面只爬行与主题相关的页面,保存的页面数量少更新快工作流程复杂,需过滤与主题无关的链接根据一定搜索策略从队列中选择要抓取的网页URL主题网络爬虫(TopicalCrawler)网络爬虫概述聚焦网络爬虫抓取的网页将会被系统存储,进行一定的分析、过滤,并建立索引,以便用于之后的查询和检索;这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导网络爬虫概述基于内容评价的爬行策略
基于链接结构评价的爬行策略
基于增强学习的爬行策略
基于语境图的爬行策略
聚焦网络爬虫网络爬虫概述增量式网络爬虫增量式网络爬虫指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫网络爬虫概述在一定程度上保证所爬行页面是尽可能新的页面只在需要时爬行新产生或发生更新的页面有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费增加了爬行算法的复杂度和实现难度增
量
式
网
络
爬
虫网络爬虫概述增量式爬虫的目标保持本地页面集中存储的页面为最新页面增量式爬虫需要通过重新访问网页来更新本地页面集中页面内容提高本地页面集中页面的质量增量式爬虫需对网页的重要性排序网络爬虫概述广度优先策略PageRank优先策略爬
行
策
略网络爬虫概述深层网络爬虫存在方式表层网页深层网页深层网络爬虫将Web页面按存在方式分为表层网页和深层网页网络爬虫概述表层网页1传统搜索引擎可以索引的页面2以超链接可到达的静态网页为主构成的Web页面网络爬虫概述深层网页不能通过静态链接获取的隐藏在搜索表单后的只有用户提交一些关键词才能获得网络爬虫概述0102爬行控制器解析器表单分析器表单处理器响应分析器LVS控制器URL列表LVS表6个基本功能模块两个爬虫内部数据结构网络爬虫体系结构网络爬虫概述反爬机制在大数据时代,数据是十分宝贵的财富,企业不愿意数据被别人免费获取,因此,很多企业都为自己的网站运用了反爬机制,防止网页上数据被爬走数据采集速度快,伪装度低,如果没有反爬机制,它们可以很快地抓取大量数据,甚至因为请求过多,造成网站服务器不能正常工作,影响了企业的业务开展网络爬虫概述反爬
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海财经大学《教育管理学》2025-2026学年期末试卷
- 沈阳理工大学《民族学调查与研究方法》2025-2026学年期末试卷
- 上海闵行职业技术学院《电工电子技术》2025-2026学年期末试卷
- 沈阳药科大学《经络腧穴学》2025-2026学年期末试卷
- 上海工商外国语职业学院《西方行政学理论概要》2025-2026学年期末试卷
- 山西工学院《毒理学》2025-2026学年期末试卷
- 上海师范大学天华学院《音乐学导论》2025-2026学年期末试卷
- 太原学院《比较文学》2025-2026学年期末试卷
- 苏州科技大学《社会学教程》2025-2026学年期末试卷
- 上海交通大学《材料合成与制备》2025-2026学年期末试卷
- 2025年高考地理复习突破集训:大题07工业(3大热点角度)解析版
- 造林劳务合同协议
- 服务接待合同协议
- 第六讲五胡入华与中华民族大交融-中华民族共同体概论专家大讲堂课件+第七讲华夷一体与中华民族空前繁盛(隋唐五代时期)-中华民族共同体概论专家大讲堂课件
- 物流行业的黑科技
- 【西安交通大学】2025年电力人工智能多模态大模型创新技术及应用报告
- 风电工程质量管理规程
- 设备验证培训
- LY/T 3409-2024草种质资源调查编目技术规程
- 《趣味学方言》课件
- 2024年江苏省南通市中考地理试题(含答案)
评论
0/150
提交评论