《商务数据分析》 课件 2-3静态网页爬虫_第1页
《商务数据分析》 课件 2-3静态网页爬虫_第2页
《商务数据分析》 课件 2-3静态网页爬虫_第3页
《商务数据分析》 课件 2-3静态网页爬虫_第4页
《商务数据分析》 课件 2-3静态网页爬虫_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

BusinessDataAnalysisPractice商务数据分析实务01爬虫基本原理爬虫基本原理互联网网络爬虫网页爬虫爬到这就相当于访问了该页面,获取了其信息。把节点间的连线比作网页与网页之间的链接关系,蜘蛛通过一个节点后,可以顺着节点连线继续爬行到下一个节点。爬虫基本原理通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。爬虫基本原理爬虫获取网页并提取和保存信息的自动化程序。爬虫基本原理爬虫流程1.获取网页源代码代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息。最关键的环节就是构造一个请求并发送给服务器,然后接收到响应后便于之后的内容解析。构造一个请求爬虫基本原理爬虫流程2.分析网页源代码、提取数据正则表达式方法,万能但效率低。据网页节点属性、CSS选择器或XPath来提取网页信息的方法。节点的属性文本值爬虫基本原理爬虫流程3.保存数据TXT文本、JSON文本、XML关系型数据库SQLsever、MySQL,非关系型数据库MongoDB视频、音频等特定格式保存形式,多种多样爬虫基本原理爬虫可以代替人来完成这些操作。自动化程序爬虫基本原理爬虫就是代替我们来完成这份爬取工作的自动化程序,它可以在抓取过程中进行各种异常处理、错误重试等操作,确保爬取工作持续高效的运行。当手工无法完成提取信息时爬虫基本原理02常用的爬虫工具常用的爬虫工具静态网页爬虫编程类工具可视化采集器静态网页爬虫编程类工具可视化采集器代表性工具Python、Java和PHP等八爪鱼数据采集器、火车采集器、后羿采集器等优点通用性和可协作性

学习简单、容易上手,可满足大部分数据采集需求

缺点编码工作比较烦琐、学习成本高无法满足复杂、大规模的采集任务03八爪鱼介绍静态网页爬虫八爪鱼可简单快速地将网页数据转化为结构化数据,存储于Excel、数据库等多种形式。八爪鱼满足了网页数据抓取的大部分需求。静态

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论