Python爬虫入门保姆级教程_第1页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、python爬虫入门保姆级教程爬虫就是自动猎取网页内容的程序,例如搜寻引擎,google,baidu 等,天天都运行着浩大的爬虫系统,从全世界的网站中爬虫数据,供用户检索时用法。其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤模拟哀求网页。模拟扫瞄器,打开目标网站。猎取数据。打开网站之后,就可以自动化的猎取我们所需要的网站数据。保存数据。拿到数据之后,需要持久化到本地文件或者数据库等存储设备中。那么我们该如何用法 python 来编写自己的爬虫程序呢,在这里我要重点介绍一个 python 库:requests。requests 库是 python 中发起 http 哀求的库,用法十分便利容易

2、。模拟发送 http 哀求发送 get 哀求当我们用扫瞄器打开豆瓣首页时,其实发送的最原始的哀求就是 get 哀求可以看到,我们得到的是一个 response 对象假如我们要猎取网站返回的数据,可以用法 text 或者 content 属性来猎取text:是以字符串的形式返回数据content:是以二进制的方式返回数据发送 post 哀求对于 post 哀求,普通就是提交一个表单data 当中,就是需要传递的表单信息,是一个字典类型的数据。header 增加对于有些网站,会否决掉没有携带 header 的哀求的,所以需要做一些 header 增加。比如:ua,cookie,host 等等信息。

3、解析 html现在我们已经猎取到了网页返回的数据,即 html 代码,下面就需要解析 html,来提取其中有效的信息。beautifulsoupbeautifulsoup 是 python 的一个库,最主要的功能是从网页解析数据。beautifulsoup 的一些容易使用详细的使用和效果,我会在后面的实战中具体解释。xpath 定位xpath 是 xml 的路径语言,是通过元素和属性举行导航定位的。几种常用的表达式表达式含义node挑选 node 节点的全部子节点/从根节点选取/选取全部当前节点。当前节点父节点属性选取text()当前路径下的文本内容一些容易的例子固然,xpath 十分强大,但

4、是语法也相对复杂,不过我们可以通过 chrome 的开发者工具来迅速定位到元素的 xpath,如下图得到的 xpath 为在实际的用法过程中,到底用法 beautifulsoup 还是 xpath,彻低取决于个人喜好,哪个用起来越发娴熟便利,就用法哪个。我们可以从豆瓣影人页,进入都影人对应的影人页面,比如以刘涛为例子,她的影人页面地址为下面我们就来分析下这个网页注重:网络上的网站页面构成总是会变幻的,所以这里你需要学会分析的办法,以此类推到其他网站。正所谓授人以鱼不如授人以渔,就是这个缘由。chrome 开发者工具(按 f12 打开),是分析网页的绝佳利器,一定要好好用法。我们在随意一张上右击鼠标,挑选检查,可以看到同样打开了开发者工具,而且自动定位到了该所在的位置可以清楚的看到,每张都是保存在 li 标签中的,的地址保存在 li 标签中的 img 中。知道了这些逻辑后,我们就可以通过 beautifulsoup 或者 xpath 来解析 html 页面,从而猎取其中的地址。我们只需要短短的几行代码,就能完成 url 的提取可以

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论