
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、python爬虫入门保姆级教程爬虫就是自动猎取网页内容的程序,例如搜寻引擎,google,baidu 等,天天都运行着浩大的爬虫系统,从全世界的网站中爬虫数据,供用户检索时用法。其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤模拟哀求网页。模拟扫瞄器,打开目标网站。猎取数据。打开网站之后,就可以自动化的猎取我们所需要的网站数据。保存数据。拿到数据之后,需要持久化到本地文件或者数据库等存储设备中。那么我们该如何用法 python 来编写自己的爬虫程序呢,在这里我要重点介绍一个 python 库:requests。requests 库是 python 中发起 http 哀求的库,用法十分便利容易
2、。模拟发送 http 哀求发送 get 哀求当我们用扫瞄器打开豆瓣首页时,其实发送的最原始的哀求就是 get 哀求可以看到,我们得到的是一个 response 对象假如我们要猎取网站返回的数据,可以用法 text 或者 content 属性来猎取text:是以字符串的形式返回数据content:是以二进制的方式返回数据发送 post 哀求对于 post 哀求,普通就是提交一个表单data 当中,就是需要传递的表单信息,是一个字典类型的数据。header 增加对于有些网站,会否决掉没有携带 header 的哀求的,所以需要做一些 header 增加。比如:ua,cookie,host 等等信息。
3、解析 html现在我们已经猎取到了网页返回的数据,即 html 代码,下面就需要解析 html,来提取其中有效的信息。beautifulsoupbeautifulsoup 是 python 的一个库,最主要的功能是从网页解析数据。beautifulsoup 的一些容易使用详细的使用和效果,我会在后面的实战中具体解释。xpath 定位xpath 是 xml 的路径语言,是通过元素和属性举行导航定位的。几种常用的表达式表达式含义node挑选 node 节点的全部子节点/从根节点选取/选取全部当前节点。当前节点父节点属性选取text()当前路径下的文本内容一些容易的例子固然,xpath 十分强大,但
4、是语法也相对复杂,不过我们可以通过 chrome 的开发者工具来迅速定位到元素的 xpath,如下图得到的 xpath 为在实际的用法过程中,到底用法 beautifulsoup 还是 xpath,彻低取决于个人喜好,哪个用起来越发娴熟便利,就用法哪个。我们可以从豆瓣影人页,进入都影人对应的影人页面,比如以刘涛为例子,她的影人页面地址为下面我们就来分析下这个网页注重:网络上的网站页面构成总是会变幻的,所以这里你需要学会分析的办法,以此类推到其他网站。正所谓授人以鱼不如授人以渔,就是这个缘由。chrome 开发者工具(按 f12 打开),是分析网页的绝佳利器,一定要好好用法。我们在随意一张上右击鼠标,挑选检查,可以看到同样打开了开发者工具,而且自动定位到了该所在的位置可以清楚的看到,每张都是保存在 li 标签中的,的地址保存在 li 标签中的 img 中。知道了这些逻辑后,我们就可以通过 beautifulsoup 或者 xpath 来解析 html 页面,从而猎取其中的地址。我们只需要短短的几行代码,就能完成 url 的提取可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年中国零信任网络访问行业调查报告
- 2025年中国办公窗帘行业市场全景评估及发展前景预测报告
- 2025年中国太阳能光伏玻璃行业市场运行现状及投资战略研究报告
- 2025年中国甜芯草莓香精行业市场发展前景及发展趋势与投资战略研究报告
- 商业综合体研究报告-商业综合体项目可行性研究咨询报告2025年
- 中国电凝钩行业市场发展前景及发展趋势与投资战略研究报告(2024-2030)
- 2025年大宗农产品行业市场分析报告
- 中国汽车修理行业市场深度研究及投资战略规划报告
- 2025年中国便携型家用吸尘器行业市场运营现状及投资战略咨询报告
- 2025年中国多路换向阀行业市场调查研究及发展战略规划报告
- (高清版)JTST 325-2024 水下深层水泥搅拌桩法施工质量控制与检验标准
- DB37∕T242-2021建筑消防设施检测技术规程
- 某化纤毛纺厂总配变电所及高压配电设计
- 茂名高州市村(社区)后备干部招聘笔试真题2023
- 2023-2024学年上海市一年级下册期末数学调研试卷(含答案)
- 2024年贵州黔东南州能源投资有限公司招聘笔试参考题库含答案解析
- 西南科技大学-2019级-下-工学类-电路分析A2-毕业生补考-试卷
- 一中国核工业发展历
- 健康心理学孙宏伟重点
- 金蝶软件上线总结汇报
- 肺结核防治知识课件
评论
0/150
提交评论