下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、python爬虫入门保姆级教程爬虫就是自动猎取网页内容的程序,例如搜寻引擎,google,baidu 等,天天都运行着浩大的爬虫系统,从全世界的网站中爬虫数据,供用户检索时用法。其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤模拟哀求网页。模拟扫瞄器,打开目标网站。猎取数据。打开网站之后,就可以自动化的猎取我们所需要的网站数据。保存数据。拿到数据之后,需要持久化到本地文件或者数据库等存储设备中。那么我们该如何用法 python 来编写自己的爬虫程序呢,在这里我要重点介绍一个 python 库:requests。requests 库是 python 中发起 http 哀求的库,用法十分便利容易
2、。模拟发送 http 哀求发送 get 哀求当我们用扫瞄器打开豆瓣首页时,其实发送的最原始的哀求就是 get 哀求可以看到,我们得到的是一个 response 对象假如我们要猎取网站返回的数据,可以用法 text 或者 content 属性来猎取text:是以字符串的形式返回数据content:是以二进制的方式返回数据发送 post 哀求对于 post 哀求,普通就是提交一个表单data 当中,就是需要传递的表单信息,是一个字典类型的数据。header 增加对于有些网站,会否决掉没有携带 header 的哀求的,所以需要做一些 header 增加。比如:ua,cookie,host 等等信息。
3、解析 html现在我们已经猎取到了网页返回的数据,即 html 代码,下面就需要解析 html,来提取其中有效的信息。beautifulsoupbeautifulsoup 是 python 的一个库,最主要的功能是从网页解析数据。beautifulsoup 的一些容易使用详细的使用和效果,我会在后面的实战中具体解释。xpath 定位xpath 是 xml 的路径语言,是通过元素和属性举行导航定位的。几种常用的表达式表达式含义node挑选 node 节点的全部子节点/从根节点选取/选取全部当前节点。当前节点父节点属性选取text()当前路径下的文本内容一些容易的例子固然,xpath 十分强大,但
4、是语法也相对复杂,不过我们可以通过 chrome 的开发者工具来迅速定位到元素的 xpath,如下图得到的 xpath 为在实际的用法过程中,到底用法 beautifulsoup 还是 xpath,彻低取决于个人喜好,哪个用起来越发娴熟便利,就用法哪个。我们可以从豆瓣影人页,进入都影人对应的影人页面,比如以刘涛为例子,她的影人页面地址为下面我们就来分析下这个网页注重:网络上的网站页面构成总是会变幻的,所以这里你需要学会分析的办法,以此类推到其他网站。正所谓授人以鱼不如授人以渔,就是这个缘由。chrome 开发者工具(按 f12 打开),是分析网页的绝佳利器,一定要好好用法。我们在随意一张上右击鼠标,挑选检查,可以看到同样打开了开发者工具,而且自动定位到了该所在的位置可以清楚的看到,每张都是保存在 li 标签中的,的地址保存在 li 标签中的 img 中。知道了这些逻辑后,我们就可以通过 beautifulsoup 或者 xpath 来解析 html 页面,从而猎取其中的地址。我们只需要短短的几行代码,就能完成 url 的提取可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 长春汽车工业高等专科学校《运动训练与选材学》2024-2025学年第一学期期末试卷
- 河北轨道运输职业技术学院《金属切削原理与刀具》2024-2025学年第一学期期末试卷
- 正德职业技术学院《计算生物学》2024-2025学年第一学期期末试卷
- 宁夏民族职业技术学院《学校社会工作》2024-2025学年第一学期期末试卷
- 四川大学锦江学院《有限元基础及应用》2024-2025学年第一学期期末试卷
- 天津外国语大学滨海外事学院《风力发电原理》2024-2025学年第一学期期末试卷
- 浙江体育职业技术学院《线性代数初步》2024-2025学年第一学期期末试卷
- 长江工程职业技术学院《建筑信息技术与方法》2024-2025学年第一学期期末试卷
- 大连民族大学《网络经济》2024-2025学年第一学期期末试卷
- 沧州交通学院《微生物发酵技术》2024-2025学年第一学期期末试卷
- 男生形体课课件
- 舰艇损害管制与舰艇损害管制训练
- 餐厅转包合同范本
- 食堂培训计划及培训内容
- 2024辅警的劳动合同
- 2025届高考生物一轮总复习真题演练必修2第五单元遗传的基本规律伴性遗传与人类遗传病第25讲基因在染色体上及伴性遗传
- 知识题库-人社练兵比武竞赛测试题及答案(二)
- 2019译林版高中英语全七册单词总表
- 《湖北省安全生产条例》考试复习题库80题(含答案)
- 蔗糖羟基氧化铁咀嚼片-临床用药解读
- 让守纪律讲规矩成为一种习惯课件
评论
0/150
提交评论