版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目二
动态网页数据采集目录Content1使用Requests库完成“浪潮云说”网页数据采集2使用Urllib模块完成“新闻动态”网页数据采集项目导言零
在实际的开发中,所需数据是各种各样的,虽然在网络上有许多开源的数据集,但开源的数据集不一定符合我们的项目需求,因此项目需要的数据集需要主动获取。数据采集是数据分析必不可少的一环,这个时候学会数据采集的方法就显得尤为重要,本项目将使用Python相关http请求库完成网页数据的采集。任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰常用状态码状态码描述200请求成功301请求的文档在其他地方,新的URL在Location头中给出,浏览器应该自动地访问新的URL400请求有语法错误,不能被服务器所理解401请求未经授权403服务器收到请求,但是拒绝提供服务404请求资源不存在500服务器发生不可预期的错误503服务器当前不能处理客户端的请求,一段时间后可能恢复正常任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(2)post()post()方法包含参数参数描述url页面的URL链接data字典、字节序列或文件对象,作为Request的内容jsonJSON格式的数据,作为Request的内容**kwargs控制访问的参数任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(3)head()语法格式:importrequestsrequests.head(url,**kwargs)任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(4)put()语法格式:importrequestsrequests.put(url,data=None,**kwargs)任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(5)patch()语法格式:importrequestsrequests.patch(url,data=None,**kwargs)任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(6)delete()语法格式:importrequestsrequests.delete(url,**kwargs)任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰method包含参数值参数值描述GET获取HTML网页POST获取HTML网页头信息HEAD向HTML网页提交post请求PUT向HTML网页提交PUT请求PATCH向HTML网页提交局部修改请求DELETE向HTML页面提交删除请求任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰3Requests高级使用会话对象文件上传异常处理代理设置超时设置证书认证任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(1)会话对象会话对象能够跨请求保持某些参数,也会在同一个Session实例发出的所有请求之间保持cookie,除此之外它还可以用来提升网络性能。语法格式:importrequestssession=requests.Session()session.get()任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(2)文件上传
在使用post()方法提交数据时,不仅可以提交文本数据,还可以通过files参数的设置提交文件数据,实现文件的上传操作。语法格式:importrequests#获取文件files={'file':open('文件地址','打开方式')}#文件上传requests.post(url,files=files)任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(3)超时设置
在Requests中,可通过timeout参数设置超时时间,单位为秒。语法格式:importrequestsrequests.get(url,timeout=0.1)任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(4)异常处理
在使用Requests库发送HTTP请求时,会出现访问失败而抛出异常的情况,这时为了能够快速的确定是哪种错误,可通过不同的方法进行判断。语法格式:importrequeststry:response=requests.get(url,timeout=0.5)exceptexceptions.Timeout:#异常处理代码块任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰异常处理方法方法描述ConnectionError网络连接错误异常HTTPErrorHTTP错误异常URLRequiredURL缺失异常TooManyRedirects超过最大重定向次数,产生重定向异常ConnectTimeout连接远程服务器超时异常Timeout请求URL超时异常任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(5)证书认证
Requests为了解决证书自动验证功能问题,可通过添加verify参数并设置参数值将该功能关闭。语法格式:importrequestsrequests.get(url,,verify=False)任务2-2:使用Requests库完成“浪潮云说”网页数据采集贰(6)代理设置
在进行数据采集时,由于网站内容的增多,大规模爬取网页数据时,频繁的网页请求会出现登录认证、验证码验证,甚至禁止当前IP访问页面等情况,时可以通过proxies参数设置代理解决。语法格式:importrequests#IP列表proxies={"http":"0:3128","https":"1:3129",}#通过代理使用不同的IP访问页面requests.get(url,proxies=proxies)2-2:任务实施贰创建Cloudtheory.py文件并导入项目所需的相关模块输入“/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 第11课 北洋政府的统治与军阀割据教学设计初中历史中国历史 第三册统编版(五四学制)
- 二年级下册数学教案1.2 写数-西师大版
- 数据安全的重要性挑战分析
- 人才招聘过程透明承诺书(4篇)
- 智慧教育平台课程内容审核与更新流程指南
- 教育信息化应用推进承诺函6篇
- 固定资产投资保障承诺函(3篇)
- 文档修订企业标准操作规范
- 建筑施工安全防护三级教育规范指南
- 尿毒症患者的饮食计划
- 淇河流域水文地球化学环境对缠丝鸭蛋形成的影响探究
- 2026山东济南市中城市发展集团有限公司社会招聘备考题库附答案详解
- 乐山国有资产投资运营(集团)有限公司乐山产业投资(集团)有限公司2026年社会公开招聘考试备考试题及答案解析
- 市政道路工程旁站监理实施细则
- 2026年蜀道投资集团有限责任公司校园招聘笔试备考试题及答案解析
- 交通安全设施施工安全技术交底记录
- 海南省海口市2024-2025学年八年级下学期期中考试道德与法治试卷(含答案)
- 2025年电梯安全管理员考试题库及答案
- 《军事理论》课件-中国古代军事思想
- 《下肢深静脉血栓介入治疗围术期护理指南(2025)》解读课件
- 膀胱癌靶区勾画的精准放疗多学科策略
评论
0/150
提交评论