版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目二
动态网页数据采集目录Content1使用Requests库完成“浪潮云说”网页数据采集2使用Urllib模块完成“新闻动态”网页数据采集项目导言零
在实际的开发中,所需数据是各种各样的,虽然在网络上有许多开源的数据集,但开源的数据集不一定符合我们的项目需求,因此项目需要的数据集需要主动获取。数据采集是数据分析必不可少的一环,这个时候学会数据采集的方法就显得尤为重要,本项目将使用Python相关http请求库完成网页数据的采集。学习目标零知识目标了解Urllib和Requests库相关概念熟悉Urllib和Requests库的方法掌握Urllib库中request模块使用精通动态网页数据采集的方法技能目标具备Urllib库相关模块的使用能力具备安装Requests库的能力具备使用Requests库完成网页数据采集的能力具备精通网页数据采集的能力素养目标具备善于发现和总结问题能力具备较强的学习能力和适应能力具备较强的沟通表达能力任务1:使用Urllib模块完成“新闻动态”网页数据采集壹request模块任务技能urlopen()、Request()、urlretrieve()error模块URLError、HTTPErrorparse模块urlparse()、urljoin()、quote()、unquote()任务1:使用Urllib模块完成“新闻动态”网页数据采集壹1request模块在Urllib库中,request是一个用于实现http请求模拟的模块,能够完成页面抓取、Cookie设置等工作。目前,request模块包含多个http请求方法。方法描述urlopen()页面获取Request()设置请求的相关参数urlretrieve()文件下载任务1:使用Urllib模块完成“新闻动态”网页数据采集壹(1)urlopen()urlopen()是request模块中不可或缺的一种方法,主要用于实现页面获取,通过指定url地址即可向页面发送请求,并以HTTPResponse类型的对象作为响应将页面内容返回。0102urlopen()方法包含参数参数描述url指定目标网站的URLdata指定表单数据,该参数默认为None,此时urllib使用get方法发送请求,当给参数赋值后,urllib使用post发送请求,并在该参数中携带表单信息timeout用来指定请求的等待时间,若超过指定时间还没获得响应,则抛出一个异常任务1:使用Urllib模块完成“新闻动态”网页数据采集壹
HTTPResponse对象方法方法描述read()获取数据readline()按行获取数据readlines()获取数据,并以行列表形式返回getcode()获取状态码geturl()获取url路径decode()数据解码getheaders()获取http请求头信息,当接收属性后,会返回头部信息中属性对应的值任务1:使用Urllib模块完成“新闻动态”网页数据采集壹(2)Request()在使用urlopen()方法对页面进行访问时,并不能对请求方式、请求头信息等请求参数进行设置,这时为了提高urlopen()方法的全面性,request模块提供了一个Request()方法,能够通过请求参数创建Request对象,并将该对象作为urlopen()方法的参数完成页面请求。参数描述url指定目标网站的URLdata访问页面时携带的数据headers请求头origin_req_host请求方的host名称或者IP地址unverifiable请求方的请求无法验证method请求方式设置Request()方法包含参数任务1:使用Urllib模块完成“新闻动态”网页数据采集壹headers参数包含属性属性描述User-Agent操作系统和浏览器的名称和版本accept浏览器端可以接受的媒体类型Accept-Encoding编码方法Accept-Language支持语言method参数包含属性GET获取POST提交HEAD获取头部信息PUT提交信息,原信息被覆盖DELETE提交删除请求任务1:使用Urllib模块完成“新闻动态”网页数据采集壹(3)urlretrieve()通过urlopen()方法,只能获取页面中的文本信息,当面对图片文件、音视频文件、文本文件等内容时,request模块提供了一个urlretrieve()方法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高中历史人教统编版(必修)中外历史纲要(下)第11课 马克思主义的诞生与传播教案设计
- 急腹症急诊护理质量控制
- 房地产租赁合同范本2026
- 提升职场人际交往能力的指导书
- 社会捐赠用途承诺书(4篇)
- 高中语文 第一单元 第1课 沁园春 长沙教学设计5 新人教版必修1
- 环保意识保护环境小学主题班会课件
- 建筑工程质量控制要点解析手册
- 公共场所公园游客意外伤害处置预案
- 2026年茶馆幼儿园教案和
- 2025年陕西艺术职业学院招聘笔试真题
- 基于模拟教学的急危重症团队快速反应培训
- 2026年保密工作知识考试题库及答案
- 2026年甘肃省陇南市宕昌县人民法院招聘聘用制司法辅助人员考试参考试题及答案解析
- 髋关节撞击综合征标准化诊疗专家共识(2026版)
- 2025年系统规划与管理工程师考试真题及答案
- 涉密地理信息保密制度
- 资产评估业务报备内部管理制度
- 2025年高层建筑消防培训
- 初中语文中考非连续性文本信息筛选与辨析(选择题)知识清单
- 2025年河南工业职业技术学院单招职业技能测试题库附答案解析
评论
0/150
提交评论