下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络爬虫【实验名称】网络爬虫【实验目的】用相关的python工具包来实现网络爬虫【实验要求】学习urllib学习BeautifulSoup爬取豆瓣top250数据处理【知识准备】python的开发环境Python的根底知识【实验背景描述】互联网包含了迄今为止最有用的数据集,并且大局部可以免费公开访问。但是,这些数据难以复用。它们被嵌入在网站的结构和样式当中,需要抽取出来才能使用。从网页中抽取数据的过程又被称为网络爬虫。随着越来越多的信息被发布到网络上,网络爬虫也变得越来越有用。所以,本实验主要是实践怎样网络爬虫,用到urllib包,beautifulSoap包等工具来实现从某个网页获取有用的信息.【实验设备】Windows或Linux或MacOS的操作系统的计算机。本实验提供win7系统。【实验成员】本实验按个人完成.【实验配置参数】Windows系统,有python环境Python版本为3.7【实验步骤】学习urlliburllib是python自带的库,可以用来抓取简单的静态页面。urllib根本根本方法有:urllib.request.urlopen(url,data=None,【timeout,】*,cafile=None,capath=None,cadefault=False,context=None)*url:需要翻开的网址*data:Post提交的数据*timeout:设置网站的访问超时时间直接用urllib.request模块的urlopen〔〕获取页面,page_的数据格式为bytes类型,需要decode〔〕解码,转换成str类型。可以看到加了decode方法后,在输出那局部没有了b前缀了.表示输出为str类型了.urlopen返回对象提供方法:*read(),readline(),readlines(),fileno(),close():对Response类型数据进行操作*info():返回Message对象,表示远程效劳器返回的头信息*getcode():返回状态码。如果是请求,200请求成功完成;404网址未找到*geturl():返回请求的urlurlopen〔〕的data参数默认为None,当data参数不为空的时候,urlopen〔〕提交方式为Post。学习BeautifulSoupBeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后便可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单.BeautifulSoup默认支持Python的标准HTML解析库,但是它也支持一些第三方的解析库.下面列举一些解析库:解析器使用方法优势劣势Python标准库BeautifulSoup(html,’html.parser’)Python内置标准库;执行速度快容错能力较差lxmlHTML解析库BeautifulSoup(html,’lxml’)速度快;容错能力强需要安装,需要C语言库lxmlXML解析库BeautifulSoup(html,【‘lxml’,’xml’】)速度快;容错能力强;支持XML格式需要C语言库htm5lib解析库BeautifulSoup(html,’htm5llib’)以浏览器方式解析,最好的容错性速度慢本次实验用第一种解析器.展示怎样获取标签名称用到上面的getHtml()函数来获取页面内容,并将之作为参数传入到BeautifulSoup函数中,并设置用’html.parser’解析器.返回的是一个BeautifulSoup类型的对象,如果用print函数来打印soup的内容,就会将页面的详细代码信息都打印出来.可以看到上面例子中还展示了获取页面标签名称的例子.相对于find函数,还有一个find_all()函数.是获取相对应资源的集合.下面展示怎样用标签属性:获取的标签属性类型是一个字典,可以用字典的常规方法来获取到属性值.如果想要通过过滤来获取信息,如想获取如下页面的信息,可以用’id=...’或’class_=...’来过滤.获取’main-content’内的信息:好啦,BeautifulSoap包的根本功能练到这.如果想更深入学习其api,可以参考〞拓展1〞爬取豆瓣top250好啦,有urllib和BeautifulSoap的铺垫,爬取豆瓣top250电影的信息就非常简单了.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑临时用工合同范本
- 广告独家代理合同范本
- 尚品宅配订货合同范本
- 建筑工地相关合同范本
- 工程水电劳务合同范本
- 技术服开发类合同范本
- 工作室员工合同协议书
- 工程主合同与补充协议
- 学校劳务合同协议模板
- 四年级科学下册保护土壤青岛版教案
- 期末综合质量检测卷(试题)-2025-2026学年 六年级上册数学西师大版
- 2025年纳税筹划机考题库及答案
- 汇能控股集团校招题库及答案
- 喷塑委外合同范本
- 高二化学上学期期末试题带答案解析
- 高标准农田建设培训课件
- 解答题 概率与统计(专项训练12大题型+高分必刷)(原卷版)2026年高考数学一轮复习讲练测
- 2024-2025学年北京市海淀区第二十中学高二上学期期末物理试题(含答案)
- 2025至2030中国IT培训行业项目调研及市场前景预测评估报告
- 2025年国家开放大学《普通心理学(研究生)》期末考试参考题库及答案解析
- 多联机空调安装施工方案
评论
0/150
提交评论