2023学年完整公开课版网络爬虫_第1页
2023学年完整公开课版网络爬虫_第2页
2023学年完整公开课版网络爬虫_第3页
2023学年完整公开课版网络爬虫_第4页
2023学年完整公开课版网络爬虫_第5页
已阅读5页,还剩15页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Python基础——网络爬虫目录1.了解网络爬虫22.了解HTTP协议3.python网络请求模块4.正则表达式Python爬虫简介3网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。Python爬虫工作流程4网络HTTP协议5HTTP(超文本传输协议)是应用层上的一种客户端/服务端模型的通信协议,它由请求和响应构成,且是无状态的。网络HTTP协议6协议:协议规定了通信双方必须遵守的数据传输格式,这样通信双方按照约定的格式才能准确的通信。无状态:无状态是指两次谅解通信之间是没有任何联系的,每次都是一个新的连接,服务端不会记录前后的请求信息。HTTP请求数据71.请求格式:HTTP请求数据82.案例:9Python网络请求模块requests模块能够自动帮助我们解压网页内容。#导入模块importrequests#定义请求地址url=''#发送GET请求获取响应response=requests.get(url)#获取响应的html内容html=response.textprint(html)RequestsRequests模块的使用PythonRequests模块10Requests模块基本方法importrequestsresponse=requests.get("/")print(type(response))#<class'requests.models.Response'>response类型print(response.status_code)#200获取状态码print(response.text)#获取网页源码print(response.content)#获取网页源码print(response.cookies)#获取网页cookies,RequestsCookieJarprint(response.headers)#获取请求头11网页请求模块分析1.寻找指定的url2.确定请求的方式3.获取到请求的参数4.获取请求头5.请求头使用chrome调试面板的使用12Python正则表达式1.正则表达式概念:正则表达式(RegularExpression)是一种文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为"元字符")。13Python正则表达式2.正则表达式的样子:0\d{2}-\d{8}这个就是一个正则表达式,表达的意思是匹配的是座机号码。14Python正则表达式3.正则表达式的特点:正则表达式的语法很令人头疼,可读性差。正则表达式通用行很强,能够适用于很多编程语言。Python正则表达式函数语法:re.match(pattern,string,flags=0)

15可以使用group(num)或groups()匹配对象函数来获取匹配表达式。<br>匹配对象方法描述group(num=0)匹配的整个表达式的字符串,group()可以一次输入多个组号,在这种情况下它将返回一个包含那些组所对应值的元组。groups()返回一个包含所有小组字符串的元组,从1到所含的小组号。16Python正则表达式varstr="abc123def";varpatt1=/[0-9]+/;document.write(str.match(patt1));实例:从字符串str中提取数字部分的内容(匹配一次):17Python正则表达式1.re模块的使用过程#导入re模块importre#使用match方法进行匹配操作result=re.match(正则表达式,要匹配的字符串)#如果上一步匹配到数据的话,可以使用group方法来提取数据result.group()18Python正则表达式2.re模块示例importreresult=re.match("hello","")print(result.group())19爬虫练习题练习题:爬取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论