版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据采集与预处理技术**项目一表情图像数据采集和预处理序号软件配置要求1python3运行计算机内存8G以上2pytorch最新版本3pycharm最新版本一、项目目标:1、完成表情图像数据采集环境安装配置,掌握爬虫必备知识;2、完成表情图像数据爬虫采集程序设计和数据采集;3、完成表情图像数据预处理。二、环境要求:任务一表情图像数据采集一、任务目标1、完成python3、pytorch、requests、Lxml、BeautifulSoup等依赖库安装;2、熟悉requests库的安装和使用;3、熟练掌握HTML文件结构,能够分析各组件元素的含义。二、知识储备Requests是一个为人类设计的简单而优雅的HTTP库。requests库是一个原生的HTTP库,比urllib3库更为容易使用。requests库发送原生的HTTP1.1请求,无需手动为URL添加查询串,也不需要对POST数据进行表单编码。相对于urllib3库,requests库拥有完全自动化Keep-alive和HTTP连接池的功能。三、依赖库使用示例1、python爬虫依赖库requests示例:发送一个get请求并查看返回结果importrequestsurl='/tipdm/index.html'#生成get请求rqg=requests.get(url)#查看结果类型print('查看结果类型:',type(rqg))#查看状态码print('状态码:',rqg.status_code)#查看编码print('编码:',rqg.encoding)#查看响应头print('响应头:',rqg.headers)#打印查看网页内容print('查看网页内容:',rqg.text)查看结果类型:<class’requests.models.Response’>状态码:200编码:ISO-8859-1响应头:{’Date’:’Mon,18Nov201904:45:49GMT’,’Server’:’Apache-Coyote/1.1’,’Accept-Ranges’:’bytes’,’ETag’:’W/"15693-1562553126764"’,’Last-Modified’:’Mon,08Jul201902:32:06GMT’,’Content-Type’:’text/html’,’Content-Length’:’15693’,’Keep-Alive’:’timeout=5,max=100’,’Connection’:’Keep-Alive’}请问这些数据是什么意思?http协议1、简介HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。2、HTTP协议的主要特点
支持C/S(客户/服务器)模式。
简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST,这规定了客户与服务器联系的类型。HTTP协议简单,使得HTTP服务器的程序规模小,通信速度很快。
灵活:HTTP允许传输任意类型的数据对象。正在传输的类型由Content-Type加以标记。
无连接:无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。采用这种方式可以节省传输时间。
无状态:HTTP协议是无状态协议,无状态是指协议对于事务处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大。另一方面,在服务器不需要先前信息时它的应答就较快。3、HTTPURLHTTPURL的格式如下:http://host[":"port][abs_path]http表示要通过HTTP协议来定位网络资源;host表示合法的Internet主机域名或者IP地址;port指定一个端口号,为空则使用默认端口80;abs_path指定请求资源的URI(Web上任意的可用资源)。4、报文HTTP有两种报文分别是请求报文和响应报文。请求报文和响应报文都是由以下4部分组成: 1、请求行 2、请求头 3、空行 4、消息主体5、请求报文请求行由请求方法、URL字段和HTTP协议的版本组成,格式如下:MethodRequest-URIHTTP-VersionCRLF5、请求报文请求行由请求方法、URL字段和HTTP协议的版本组成,格式如下:MethodRequest-URIHTTP-VersionCRLF其中Method表示请求方法;HTTP请求方法有8种,分别是GET、POST、DELETE、PUT、HEAD、TRACE、CONNECT、OPTIONS。其中PUT、DELETE、POST、GET分别对应着增删改查,最常用POST和GET。 GET:请求获取Request-URI所标识的资源 POST:在Request-URI所标识的资源后附加新的数据 HEAD:请求获取由Request-URI所标识的资源的响应消息报头 PUT:请求服务器存储一个资源,并用Request-URI作为其标识 DELETE:请求服务器删除Request-URI所标识的资源 TRACE:请求服务器回送收到的请求信息,主要用于测试或诊断 CONNECT:HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器 OPTIONS:请求查询服务器的性能,或者查询与资源相关的选项和需求Request-URI是一个统一资源标识符;HTTP-Version表示请求的HTTP协议版本;CRLF表示回车和换行(除了作为结尾的CRLF外,不允许出现单独的CR或LF字符)。5、请求报文请求行示例
例如访问某CSDN博客地址请求行是:GET/itachi85HTTP/1.1请求报头
在请求行之后会有0个或者多个请求报头,每个请求报头都包含一个名字和一个值,它们之间用“:”分割。请求头部会以一个空行,发送回车符和换行符,通知服务器以下不会有请求头。关于请求报头,会在后面的消息报头一节做统一的解释。请求数据请求数据不在GET方法中使用,而是在POST方法中使用。POST方法适用于需要客户填写表单的场合,与请求数据相关的最常用的请求头是Content-Type和Content-Length。6、响应报文
HTTP的响应报文由状态行、消息报头、空行、响应正文组成。响应报头后面会讲到,响应正文是服务器返回的资源的内容。6、响应报文
HTTP的响应报文由状态行、消息报头、空行、响应正文组成。响应报头后面会讲到,响应正文是服务器返回的资源的内容。状态行1、状态行格式如下:HTTP-VersionStatus-CodeReason-PhraseCRLF其中,HTTP-Version表示服务器HTTP协议的版本;Status-Code表示服务器发回的响应状态代码;Reason-Phrase表示状态代码的文本描述。状态代码有三位数字组成,第一个数字定义了响应的类别,且有五种可能取值:100~199:指示信息,表示请求已接收,继续处理200~299:请求成功,表示请求已被成功接收、理解、接受300~399:重定向,要完成请求必须进行更进一步的操作400~499:客户端错误,请求有语法错误或请求无法实现500~599:服务器端错误,服务器未能实现合法的请求6、响应报文状态行2、常见的状态码如下: 200OK:客户端请求成功 400BadRequest:客户端请求有语法错误,不能被服务器所理解 401Unauthorized:请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用 403Forbidden:服务器收到请求,但是拒绝提供服务 500InternalServerError:服务器发生不可预期的错误 503ServerUnavailable:服务器当前不能处理客户端的请求,一段时间后可能恢复正常7、HTTP的消息报头消息报头分为通用报头、请求报头、响应报头、实体报头等。消息头由键值对组成,每行一对,关键字和值用英文冒号“:”分隔。通用报头既可以出现在请求报头,也可以出现在响应报头中。 Date:表示消息产生的日期和时间 Connection:允许发送指定连接的选项,例如指定连接是连续的,或者指定“close”选项,通知服务器,在响应完成后,关闭连接 Cache-Control:用于指定缓存指令,缓存指令是单向的(响应中出现的缓存指令在请求中未必会出现),且是独立的(一个消息的缓存指令不会影响另一个消息处理的缓存机制)7、HTTP的消息报头请求报头
请求报头通知服务器关于客户端求求的信息,典型的请求头有:
Host:请求的主机名,允许多个域名同处一个IP地址,即虚拟主机 User-Agent:发送请求的浏览器类型、操作系统等信息 Accept:客户端可识别的内容类型列表,用于指定客户端接收那些类型的信息 Accept-Encoding:客户端可识别的数据编码 Accept-Language:表示浏览器所支持的语言类型 Connection:允许客户端和服务器指定与请求/响应连接有关的选项,例如这是为Keep-Alive则表示保持连接。 Transfer-Encoding:告知接收端为了保证报文的可靠传输,对报文采用了什么编码方式。7、HTTP的消息报头响应报头,用于服务器传递自身信息的响应,常见的响应报头: Location:用于重定向接受者到一个新的位置,常用在更换域名的时候 Server:包含可服务器用来处理请求的系统信息,与User-Agent请求报头是相对应的实体报头,实体报头用来定于被传送资源的信息,既可以用于请求也可用于响应。请求和响应消息都可以传送一个实体,常见的实体报头为: Content-Type:发送给接收者的实体正文的媒体类型 Content-Lenght:实体正文的长度 Content-Language:描述资源所用的自然语言,没有设置则该选项则认为实体内容将提供给所有的语言阅读 Content-Encoding:实体报头被用作媒体类型的修饰符,它的值指示了已经被应用到实体正文的附加内容的编码,因而要获得Content-Type报头域中所引用的媒体类型,必须采用相应的解码机制。 Last-Modified:实体报头用于指示资源的最后修改日期和时间 Expires:实体报头给出响应过期的日期和时间5、请求报文请求报文示例5、请求报文请求报文示例5、请求报文响应报文示例三、依赖库使用示例1、python爬虫依赖库requests示例1:利用requests构建一个GET请求 importrequests r=requests.get(‘http://’) print(r.text)返回结果{"args":{},"headers":{"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","Accept-Encoding":"gzip,deflate","Accept-Language":"zh-CN,zh;q=0.9","Host":"","Upgrade-Insecure-Requests":"1","User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/Safari/537.36","X-Amzn-Trace-Id":"Root=1-63ee197c-3fb12fa7568c53c972d09131"},"origin":"59","url":"/get"}从返回结果,我们是否成功发起了GET请求?从返回结果能看到哪些关键信息?1、python爬虫依赖库requests示例2:首先尝试请求知乎的首页信息 importrequests response=requests.get('/') print(f"当前请求的响应状态码为:{response.status_code}") print(response.text)返回结果:
当前请求的响应状态码为:403<html><head><title>400BadRequest</title></head><bodybgcolor="white"><center><h1>400BadRequest</h1></center><hr><center>openresty</center></body></html>为什么失败了呢?因为知乎发现这是是一个爬虫,因此需要对浏览器进行伪装,添加对应的User-Agent信息。1、python爬虫依赖库requests将示例2改为如下代码,测试返回结果importrequestsheaders={"user-agent":'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/86.0.4240.198Safari/537.36'}response=requests.get('',headers=headers)print(f"当前请求的响应状态码为:{response.status_code}")print(response.text)1、python爬虫依赖库requests
在使用百度搜索的时候经常发现url地址中会有一个‘?’,该问号后边的就是请求参数,又叫做查询字符串。通常情况下不会只访问基础网页,特别是爬取动态网页时需要传递不同的参数获取不同的内容;GET传递参数有两种方法,可以直接在链接中添加参数或者利用params添加参数。
示例3:在url携带参数—直接对含有参数的url发起请求 importrequests headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/54.0.2840.99Safari/537.36"} url='/s?wd=python' response=requests.get(url,headers=headers)
试运行一下结果,如果携带多个参数怎么写?1、python爬虫依赖库requests示例4:通过params携带参数字典构建请求参数字典;向接口发送请求的时候带上参数字典,参数字典设置给params。 importrequests headers={"User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/54.0.2840.99Safari/537.36"} url='/s?'#最后有没有问号结果都一样 #请求参数是一个字典,即wd=python kw={'wd':'python'} #带上请求参数发起请求,获取响应 response=requests.get(url,headers=headers,params=kw) print(response.content)通过运行结果可以判断,对于字典kw={'key1':'values1','key2':'values2'}请求的链接自动被构造成了:/get?key2=value2&key1=value11、python爬虫依赖库requests网页的返回类型实际上是JSON格式的str类型。如果想直接解析返回结果,得到字典格式,可以调用json()方法。importrequestsr=requests.get("/get")print(type(r.text))print(r.json())print(type(r.json()))结果:<class'str'>{'args':{},'headers':{'Accept':'*/*','Accept-Encoding':'gzip,deflate','Host':'','User-Agent':'python-requests/2.24.0','X-Amzn-Trace-Id':'Root=1-5fb5b3f9-13f7c2192936ec541bf97841'},'origin':'34','url':'/get'}<class'dict'>发现调用json()方法,可以将返回结果是JSON格式的字符串转化为字典。如果返回结果不是JSON格式,便会出现解析错误,抛出json.decoder.JSONDecodeError异常。1、python爬虫依赖库requests接收字典字符串会被自动编码发送到url,如下:importrequestsheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/86.0.4240.193Safari/537.36'}wd='张三同学'pn=1response=requests.get('/s',params={'wd':wd,'pn':pn},headers=headers)print(response.url)可以观察结果是否被自动编码。1、python爬虫依赖库requests示例5:使用GET请求抓取网页上面的请求链接返回的是JSON形式的字符串,如果请求普通的网页,则能获得相应的内容。importrequestsimportreheaders={"user-agent":'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/86.0.4240.198Safari/537.36'}response=requests.get('/explore',headers=headers)result=re.findall("(ExploreSpecialCard-contentTitle|ExploreRoundtableCardquestionTitle).*?>(.*?)</a>",response.text)print([i[1]foriinresult])结果:['我的世界杯记忆','如何看待刘强东发京东全员信,提出副总监级别以上降薪10%-20%,以提高基层员工福利待遇等?','物联网在如何改变无锡?','2022世界物联网博览会将为无锡带来哪些新的机遇?','物联网在如何改变无锡?','做女性公益有意义吗?有哪些行之有效的办法?你身边有哪些女性公益?','做女性公益有意义吗?有哪些行之有效的办法?你身边有哪些女性公益?','普通人是如何坚持长期做公益的?','为什么说肥胖更接近2型糖尿病的真相','人为什么会得糖尿病?什么样的人容易得糖尿病?','糖尿病人只管血糖不管体重行不行?']1、python爬虫依赖库requests在上面的例子中,抓取的是知乎的一个页面,实际上它返回的是一个HTML文档。如果想抓去图片、音频、视频等文件,怎么处理?
思路:图片、音频、视频本质上都是由二进制码组成的,由于有特定的保存格式和对应的解析方式,才可以看到这些形形色色的多媒体。所以,想要抓取它们,就要拿到它们的二进制码。下面以GitHub的站点图标为例来看一下:importrequestsresponse=requests.get("/favicon.ico")withopen('github.ico','wb')asf:f.write(response.content)Response对象的两个属性,一个是text,另一个是content.其中前者表示
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年高职木业产品设计与制造(木材制品设计)试题及答案
- 2025年中职彗星探测技术(彗星探测)模拟试题
- 2025-2026年二年级综合实践(生活体验)下学期期中单元
- 2025年高职护理伦理学(伦理基础)试题及答案
- 2025年中职现代物流(物流条码技术)试题及答案
- 2025年安全生产培训试题及答案
- 深度解析(2026)《GBT 18268.26-2010测量、控制和实验室用的电设备 电磁兼容性要求 第26部分:特殊要求 体外诊断(IVD)医疗设备》
- 深度解析(2026)《GBT 17983-2000带断屑槽可转位刀片近似切屑控制区的分类和代号》
- 深度解析(2026)《GBT 17980.38-2000农药 田间药效试验准则(一) 杀线虫剂防治根部线虫病》
- 2026届四川泸州市高考一模地理试卷试题(含答案详解)
- 山东省济南市2025届高三下学期5月高考针对性训练(三模)英语试卷(图片版含音频)
- 《钢铁是怎样炼成的》导读课教学设计
- 开利30HXY-HXC螺杆冷水机组开机、运行维护手册
- 顶账房房屋买卖合同协议
- 2024年煤矿安全规程
- 2025年高考物理复习讲义第三章专题四 应用牛顿运动定律解决传送带和板块模型(含解析)
- 视屏号认证授权书
- 湖北省武汉市2023-2024学年九年级上学期元调考试物理试题
- 《粉末冶金成型教程》课件
- PM设备预防维修保养管理制度
- 肾癌护理常规
评论
0/150
提交评论