《数据采集技术与应用》课件-3.1-2 http请求格式_第1页
《数据采集技术与应用》课件-3.1-2 http请求格式_第2页
《数据采集技术与应用》课件-3.1-2 http请求格式_第3页
《数据采集技术与应用》课件-3.1-2 http请求格式_第4页
《数据采集技术与应用》课件-3.1-2 http请求格式_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

http请求数据采集技术与应用内容/contentHTTP和HTTPS协议0102总结与思考03HTTP请求HTTP和HTTPS协议HTTP协议全称为超文本传输协议(HyperTextTransferProtocol),它用于将Web服务器的超文本资源传送到浏览器中。HTTP协议能够高效、准确地传送超文本资源,但浏览器与Web服务器的连接是一种一次性连接,它限制每次连接只能处理一个请求。这意味着每个请求都是独立的,服务器返回本次请求的应答后便立即关闭连接,下次请求再重新建立连接。对于网络爬虫来说,它采集的页面通常使用的是HTTP协议和HTTPS协议。HTTP和HTTPS协议HTTPS协议全称为超文本传输安全协议(HyperTextTransferProtocolSecure),该协议在HTTP协议基础上添加了安全套接字协议(SecureSocketsLayer,SSL),数据在传输过程中主要通过数字证书、加密算法、非对称密钥等技术完成互联网数据传输加密,实现互联网传输安全保护。对于网络爬虫来说,它采集的页面通常使用的是HTTP协议和HTTPS协议。HTTP请求浏览器向Web服务器发送的信息是一个HTTP请求,每个HTTP请求由请求行、请求头部、空行以及请求数据(有的也称为请求体)这4个部分组成。HTTP请求

请求行GET/item/Python/407313HTTP/1.1请求行的内容具体如下。在请求行中,GET表示向服务器请求网络资源时所使用的请求方法,/item/Python/407313表示请求的URL地址,HTTP/1.1表示使用的HTTP版本。HTTP请求

请求行常用的请求方法包括GET和POST,其中GET用于请求服务器发送某个资源,POST用于向服务器提交表单或上传文件,表单数据或文件的数据会包含在请求体中。请求方法GET和POST的区别主要体现两个方面。GET请求方法通过请求参数传输数据,最多只能传输2KB的数据;POST请求方法通过实体内容传输数据,可以传输的数据大小没有限制。传输数据大小GET请求方法的参数信息会在URL中明文显示,安全性比较低;POST请求方法传递的参数会隐藏在实体内容中,用户看不到,安全性更高。安全性HTTP请求

请求头请求行紧挨的部分就是若干个请求头信息,请求头主要用于说明服务器要使用的附加信息。Host用于指定被请求资源的服务器主机名和端口号。User-Agent用于标识客户端身份,通常页面会根据不同的User-Agent信息自动做出适配,甚至返回不同的响应内容。Accept用于指定浏览器或其他客户端可以接受的MIME文件类型,服务器可以根据该字段判断并返回适当的文件格式。Referer用于标识当前请求页面的来源页面地址,即表示当前页面是通过此来源页面里的链接进入的。HTTP请求

请求头请求行紧挨的部分就是若干个请求头信息,请求头主要用于说明服务器要使用的附加信息。Accept-Charse用于指定浏览器可以接受的字符集类型。Cookie用于在浏览器中寄存的小型数据体,它可以记载和服务器相关的用户信息,也可以用来实现模

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论