版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
年薪30W的爬虫工程师必备特技
-网络编程及Web爬取实战讲师:Louis
Young1本章内容1、用Python怎么获取百度的网站的IP地址;2、用Python分析浏览器访问网站数据获取机制;3、小白也可以写程序模拟浏览器爬访问网站;4、如何通过Python的网络编程能力分析网站校验码的安全因素开发技术体系的通用性3语言思想标准库通用应用库企业应用库企业框架语言结构三要素语言语法三要素入门+开发常识面向过程面向对象能编写程序操作系统的接口数据结构与计算Python内置实现GUI数据库网络正则格式数据解析数值计算科学计算Web应用爬虫应用3D应用办公应用网络应用云计算应用Web框架机器学习框架区块链应用自动化框架运维框架能写企业应用能高效率架构企业应用操作系统软件工程行业背景Python职业领域4Python开发Python全栈Python自动化Python人工智能Python数据采集Python数据分析数据可视化从企业应用看网络知识的重要5网络(IP)系统网络(ARP
ETH)网络通信(TCP)HTTPUDPFTPSMTPPOP3DataBaseCloudWeb
Server网络安全运维全端(H5)后端(微服务)应用运维爬虫与Web数据分析其他分布式3-3.基石-入门63-4.基石-语法73-5.基石-数据结构与算法83-6.面向对象思想93-7.应用-基础103-8.应用-通用113-8.企业应用-Web与微服务123.9.企业应用-自动化133.10-企业应用-数据采集143.11.企业应用-人工智能与数据分析153.12.职业素养16用Python怎么获取百度的网站的IP地址爬虫从认识IP、域名开始1.几个有用的网络指令netstat
-an-pTCPnetstat-an-pTCP
-I"en0"netstat-an-pTCP
-iESTABLISHED:
已经建立连接SYN_SENT:
正在尝试连接SYN_RECV:
接收到连接请求FIN_WAIT1: socket被关闭,连接也被关闭FIN_WAIT2:
连接被关闭,socket正在等待远程关闭。TIME_WAIT: socket等待处理没有发送与接收的数据包后关闭。CLOSED: socket已经关闭CLOSE_WAIT:
远程已经关闭,等待本地socket关闭。LAST_ACK:
远程已经关闭,本地也已经关闭,在等待确认。LISTEN: socket等待远程连接,这个需要指定-l选项才能看到。CLOSING:
两端socket都已经关闭,但仍有数据没有发送出去。UNKNOWN:
不可知的状态1.几个有用的网络指令(续)1919ifconfigPing
ping55ping04up:
激活接口down:
关闭接口[-]arp:
开启/关闭ARP协议[-]promisc:
开启关闭接口的混合模式,该选项可以保证所有数据包都能收到。[-]allmulti:
开启/关闭多播模式,开启选项可以保证收到多播数据包metricN:
设置接口度量mtuN:
设置MTUdstaddraddr:
设置远程IP地址netmaskaddr:
设置接口的掩码地址,缺省使用每个IP的类别掩码[-]broadcast[addr]:
设置广播地址,没有指定地址,则设置IFF_BROADCAST标识multicast:
设置多播标识address:
设置IP地址txqueuelen长度:
设置传输队列的长度2.获取网站的IP20Python的网络能力基本上都是来自操作系统的C库,获取Ip地址是系统网络最基本的能力:socket.getaddrinfo(host,port,family=0,type=0,proto=0,flags=0)返回:[(family,type,proto,canonname,sockaddr),……]用Python分析浏览器访问网站数据获取机制浏览器就是一个单项功能爬虫3.浏览器获取的网页数据22下载网页与显示动态下载新闻列表(根据不同浏览习惯显示不同的内容)4.拦截所有数据包的来去23sk=socket.socket(socket.AF_INET,socket.SOCK_RAW,0)
buf=sk.recv(2048,0)psax|grep"Python"killpid
多百度的ping的监控关于:SOCK_RAW与IP数据包5.用程序查看浏览器请求网页的细节24安装一个插座写个程序替代百度接收浏览器请求把插座插在网卡上准备一个接待台接待浏览器的访问看看是哪儿来的浏览器看看浏览器发来什么请求程序演示时间6.进入浏览器的思维世界-HTTP协议25请求行城市套路深,我要回农村农村道路滑,人心更复杂HTTP协议都是满满的套路请求头空行数据包从Python程序看HTTP数据套路小白也可以写程序模拟浏览器爬访问网站;写个伪浏览器,冒充浏览器骗数据去。7.先链接到百度27安装一个插座把插座插在百度服务器上模仿浏览器发送请求静静等待百度服务器听懂我接收到数据:听懂了无反应:不懂我!(๑•́₋•̩̥̀๑)程序演示时间8.进入Web服务器的思维世界28响应行HTTP协议都是满满的套路相应头空行数据包怎么知道服务发送过来的网页内容长度?HTTP头的意义:服务器发送的数据是压缩的怎么办?HTTP协议:Web服务器与浏览器对话的沟通方式9.百度的套路2916102521两个域名的关系10.服务器数据的分包与压缩30通过Python编程分析网站校验码的安全因素设计校验方式的考虑因素:人工智能太狡猾11.表单与post,get提交32构造QueryString构造请求数据包通用的网页爬取方式有条件的网页爬取方式12.请求的网站资源分析33一种异步请求技术XMLHttpRequestAJAX技术一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年译林版英语八年级第二学期期中质量测试卷(含答案含听力原文无音频)
- 文科卷一文综试卷及答案
- 初中学生安全教育课件
- 五年级第一单元测试题-冀教版五年级上册语文第一单元提升测试题及答案
- 电气接地系统技术要领
- 2022年湖北省安全员C证考试试题含答案参考34
- 雅安石棉撒拉池110kV输变电重建工程建设项目环境影响报告表
- 数控操作考试题目及答案
- 肾病科护理考试题及答案
- 肾性贫血护理试题及答案
- 2025年中国泥炭生物肥项目创业投资方案
- 消防工程从入门到精通
- 营销员考试题库及答案解析
- 浙江省金华市2024-2025学年九年级上学期期末科学试题(学生版)
- 动态血压监护仪前14大企业占据全球83%的市场份额(2024年)
- 教育部人文社科一般课题申报书
- 设计师年终总结
- 串联谐振耐压试验原理讲解
- 企业副总工作总结
- YDT 5102-2024 通信线路工程技术规范
- (正式版)DB61∕T 5002-2021 《建筑保温与结构一体化装配式温钢复合免拆模板外保温系统应用技术规程》
评论
0/150
提交评论