《Python3网络爬虫开发实战(第二版)》内容介绍4929_第1页
《Python3网络爬虫开发实战(第二版)》内容介绍4929_第2页
《Python3网络爬虫开发实战(第二版)》内容介绍4929_第3页
《Python3网络爬虫开发实战(第二版)》内容介绍4929_第4页
《Python3网络爬虫开发实战(第二版)》内容介绍4929_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《Python3⽹络爬⾍开发实战(第⼆版)》内容介绍这是「进击的Coder」的第505篇分享作者:崔庆才⼤家好,本节⾸先来预告下即将出版的《Python3⽹络爬⾍开发实战(第⼆版)》的主要内容。由于我已经把书的总体的内容介绍写在了书的前⾔部分,所以这篇⽂章我就把前⾔部分的内容直接摘录⼀下啦,包括第⼆版相⽐第⼀版的改动内容,以及全书内容的介绍。以下内容来⾃于《Python3⽹络爬⾍开发实战(第⼆版)》前⾔。前⾔您好,我是崔庆才。⾸先,⾮常⾼兴我们能够因此书与您初次或再次相会。为什么会提到再次相会呢?因为这本书已经是第⼆版了。如果您曾经阅读过本书第⼀版的内容,那么请允许我再次对您的⽀持表⽰诚挚的感谢。第⼀版书是在2018年出版的,出版后本书受到了不少读者的⽀持和喜爱,真的⾮常感谢各位读者的⽀持。有的读者还特地告诉我,他看了我的书之后找到了⼀份不错的爬⾍⼯作,听到之后我真的感到⾮常开⼼,因为我的⼀些知识和经验帮助到了他⼈。但技术总是在不断发展和进步的,爬⾍技术也是⼀样,它在爬⾍和反爬⾍不断⽃争的过程中也在不断演进。⽐如现在越来越多的⽹页采取了各种防护措施,⽐如前端代码的压缩和混淆、API的参数加密、WebDriver的检测,要做到⾼效的数据爬取,我们就需要懂得⼀些JavaScript逆向分析相关技术。App也是⼀样,App的抓包防护、加壳保护、Native化、风控检测使得越来越多的App数据难以爬取,所以我们也不得不了解⼀些逆向相关技术,如Xposed、Frida、IDAPro等⼯具的使⽤。除此之外,近⼏年深度学习和⼈⼯智能发展得也是如⽕如荼,所以爬⾍也可以和⼈⼯智能结合起来,⽐如基于深度学习的验证码识别、⽹页内容的智能化解析和提取等技术我们也可以进⾏学习和了解。另外,⼀些⼤规模爬⾍的管理和运维技术也在不断发展,当前Kubernetes、Docker、Prometheus等云原⽣技术也⾮常⽕爆,基于Kubernetes等云原⽣技术的爬⾍管理和运维解决⽅案也已经很受青睐。然⽽,之前第⼀版书对以上提到的这些新兴技术⼏乎没有提及。所以,本书相⽐第⼀版来说,更新的内容主要如下:绝⼤多数都迁移到了⾃建的案例平台,以后再也不⽤担⼼案例有过期或改版问题。增加了⼀些新的请求库、解析库、存储库等的介绍,如httpx、parsel、Elasticsearch等库的介绍。增加了异步爬⾍的介绍,如协程的基本原理、aiohttp的使⽤和爬取实战介绍。增加了⼀些新兴⾃动化⼯具的介绍,如Pyppeteer、Playwright的介绍。增加了深度学习相关内容,如图形验证码、滑动验证码的识别⽅案。丰富了模拟登录章节的内容,如增加了JWT模拟登录的介绍和实战、⼤规模账号池的优化。增加了JavaScript逆向的章节,包括⽹站加密和混淆技术、JavaScript逆向调试技巧、JavaScript的各种模拟执⾏⽅式、AST还原混淆代码、WebAssembly等相关技术的介绍。丰富了App⾃动化爬取技术的章节,如新兴框架Airtest的介绍、⼿机群控和云⼿机技术的介绍。增加了Android逆向章节,如反编译、反汇编、Hook、脱壳、so⽂件分析和模拟执⾏等技术的介绍。增加了⽹页智能化解析章节,包括列表页、详情页内容提取算法和分类算法。丰富了Scrapy相关章节的介绍,如Pyppeteer的对接、RabbitMQ的对接、Prometheus的对接等。增加了基于Kubernetes、Docker、Prometheus、Grafana等云原⽣技术爬⾍管理和运维解决⽅案的介绍。由于我本⼈⼯作、⽣活等各⽅⾯的原因,我的时间并不像写第⼀版书时间那么宽裕,所以第⼆版的爬⾍书的撰写进度⽐较慢,这本书的内容⼏乎都是我利⽤下班和周末的时间完成的,耗时将近两年的时间。如今,第⼆版书终于跟读者见⾯了!在撰写期间我也收到过很多读者的询问和⿎励,⾮常感谢各位读者的⽀持和耐⼼等待。希望本书能够为您学习爬⾍提供帮助。本书内容本书⼀共分为17章,归纳如下。第1章介绍了学习爬⾍之前需要了解的基础知识,如HTTP、爬⾍、代理、⽹页结构、多进程多线程等内容,对爬⾍没有任何了解的读者建议好好了解这⼀章的知识。第2章介绍了最基本的爬⾍操作,⼀般学习爬⾍都是从这⼀步学起的。这⼀章介绍了最基本的请求库(urllib、requests、httpx)和正则表达式的基本⽤法。学会了这⼀章,就可以掌握最基本的爬⾍技术了。第3章介绍了页解析库的基本⽤法,包括BeautifulSoup、XPath、pyquery、parsel的基本使⽤⽅法,它们可以使得信息的提取更加⽅便、快捷,是爬⾍必备利器。第4章介绍了数据存储的常见形式及存储操作,包括TXT、JSON、CSV各种⽂件的存储,以及关系型数据库MySQL和⾮关系型数据库MongoDB、Redis的基本存取操作,另外还介绍了Elasticsearch搜索引擎存储、消息队列RabbitMQ的⽤法。学会了这些内容,我们可以灵活⽅便地保存爬取下来的数据。第5章介绍了Ajax数据爬取的过程,⼀些⽹页的数据可能是通过Ajax请求API接⼝的⽅式加载的,⽤常规⽅法⽆法爬取,本章介绍了Ajax分析和爬取实战案例。第6章介绍了异步爬⾍的相关知识,如⽀持更⾼并发的协程的基本原理、aiohttp的使⽤和实战案例,学会了异步,爬⾍的爬取效率将会被⼤⼤提⾼。第7章介绍了动态渲染页⾯的爬取,现在越来越多的⽹站内容是经过JavaScript渲染得到的,⽽原始HTML⽂本可能不包含任何有效内容,⽽且渲染过程可能涉及某些JavaScript加密算法,可以使⽤Selenium、Splash、Pyppeteer、Playwright等⼯具来实现模拟浏览器进⾏数据爬取的⽅法。第8章介绍了验证码的相关处理⽅法。验证码是⽹站反爬⾍的重要措施,我们可以通过本章了解到各类验证码的应对⽅案,包括图形验证码、滑动验证码、点选验证码、⼿机验证码的处理⽅案,其中不乏有OCR、OpenCV、深度学习、打码平台的介绍。第9章介绍了代理的使⽤⽅法,限制IP的访问也是⽹站反爬⾍的重要措施。另外,我们也可以使⽤代理来伪装爬⾍的真实IP,使⽤代理可以有效解决这个问题。通过本章,我们了解到代理的使⽤⽅法,还学习了代理池的维护⽅法,以及ADSL拨号代理的使⽤⽅法。第10章介绍了模拟登录爬取的⽅法,某些⽹站需要登录才可以看到需要的内容,这时就需要⽤爬⾍模拟登录⽹站再进⾏爬取了。本章介绍了最基本的模拟登录⽅法,包括基于Session+Cookie的模拟登录和基于JWT的模拟登录。第11章介绍了JavaScript逆向相关知识,包括⽹站的混淆技术、JavaScript逆向常⽤的调试和Hook技术、JavaScript模拟执⾏的各个⽅案,接着介绍了AST技术来进⾏JavaScript混淆代码的还原,另外也对WebAssembly技术进⾏了基本介绍。第12章介绍了App的爬取⽅法,包括基本的Charles、mitmproxy抓包软件的使⽤。此外,还介绍了mitmdump对接Python脚本进⾏实时抓取的⽅法以及使⽤Appium、Airtest完全模拟⼿机App的操作进⾏爬取的⽅法。第13章介绍了Android逆向的相关知识,包括反编译⼯具jadx、JEB和常⽤的Hook框架Xposed、Frida等⼯具的使⽤,另外还介绍了SSLPining、脱壳、反汇编、so⽂件模拟执⾏等技术。第14章介绍了页⾯智能化解析相关的技术,⽐如新闻详情页⾯中标题、正⽂、作者等信息以及新闻列表页⾯中标题、链接等信息的智能化提取,另外还介绍了如何智能化分辨详情页和列表页。有了智能解析技术,很多内容的提取过程就可以免去⼀些写规则的困扰。第15章介绍了Scrapy爬⾍框架及⽤法。Scrapy是⽬前使⽤最⼴泛的爬⾍框架,本章介绍了它的基本架构、原理及各个组件的使⽤⽅法,另外还介绍了Scrapy对接Selenium、Pyppeteer等⽅法。第16章介绍了分布式爬⾍的基本原理及实现⽅法。为了提⾼爬取效率,分布式爬⾍是必不可少的,本章介绍了使⽤Scrapy和Redis、RabbimtMQ实现分布式爬⾍的⽅法。第17章介绍了分布式爬⾍的部署及管理⽅法。⽅便快速地完成爬⾍的分布式部署,可以节省开发者⼤量的时间。本章介绍了两种管理⽅案,⼀种是基于Scrapy、Scrapyd、Gerapy的⽅案,另⼀种是基于Kubernetes、Docker、Prometheus、Grafana的⽅案。好了,前⾔部分介绍完了。⽬录下⾯贴⼀下全书的⽬录,内容如下:⽬前进度最后就是⼤家关⼼的书的进度问题了,我今天⼜问了编辑,正如上周说的,现在正在印前检查阶段,印前检查⼀般是7-10个⼯作⽇,最快是7个⼯作⽇,上周已经过了5个⼯作⽇了,所以还剩2个⼯作⽇。印前检查通过之后就做预算然后上架了。如果要京东、天猫预售的话,是必须要做预算的,但因为现在还没做预算,所以现在还上架不了。整体来看,预计要赶双⼗⼀预售有⼀定难度,不过就在这么⼏天了。下⾯是我和编辑的对话截图:总之,这所有的能加急的都加急了,编辑会⼀直盯

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论