




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网站反爬策略分析了解网站反爬的原因以及如何识别与惩治一、为什么要反爬
二、如何识别爬虫
三、如何惩治爬虫
四、反爬策略分析网站为什么要反爬?出于保护自身网站有价值的数据来源保护自身网站服务器资源的目的识别出爬虫程序限制恶意访问请求1、为什么要反爬通过请求信息识别Header:当大规模请求服务端时,如果相同header出现的次数过多,则会被服务端认定为爬虫程序。
Cookie:例如:在第一次请求时写入某个cookie,在第二次请求时携带,如果第爬虫程序绕过第一次请求,在爬取页面时所携带的cookie则是不正确的。特定请求参数:通过页面js计算一个参数,在请求时携带该参数,如果未携带该参数则认定该请求为机器行为。2、如何识别爬虫基于用户行为识别单位时间的单个客户端的请求频率,在请求第一次请求服务端时为该客户端做一个标记,比如账账号,客户端指纹等其他信息,来监测客户端的访问频率鼠标移动轨迹的监测,机器程序不能够很好的模拟人的行为,所以针对鼠标的移动轨迹监测可以更好的识别该客户端是否为机器行为频繁/定期更换反爬措施爬虫技术也在不断地进行更新,多以反爬措施以及规则应进行更替3、如何识别爬虫网站一旦识别出某个请求是爬虫,通常会采取以下措施:直接拒绝爬虫请求1.4XX2.2XX+空数据返回验证码验证,验证不通过,则拒绝访问或再次返回验证不拒绝爬虫,但是返回比较真实的微数据和真实数据混在一起4、如何惩治爬虫首先,用现有程序爬取页面,如能爬取,则一般是访问频率受限制如爬虫程序直接不能进行爬取,查看请求参数,是否与抓包参数一致如参数不一致,进行参数的验证,先修改为与请求参数一致,再进行查看在获取反爬策略之后,进行爬虫程序的编写在爬虫程序中,要尽可能的模拟人工操作5、反爬策略分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物实验动物代养与生物材料研发合同
- 广东省香山中学、高要一中、广信中学2024-2025学年高二下学期第一次教学质量检测地理试题
- 2025至2031年中国红木彩螺古筝市场现状分析及前景预测报告
- 2025至2030年自动售货机报警器项目投资价值分析报告
- 2025至2030年中国铝合金简易线架市场分析及竞争策略研究报告
- 2025至2030年中国玩具手枪行业投资前景及策略咨询报告
- 2025至2030年中国广告礼品杯市场分析及竞争策略研究报告
- 2025至2030年中国书签装饰夹市场分析及竞争策略研究报告
- 2025-2030年中国氧气贮罐数据监测研究报告
- 2024至2030年中国固体薄膜润滑剂市场调查研究报告-市场调查研究报告-市场调研
- 成语故事-此地无银三百两-课件
- 程序员兼职协议
- 艺术设计毕业答辩模板
- 《防癌抗癌专题》课件
- 【MOOC】大学英语视听导学-湖南大学 中国大学慕课MOOC答案
- 采购部5年规划
- (PPAP)生产件批准作业指导书
- 催收物业费的委托代理合同
- 智慧加气站综合管理平台建设方案
- 生成式AI时代下的提示素养培育研究
- 2023年中铜国际贸易集团有限公司招聘笔试真题
评论
0/150
提交评论