大数据采集与预处理技术(微课版)课件 1.5反反爬机制_第1页
大数据采集与预处理技术(微课版)课件 1.5反反爬机制_第2页
大数据采集与预处理技术(微课版)课件 1.5反反爬机制_第3页
大数据采集与预处理技术(微课版)课件 1.5反反爬机制_第4页
大数据采集与预处理技术(微课版)课件 1.5反反爬机制_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据采集与预处理技术*

*项目一表情图像数据采集和预处理序号软件配置要求1python3运行计算机内存8G以上2pytorch最新版本3pycharm最新版本一、项目目标:1、完成表情图像数据采集环境安装配置,掌握爬虫必备知识;2、完成表情图像数据爬虫采集程序设计和数据采集;3、完成表情图像数据预处理。二、环境要求:反爬处理01常见反爬机制02反反爬方法03综合案例常见反爬机制/01反爬机制(1)

IP封禁机制:网站会监控访问频率,如果某个IP在短时间内发送大量请求,可能会被封禁。(2)

验证码机制:网站通过验证码(如GooglereCAPTCHA)来区分人类用户和爬虫。(3)

动态加载机制:网站通过JavaScript动态加载数据,传统的爬虫无法直接获取这些数据。(4)

请求头检测机制:网站会检查请求头中的

User-Agent、Referer

等字段,如果缺失或不合法,会拒绝请求。(5)

频率限制机制:网站会限制单位时间内的请求次数,超过限制会被封禁。(6)

数据加密机制:网站对关键数据进行加密(如字体加密),爬虫无法直接解析。反反爬方法/02反反爬方法(1)

IP封禁通过代理IP池轮换IP地址,避免被封禁。importrequestsproxies={'http':':8888','https':':8888'}response=requests.get('',proxies=proxies)print(response.text)(2)

模拟浏览器行为设置合法的请求头(如

User-Agent、Referer),模拟浏览器访问。headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.124Safari/537.36','Referer':''}response=requests.get('',headers=headers)print(response.text)反反爬方法(3)处理验证码使用验证码识别服务或手动输入验证码。importpytesseractfromPILimportImage#指定Tesseract的安装路径(如果需要)pytesseract.pytesseract.tesseract_cmd=r'D:/Tesseract-OCR/tesseract.exe'#Windows示例#提取文本captcha_text=pytesseract.image_to_string(Image.open('img.png'),config=‘--tessdata-dirD:/Tesseract-OCR/tessdata/--psm8’)#可以根据需要指定可以解析的语言--psm8表示解析单行文字print(captcha_text)针对解析效果不好问题怎么解决?请同学们思考。(4)处理动态加载使用无头浏览器(如Selenium或Playwright)模拟用户操作。fromseleniumimportwebdriver#使用Chrome无头模式options=webdriver.ChromeOptions()options.add_argument('--headless')driver=webdriver.Chrome(options=options)driver.get('')print(driver.page_source)#获取动态加载后的页面内容driver.quit()反反爬方法(5)降低请求频率设置合理的请求间隔时间,避免触发频率限制。importtimeimportrequestsforiinrange(10):response=requests.get('')print(response.text)time.sleep(5)#每次请求间隔5秒(6)破解数据加密分析加密逻辑(如字体加密),编写解密代码。#假设价格信息使用字体加密#1.下载字体文件#2.解析字体文件,生成映射关系#3.替换加密字符为真实字符综合案例/03爬取豆瓣电影Top250importrequestsfrombs4importBeautifulSoupimporttime#设置请求头headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.124Safari/537.36'}#爬取函数defscrape_douban_top250():base_url='/top250'forpageinrange(0,250,25):url=f'{base_url}?start={page}'response=requests.get(url,headers=headers)soup=BeautifulSoup(response.text,'html.parser')#解析电影信息#解析电影信息

foriteminsoup.find_all('div',class_='item'):title=item.find('span',class_='title').textrating=item.find('span',class_='rating_num').textlink=item.find('a')[

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论