网络数据采集技术概述.ppt_第1页
网络数据采集技术概述.ppt_第2页
网络数据采集技术概述.ppt_第3页
网络数据采集技术概述.ppt_第4页
网络数据采集技术概述.ppt_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络爬虫简介 爬虫与反爬技术 目录 前言 robots txt Robots协议被称为爬虫协议 或机器人协议 是国际互联网界通行的道德规范 User agent 用于描述搜索引擎robot的名字 Disallow 禁止robot访问该网站的目录或文件 Allow 允许robot访问该网站的目录或文件 sitemap xml txt html Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址 自动生成 更方便地了解一个网站的内容 布局 架构 主动提交 向百度 Google 雅虎 和微软等提交 被搜索引擎收录 数据采集流程 需求分析 业务类型 方向决定抓取策略和抓取频率 干什么用 抓取内容 具体需要什么数据 字段 怎么用 数据来源 数据来源于具体网站或其他 抓取方式 获取数据的方式 网页结构分析 API等 代码实现 自定义或开源爬虫框架 数据清洗 根据业务具体情况转换数据格式 类型 进行数据计算等 数据清洗分为入库前点清洗和入库后点清洗 数据存储 写文件或入库方式 远程数据入库 数据加密等 爬虫任务分发 分布式爬虫 多线程爬虫 反爬策略 日志管理 监控报警等 网页分析 数据抓取方式网页移动网页移动客户端API网页解析正则XpathBeautifulSoupJson格式解析网页编码 动态页面抓取 JS渲染页面WebkitRender类Ajax请求IframeSelenium库重定向Status codeHtmlmeta的refreshjs 可视化爬虫 Import ioPortia八爪鱼集搜客造数BBD 爬虫框架 Scrapy框架 案例1 58同城 简历中心 url E7 AE 80 E5 8E 86 E4 B8 AD E5 BF 83 案例2 阿里巴巴 搜索 url 反爬技术 User agent判断来源根据IP访问频率判断 封锁IP或者账号验证码识别Pillow库Tesseract库Numpy机器学习根据实际成本制定策略频繁变更网页结构非正常请求提供虚假信息 隐含输入字段或缺失参数 谢

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论