网络数据采集技术概述.ppt

上传人：儿*** IP属地：广东上传时间：2020-03-27 格式：PPT 页数：13 大小：901KB 积分：20 举报 版权申诉

已阅读5页，还剩8页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

网络爬虫简介爬虫与反爬技术目录前言 robots txt Robots协议被称为爬虫协议或机器人协议是国际互联网界通行的道德规范 User agent 用于描述搜索引擎robot的名字 Disallow 禁止robot访问该网站的目录或文件 Allow 允许robot访问该网站的目录或文件 sitemap xml txt html Sitemaps协议使网站能够告知搜索引擎网站中可供抓取的网址自动生成更方便地了解一个网站的内容布局架构主动提交向百度 Google 雅虎和微软等提交被搜索引擎收录数据采集流程需求分析业务类型方向决定抓取策略和抓取频率干什么用抓取内容具体需要什么数据字段怎么用数据来源数据来源于具体网站或其他抓取方式获取数据的方式网页结构分析 API等代码实现自定义或开源爬虫框架数据清洗根据业务具体情况转换数据格式类型进行数据计算等数据清洗分为入库前点清洗和入库后点清洗数据存储写文件或入库方式远程数据入库数据加密等爬虫任务分发分布式爬虫多线程爬虫反爬策略日志管理监控报警等网页分析数据抓取方式网页移动网页移动客户端API网页解析正则XpathBeautifulSoupJson格式解析网页编码动态页面抓取 JS渲染页面WebkitRender类Ajax请求IframeSelenium库重定向Status codeHtmlmeta的refreshjs 可视化爬虫 Import ioPortia八爪鱼集搜客造数BBD 爬虫框架 Scrapy框架案例1 58同城简历中心 url E7 AE 80 E5 8E 86 E4 B8 AD E5 BF 83 案例2 阿里巴巴搜索 url 反爬技术 User agent判断来源根据IP访问频率判断封锁IP或者账号验证码识别Pillow库Tesseract库Numpy机器学习根据实际成本制定策略频繁变更网页结构非正常请求提供虚假信息隐含输入字段或缺失参数谢

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

网络数据采集技术概述.ppt

文档简介

温馨提示

最新文档

评论

网络数据采集技术概述.ppt

文档简介

温馨提示

最新文档

评论

相关文档