网络爬虫和抽取系统设计PPT课件_第1页
网络爬虫和抽取系统设计PPT课件_第2页
网络爬虫和抽取系统设计PPT课件_第3页
网络爬虫和抽取系统设计PPT课件_第4页
网络爬虫和抽取系统设计PPT课件_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络爬虫和抽取系统设计,购物比价网,题号:603140608020软件1401吴帅帅,Contents,01.爬虫介绍,02.项目介绍,03.系统架构,01-1.什么是网络爬虫?,01-2.爬虫架构,02-1.什么是购物比价网?,02-2.比价网的价值,03-1.系统功能,03-2.系统组成和分层架构,04.技术架构,04-1.爬虫选择,04-2.WEB框架选择,01-3.爬虫工作原理和价值,02-2.比价网的目标,爬虫介绍,Crawlerintroduction,01,爬虫介绍,4,什么是网络爬虫?,网络爬虫:一段自动抓取互联网信息的程序。,互联网,URL,URL,URL,URL,URL,URL,URL,人工,爬虫,爬虫,价值数据,爬虫介绍,爬虫架构,5,爬虫,URL管理器,网页下载器,网页解析器,爬虫调度端,价值数据,爬虫介绍,爬虫架构-运行流程,6,有待爬URL?,是/否,获取1个待爬URL,URL,下载URL内容,URL内容,解析URL内容,价值数据、新URL列表,价值数据,新增到待爬取URL,输出价值数据,循环,项目介绍,爬虫的价值,7,商品价格对比网,爬取多个购物网站的某件商品的价格,进行对比。,招聘信息网,爬取多个招聘网站,将招聘信息分类,供用户查询。,技术文章大全,爬取某知名博客网站,将某类文章爬取下来,制作成本地离线的电子书。,新闻聚合阅读器,爬取多个新闻网站,将新闻聚集显示,提供全面的实时信息。,价值数据,价值:互联网数据,为我所用!,项目介绍,Projectintroduction,02,项目介绍,购物比价网,9,以价格比较为核心业务,从其他网上商城抓取产品信息,提供给用户浏览和比较,为购买决策提供有力的参考。,什么是购物比价网?,项目介绍,购物比价网价值,10,解决用户在购物时需打开多个网站,不断自行比较的繁琐问题。节省用户购物时间优化用户的购物体验,带给用户带了更愉悦的购物经历。,购物比价网有什么价值?,项目介绍,购物比价网目标,11,目标是彻底打捞网络信息,从而拥有海量、准确的产品描述、报价、经销商通讯录、产品测评和使用体验,并通过尽可能简单的操作,让消费者精准锁定中意的产品。,购物比价网的目标?,系统架构,SystemArchitecture,03,系统架构,用例图,13,登录,浏览商品,收藏商品,查询商品,推荐商品,对比价格,用户,系统架构,业务架构,14,系统架构,业务组成,15,系统架构,分层架构,16,用户信息数据库,商品信息数据库,历史价格数据库,商品推荐,价格比对,历史价格分析,商品显示,商品购买入口,价格走向图,评价信息数据库,折扣显示,折扣搜索,商品价格爬虫,商品信息爬虫,商品折扣爬虫,评价信息展示,评价信息爬虫,商品价格数据库,评价合并,技术架构,TechnicalFramework,04,技术架构,技术选择,18,技术架构,选择爬虫框架,19,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。,技术架构,选择URL实现,20,内存,Python内存待爬取URL集合:set()待爬取URL集合:set(),MySQLurls(urls,is_crawled),Redis待爬取URL集合:set待爬取URL集合:set,关系数据库,缓存数据库,URL管理器实现方式,技术架构,技术选择,21,技术架构,选择WEB架构,22,Django是python的一个web框架,主要目的是简便、快速的开发数据库驱动的网站。它强调代码复用,多个组件可以很方便的以“插件”形式服务于整个框架,Django有许多功能强大的第三方插件,你甚至可以很方便的开发出自己的工具包。这使得Django具有很强的可扩展性。,技术架构,选择服务器,23,Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论