分布式网络爬虫的设计与实现应用_第1页
分布式网络爬虫的设计与实现应用_第2页
分布式网络爬虫的设计与实现应用_第3页
分布式网络爬虫的设计与实现应用_第4页
分布式网络爬虫的设计与实现应用_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,分布式网络爬虫的设计与实现应用,DesignandApplicationofDistributedWebCrawler,指导老师:xx教授,答辩人:,研究背景,系统设计,总结展望,对比实验,1,研究背景,系统设计,总结展望,对比实验,2,分布式网络爬虫,解决方案,急剧膨胀的网民数量逐渐庞大的数据资源单机系统的性能达到瓶颈,问题背景,3,研究背景,系统设计,总结展望,对比实验,1,2,3,结构,整体结构主从结构增量式爬取策略,逻辑设计控制要点异常处理,通信设计Socket通信报文设计,主从式结构控制节点负责调度,分发任务爬行节点负责爬行,反馈结果增量式爬取策略,整体结构,控制要点去重:Bloom过滤器反馈确认轮询检测URL丢弃,逻辑设计,由于控制节点的崩溃,则爬虫节点及时保存已爬取和未爬取的URL列表,爬虫节点的崩溃,由于爬虫节点崩溃,爬虫节点应将未爬取的URL回送给控制节点,异常处理,Socket通信基于TCP/IP的可靠的传输链接报文设计,通信设计,9,研究背景,系统设计,总结展望,对比实验,实验结果,以一台计算机为控制节点,分别建立1,2,6,12个爬行节点,每个爬行节点启动五个线程,对相同的数据源进行爬行,记录运行时间,实验分析,该分布式网络爬虫运行时间与爬虫数量近似成正比关系,这说明体现了中央节点在爬行过程中的调控没有给爬虫节点带来过多的负担,各爬虫节点充分发挥其网络带宽,达到相对较高的爬行效率,该分布式网络爬虫基本取得了预期想要的效果。折线图略有曲折,可能是由于网络的稳定性、出错URL的处理时间、爬取网站的速度不一等多种情况综合产生。,13,研究背景,系统设计,总结展望,对比实验,A,B,C,谢谢聆听!,T

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论