




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
,分布式网络爬虫的设计与实现应用,DesignandApplicationofDistributedWebCrawler,指导老师:xx教授,答辩人:,研究背景,系统设计,总结展望,对比实验,1,研究背景,系统设计,总结展望,对比实验,2,分布式网络爬虫,解决方案,急剧膨胀的网民数量逐渐庞大的数据资源单机系统的性能达到瓶颈,问题背景,3,研究背景,系统设计,总结展望,对比实验,1,2,3,结构,整体结构主从结构增量式爬取策略,逻辑设计控制要点异常处理,通信设计Socket通信报文设计,主从式结构控制节点负责调度,分发任务爬行节点负责爬行,反馈结果增量式爬取策略,整体结构,控制要点去重:Bloom过滤器反馈确认轮询检测URL丢弃,逻辑设计,由于控制节点的崩溃,则爬虫节点及时保存已爬取和未爬取的URL列表,爬虫节点的崩溃,由于爬虫节点崩溃,爬虫节点应将未爬取的URL回送给控制节点,异常处理,Socket通信基于TCP/IP的可靠的传输链接报文设计,通信设计,9,研究背景,系统设计,总结展望,对比实验,实验结果,以一台计算机为控制节点,分别建立1,2,6,12个爬行节点,每个爬行节点启动五个线程,对相同的数据源进行爬行,记录运行时间,实验分析,该分布式网络爬虫运行时间与爬虫数量近似成正比关系,这说明体现了中央节点在爬行过程中的调控没有给爬虫节点带来过多的负担,各爬虫节点充分发挥其网络带宽,达到相对较高的爬行效率,该分布式网络爬虫基本取得了预期想要的效果。折线图略有曲折,可能是由于网络的稳定性、出错URL的处理时间、爬取网站的速度不一等多种情况综合产生。,13,研究背景,系统设计,总结展望,对比实验,A,B,C,谢谢聆听!,T
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自媒体管理办法总结
- 碧桂园法务管理办法
- 个人贷款管理办法原则
- 上海纳税信用管理办法
- 落实教师待遇管理办法
- 产品市场研究管理办法
- 课程大纲制定管理办法
- 专业社工机构管理办法
- 中介公司客户管理办法
- 线下剧本杀管理办法
- 采购进口生蚝合同协议书
- 鼓号队培训课件内容
- 液体外渗的预防与处理 2
- 成本分析表-产品成本构成
- 2024年云南航空产业投资集团招聘考试真题
- 柚子树栽培技术
- 蓝莓种植加工一体化发展项目可行性研究报告写作模板-申批备案
- 2025年秋季新学期教学工作会议校长讲话:一心一意抓质量一点一滴见成效一步一脚印做教学
- 上腔静脉综合征护理查房
- 安徽省2025年公需科目培训测验答案(科目一)
- 2025年新退休返聘人员协议书
评论
0/150
提交评论