分布式网络爬虫的设计与实现应用答辩_第1页
分布式网络爬虫的设计与实现应用答辩_第2页
分布式网络爬虫的设计与实现应用答辩_第3页
分布式网络爬虫的设计与实现应用答辩_第4页
分布式网络爬虫的设计与实现应用答辩_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

我们毕业啦其实是答辩的标题地方,分布式网络爬虫的设计与实现应用,答辩人,指导老师,答辩时间,20 xx年6月5日,研究背景,爬虫设计,系统编码,对比实验,总结展望,CONTENTS,研究背景,爬虫设计,系统编码,对比实验,总结展望,Itwasthebestoftimes,itwastheworstoftimes;itwastheageofwisdom,itwastheageoffoolishness.Itwastheepochofbelief,anditwastheepochofincredulity.Itwastheseasonoflight,anditwastheseasonofdarkness.Itwasthespringofhope,anditwasthewinterofdespair.,ADDYOURTITLE,Itwasthebestoftimes,itwastheworstoftimes;itwastheageofwisdom,itwastheageoffoolishness.Itwastheepochofbelief,anditwastheepochofincredulity.Itwastheseasonoflight,anditwastheseasonofdarkness.Itwasthespringofhope,anditwasthewinterofdespair.,ADDYOURTITLE,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,研究背景,急剧膨胀的网民数量给搜索引擎的发展带来了极大的挑战单机系统的性能达到瓶颈,性价比不高怎样从越来越大的数据资料源中以更快的速度、极高的效率、很高的安全性寻找到对网络使用者有价值的数据成为了搜索引擎的主要目标。,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,研究现状:,早期爬虫:WorldWideWebWanderer第一个网络爬虫Repository-BasedSoftwareEngineering(RBSE)Crawler第一个公开爬虫World-WideWebWorm(WWWW)第一个搜索引擎分布式爬虫及其特点:GoogleCrawler搜索引擎:主从式通信架构InternetArchive:去重思想Mercator:模块化思想,提高可扩展性Nutch开源搜索引擎:Hadoop分布式框架,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,研究目的:,项目背景:苏州贷后风险平台项目目的:该项目通过采集互联网金融数据,对数据进行清洗、过滤和分析,为风险评估提供数据基础其中,在采集数据时便需要分布式网络爬虫来提高搜索的效率。研究目的:应用高效的分布式网络爬虫系统,可以准确而高效地采集互联网金融数据,减少搜索时间,提高贷后风险平台的整体效率。,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,技术背景,增量式爬虫,连接池与线程池,Bloom过滤器,Nutch,Nutch搜索引擎,Nutch的研究目标:让每个开发者能很容易,同时花费很少的费用就可以配置世界一流的Web搜索引擎,尽自己最大的努力为用户提供最好的搜索结果。Nutch分为三个主要模块:采集模块,索引模块和搜索模块,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,增量式爬取策略,网络爬虫爬行网页的过程:将初始URL推送至下载队列首部,然后依次出队下载URL对应网页信息,获取新链接判断该链接是否已经爬取或过时:若已爬取且不过时,则不再爬取若未爬取过或已过时,则推进下载队列如此循环,直到下载队列为空。,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,Bloom过滤器,设置一个m位的BitSet,各位初始化为0选择k个不同的哈希函数第i个哈希函数对字符串str的映射结果记为h(i,str),第h(i,str)位置为1。一个字符串对应m维空间中的一个点,若点重合则字符串就可以被认为是相同的。,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,连接池与线程池,连接池:JDBC数据库连接池方式:获得数据库连接:ComboPooledDataSourcedataSource=DBConnection.getInstance();Connectionconn=dataSource.getConnection();关闭数据库连接:close();线程池:在爬虫节点上,当有一个新的任务需要完成时若线程池空闲或部分运作,则调用线程池中等待的线程开始运行若线程池满负荷,该任务就先进入等待队列最大限度重复利用工作线程,防止占用过多的内存,机器过高负载。,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,整体结构:主从式结构控制节点负责调度,分发任务爬行节点负责爬行网页,反馈优点:实现简单,利于管理相对通信量较少添加节点简单通信方式:基于TCP/IP的Socket通信优点:可靠的传输连接,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,主要是四种与URL相关的数据结构RawData,InterfaceURL,PackagedURL,ErrorURL组织URL队列:PackagedURL,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,数据结构,报文设计,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,控制节点崩溃:控制节点、爬虫节点都要保存日志,系统恢复正常时,存储日志能够提供已爬取和未爬取URL的信息爬虫节点崩溃:若是由于控制节点或整个系统的崩溃,爬虫节点将未爬取的URL本地完整保存若是由于节点爬虫崩溃,爬虫节点应将未爬取的URL回送给控制节点,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,异常处理,以爬虫节点向中心节点发送爬取到的URL的任务为例:IsoMessagemessage_return=newIsoMessage(0 x510,fields_return,message_temp.getPackagedURL();,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,报文解析,FinishConfirm:中心节点收到爬虫节点发过来的完成任务的URL信息时,除了从待确认URL列表中将该部分URL删除,还要返回给爬虫节点一个确认信息,供爬虫节点操作。Inquiry:中心节点需要随时了解爬虫节点的运行状态,采用轮询检测爬虫节点是否出现故障。ProcessErrorURL:将ErrorURL依次在所有没有被爬取过的爬虫节点上进行爬取,如果都没有爬取到结果,就说明是这个URL有问题,将其丢弃。当中,要使用Thread.sleep(time)控制频率。,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,线程控制,网络环境:南京大学校园网(平均带宽约为2M)编码软件:Eclipse数据库:MySQL项目数据:苏州贷后风险平台项目数据(2000个数据源),论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,运行环境,同时运行一个中央节点和一个爬虫节点,观察并记录运行状态同时运行一个中央节点和两个爬虫节点,观察并记录运行状态同时运行一个中央节点和六个爬虫节点,观察并记录运行状态同时运行一个中央节点和十二个爬虫节点,观察并记录运行状态,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,实验步骤,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,实验结果,论文绪论,相关技术基础,爬虫设计要点,系统编码要点,对比实验,总结与展望,实验结果,总结:该分布式网络爬虫运行时间与爬虫数量近似成正比关系,这说明各爬虫节点充分发挥其网络带宽,达到相对较高的爬行速度。爬虫爬取的效率没有随着爬虫节点的增加而降低,这体现了中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论