Sosoo 10网络爬虫程序.doc_第1页
Sosoo 10网络爬虫程序.doc_第2页
Sosoo 10网络爬虫程序.doc_第3页
Sosoo 10网络爬虫程序.doc_第4页
Sosoo 10网络爬虫程序.doc_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Sosoo 1.0网络爬虫程序 -用户开发手册 编写人:王建华(rimen/jerry) 编写目的:基于sosoo定制web spider程序的编程人员。 目录 一:安装sosoo 2 二:功能定制 2 1基本功能参数的设置。 2 2配置机器人对url的检查 3 3:实现文件管理。 4 4定制html文档下载规则。 4 5设置对下载后http文档的过滤处理 5 6启用机器人运行期监控。 5 7启用对http协议分析的监控。 5 三:sosoo描述 6 四:应用开发指南 6 1Roboter类,spider程序的主类。 6 2TaskList接口,解决对处理任务的存储。 7 3Http客户端实现。 7 4实现网页存储或处理 7 5实现运行期的监控 8 五程序例子 9 六参考依赖 10 一:安装sosoo sosoo提供的是一个sosoo-core.jar包,其中并没有提供可运行的程序入口。如果要使用可以通过src中的examples进行体验。开发者可以基于在这上开发出基于UI,j2ee等spider程序 把sosoo-core包加入到你应用的classpath中。 Sosoo 提供一个线程类的来代表一个机器人com.sosoo.robot.spider. Roboter。 通过一个测试类 public static void main(String args) throws Exception Roboter robby = new Roboter(); robby.setStartURL(new URL(73:7001/pa18Web/framework/images/framevork_04.gif); robby.setMaxDepth(0); /设置最大连接访问深度 robby.setSleepTime(0); robby.setWalkToOtherHosts(true); robby.run(); /启动 这样就启动了一个spider程序,sosoo将根据你对javaBean参数的设置进行对网络上html 的抓取. 停止机器人. robot.stopRobot(); 二:功能定制 Sosoo利用回调的方式实现了aop,用户可以通过回调的方式注入javaBean对象,以实现其外部功能 1基本功能参数的设置。 基本功能指: roboter的原生类型参数(或String),例如:startURL,maxDepth等。 设置开始处理的url【startURL】:必须参数,roboter会根据这个地址开始在网络上进行查找。 robby.setStartURL(URL url); 设置从开始路径能找的最大深度【maxDepth】:程序会判断当前处理的链接深度是否超过最大链接深度,如果超过这个链接将忽略,当然你可以通过设置depthIsEffect来屏蔽这个功能。默认值为1。 robby.setMaxDepth(0); 设置处理文档的时间间隔【sleepTime】:当处理完一个url时,设置这个间隔时间处理下一个url。单位为s,默认值为60,推荐使用5s。 robby.setSleepTime(0); 设置http连接超时时间:在连接服务器时,可能由于网络或者本身服务的原因,可 能会出现超时的情况,通过设置超时时间来限制对某个url连接的最大时间,这样就可以提高处理的速度,但是如果这个值设置太小,可能很多连接都会连接不到,建议使用大于30的值,默认为60s。 robby.setUrlConnectTimeOut(30); 停止robby线程【stopIt】:你可以通过对robby对象进行操作来停止当前的线程。 robby.stopRobot(); 暂停robby线程【sleep】:可以对当前运行的robby线程进行暂停。 robby.setSleep(true); 2配置机器人对url的检查 sosoo spider会根据用户的设置把收集到url列表中过滤掉不符合条件的url。 过滤的顺序:walkToOtherHosts-allowWholeHost-flexibleHostCheck- allowWholeDomain-用户提供url列表。 设置是否访问其他的主机【walkToOtherHosts】:如果你需要进行整个互联网的搜索,而不限于你开始提供的url中的主机,把这个参数设置为true。默认为false。 robby.setWalkToOtherHosts(true); 设置是否访问本主机【allowWholeHost】:如果你只想要对开始url代表的主机进行访问,你可以通过设置这个参数进行过滤url。 robby.setAllowWholeHost(true); 设置非www开始的主机【flexibleHostCheck】:当你提供的开始url,不是以www开头,你可以通过设置flexibleHostCheck参数来达到访问本主机的目的。 robby.setFlexibleHostCheck(true); 设置是否访问本域【allowWholeDomain】:如果你只想要对开始url代表的域进行访问,你可以通过设置下面这个参数进行过滤url。 robby.setAllowWholeDomain(true); 设置要访问的url列表【allowedURLs】:这是一个Vector类型的变量,用户可以把这些url放在配置文件中,用户可以在运行时提供这个变量。 robby.setAllowedURLs(allowed); 定制url检查规则【URLCheck】:用户除了通过上面的规则进行url过滤,用户还可以通过实现urlCheck接口来进行url检测。系统已经提供了RegExpURLCheck实现。提供对properties文件的支持。 robby.setURLCheck(check); 设置是否要找网站跟目录下的/robot.txt文件【ignoreRobotsTxt】:用户可以通过设置这个值来忽略网站提供对robot的支持。默认为false robby.setIgnoreRobotsTxt(true); 设置url可以重复访问【visitMany】:系统提供了一个访问过的列表缓存,当spider程序发现这个url已经访问过,他将不进行这个url的处理。可以通过这个参数来定制可以重复访问的url列表,这是一个Vector类型。 robby.setVisitMany(visitMany); 设置spider客户端的【proxy】:spider可以通过代理连接internate,但是目前只支持匿名的代理服务器。 robby.setProxy(:80); 3:实现文件管理。 Spider程序下载url对应的html文档的时候,系统提供一个回调接口HttpDocManager。你可以通过的持接口的实现,把spider获得html数据进行存储,例如你可以把这些文件以文本流存入数据库,存入文件系统等。系统提供了HttpDocToFile实现,把下载的文件存入文件系统。你可以在启动spider程序的时候通过robby.setDocManager(dm);进行注入管理对象。 4定制html文档下载规则。 当你对各种html文件的格式处理有要求的时候,例如你觉得下载exe,rar文件比较 慢的时候,你可以通过自己的需求定制下载规则。通过实现HttpDownloadCheck 接口可以设定下载的规则。 DownloadRuleSet rules=new DownloadRuleSet(perties); robby.setDownloadRuleSet(rules); 系统已经提供了DownloadRuleSet实现,这个是想通过classpath properties来定义下载规则. 文件的内容: # the file must contain two field,allowdeny and MIME Type/sub type # allow stand for if the doc match the conditions,will down the file # deny stand for if the doc match the conditions,will not down the file # size ,express the doc contact byte size is larger than the value # cant hold out the = or = # the scope of size is optional. allow image/gif 10000000 deny image/gif 10000000 当然你可以自定义自己的实现,只要实现HttpDownloadCheck的boolean downloadAllowed(Vector httpHeaders) ;方法。 注意:如果这个文档没有下载,这个文档中的连接将不能进行处理,所以一般不建 议过滤掉text/html. 5设置对下载后http文档的过滤处理 下载文档后,用户可以对这个doc对象进行一系列的处理。Spider提供了一个 FilterChain类。用户可以把自己过滤器加入FilterChain中。 你可以实现DocumentFilter接口定制自己的功能,系统实现提供了一个LinkLocalizer实现,用于替换相对连接。 FilterChain filters=new FilterChain(); DocumentFilter filter=new LinkLocalizer(); filters.add(filter); robby.setFilters(filters); 6启用机器人运行期监控。 当启动spider程序后,程序利用回调接口提供给用户运行期的状态。例如你要要显示机器人对应的处理过的任务,处理中的任务,处理是的状态。通过实现RobotCallback接口来实现,当然你也可以直接取roboter对象的属性来监控。 系统提供RobotMonitor实现,用户打印在cosole上运行期的状态。 RobotCallback m Monitor(); robby.setWebRobotCallback(monitor); 7启用对http协议分析的监控。 Spdier循环处理缓存中未处理的url,对于每个url的处理,系统提供一些监控方 法。当然你只要实现HttpToolCallback接口。系统提供了SystemOutHttpToolCallback实现。 HttpToolCallback toolM SystemOutHttpToolCallback(); robby.setHttpToolCallback(toolMonitor); 三:sosoo描述 Sosoo是参考jobo提供的核心算法。利用对访问的历史记录存储来替换spider的递归算 法。在处理的效率上有不错的体验,但是它也是牺牲存储为代价的。在程序启动是,系 统将建立两个Vector数组对访问url进行记录。因此sosoo并不使用于大数据量信息抓取,但是对于行业网站,中小企业绝对足够。 目前sosoo提供的处理功能: 支持跨域跨主机的访问 支持多种文件格式的下载 支持对html中连接的递归处理 支持http1.1协议但不支持1.0 支持匿名代理(http),但不知道需要验证代理。 待扩展的功能: 提供全功能http协议处理 提供javasript的支持 提供表单from的处理支持 提供对ftp协议的支持 提供全方位的代理(http,sock等)支持。 完善系统监控功能 加强对html文档的信息处理能力 提供各种文件类型的处理工具 提供对rss的支持 四:应用开发指南 sosoo提供很强的编程扩展,很容易把他集成到你的j2ee项目中。在中小型搜索引擎中, 特别对某一些特定的行业网站的数据进行分析时,Sosoo提供方便和安全的解决方案。 通过上述对功能的定制,我们可以看到在应用中我们对sosoo的编程接口并不多,而且目前系统都是基于set的方式注入aop注入对象,这样很容易和spring等基于set方式的依赖注入(IOC)框架集成。 1Roboter类,spider程序的主类。 当你需要把sosoo应用到你的应用中时,roboter提供一个基于线程的工具类。它体可在程序中启动,暂停,退出一个spdier程序。这个类有sosoo提供,并不支持扩展,它标识spider的主体。它是整个spider程序所有功能的入口,包括回调功能,都是通过set方式注入到roboter中。 com.sosoo.robot.spider.Roboter 例如你要启动一个spider线程: Roboter robby = new Roboter(); robby.setStartURL(new URL(73:7001/pa18Web/framework/images/framevork_04.gif); robby.setMaxDepth(0); /设置最大连接访问深度 robby.setSleepTime(0); robby.setWalkToOtherHosts(true); robby.run(); /启动 2TaskList接口,解决对处理任务的存储。 对于sosoo而言,每个url对于一个任务。系统已经提供其默认的实现,你可以根据自己的需求实现这个接口。然后在启动spdier的时候用register方法进行注册。 robby .registerVisitedList(new HashedMemoryTaskList(false); robby .registerToDoList(new HashedMemoryTaskList(); com.sosoo.robot.spider.TaskList 主要解决是对com.sosoo.robot.spider.RobotTask对象的存储。和常用的操作方 法,例如删除, 添加,查找等。具体参见JAVADOC 3Http客户端实现。 目前对sosoo1.0客户端而言,主要的用途就是提供模拟浏览器进行对http文档的获取。同时把他转换为HttpDoc对象。同时对http请求资源的管理,例如cookie管理。 Sosoo主要是通过com.sosoo.robot.http.HttpTool工具类来提供此工能。你也可以自己定制更优化的处理方案替换,同样通过register方法进行注册。由于重载这个工具需要对http协议有深刻的连接,一般不建议替换系统的实现。 Robby.RegisterHttpParser(new HttpTool); 4实现网页存储或处理 当spider程序下载完以后,spider会用docManager管理其和filter来处理html文档和其内容。 HttpDocManager接口主要用来对HttpDoc对象的管理,例如把它存储在文件系统,或存入数据库等。系统提供了实现HttpDocToFile用来把HttpDoc对象存放在在文件系统中。 FilterChain主要用来进行httpDoc内容的一系列过滤功能。例如你主要取其中的某些信息。或者替换其中某些内容。它是实现了一个数组存储,你可以根据自己的需求加入多个实现DocumentFilter接口的对象,系统提供了一个实现LinkLocalizer,用来替换其中的相对连接。 系统先进行filter处理,然后在进行HttpDocManager 具体编程参考javadoc 5实现运行期的监控 Sosoo提供了两个监控的接口。用户可以实现这写接口的某些或全部方法,达到载 运行期内某些状态的监控。 Spider监控:com.sosoo.robot.spider.RobotCallback 主要提供文档的处理,spider的睡眠,spider当前任务的监控。 void webRobotRetrievedDoc(String url, int size); /实现对获取url对应的HttpDoc对象的监控 void webRobotUpdateQueueStatus(int length); /实现当前处理任务的监控 void webRobotDone(); /处理完成 void webRobotSleeping(boolean sleeping); /spider暂停 http分析监控:com.sosoo.robot.http.HttpToolCallback /* * After initiating a download, this method will be called to * inform about the URL that will be retrieved * param URL url that will be retrieved now */ void setHttpToolDocUrl(String url); /* * After HttpTool got a Content-Length header * this method will be called to inform about the size of * the document to retrieve * param size document size in */ void setHttpToolDocSize(int size); /* * after a block of bytes was read (default after every 1024 bytes, * this method will be called * param size the number of bytes that where retrieved */ void setHttpToolDocCurrentSize(int size); /* * informs about the current status of the HttpTool * param status an integer describing the current status * constants defined in HttpTool * see HttpTool */ void setHttpToolStatus(int status); 系统提供了SystemOutHttpToolCallback默认实现。 五程序例子 package com.sosoo.robot.examples; /* Copyright (c) 2005 by rimen sosoo */ import .URL; import com.sosoo.robot.http.DownloadRuleSet; import com.sosoo.robot.http.HttpDocManager; import com.sosoo.robot.http.HttpDocToBean; import com.sosoo.robot.http.HttpToolCallback; import com.sosoo.robot.http.SystemOutHttpToolCallback; import com.sosoo.robot.spider.RobotCallback; import com.sosoo.robot.spider.RobotMonitor; import com.sosoo.robot.spider.Roboter; import com.sosoo.robot.spider.docfilter.DocumentFilter; import com.sosoo.robot.spider.docfilter.FilterChain; import com.sosoo.robot.spider.docfilter.LinkLocalizer; /* * This example program downloads a web page. It does not * store the documents but only logs the visited URLs. * * author jerrywangjianhua sosoo * version $Revision: 1.1 $ */ public class SpiderMain public static void main(String args) throws E

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论