网络数据爬虫调查结果.docx_第1页
网络数据爬虫调查结果.docx_第2页
网络数据爬虫调查结果.docx_第3页
网络数据爬虫调查结果.docx_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

对网页爬虫的调查结果调查人:王杨斌对于爬虫工具以及代码的调查,主要调查的内容是关于PHP和Java的工具代码。1. Java类爬虫1.1. JAVA爬虫 WebCollector爬虫简介: WebCollector /p/webcollector 是一个无须配置、便于二次开发的JAVA爬虫框架(内核),它提供精简的的API,只需少量代码即可实现一个功能强大的爬虫。 爬虫内核: WebCollector致力于维护一个稳定、可扩的爬虫内核,便于开发者进行灵活的二次开发。内核具有很强劲。1.2. Web-HarvestWeb-Harvest /p/web-harvest 是一个用Java语言编写的是网络爬虫工具,应用比较广泛。其可以收集指定的页面并从这些页面中提取有用的数据。Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest主要是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。1.3. Java网页爬虫 JSpiderJSpider /p/jspider 是一个用Java实现的WebSpider。JSpider 的行为是由配置文件具体配置的,比如采用什么插件,结果存储方式等等都在confConfigName目录下设置。JSpider默认的配置种类 很少,用途也不大。但是JSpider非常容易扩展,可以利用它开发强大的网页抓取与数据分析工具。要做到这些,需要对JSpider的原理有深入的了 解,然后根据自己的需求开发插件,撰写配置文件。1.4. web爬虫 HeritrixHeritrix /p/heritrix 是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。Heritrix是一个爬虫框架,其组织结构包含了整个组件和抓取流程。1.5. webmagic logo 垂直爬虫 webmagicWebmagic /p/webmagic 的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。1.6. Java多线程Web爬虫 Crawler4jCrawler4j /p/crawler4j 是一个开源的Java类库提供一个用于抓取Web页面的简单接口。可以利用它来构建一个多线程的Web爬虫。1.7. Java网络蜘蛛/网络爬虫 SpidermanSpiderman /p/spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将复杂的目标网页信息抓取并解析为自己所需要的业务数据。2. C/C+ 类爬虫2.1. 网站爬虫 Grub Next GenerationGrub Next Generation /p/grub+next+generation 是一个分布式的网页爬虫系统,包含客户端和服务器可以用来维护网页的索引。其开发语言: C/C+ Perl C#。2.2. 网页爬虫 MethanolMethanol /p/methanol 是一个模块化的可定制的网页爬虫软件,主要的优点是速度快。2.3. 网络爬虫/网络蜘蛛 larbinLarbin /p/larbin 是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sbastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就 是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 larbin也不提供。一个简单的larbin的爬虫可以每天获取万的网页。利用larbin,我们可以轻易的获取/确定单个网站的所有链接,甚至可以镜像一个网站;也可以用它建立url 列表群,例如针对所有的网页进行 url retrive后,进行xml的联结的获取。或者是 mp3,或者定制larbin,可以作为搜索引擎的信息的来源。2.4. 死链接检查软件 XenuXenu Link Sleuth /p/xenu 也许是你所见过的最小但功能最强大的检查网站死链接的软件了。你可以打开一个本地网页文件来检查它的链接,也可以输入任何网址来检查。它可以分别列出网站 的活链接以及死链接,连转向链接它都分析得一清二楚;支持多线程 ,可以把检查结果存储成文本文件或网页文件。3. PHP 类爬虫3.1. sphiderSphider()是一个用PHP语言编写,使用MySql作为其后端的爬虫工具,目前版本更新到Sphider 1.3.6 ,其发布日期是04-06-2013。将下载文件解压放在apache目录下就可以运行。运行之后因为配置的问题还不能爬取,之后会再做调试。OpenWebSpider /p/openwebspider 是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。3.2. TSpiderTSpider是一个可执行图形界面程序,但是爬取的过程太过缓慢,不太适合使用。PHPCrawl也是一个使用php语言的爬虫工具,可扩展性较好,可以根据自己的需求改变代码来完成不同的功能。3.3. PHP的Web爬虫和搜索引擎 PhpDigPhpDig /p/phpdig 是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关 键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更 强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。3.4. 网站内容采集器 SnoopySnoopy /p/snoopy 是一个强大的网站内容采集器(爬虫)。提供获取网页内容,提交表单等功能。4. dot.Net类爬虫4.1. 网站数据采集软件 网络矿工采集器(原soukey采摘)Soukey /p/soukey 采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。4.2. 网络爬虫程序 NWebCrawlerNWebCrawler /p/nwebcrawler 是一款开源的C#网络爬虫程序。4.3. 爬虫小新 Sinawler国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫” /p/sinawler 。登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商业用途。该应用基于.NET2.0框架,需SQL SERVER作为后台数据库,并提供了针对SQL Server的数据库脚本文件。另外,由于新浪微博API的限制,爬取的数据可能不够完整(如获取粉丝数量的限制、获取微博数量的限制等)。本程序版权归作者所有。你可以免费: 拷贝、分发、呈现和表演当前作品,制作派生作品。 你不可将当前作品用于商业目的。5. 其他语言类爬虫5.1. Web爬虫框架 ScrapyScrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。其开发语言为Python。5.2. 网页抓取信息提取软件 MetaSeeker网页抓取/信息提取/数据抽取软件工具包MetaSeeker (GooSeeker) V4.11.2 /p/metaseeker 正式发布,在线版免费下载和使用,源代码可阅读。自推出以来,深受喜爱,主要应用领域: 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量采集,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧 移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScraper实时高效地 采集内容,输出富含语义元数据的XML格式的抓取结果文件,确保自动化的数据集成和加工,跨越小尺寸屏幕展现和高精准信息检索的障碍。手机互联网不是 Web的子集而是全部,由MetaSeeker架设桥梁 企业竞争情报采集/数据挖掘:俗称商业智能(Business Intelligence),噪音信息滤除、结构化转换,确保数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论