



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
搜索引擎的实现过程,可以看作三步:1. 从互联网上抓取网页 2. 对网页进行处理,建立索引数据库 3. 进行查询。因此无论什么样的搜索引擎,都必须要有一个设计良好的爬虫来支持。1. Heritrix 优点:Heritrix 是 SourceForge 上基于 Java 的开源爬虫,它可以通过 Web 用户界面来启动、设置爬行参数并监控爬行,同时开发者可以随意地扩展它的各个组件,来实现自己的抓取逻辑,因其方便的可扩展性而深受广大搜索引擎爱好者的喜爱。缺点:虽然 Heritrix 功能强大,但其配置复杂,而且官方只在 Linux 系统上测试通过,用户难以上手。根据网上来看这个软件还没有完善。2. WebSPHINX优点:比较简单缺点:只能找一个字段3. 网页抓取/信息提取/数据抽取软件工具包MetaSeeker (GooSeeker) V4.11.2正式发布,在线版免费下载和使用,源代码可阅读。自推出以来,深受喜爱,主要应用领域: 垂直搜索(Vertical Search):也称为专业搜索,高速、海量和精确抓取是定题网络爬虫DataScraper的强项,每天24小时每周7天无人值守自主调度的周期性批量采集,加上断点续传和软件看门狗(Watch Dog),确保您高枕无忧 移动互联网:手机搜索、手机混搭(mashup)、移动社交网络、移动电子商务都离不开结构化的数据内容,DataScraper实时高效地 采集内容,输出富含语义元数据的XML格式的抓取结果文件,确保自动化的数据集成和加工,跨越小尺寸屏幕展现和高精准信息检索的障碍。手机互联网不是 Web的子集而是全部,由MetaSeeker架设桥梁 企业竞争情报采集/数据挖掘:俗称商业智能(Business Intelligence),噪音信息滤除、结构化转换,确保数据的准确性和时效性,独有的广域分布式架构,赋予DataScraper无与伦比的情报采 集渗透能力,AJAX/Javascript动态页面、服务器动态网页、静态页面、各种鉴权认证机制,一视同仁。在微博网站数据采集和舆情监测领域远远领 先其它产品。4. /cn/node/document/metaseeker/installationv4/deployclient缺点是:只是限定于firefox浏览器 MetaSeeker工具包是一套完整的网页内容抓取、格式化、数据集成、存储管理和搜索解决方案,此文简单介绍一下其网络爬虫的特点:网络爬虫有多种实现方法,如果按照部署在哪里分,可以分成:1,服务器侧:一般是一个多线程程序,同时下载多个目标HTML,可以用PHP, Java, Python(当前很流行)等做,可以速度做得很快,一般综合搜索引擎的爬虫这样做。但是,如果对方讨厌爬虫,很可能封掉你的IP,服务器IP又不容易 改,另外耗用的带宽也是挺贵的。建议看一下Beautiful soap。2,客户端:一般实现定题爬虫,或者是聚焦爬虫,做综合搜索引擎不容易成功,而垂直搜诉或者比价服务或者推荐引擎,相对容易很多,这类爬虫不是什么页面都 取的,而是只取你关系的页面,而且只取页面上关心的内容,例如提取黄页信息,商品价格信息,还有提取竞争对手广告信息的,搜一下Spyfu,很有趣。这类 爬虫可以部署很多,而且可以很有侵略性,对方很难封锁。MetaSeeker中的网络爬虫就属于后者。如果从怎样提取数据上分,还可以分成两类,我们只说定题爬虫,普通爬虫要简单的多,网上大把。这两类是:1,通过正则表达式提取内容,HTML文件就是一个文本文件,直接使用正则表达式在指定地方提取内容即可,指定地方不一定是绝对定位,例如,可以参照HTML的标签定位,更准确2,利用DOM提取内容,HTML文件先转成DOM数据结构,在遍历这个结构提取内容。MetaSeeker中的网络爬虫还属于后者。有人会问,为什么还要用DOM方式,转了一道?有很多原因决定DOM方式的存在理由:首先,DOM结构的分析都不用自己做,有现成的库,编程并没有变复杂;第二,可以实现很复杂但是很灵活的定位规则,而正则表达式很难写;第三,如果定位是要考虑HTML文件结构,用正则表达式不容易解析,HTML文件经常有错,如果将这个任务交给现成的库,要容易很多。第四,假设还要解析Javascript的内容,正则表达式无能为力了,当然DOM方式自己也无能为力,但是可以利用某个平台的能力,就有可能提取AJAX网站内容。还有很多原因。MetaSeeker工具包利用Mozilla平台的能力,只要是Firefox看到的东西,它都能提取。爬虫的变种很多,仅讲这两个方面。MetaSeeker工具包是免费使用的,下载地址:/cn/node/download/front下载和安装下载和安装方式有两种:1. 下载的同时进行安装:在下载弹出窗口中选择“运行”,并指定运行程序Firefox 2. 下载保存后安装:在下载弹出窗口中选择“保存”,以后安装下面将讲解使用第二种方式下载后怎样安装。运行Firefox后,只要将两者的程序包文件(分别是metastudio_xxx.xpi和datascraper.xpi)拖到Firefox上即可启动安装过程。安装完成后,如果在Firefox状态栏的右下角显示“MetaStudio Installed”和“DataScraper Installed”,表示两者安装成功。如果安装成功,在Firefox的“工具”菜单上会出现“MetaStudio”和“DataScraper”两个菜单项。初始运行安装完成后,第一次运行MetaStudio和DataScrap
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 多组学数据集成平台构建-洞察与解读
- 智能建筑火险预警系统-洞察与解读
- 按利润分成合作协议5篇
- 高空作业锅炉拆解安全协议书5篇
- 2025年台州温岭市中医院公开招聘医学卫生类高层次人才5人考前自测高频考点模拟试题有完整答案详解
- 贸易壁垒识别技术-洞察与解读
- 2025年安徽皖信人力资源管理铜陵分公司招聘20人模拟试卷及完整答案详解一套
- 虚拟场景沉浸感-洞察与解读
- 无菌包装材料创新研究-洞察与解读
- 2025年宁德市供电服务有限公司招聘30人考前自测高频考点模拟试题及完整答案详解
- 高速公路改扩建工程监理投标方案(技术方案)
- 突发性耳聋的中医辩证及护理方案
- T-SZEIA 001-2024 温室气体产品碳足迹量化方法与要求 变电站电气设备
- 2025年湖南省安全员-B证考试题库及答案
- 北师大版六年级下册数学全册同步分层作业设计含答案解析
- 简易钢结构雨棚施工承包合同范本
- 苏州市前期物业管理委托合同范本
- 2022年冀教版七年级上册数学第一次月考试卷
- 《气管支架临床应用》课件
- 8·12天津滨海新区爆炸事故调查报告分析及反思
- 2024新指南:中国阿尔茨海默病早期预防指南解读课件
评论
0/150
提交评论