探究全自动网页信息采集系统_第1页
探究全自动网页信息采集系统_第2页
探究全自动网页信息采集系统_第3页
探究全自动网页信息采集系统_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、探究全自动网页信息采集系统搜索引擎存在一定的局限性,会导致搜索的结果不能很好满足用户的需求。例如,在一个搜索引擎中,搜索一个信息,互联网中会搜到成百上千的相关链接,甚至几万个相关链接,其中存在着一些无效和重复的链接,即便是有效的链接,数量也是庞大的。面对这些庞大的数据,假设通过逐一查看,将会消耗大量的时间和人力。因此,使用户利用搜索引擎快速、准确的获取所需数据信息,是用户迫切需要的。全自动网页信息采集的目的是通过已有的Web信息抽取、网络爬虫等相关技术对搜索结果中的网页信息进展处理,可以自动完成商品信息抽取,并将结果存入数据库,以实如今一定的时间内,用户搜索的信息假设在数据库中有相应的记录,就

2、可以直接从数据库中检索出相应的信息提交给用户,最后给用户提供一个较权威的搜索结果,这样可以节省大量的时间,进步自动化程度。1 网络爬虫技术网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,例如在做图片搜索时,需要大量的测试图片,因此可以使用爬取图书封面图片。它会对一个特定网页进展抓取分析URL,不断的抓取并分析,直到没有新的URL 出现。一般的搜索引擎只抓取网页的一部分,不会抓取全部网页。为了最大限度利用有限的资源,需要进展资源配置,并运用某些策略使爬虫优先爬取重要性较高的网页。HtmlParser 是一个对现有的HTML 进展分析的快速实时解析器,解析功

3、能非常强大,本文将利用它对网页中的内容进展商品信息提取。2 基于Heritrix的扩展和定制2.1 Heritrix中添加定制的Extractor要实现的功能是对淘宝商品信息的抓取。例如淘宝网的商品详细信息的网址如下: :/item.taobao /item.htm?spm=a230r.1.14.90.WLLzF8id=37599839492(1)从URL 格式可以看出, :/item.taobao 是淘宝商品网页的域名,spm=a230r.1.14.90.WLLzF8 表示流量来源,用于统计点击来源,id=37599839492 表示当前网页的编号。通过多个网页分析之后,发现网页由域名+点击

4、来源+编号等组成,因此制定如下抓取匹配正那么表达式: :/item.taobao /item.htm?spm=(w+).)+w+id=d+对于该正那么表达式的URL 链接进展抓取,不符合的过滤掉,这样就有了抓取的方向和范围。(2)在Heritrix 中,所有的要扩展实现Extractor的类都继承自抽象基类Extractor,在它基类的内部实现了inner Process 方法,主要是处理各种异常和日志的记录,因此扩展实现Extractor 的新类也都必须实现inner Process方法。2.2 在Prefetcher中取消限制为搜索引擎抓取网站的内容而设置的robots.txt是一个纯文本

5、文件,访问一个站点时,一般首先检查该站点根目录下是否存在robots.txt,假设存在,就会按照该文件中的内容来确定访问的范围;假设该文件不存在,那么就沿着链接抓取5。在搜索时需要进展robots.txt 查找,影响效率。因此,修改Heritrix的PreconditionEnforcer 类中的ConsiderRobotsPreconditions方法,方法声明如下:private boolean consider Robots Preconditions(CrawlURI curi);返回值设定为false,这样可以进步50%以上的效率。3 全自动网页信息采集系统基于对国内权威商品网站信息

6、和客户需求的认真分析,本网页信息采集系统需要满足两个需求:(1)网页信息的采集。首先要对信息抓取时要进展详细的规划,确保抓取的页面都是和所需信息相关的页面,本文主要针对所要搜索商品的各类信息的抓取为主,然后将搜索到的信息下载到本地,并对其网页进展分析,抽取出所需要的信息,最后将商品的名称、价格、优惠、商品详情等信息,存到数据库中,供用户将来查询和检索。(2)信息的搜索需求。根据用户的要求,在系统的前台输入想要查找的信息,首先通过网络爬虫爬去满足要求的网页,经过过滤器信息抽取,将搜索到的信息保存到数据库,并将结果显示给用户。3.1 网络爬虫模块Heritrix 自身是一个通用爬虫框架,在进展网页

7、内容处理之前需要调用Frontier 对要抓取的URL 进展处理,这样才能根据用户的需求抓取信息。在对URL的处理完成之后,需要实现自定义的Extractor,用于处理对搜索到的网页内容分类,进而找出下一步需要处理的URL信息。详细分为以下步骤:(1)设置Heritrix 的种子站点,将淘宝网主页的URL 参加种子站点seeds 文件中,启动Heritrix 抓取时就会到这些页面上开始爬行。(2)扩展FrontierScheduler,来实现过滤不相干的网页。由于Frontier Scheduler 不能保证只抓取系统特定格式的URL,扩展抓取符合规那么的URL。URL的选择策略主要满足以下任

8、一条件:(a)URL.indexof(item.taobao /item.htm)!=-1这个条件用于过滤不是详细商品信息的页面,以进步抓取的准确性;(b)URL.indexOf(dns:)!=-1 该条件是Heritrix在域名解释时恳求URL的前缀;(c)URL.indexOf(robots.txt)!=-1 满足该条件的URL 是针对robots 策略发出的URL 所包含的字符串抓取页面找到src/modules 目录下的Processor.options文件。4 结论本论文对搜索引擎的根本原理和内部功能组件的功能做了概述,为信息采集系统的构建提供了理论和技术根底。在通用搜索引擎的根底上,对信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论