2020年探究全自动网页信息采集系统论文.doc

上传人：小*** IP属地：四川上传时间：2020-01-15 格式：DOC 页数：5 大小：61.70KB 积分：20 举报 版权申诉

全文预览已结束

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

探究全自动网页信息采集系统论文搜索引擎存在一定的局限性，会导致搜索的结果不能很好满足用户的需求。例如，在一个搜索引擎中，搜索一个信息，互联网中会搜到成百上千的相关链接，甚至几万个相关链接，其中存在着一些无效和重复的链接，即便是有效的链接，数量也是庞大的。面对这些庞大的数据，如果通过逐一查看，将会消耗大量的时间和人力。因此，使用户利用搜索引擎快速、准确的获取所需数据信息，是用户迫切需要的。全自动网页信息采集的目的是通过已有的Web信息抽取、网络爬虫等相关技术对搜索结果中的网页信息进行处理，能够自动完成商品信息抽取，并将结果存入数据库，以实现在一定的时间内，用户搜索的信息如果在数据库中有相应的记录，就可以直接从数据库中检索出相应的信息提交给用户，最后给用户提供一个较权威的搜索结果，这样能够节省大量的时间，提高自动化程度。 1网络爬虫技术网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成，例如在做图片搜索时，需要大量的测试图片，因此可以使用爬取图书封面图片。它会对一个特定网页进行抓取分析URL，不断的抓取并分析，直到没有新的URL出现。一般的搜索引擎只抓取网页的一部分，不会抓取全部网页。为了最大限度利用有限的资源，需要进行资源配置，并运用某些策略使爬虫优先爬取重要性较高的网页。HtmlParser是一个对现有的HTML进行分析的快速实时解析器，解析功能非常强大，本文将利用它对网页中的内容进行商品信息提取。 2基于Heritrix的扩展和定制 2.1Heritrix中添加定制的Extractor 要实现的功能是对淘宝商品信息的抓取。例如淘宝网的商品详细信息的网址如下：/item.taobao./item.htm?spm=a230r.1.14.90.WLLzF8&id=37599839492 (1)从URL格式可以看出，：/item.taobao.是淘宝商品网页的域名，spm=a230r.1.14.90.WLLzF8表示流量，用于统计点击，id=37599839492表示当前网页的编号。通过多个网页分析之后，发现网页由域名+点击+编号等组成，因此制定如下抓取匹配正则表达式：/item.taobao./item.htm?spm=(w+).)+w+&id=d+对于该正则表达式的URL链接进行抓取，不符合的过滤掉，这样就有了抓取的方向和范围。 (2)在Heritrix中，所有的要扩展实现Extractor的类都继承自抽象基类Extractor，在它基类的内部实现了innerProcess方法，主要是处理各种异常和日志的记录，因此扩展实现Extractor的新类也都必须实现innerProcess方法。 2.2在Prefetcher中取消限制为搜索引擎抓取网站的内容而设置的robots.txt是一个纯文本文件，访问一个站点时，一般首先检查该站点根目录下是否存在robots.txt，如果存在，就会按照该文件中的内容来确定访问的范围;如果该文件不存在，那么就沿着链接抓取5。在搜索时需要进行robots.txt查找，影响效率。因此，修改Heritrix的PreconditionEnforcer类中的ConsiderRobotsPreconditions方法，方法声明如下：privatebooleanconsiderRobotsPreconditions(CrawlURIcuri);返回值设定为false，这样可以提高50%以上的效率。 3全自动网页信息采集系统基于对国内权威商品网站信息和客户需求的认真分析，本网页信息采集系统需要满足两个需求： (1)网页信息的采集。首先要对信息抓取时要进行详细的规划，确保抓取的页面都是和所需信息相关的页面，本文主要针对所要搜索商品的各类信息的抓取为主，然后将搜索到的信息下载到本地，并对其网页进行分析，抽取出所需要的信息，最后将商品的名称、价格、优惠、商品详情等信息，存到数据库中，供用户将来查询和检索。 (2)信息的搜索需求。根据用户的要求，在系统的前台输入想要查找的信息，首先通过网络爬虫爬去满足要求的网页，经过过滤器信息抽取，将搜索到的信息保存到数据库，并将结果显示给用户。 3.1网络爬虫模块 Heritrix自身是一个通用爬虫框架，在进行网页内容处理之前需要调用Frontier对要抓取的URL进行处理，这样才能根据用户的需求抓取信息。在对URL的处理完成之后，需要实现自定义的Extractor，用于处理对搜索到的网页内容分类，进而找出下一步需要处理的URL信息。具体分为以下步骤： (1)设置Heritrix的种子站点，将淘宝网主页的URL加入种子站点seeds文件中，启动Heritrix抓取时就会到这些页面上开始爬行。 (2)扩展FrontierScheduler，来实现过滤不相干的网页。由于FrontierScheduler不能保证只抓取系统特定格式的URL，扩展抓取符合规则的URL。URL的选择策略主要满足以下任一条件：(a)URL.indexof(“item.taobao./item.htm”)!=-1这个条件用于过滤不是详细商品信息的页面，以提高抓取的准确性;(b)URL.indexOf(dns：)!=-1该条件是Heritrix在域名解释时请求URL的前缀;(c)URL.indexOf(robots.txt)!=-1满足该条件的URL是针对robots策略发出的URL所包含的字符串抓取页面找到src/modules目录下的Processor.options文件。 4结论本论文对搜索引擎的基本原理和内部功能组件的功能做了概述，为信息采集系统的构建提供了理

人人文库> 全部分类> 应用文书 > 工作计划

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

2020年探究全自动网页信息采集系统论文.doc

文档简介

温馨提示

最新文档

评论

2020年探究全自动网页信息采集系统论文.doc

文档简介

温馨提示

最新文档

评论

相关文档