




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络爬虫说明文档1.网络爬虫的概念网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。2.网络爬虫原理图3.网络爬虫抓取网页的流程图静态网页主要是由一个个html文档构成,html文件是树状结构,结构清晰,网页中的描述信息一般都包含在节点内,网页链接一般都包含在节点内。故爬虫在抓取网页链接及其描述信息只需要抓取这些节点中的内容,而无需下载整个页面。4.网络爬虫的爬取方式在爬虫系统中,待抓取URL队列是很重要的一部分。待抓取URL队列中的URL以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面重点介绍几种常见的抓取策略:1.广度优先搜索策略广度优先搜索策略是指在抓取过程中,在完成当前层次的搜索后,才进行下一层次的搜索。该算法的设计和实现相对简单。在目前为覆盖尽可能多的网页,一般使用广度优先搜索方法。也有很多研究将广度优先搜索策略应用于聚焦爬虫中。其基本思想是认为与初始URL在一定链接距离内的网页具有主题相关性的概率很大。另外一种方法是将广度优先搜索与网页过滤技术结合使用,先用广度优先策略抓取网页,再将其中无关的网页过滤掉。这些方法的缺点在于,随着抓取网页的增多,大量的无关网页将被下载并过滤,算法的效率将变低。2.深度优先所搜策略深度优先搜索策略从起始网页开始,选择一个URL进入,分析这个网页中的URL,选择一个再进入。如此一个链接一个链接地抓取下去,直到处理完一条路线之后再处理下一条路线。深度优先策略设计较为简单。然而门户网站提供的链接往往最具价值,PageRank也很高,但每深入一层,网页价值和PageRank都会相应地有所下降。这暗示了重要网页通常距离种子较近,而过度深入抓取到的网页却价值很低。同时,这种策略抓取深度直接影响着抓取命中率以及抓取效率,对抓取深度是该种策略的关键。以下图为例,分别写出广度优先和深度优先遍历的结果:广度优先遍历路径:A B C D E F G H I深度优先遍历路径:A F G E H I B C D5.网络爬虫实现的重难点网络爬虫实现的重难点主要包括如何构建一个URL搜索队列,然后是将获取到的链接进行解析去除掉一些非法的网页链接例如js文件,css文件等。然后就是如何将获取到的链接进行去重处理。还有就是现在有很多的网站采取AJAX的方式来构建网站,好多的有用链接是包含在js文件中,如何获取到这部分的有用链接也是一个难点。6.具体实现的结果上图是一个用户界面,当用户输入一个合法的URL时,爬虫启动,将获取到的链接全部存储到本地mysql数据库中。例如这里输入了,接下来去查询一下数据库是否有数据插入。从上图可以看到,数据库中已经有了网址数据了。7.核心PHP代码?phpset_time_limit(0);function get_urls() $k=0; $url=$_GETurl; if($url=http:/)echo请输入网址;else $DbLink4Login = new DB;for($j=1;$j=50;$j+)$the_first_content=file_get_contents($url); $the_second_content=file_get_contents($url); $pattern1 = /http:/a-zA-Z0-9.?/-=&:+-_+/; $pattern2=/http:/a-zA-Z0-9.+/; preg_match_all($pattern2, $the_second_content, $matches2); preg_match_all($pattern1, $the_first_content, $matches1); $new_array1=array_unique($matches10); $new_array2=array_unique($matches20); $final_array=array_merge($new_array1,$new_array2); $final_array=array_unique($final_array);for($i=0;$iquery($sql); $sql=select url from urls_info where id=$j;$row=$DbLink4Login-query($sql);$url=mysql_result($row,0);$DbLink4Login-close();$DbLink4Login =NULL; get_urls(); ?8.总
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年临沂专技培训专业技术人员公需科目试题及答案
- 2025年GCP考试题库及完整答案
- 外派员工安全培训课件
- 2025年全国社会工作者职业水平考试中级《综合能力》试题
- 2025年全国“质量月”全面质量管理知识考试题库(附答案)
- 森林生态修复工程创新创业项目商业计划书
- 管理学基础期末考试试题及答案
- 杏仁去皮处理创新创业项目商业计划书
- 布艺创新创业项目商业计划书
- 小龙虾品牌营销策划创新创业项目商业计划书
- 厂房搬迁管理办法
- 保险学考试题(附答案)
- 中药处方点评管理办法
- 国企纪法教育实施路径
- 药品发放登记管理制度
- 临床科室科研管理制度
- 铁艺围栏采购合同
- 中国皮肤基底细胞癌诊疗指南2023
- 卫星通信技术在电力行业中的应用场景分析
- 黄旭华人物介绍
- 《医疗机构工作人员廉洁从业九项准则》解读
评论
0/150
提交评论