VC++搜索引擎网络爬虫设计与实现_第1页
VC++搜索引擎网络爬虫设计与实现_第2页
VC++搜索引擎网络爬虫设计与实现_第3页
VC++搜索引擎网络爬虫设计与实现_第4页
VC++搜索引擎网络爬虫设计与实现_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

搜索引擎网络爬虫的设计与实现摘要网络资源非常丰富,但是如何有效地搜索信息却是一件困难的事情。建立一个搜索引擎是解决这个问题的最好方法。本文首先详细介绍了基于互联网的搜索引擎的体系结构,然后阐述了如何设计和实现搜索引擎的网络爬虫。多线程网络爬虫是一个自动的后台程序,它根据宽度优先算法分析和搜索指定的网页,抓取并保存找到的每个网址,并使用该网址作为新的条目在互联网上连续爬行。网络爬虫主要使用套接字技术、正则表达式、HTTP协议、windows网络编程技术等相关技术,使用C语言作为实现语言,并在VC6.0下进行调试在网络爬虫的设计与实现一章中,除了对技术核心的详细描述外,还结合多线程网络爬虫的实现代码来说明,这很容易理解。该网络爬虫是一个以配置文件为初始网址,在后台运行,以宽度优先算法向下爬行,保存目标网址,并能执行普通用户的网络搜索任务的网络程序。关键词搜索引擎;网络爬虫;网址搜索者;多线程搜索引擎网络蜘蛛的设计与实现摘要网络资源非常丰富,但如何搜索到有效的信息却是一项艰巨的任务。建立一个搜索引擎是解决这个问题的最好方法。本文首先介绍了基于互联网的搜索引擎结构,然后阐述了如何实现搜索引擎网络蜘蛛。多线程网络蜘蛛程序是从网页中按照宽度优先算法分配连接进行分析和搜索,并将每个网址抓取并保存,并使结果网址作为新的源入口不断在互联网上爬行自动执行回溯。我的网络蜘蛛论文主要应用于套接字技术、正则表达式、HTTP协议、windows网络编程技术等相关技术,并以C语言为实现语言,通过VC6.0下的调试。在蜘蛛的设计与实现一章中,除了详细阐述核心技术外,结合多线程网络蜘蛛来说明代码的实现,很容易理解。该网络蜘蛛是基于可在后台运行的配置文件的初始网址,采用宽度优先算法进行抓取,保留目标网址的网络程序。关键词网络搜索引擎;网络蜘蛛;网址搜索程序;多线程不要删除行尾的分节符。该行将不被打印。-二-目录摘要一抽象II第一章引言11.1主题1的背景1.2搜索引擎的历史和分类21.2.1搜索引擎历史21.2.2搜索引擎的分类21.3搜索引擎的发展趋势31.4搜索引擎4的组件1.5研究的主要内容4第二章网络爬虫技术要点分析62.1网络爬虫蜘蛛6的工作原理2.1.1蜘蛛的概念62.1.2网络爬虫爬行内容分析62.2 HTTP协议72.2.1 HTTP协议请求72.2.2 HTTP协议响应82.2.3 HTTP消息头82.3 SOCKET socket 102.3.1什么是SOCKET socket 102.3.2 SOCKET功能分析102.4正则表达式142.4.1正则表达式的应用分析142.4.2正则表达式的元字符分析152.5本章总结15第三章网络爬虫系统模型16的分析与概要设计3.1网络爬虫模型分析163.1.1单线程爬虫模型分析163.1.2多线程爬虫模型分析163.1.3爬虫集群模型分析173.2网络爬虫搜索策略的分析和设计173.3网络爬虫20主要性能评价指标分析3.4本文网络爬虫概要设计20第四章网络爬虫23的详细设计与实现4.1网络爬虫的总体设计234.2套接字功能模块24的设计与实现4.2.1插座功能模块设计244.2.2套接字功能模块24的实现4.2.3套接字模块31中功能模块的调用关系设计4.3 HTTP功能模块33的设计与实现4.3.1 HTTP协议和URL334.3.2设计发送()函数,根据HTTP协议33发送信息4.4正则表达式过滤器模块35的设计与实现4.4.1网址正则表达式35的定义和实现4.4.2开源正则表达式引擎DEELX 37的应用4.4.3匹配结果类38的调用和设计4.5网址存储模块39的设计与实现4.6宽度搜索模块39的设计与实现4.7文件存储模块41的设计与实现4.8多线程42的设计与实现4.9运行显示结果424.9.1输入424.9.2显示43结果434.10本章概述44结论45确认46参考文献47附录48不要删除行尾的分节符。该行将不被打印。右键单击目录“更新域”和“更新整个目录”。打印前,不要忘记在“摘要”一行后添加一个空行-四-第一章引言1.1项目背景面对庞大的网络资源,搜索引擎为所有上网的用户提供了一个入口。毫不夸张地说,通过搜索,所有用户都可以在互联网上任何他们想去的地方。因此,它也成为除电子邮件以外最受欢迎的在线服务。什么是搜索引擎?它是如何工作的?“搜索引擎”一词在国内外互联网领域广泛使用,但其含义不同。在美国,搜索引擎通常指基于互联网的搜索引擎。他们通过网络机器人程序收集数千万到数亿的网页,每个单词都被搜索引擎索引,这就是我们所说的全文搜索。著名的互联网搜索引擎包括第一搜索、谷歌、HotBot等。在中国,搜索引擎通常是指基于网站目录的搜索服务或特定网站的搜索服务。我在这里学习的是基于互联网的搜索技术。广义而言,搜索引擎通常指在网络(尤其是万维网)上提供信息检索服务的工具或系统,即响应用户搜索请求并在互联网上或通过互联网返回相应查询结果的信息技术和系统。狭义上的搜索引擎主要是指一种利用网络自动搜索软件或人工方法收集、分析和索引万维网信息资源,将索引信息组织成数据库,并以网站形式为网络用户提供检索服务的信息服务系统。一般来说,搜索引擎是万维网网络环境下的一套信息检索系统。它通常有两种不同的工作方式:一种是分类目录类型检索,它收集互联网上的资源,并根据它们提供的资源类型将它们分成不同的目录,然后逐层进行分类。人们可以根据他们的分类逐层进入,找到他们想要的信息,最后到达目的地,找到他们想要的信息。另一个是基于关键词的检索。这样,用户可以以逻辑组合方式输入各种关键词。搜索引擎计算机根据这些关键字搜索用户所需资源的地址,然后根据某些规则将包含关键字信息和这些网址的链接的所有网址反馈给用户。搜索引擎实际上是一个网站,但网站为你提供信息“检索”服务。它使用特殊的程序对互联网上的所有信息进行分类,以帮助人们在浩瀚的信息海洋中找到他们需要的信息。随着互联网信息在几个层次上的增长,这些搜索引擎使用其内部的蜘蛛程序自动搜索网站每个页面的开头,并将每个页面上代表超链接的所有单词放入数据库供用户查询。1.2搜索引擎的历史和分类搜索引擎的历史。在1990年之前,没有人能搜索互联网。所有搜索引擎的鼻祖是阿奇,是蒙特利尔麦吉尔大学的学生艾伦恩塔格、彼得多伊奇和比尔惠兰在1990年发明的。后来,程序员开发了一个名为“蜘蛛”的“机器人”程序,它能以人类无法达到的速度在网络上自动重复检索信息。这种行为非常像一个在互联网的巨大信息网络上爬行的爬虫。因此,蜘蛛程序就来自于此。世界上第一个蜘蛛项目是麻省理工学院马修格雷分校的万维网漫游者,用于跟踪互联网发展的规模。起初,它只是用来计算互联网上的服务器数量,但后来它被开发成能够捕获网址1。1.2.1搜索引擎历史随着万维网的发展,搜索引擎技术引人注目。搜索引擎经历了大约三代的更新和发展:第一代搜索引擎出现在1994年。这种搜索引擎通常索引少于1,000,000个网页,并且很少重新收集网页和刷新索引。而且,它的检索速度非常慢,通常要等10秒钟或更长时间。在实现技术上,基本上采用了较为成熟的技术,如信息检索、网络和数据库,相当于一些现有技术实现的万维网应用。从1994年3月到4月,网络爬虫世界网络蠕虫平均每天收到大约1500个查询。第二代搜索引擎系统出现于1996年左右,主要采用分布式方案(多台微型计算机协同工作)来提高数据大小、响应速度和用户数量。他们通常维护一个约有5000万网页的索引数据库,每天可以响应1000万个用户搜索请求。1997年11月,当时几个最先进的搜索引擎声称能够建立从200万到1亿的网络索引。Altavista的搜索引擎声称它每天接收大约2000万次查询。在2000年搜索引擎2000大会上,根据谷歌总裁拉里佩奇的讲话,谷歌正在使用3000台运行Linux的个人电脑来收集网页,并以每天30台的速度将电脑添加到这个计算机集群中,以跟上网络的发展。每个微型计算机运行多个爬行程序来收集网页,峰值速度为每秒100个网页,平均速度为每秒48.5个网页,每天可以收集400多万个网页。1.2.2搜索引擎的分类搜索引擎根据其工作方式可分为三种类型,即全文搜索引擎、目录索引/目录和元搜索引擎。全文搜索引擎是一个真正的搜索引擎。国外有代表性的有谷歌、Fast/AllWeib、AltaVista、Inktomi、Teoma、WiseNut等。中国最著名的是百度。它们都是通过从互联网上的各种网站(主要是网页)中提取信息,检索符合用户查询条件的相关记录,然后按照一定的顺序将结果返回给用户而建立的,因此它们是真正的搜索引擎。虽然目录索引具有搜索功能,但从严格意义上来说,它并不是一个真正的搜索引擎。这只是一个按目录分类的网站链接列表。用户只需对目录进行分类,而无需搜索关键词,就可以找到所需信息。目录中最具代表性的索引是著名的雅虎!其他著名的包括开放目录项目(DMOZ)、外观智能、关于等。搜狐、新浪和网易在中国的搜索也属于这一类2。当元搜索引擎接受用户的查询请求时,它会同时在其他几个引擎上搜索并将结果返回给用户。著名的元搜索引擎包括信息空间、狗桩、维维西蒙等。(元搜索引擎列表)。代表性的中文元搜索引擎是搜索引擎。就搜索结果的排名而言,有些直接按源引擎对搜索结果进行排名,如Do

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论