




已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京联合大学北京联合大学毕业设计 毕毕 业业 设设 计计 题目:网络爬虫的设计与实现题目:网络爬虫的设计与实现 姓名: 学号: 学院: 专业: 同组人: 指 导教 师: 协助指导教师: 2010 年 5 月 13 日 北京联合大学北京联合大学毕业设计 I 摘摘要要 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页, 是搜索引擎的重要组成。通过网络爬虫不仅能够为搜索引擎采集网络信息,而 且可以定向采集某些网站的特定信息,如新闻内容等。 本文通过 PHP 语言实现了一个爬虫程序。本论文阐述了网络爬虫实现中一 些主要问题:为何要使用多线程,以及如何实现多线程;网页的下载和分析等。 通过实现这一爬虫程序,可以搜集某一站点的 URLs 及一些我们想要的信 息,并将搜集到的网址和信息存入数据库。 关键词:网络爬虫关键词:网络爬虫PHP信息抓取信息抓取 北京联合大学北京联合大学毕业设计 II Abstract Web crawler is an process which can automateddownloadweb page, it download Web page for search engines, it is an important component of search engines. SPIDER can collect data for search engines, and can capture some of the websites the targeted specific information, such as the post content. In this paper, we use PHP implements a SPDIER process. This paper expatiates some major problems of SPIDER: why to use multi-threading, and how to implement multi-thread; download and analysis Web page. etc. Key Words: SPIDERPHPINFORMATION CAPTURE 北京联合大学北京联合大学毕业设计 III 摘要.I Abstract.II 引言.1 1 本文相关技术介绍.3 1.1 所开发语言 PHP 简介.3 1.1.1PHP 语言.3 1.1.2PHP 的发展.3 1.1.3PHP 功能.5 1.2 XML 简介.7 1.2.1 XML 语言.7 1.2.2 XML 与 HTML 的主要差异.7 1.2.3 XML 的文档结构.7 1.2.4 XML 语法规则.8 1. 所有 XML 元素都须有关闭标签.8 2. XML 标签对大小写敏感.8 3. XML 必须正确地嵌套.9 4. XML 文档必须有根元素.9 5. XML 的属性值须加引号.9 6. XML 中的注释.9 1.3 XPath 简介.10 1.3.1XPath 语言.10 1.4 开发工具 LAMP 简析.10 1.4.1linux 操作系统.11 北京联合大学北京联合大学毕业设计 IV 1.4.2Apache.12 1.4.3MySql.12 1.5 爬行策略浅析.13 1.5.1宽度或深度优先搜索策略.13 1宽度优先搜索算法.13 2深度优先搜索.13 1.5.2聚焦搜索策略.14 1.5.3基于内容评价的搜索策略.14 1.5.4基于链接结构评价的搜索策略.15 1PageRank 算法.15 2HITS 算法.15 1.5.5基于巩固学习的聚焦搜索.16 1.5.6基于语境图的聚焦搜索.16 2 系统总体分析与设计.17 2.1 系统需求分析.17 2.2 爬行策略分析.17 2.3 系统设计.18 2.3.1数据库的设计.18 1phpMyAdmin 简介.18 2数据库设计过程.18 2.3.2爬虫工作原理.21 3 系统实现.23 3.1 实现工具.23 3.2 各模块实现.23 北京联合大学北京联合大学毕业设计 V 3.2.1 执行多线程.23 3.2.2 获取页面.23 3.2.3 页面解析.24 3.2.4 数据库连接.24 4系统测试结果.25 结论.错误!未定义书签。错误!未定义书签。 致谢.错误!未定义书签。错误!未定义书签。 参考文献.26 北京联合大学北京联合大学毕业设计 1 引引言言 随着互联网的飞速发展,网络上的信息呈爆炸式增长,同时互联网用户对信 息的需求也在不断增长,这使得人们在网上找到所需的信息越来越困难,在巨 大的用户需求中,搜索引擎应运而生。搜索引擎搜集互联网上数以亿计的网页, 并为每个词建立索引。在建立搜索引擎的过程中,搜集网页是非常重要的一个 环节。爬虫程序就是用来搜集网页的程序。以何种策略偏历互联网上的网页, 也成了爬虫程序主要的研究方向。 现在比较流行的搜索引擎,比如 google,百度,它们都拥有着庞大的用户 数量,但它们爬虫程序的技术内幕一般都不公开。目前几种比较常用的爬虫实现 策略:广度优先的爬虫程序,Repetitive 爬虫程序,定义爬行爬虫程序,深层次 爬行爬虫程序。此外, 还有根据概率论进行可用 Web 页的数量估算, 用于评估 互联网 Web 规模的抽样爬虫程序; 采用爬行深度、页面导入链接量分析等方法, 限制从程序下载不相关的 Web 页的选择性爬行程序等等。 但是随着用户对信息需求的不断具体化与精细化,通用搜索引擎中抓取的 广度、搜索的精确度与跟新的速度这三大难题阻碍着其满足互联网用户对信息 具体化和精确化需求,因此主题搜索引擎开始出现。主题搜索引擎是针对某一 个专门领域的信息进行搜索,满足互联网用户对信息具体化和精确化的需求。 无论是通用搜索引擎,还是主题搜索引擎,网络爬虫(web crawler)在其中都 扮演着重要的角色。 爬虫程序是一个自动获取网页的程序。它为搜索引擎从互联网上下载网页, 是搜索引擎的重要组成部分。爬虫程序的实现策略,运行效率直接影响搜索引 擎的搜索结果。不同的搜索引擎,会根据对搜索结果的不同需求,选择最合适 的爬行策略来搜集互联网上的信息。高效,优秀的爬虫程序可以使人们在互联 网上寻找到更及时,更准确的信息。 实现网络爬虫的重点和难点有:多线程的实现;对临界资源的分配;遍历 web 图的遍历策略选择和实现;存储数据结构的选择和实现。 本文对当前搜索引擎中的集中搜索策略进行介绍与比较,研究其中主题搜 索较适合的搜索策略,并在此基础上,使用 PHP 语言在 linux 环境下实现一个 基于广度优先偏历算法的多线程爬虫程序。通过实现此爬虫程序可以定点搜集 某一站点的 URLs 和一些其它想要的信息。 网络爬虫系统的最大特色是采用多网络爬虫线程并行工作的方式,每一个 网络爬虫爬取某一个具体的 web 站点。这样做的优点有: 因为网页的数量如此庞大,考虑到爬虫的爬行效率,所以网络爬虫必须要 北京联合大学北京联合大学毕业设计 2 被设计成多线程的,本论文便实现了一个多线程的网络爬虫,每个线程爬取一 个特定的网页,这样做大大提高了爬虫的效率。 在论文中,我会详细阐述为什么使用 LAMP 开发平台,比较爬虫的搜索策 略,并根据设计需要,选择一种最优的爬行策略,以及设计的每一部分。 北京联合大学北京联合大学毕业设计 3 1 1 本文相关技术介绍本文相关技术介绍 1.11.1 所开发语言所开发语言 PHPPHP 简介简介 .1PHPPHP 语言语言 PHP,是英文超级文本预处理语言 Hypertext Preprocessor 的缩写。PHP 是 一种 HTML 内嵌式的语言,是一种在服务器端执行的嵌入 HTML 文档的脚本 语言,语言的风格有类似于 C 语言,被广泛的运用。 PHP 独特的语法混合了 C、Java、Perl 以及 PHP 自创新的语法。它可以 比 CGI 或者 Perl 更快速的执行动态网页。 用 PHP 做出的动态页面与其他的编 程语言相比,PHP 是将程序嵌入到 HTML 文档中去执行,执行效率比完全生成 HTML 标记的 CGI 要高许多;PHP 还可以执行编译后代码,编译可以达到加密 和优化代码运行,使代码运行更快。PHP 具有非常强大的功能,所有的 CGI 的 功能 PHP 都能实现,而且支持几乎所有流行的数据库以及操作系统。 .2PHPPHP 的发展的发展 PHP 最初是 1994 年 Rasmus Lerdorf 创建的,刚刚开始只是一个简单的用 Perl 语言编写的程序,用来统计他自己网站的访问者。后来又用 C 语言重新编 写, 包括可以访问数据库。 在 1995 年以 Personal Home Page Tools (PHP Tools) 开 始对外发表第一个版本,Lerdorf 写了一些介绍此程序的文档,并且发布了 PHP1.0。在这早期的版本中,提供了访客留言本、访客计数器等简单的功能。 以后越来越多的网站使用了 PHP,并且强烈要求增加一些特性,比如循环语句 和数组变量等等,在新的成员加入开发行列之后,在 1995 年中,PHP2.0 发布 了。第二版定名为 PHP/FI(Form Interpreter)。PHP/FI 加入了对 mySQL 的支持, 从此建立了 PHP 在动态网页开发上的地位。到了 1996 年底,有 15000 个网站使 用 PHP/FI; 时间到了 1997 年中, 使用 PHP/FI 的网站数字超过五万个。 而在 1997 年中,开始了第三版的开发计划,开发小组加入了 Zeev Suraski 及 Andi Gutmans,而第三版就定名为 PHP3。2000 年,PHP4.0 又问世了,其中增加了许 多新的特性。 PHP 原本的简称为 Personal Home Page,是 Rasmus Lerdorf 为了要维护个 人网页,而用 c 语言开发的一些 CGI 工具程序集,来取代原先使用的 Perl 程 序。最初这些工具程序用来显示 Rasmus Lerdorf 的个人履历,以及统计网页流 量。他将这些程序和一些表单直译器整合起来,称为 PHP/FI。PHP/FI 可以和 北京联合大学北京联合大学毕业设计 4 数据库连接,产生简单的动态网页程序。Rasmus Lerdorf 在 1995 年 6 月 8 日将 PHP/FI 公开释出,希望可以透过社群来加速程序开发与寻找错误。这个释出的 版本命名为 PHP 2,已经有今日 PHP 的一些雏型,像是类似 Perl 的变量命名 方式、表单处理功能、以及嵌入到 HTML 中执行的能力。程序语法上也类似 Perl,有较多的限制,不过更简单、更有弹性。 在 1997 年,任职于 Technion IIT 公司的两个以色列程序设计师:Zeev Suraski 和 Andi Gutmans, 重写了 PHP 的剖析器, 成为 PHP 3 的基础, 而 PHP 也在这个时候改称为 PHP: Hypertext Preprocessor.5。经过几个月测试,开发团 队在 1997 年 11 月释出了 PHP/FI 2,随后就开始 PHP 3 的开放测试,最后在 1998 年 6 月正式释出 PHP 3。 Zeev Suraski 和 Andi Gutmans 在 PHP 3 释出后 开始改写 PHP 的核心,这个在 1999 年释出的剖析器称为 Zend Engine7,他 们也在以色列的 Ramat Gan 成立了 Zend Technologies 来管理 PHP 的开发。 在 2000 年 5 月 22 日,以 Zend Engine 1.0 为基础的 PHP 4 正式释出,2004 年 7 月 13 日则释出了 PHP 5,PHP 5 则使用了第二代的 Zend Engine5。PHP 包含了许多新特色,像是强化的面向对象功能、引入 PDO(PHP Data Objects, 一个存取数据库的延伸函数库) 、以及许多效能上的增强。目前 PHP 4 已经不会 继续更新,以鼓励用户转移到 PHP 5。 2008 年 PHP 5 成为了 PHP 唯一的有在开发的 PHP 版本。将来的 PHP 5.3 将会加入 Late static binding 和一些其他的功能强化。PHP 6 的开发也正在进行 中,主要的改进有移除 register_globals、magic quotes 和 Safe mode 的功能。 PHP 的特性包括: 开放的源代码:所有的 PHP 源代码事实上都可以得到。 PHP 是免费的。 php 的便捷性 : php 十分便捷,学习简单 基于服务器端:由于 PHP 是运行在服务器端的脚本,可以运行在 UNIX、 LINUX、WINDOWS 下。 嵌入 HTML:因为 PHP 可以嵌入 HTML 语言,所以学习起来并不困难。 简单的语言:PHP 坚持脚本语言为主,与 Java 和 C+不同。 效率高:PHP 消耗相当少的系统资源。 图像处理:用 PHP 动态创建图像 面向对像:在 php4,php5 中,面向对象方面都有了很大的改进,现在 php 完全可以用来开发大型商业程序。 PHP 相对于其他语言,编辑简单,实用性强,更适合初学者。 北京联合大学北京联合大学毕业设计 5 .3PHPPHP 功能功能 PHP 能做任何事。PHP 主要是用于服务端的脚本程序,因此可以用 PHP 来完成任何其它的 CGI 程序能够完成的工作,例如收集表单数据,生成动态网 页,或者发送接收 Cookies。但 PHP 的功能远不局限于此。 PHP 脚本主要用于以下三个领域: 服务端脚本。这是 PHP 最传统,也是最主要的目标领域。开展这项工作 需要具备以下三点: PHP 解析器 (CGI 或者服务器模块) 、 web 服务器和 web 浏 览器。需要在运行 web 服务器时,安装并配置 PHP,然后,可以用 web 浏览 器来访问 PHP 程序的输出, 即浏览服务端的 PHP 页面。 如果只是实验 PHP 编 程,所有的这些都可以运行在自己家里的电脑中。 命令行脚本。 可以编写一段 PHP 脚本, 并且不需要任何服务器或者浏览 器来运行它。通过这种方式,仅仅只需要 PHP 解析器来执行。这种用法对于依 赖 cron(Unix 或者 Linux 环境)或者 Task Scheduler(Windows 环境)的日常 运行的脚本来说是理想的选择。这些脚本也可以用来处理简单的文本。 编写桌面应用程序。对于有着图形界面的桌面应用程序来说,PHP 或许 不是一种最好的语言, 但是如果用户非常精通 PHP, 并且希望在客户端应用程序 中使用 PHP 的一些高级特性,可以利用 PHP-GTK 来编写这些程序。用这种方 法,还可以编写跨平台的应用程序。PHP-GTK 是 PHP 的一个扩展,在通常发 布的 PHP 包中并不包含它。 PHP 能够用在所有的主流操作系统上,包括 Linux、Unix 的各种变种(包 括 HP-UX、 Solaris 和 OpenBSD) 、 Microsoft Windows、 Mac OS X、 RISC OS 等。 今天,PHP 已经支持了大多数的 web 服务器,包括 Apache、Microsoft Internet Information Server(IIS) 、Personal web Server(PWS) 、Netscape 以及 iPlant server、Oreilly Website Pro Server、Caudium、Xitami、OmniHTTPd 等。对于大 多数的服务器,PHP 提供了一个模块;还有一些 PHP 支持 CGI 标准,使得 PHP 能够作为 CGI 处理器来工作。 综上所述,使用 PHP,可以自由地选择操作系统和 web 服务器。同时, 还可以在开发时选择使用面对过程和面对对象,或者两者混和的方式来开发。 尽管 PHP 4 不支持 OOP 所有的标准,但很多代码仓库和大型的应用程序(包 括 PEAR 库)仅使用 OOP 代码来开发。PHP 5 弥补了 PHP 4 的这一弱点, 引入了完全的对象模型。 使用 PHP,并不局限于输出 HTML。PHP 还能被用来动态输出图像、PDF 文件甚至 Flash 动画(使用 libswf 和 Ming) 。还能够非常简便的输出文本, 北京联合大学北京联合大学毕业设计 6 例如 XHTML 以及任何其它形式的 XML 文件。PHP 能够自动生成这些文件, 在服务端开辟出一块动态内容的缓存,可以直接把它们打印出来,或者将它们 存储到文件系统中。 PHP 最强大最显著的特性之一,是它支持很大范围的数据库。用户会发现 利用 PHP 编写数据库支持的网页简单得难以置信。目前,PHP 支持如下数据 库: Adabas D dBase Empress FilePro(只读) Hyperwave IBM DB2 Informix Ingres InterBase FrontBase mSQL Direct MS-SQL MySQL ODBC Oracle(OCI7 和 OCI8) Ovrimos PostgreSQL SQLite Solid Sybase Velocis Unix dbm PHP 还支持利用诸如 LDAP、IMAP、SNMP、NNTP、POP3、HTTP、COM (Windows 环境)等不计其数的协议的服务。还可以开放原始网络端口,使得 任何其它的协议能够协同工作。 PHP 支持和所有 web 开发语言之间的 WDDX 复杂数据交换。关于相互连接,PHP 已经支持了对 Java 对象的即时连接,并 且可以将他们自由的用作 PHP 对象。甚至可以用我们的 CORBA 扩展库来访 问远程对象。 北京联合大学北京联合大学毕业设计 7 PHP 具有极其有效的文本处理特性,支持从 POSIX 扩展或者 Perl 正则 表达式到 XML 文档解析。为了解析和访问 XML 文档,PHP 4 支持 SAX 和 DOM 标准,也可以使用 XSLT 扩展库来转换 XML 文档。PHP 5 基于强健的 libxm2 标准化了所有的 XML 扩展, 并添加了 SimpleXML 和 XMLReader 支 持,扩展了其在 XML 方面的功能。 1.21.2 XMLXML 简介简介 .1 XMLXML 语言语言 1)XML 指可扩展标记语言(EXtensible Markup Language) 2)XML 是一种标记语言,很类似 HTML 3)XML 的设计宗旨是传输数据,而非显示数据 4)XML 标签没有被预定义。您需要自行定义标签。 5)XML 被设计为具有自我描述性。 6)XML 是 W3C 的推荐标准 .2 XMLXML 与与 HTMLHTML 的主要差异的主要差异 1)XML 不是 HTML 的替代。 2)XML 和 HTML 为不同的目的而设计: 3)XML 被设计为传输和存储数据,其焦点是数据的内容。 4)HTML 被设计用来显示数据,其焦点是数据的外观。 5)HTML 旨在显示信息,而 XML 旨在传输信息。 .3 XMLXML 的文档结构的文档结构 先来看一个 XML 文档实例: George John Reminder Dont forget the meeting! 第一行是 XML 声明。它定义 XML 的版本 (1.0) 和所使用的编码 (ISO-8859-1 = Latin-1/西欧字符集)。 下一行描述文档的根元素(像在说: “本文档是一个便签” ) : 北京联合大学北京联合大学毕业设计 8 接下来 4 行描述根的 4 个子元素(to, from, heading 以及 body) : George John Reminder Dont forget the meeting! 最后一行定义根元素的结尾: 从本例可以设想,该 XML 文档包含了 John 给 George 的一张便 签。 XML 文档必须包含根元素。该元素是所有其他元素的父元素。 XML 文档中的元素形成了一棵文档树。这棵树从根部开始,并扩展到树的 最底端。 所有元素均可拥有子元素: . 父、子以及同胞等术语用于描述元素之间的关系。父元素拥有子元素。相 同层级上的子元素成为同胞(兄弟或姐妹) 。 .4 XML 语法规则语法规则 1. 所有所有 XML 元素都须有关闭标签元素都须有关闭标签 在 HTML,经常会看到没有关闭标签的元素: This is a paragraph This is another paragraph 在 XML 中,省略关闭标签是非法的。所有元素都必须有关闭标签: This is a paragraph This is another paragraph 2. XML 标签对大小写敏感标签对大小写敏感 XML 元素使用 XML 标签进行定义。 XML 标签对大小写敏感。在 XML 中,标签 与标签 是 不同的。 必须使用相同的大小写来编写打开标签和关闭标签: 北京联合大学北京联合大学毕业设计 9 这是错误的。 这是正确的。 3. XML 必须正确地嵌套必须正确地嵌套 在 HTML 中,常会看到没有正确嵌套的元素: This text is bold and italic 在 XML 中,所有元素都必须彼此正确地嵌套: This text is bold and italic在上例中,正确嵌套的意思是:由 于 元素是在 元素内打开的,那么它必须在 元素内关闭。 4. XML 文档必须有根元素文档必须有根元素 XML 文档必须有一个元素是所有其他元素的父元素。该元素称为根元素。 . 5. XML 的属性值须加引号的属性值须加引号 与 HTML 类似,XML 也可拥有属性(名称/值的对) 。 在 XML 中,XML 的属性值须加引号。请研究下面的两个 XML 文档。 第一个是错误的,第二个是正确的: George John George John 在第一个文档中的错误是,note 元素中的 date 属性没有加引号。 6. XML 中的注释中的注释 在 XML 中编写注释的语法与 HTML 的语法很相似: 在 XML 中,空格会被保留 北京联合大学北京联合大学毕业设计 10 HTML 会把多个连续的空格字符裁减为一个: HTML:Hellomy name is David. 输出: Hello my name is David. 在 XML 中,文档中的空格不会被删节。 1.31.3 XPathXPath 简介简介 .1XPathXPath 语言语言 XPath 使用路径表达式在 XML 文档中进行导航 XPath 包含一个标准函数库 XPath 是 XSLT 中的主要元素 XPath 是一个 W3C 标准 1.41.4 开发工具开发工具 LAMPLAMP 简析简析 Linux+Apache+Mysql+PHP,一组常用来搭建动态网站或者服务器的开源软 件,本身都是各自独立的程序,但是因为常被放在一起使用,拥有了越来越高 的兼容度,共同组成了一个强大的 Web 应用程序平台。 随着开源潮流的蓬勃发展, 开放源代码的 LAMP 已经与 J2EE 和.Net 商业软 件形成三足鼎立之势,并且该软件开发的项目在软件方面的投资成本较低,因 此受到整个 IT 界的关注。从网站的流量上来说,70%以上的访问流量是 LAMP 来提供的,LAMP 是最强大的网站解决方案。 LAMP 是基于 Linux,Apache,MySQL 和 PHP 的开放资源网络开发平台, PHP 是一种有时候用 Perl 或 Python 可代替的编程语言。这个术语来自欧洲,在 那里这些程序常用来作为一种标准开发环境。名字来源于每个程序的第一个字 母。每个程序在所有权里都符合开放源代码标准:Linux 是开放系统;Apache 是最通用的网络服务器;mySQL 是带有基于网络管理附加工具的关系数据库; PHP 是流行的对象脚本语言,它包含了多数其它语言的优秀特征来使得它的网 络开发更加有效。开发者在 Windows 操作系统下使用这些 Linux 环境里的工具 称为使用 WAMP。 虽然这些开放源代码程序本身并不是专门设计成同另外几个程序一起工作 的,但由于它们都是影响较大的开源软件,拥有很多共同特点,这就导致了这 些组件经常在一起使用。在过去的几年里,这些组件的兼容性不断完善,在一 起的应用情形变得更加普遍。并且它们为了改善不同组件之间的协作,已经创 建了某些扩展功能。目前,几乎在所有的 Linux 发布版中都默认包含了这些产 北京联合大学北京联合大学毕业设计 11 品。Linux 操作系统、Apache 服务器、MySQL 数据库和 PHP 语言,这些产品共 同组成了一个强大的 Web 应用程序平台。 越来越多的供应商、用户和企业投资者日益认识到,经过 LAMP 单个组件 的开源软件组成的平台用来构建以及运行各种商业应用和协作构建各种网络应 用程序变为一种可能和实践,变得更加具有竞争力,更加吸引客户。LAMP 无 论是性能、质量还是价格都将成为企业、政府信息化所必须考虑的平台。 .1linuxlinux 操作系统操作系统 Linux 是一套免费使用和自由传播的类 Unix 操作系统, 它主要用于基于 x86 系列 CPU 的计算机上。这个系统是由世界各地的成千上万的程序员设计和实现 的。其目的是建立不受任何商品化软件的版权制约的、全世界都能自由使用的 Unix 兼容产品。 Linux 的基本思想有两点:第一,一切都是文件;第二,每个软件都有确定 的用途。其中第一条详细来讲就是系统中的所有都归结为一个文件,包括命令、 硬件和软件设备、操作系统、进程等等对于操作系统内核而言,都被视为拥有 各自特性或类型的文件。 过去,Linux 主要被用作服务器的操作系统,但因它的廉价、灵活性及 Unix 背景使得它很合适作更广泛的应用。除了已在开发者群体中广泛流行,它亦是 现时提供网站务供应商最常使用的平台。 基于其低廉成本与高度可设定性,Linux 常常被应用于嵌入式系统,例如机 顶盒、移动电话及行动装置等。在移动电话上,Linux 已经成为与 Symbian OS、 Windows Mobile 系统并列的三大智能手机操作系统之一;而在移动装置上,则 成为Windows CE与 Palm OS 外之另一个选择。目前流行的 TiVo 数位摄影机使用 了经过定制化后的 Linux。此外,有不少硬件式的网络防火墙及路由器,例如部 份 LinkSys 的产品,其内部都是使用 Linux 来驱动、并采用了操作系统提供的防 火墙及路由功能。 在平时我们只要掌握 Linux 最基础的应用,以及安装及使用就可以了。对 Linux 的操作现在发展到了在命令行下操作以及像 Windows 的桌面系统般的应 用。对 Linux 不是很了解的用户可以选择桌面型 Linux 安装。 Linux 以它的高效性和灵活性著称。 它能够在 PC 计算机上实现全部的 Unix 特性,具有多任务、多用户的能力。Linux 是在 GNU 公共许可权限下免费获得 的,是一个符合 POSIX 标准的操作系统。Linux 操作系统软件包不仅包括完整的 Linux 操作系统,而且还包括了文本编辑器、高级语言编译器等应用软件。它还 包括带有多个窗口管理器的 X-Window 图形用户界面, 如同我们使用Windows NT 北京联合大学北京联合大学毕业设计 12 一样,允许我们使用窗口、图标和菜单对系统进行操作。 Linux 之所以受到广大计算机爱好者的喜爱,主要原因有两个,一是它属于 自由软件,用户不用支付任何费用就可以获得它和它的源代码,并且可以根据 自己的需要对它进行必要的修改,无偿对它使用,无约束地继续传播。另一个 原因是,它具有 Unix 的全部功能,任何使用 Unix 操作系统或想要学习 Unix 操 作系统的人都可以从 Linux 中获益。 .2ApacheApache Apache 是世界使用排名第一的 Web 服务器软件。它可以运行在几乎所有广泛 Apache Server 配置界面使用的计算机平台上。 Apache 源于 NCSAhttpd 服务器,经过多次修改,成为世界上最流行的 Web 服务 器软件之一。Apache 取自“a patchy server”的读音,意思是充满补丁的服务器, 因为它是自由软件, 所以不断有人来为它开发新的功能、 新的特性、 修改原来的缺陷。 Apache 的特点是简单、速度快、性能稳定,并可做代理服务器来使用。 本来它只用于小型或试验 Internet 网络,后来逐步扩充到各种 Unix 系统中,尤 其对 Linux 的支持相当完美。Apache 有多种产品,可以支持 SSL 技术,支持多个虚 拟主机。Apache 是以进程为基础的结构,进程要比线程消耗更多的系统开支,不太 适合于多处理器环境,因此,在一个 Apache Web 站点扩容时,通常是增加服务器或 扩充群集节点而不是增加处理器。到目前为止 Apache 仍然是世界上用的最多的 Web 服务器,市场占有率达 60%左右。世界上很多著名的网站如 A、Yahoo!、W3 Consortium、Financial Times 等都是 Apache 的产物,它的成功之处主要在于它的 源代码开放、有一支开放的开发队伍、支持跨平台的应用(可以运行在几乎所有的 Unix、Windows、Linux 系统平台上)以及它的可移植性等方面。 .3MySqlMySql MySQL 是一个小型关系型数据库管理系统, 开发者为瑞典 MySQL AB 公司。 在 2008 年 1 月 16 号被 Sun 公司收购。而 2009 年,SUN 又被 Oracle 收购.对于 Mysql 的前途, 没有任何人抱乐观的态度.目前 MySQL 被广泛地应用在 Internet 上的中小型网站中。 由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,许多中小型网 站为了降低网站总体拥有成本而选择了 MySQL 作为网站数据库。 作为常用的数据库软件,MySql 具有以下特征: 1)使用 C 和 C+编写,并使用了多种编译器进行测试,保证源代码的可移 植性 2)支持 AIX、 FreeBSD、 HP-UX、 Linux、 Mac OS、 Novell Netware、 OpenBSD、 OS/2 Wrap、Solaris、Windows 等多种操作系统。 北京联合大学北京联合大学毕业设计 13 3)为多种编程语言提供了 API。这些编程语言包括 C、C+、Python、Java、 Perl、PHP、Eiffel、Ruby 和 Tcl 等。 4)支持多线程,充分利用 CPU 资源。 5)优化的 SQL 查询算法,有效地提高查询速度。 6)既能够作为一个单独的应用程序应用在客户端服务器网络环境中, 也能 够作为一个库而嵌入到其他的软件中提供多语言支持, 常见的编码如中 文的 GB 2312、BIG5,日文的 Shift_JIS 等都可以用作数据表名和数据 列名。 7)提供 TCP/IP、ODBC 和 JDBC 等多种数据库连接途径。 8)提供用于管理、检查、优化数据库操作的管理工具。 9)可以处理拥有上千万条记录的大型数据库。 1.51.5 爬行策略浅析爬行策略浅析 1.5
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年厦门第一中学招聘心理教师笔试真题
- 2024年泸州市招聘中小学教师笔试真题
- 课堂纪律管理提升策略计划
- 2024年北京市杂技学校招聘笔试真题
- 职业生涯发展对财务的影响计划
- 保安工作全面提升计划
- 开展社团比赛与评比活动方案计划
- 2025届甘肃省嘉峪关市名校数学七下期末监测试题含解析
- 内蒙古鄂尔多斯市名校2025届数学八下期末学业水平测试试题含解析
- 数据处理工具及技巧试题及答案
- 受处分以来的思想工作生活情况【4篇】
- 课件:第四章 社会工作项目的执行(《社会工作项目策划与评估》课程)
- 冷库施工组织设计施工方案
- 登杆作业课件共
- 吸痰技能操作及评分标准(评分表)
- 尼可地尔调研
- 发酵法生物制氢技术课件
- 机械制造技术基础(第7章完成)课件
- 主动脉夹层护理查房-PPT课件
- 2022年江苏省卫生系统事业单位考试(护理学专业知识)参考题库汇总(含答案)
- 危急值放射科ppt课件
评论
0/150
提交评论