




已阅读5页,还剩67页未读, 继续免费阅读
(计算机应用技术专业论文)空间信息网络访问模式下的反向代理技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘 要 i 空间信息网络访问模式下的反向代理技术研究空间信息网络访问模式下的反向代理技术研究 作者简介:杜玲,女,1982 年 08 月生,师从成都理工大学苗放教授,2009 年 06 月毕业于成都理工大学计算机应用技术专业,获得工学硕士学位。 摘摘 要要 随着空间信息应用需求日益增长,人们对地观测数据需要更快的获取速度、 更高的分辨率和更大的信息量,随之对空间信息网络访问提出了更高的要求。基 于地学信息浏览器/空间信息服务器(g/s)的新型空间信息访问模式,吸取 c/s 和 b/s 模式的优点,以其先进的技术,良好的架构成为新一代空间信息访问模式 的领军者,为解决目前空间信息访问遇到的问题提供了一个新的思路。由于空间 信息网络访问存在访问数据量庞大、带宽拥塞、网络延迟以及安全等一系列的问 题,基于 g/s 模式的面向服务器集群的反向代理技术可以较好的解决这些问题。 本文围绕新型空间信息网络访问模式-g/s 模式,以 g/s 模式、分布式集群 技术和 g/s 分布式集群原理的研究为基础, 对反向代理和 g/s 反向代理实现的相 关技术进行了详细的分析,主要包括 g/s 服务器缓存策略、应用层防火墙技术、 负载均衡技术等。随后结合目前流行的开源反向代理软件 squid,提出了一种用 于 g/s 模式下的反向代理配置方案,并进行了具体的实现。最后,进行了实验平 台的搭建, 并对 g/s 模式下的 squid 反向代理服务获取实际的数据进行对比说明 及总结。这对于提升 g/s 分布式集群的整体性能有着重要的意义。 本文的成果主要体现在三个方面: 第一,结合 g/s 集群技术,以目前主流的反向代理技术为主要研究对象,深 入分析了反向代理服务器架构和关键技术。 通过 g/s 和反向代理技术的结合, 研 究了适用于 g/s 分布式集群模式的反向代理服务的系统架构。 第二,结合反向代理软件 squid,提出了一种 g/s 模式下的反向代理配置方 案。 第三,通过对两个 g/s 集群节点的分别测试和两个 squid 之间的通信测试, squid 在 g/s 分布式集群中的应用目的基本达到。通过 squid 的应用,可以很好 的将两个或多个 g/s 集群节点互连起来,实现分布式的目的。测试结果显示,在 squid 反向代理配置下,用户对使用了反向代理技术的 g/s 服务器的访问速度远 成都理工大学硕士学位论文 ii 远快于没有使用该技术的服务器的访问速度。 对使用 squid 的 g/s 集群进行压力 测试,响应时间理想,系统的性能优良。 这些工作将对 g/s 分布式集群的研究和应用提供重要的技术支持。 关键词:g/s 模式 分布式集群 反向代理 abstract iii the reverse proxy technology research based on spatial information network access mode introduction of the author: du ling, female, was born in aug, 1982 whose tutor was professor miao fang. she graduated from chengdu university of technology in computer application teahnology major and was granted the master degree in june, 2009. abstract with the growing demand for application of spatial information, earth observation data access need faster speed, higher resolution and greater amount of information, and network access to spatial information put forward higher requirements. the new type of spatial information access patterns based on geo-information browser/space information server(g/s), learning the advantages of c/s and b/s mode ,become the leader of new generation of spatial information access mode because of its advanced technology and good architecture. its a new way of thinking to solve the problems faced by spatial information access. as a result of the huge amount of data access,bandwidth congestion, network delay, as well as a series of security problems in spatial information access, reverse proxy technology based on the g/s mode can solve these problems better. in the paper, the author first studied the g/s mode, distributed cluster technology and g/s distributed clusters, then analyzed the reverse proxy and the g/s reverse proxy technology, including g/s server caching strategies, application-layer firewall, load balancing technology.combined with the popular open-source reverse proxy software named squid, the author raised a configuration using for reverse proxy of g/s mode, and made a concrete realization of it. finally, the author built an experimental platform, and made a comparison of actual data and summary under reverse proxy service using squid. it has an important significance to enhance the performance of g/s distributed cluster. the results of this paper are mainly embodied in three aspects: first, combination of g/s cluster technology and reverse proxy technology, the author deep analyzed the reverse proxy server architecture and key technologies. 成都理工大学硕士学位论文 iv through the g/s and the reverse proxy technology, the authors studied the reverse proxy system architecture of the g/s distributed cluster. second, combination of the reverse proxy software named squid, the author proposed a reverse proxy configuration of the g/ s mode. thirdly, through the tests of two g/s cluster nodes and the tests of the communication between the two squid servers, squid was used in g/s distributed cluster very well.through the application of squid, two or more g/s cluster node could be interconnected. the test results indicated that user access to g/s server was much faster in the squid reverse proxy configuration. the results of stress tests showed that the response time was ideal and the performance of the system was excellent. these efforts will provide important technical supports for the research and application of g/s distributed clusters. key words: g/s mode distributed cluster reverse proxy 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果, 也不包含为获得 成都理工大学 或其他教 育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解 成都理工大学 有关保留、 使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘, 允许论文被查阅和 借阅。本人授权 成都理工大学 可以将学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书) 学位论文作者签名: 学位论文作者导师签名: 年 月 日 第 1 章 引言 1 第第 1 章章 引言引言 1.1 课题来源课题来源 “基于遥感与导航定位技术的数字旅游服务系统及应用示范” (发改办高技 2009214 号) “空间信息网络访问 g/s 模式研究” (申报中的国家自然科学基金项目) 1.2 选题选题目的和意义目的和意义 随着空间信息应用需求的日益增长,人们对地观测数据需要更快的获取速 度、 更高的分辨率和更大的信息量, 随之对空间信息网络访问提出了更高的要求。 现有的空间信息网络访问模式已经不能很好地适应空间信息的共享和服务等要 求。 借鉴网络信息访问的客户/服务器(c/s)模式和浏览器/服务器(b/s)模式, 项目研究了一种新的空间信息网络访问模式,即地学浏览器(geo-information browser)/空间信息服务器(spatial information server)模式,简称 g/s 模式。 基于 g/s 的空间信息网络访问服务体系结构, 空间数据存在于网络节点的数据服 务器,数据和服务在服务端的分布状况对用户是透明的。拥有 c/s 结构充分利用 客户端资源、高效处理客户端数据的优点,以及 b/s 结构客户端统一、网络访问 方便的优点, 在处理海量空间信息和提供高效服务方面, 是一种全新的解决办法。 尽管如此,用户进行空间信息网络访问时,仍会遇到各式各样的问题。 据调查分析, 超过 90%的空间信息网络访问的性能问题, 可以归类到下面一 个或多个范畴内1: (1)带宽拥塞 空间信息应用时常需要共享网络带宽从而发送大量的空间数据给访问的用 户, 那么可利用的带宽资源太少就成为了影响空间信息网络访问性能的常见因素 1。 (2)网络延迟 网络延迟是指数据包从服务器端到达客户端通过传输介质中传输所用的时 间, 即从报文开始进入网络到它开始离开网络之间的时间1。 如果网络带宽有限, 那么数据在通过 tcp/ip 协议传输过程中,就会出现排长队的情况,从而使计算 机接受到数据的时候会有一点的延迟,一般 100 毫秒以内都算正常,大于 100 毫 秒则比较慢了1。造成网络延迟的原因可归结为:一是数据包传送之前客户端与 成都理工大学硕士学位论文 2 服务器的数次协议握手所花的时间;二是受 tcp 协议的窗口机制限制,使得服 务器在单位时间内发起的未得到回应的传送请求的数量是有限的, 因此服务器可 能处于等待客户端回应的状态,导致服务器不能够及时提供服务。1这可能导致 尽管有充裕的可使用带宽,应用的响应速度却仍然很低。 (3)服务器迟延 事务型应用和动态网络页面生成很大程度上受制于服务器(例如应用服务 器、数据库服务器以及网络服务器)自身的处理速度。服务器成为瓶颈的信息应 用的特征是页面生成和等待时间非常长。 网络服务器也经常由于处理底层网络协 议(例如 tcp)和安全协议(例如 ssl)而不堪重负1。 (4)突增性访问服务 在某段时间可能因为用户数量急增导致系统无法正常运行或是速度明显减 慢。 (5)安全问题 安全问题常导致服务器不能正常运行、机密数据丢失或更改、种植木马危害 他人、和耗费服务器性能等等1。 针对上述各种存在问题,提出了反向代理的解决方案。反向代理也就是通常 所说的网络服务器加速。通过网络服务器加速,能够有效的解决上述问题。 本文通过对当前存在的反向代理技术进行了详细的研究, 从技术角度指出了 其中存在的一些问题,结合目前流行的开源反向代理软件 squid,提出了一种用 于新型空间信息网络访问模式-g/s 模式下的反向代理方案,并进行了具体的实 现。 这些工作将对 g/s 分布式集群的研究和应用提供重要的技术支持。 1.3 研究发展现状研究发展现状 反向代理技术是伴随着 internet 应运而生的网络服务技术,它与代理技术相 类似,通过在繁忙的网络服务器和 internet 之间增加一个高速的网络缓冲服务器 (反向代理服务器)来降低实际的网络服务器的负载。反向代理负载均衡将负载 均衡和代理服务器的高速缓存技术结合在一起,提供有益的性能,具备额外的安 全性,外部客户不能直接访问真实的服务器,可以实现较好的负载均衡策略,将 负载可以非常均衡的分给内部服务器, 不会出现负载集中到某个服务器的偶然现 象。 目前,反向代理技术是一个很有前景的技术,它来源于应用并服务于应用, 为此已有许多专家与学者投入这一领域的研究。 反向代理负载均衡能够以软件方 式实现,如 apache modproxy、isa proxy 等,也可以在高速缓存器、负载均衡 器等硬件设备上实现, 基于软件技术的反向代理负载均衡可以将优化的负载均衡 第 1 章 引言 3 策略和代理服务器的高速缓存技术结合在一起,提升静态网页的访问速度,提供 有益的性能1。由于网络外部用户不能直接访问真实的服务器,同时也就具备额 外的安全性。其缺点主要表现为反向代理是工作在 osi 参考模型第七层(应用 层) ,所以就必须为每一种应用服务专门开发一个反向代理服务器。以硬件技术 为主的解决方案多数将各种应用平台集成到一台或多台设备中, 在功能强大的同 时价格也相对较高。以 cisco 提供的缓存方案为例,wccp(web 缓存通讯协议) 是构成缓存方案的核心,wccp 2 被承载与 cisco cache engine 500 系列之上1。 在目前众多反向代理系统中,缓存作为最基本的技术,从如下产品中可以大 致了解到目前相关技术的发展走向以及达到的技术水平1: 表表 1 1- -1 1 当前流行的缓存技术 1 以上产品中有些是商业产品,有些是源代码开放产品。 在硬件技术上,目前国外还采用专门的网络处理卡、网络处理器、专门设计 的主板、多 cpu 和多高速网卡并行处理技术等提高处理速度1。基于 linux 的 nginx,squid,免费开放源码,是目前使用较多、非常流行的反向代理软件。 缓存引擎 缓存产品 apache apache proxy module aratech aratech(jaguar)-2000 cacheengine cisco cache engine 500/7000 series cacheos cacheflow server/client accelerator cachier cachier(dynamic content delivery) inktomi inktomi,compaq tasksmart,f5-edge-fx, dell powerapp.cache jigsaw w3cs javaserver imimic imimic,cintel kotetu naist-1/2 lucent lucent-50/100/100z web cache microsoft microsoft isa mows(java) mows(open source) netscape netscape proxy server novell/volera ibm,microbits,stratachche,excelerator netapp netapp-c1105/c6100 squid squid-2.6.stable6,swell-1450,cobalt,webspeed 成都理工大学硕士学位论文 4 总结目前的反向代理软件应用有以下局限性: (1) 反向代理软件在 web2.0 中有大规模的应用, 是常见的 web 前端加速缓 存,但在其他领域的应用不足,在空间信息网络访问上的应用尤其欠缺。 (2)反向代理缺少针对空间信息网络访问特点研发的软件。 因此,弄清 squid 的工作原理,建立适合 g/s 模式的 squid 方案,对于 g/s 模式空间信息服务器的建设,具有非常重要的价值。 1.4 本文研究本文研究主要内容主要内容和和成果成果 笔者在导师的指导和项目的支持下, 立足于当前的空间信息网络访问的发展 现状,以 g/s 模式、分布式集群技术、反向代理技术的研究为基础,围绕当前流 行的反向代理软件 squid,以建立起适合 g/s 分布式集群的反向代理方案,提高 g/s 分布式集群的访问性能为目标展开研究。 本文的主要内容及成果: (1)结合 g/s 集群技术,以目前主流的反向代理技术为主要研究对象,深 入分析了反向代理服务器架构和关键技术。 通过 g/s 和反向代理技术的结合, 研 究了适用于 g/s 分布式集群模式的反向代理服务的系统架构; (2)在上述研究的基础上,本文分析目前常见的反向代理软件 squid 的流 程及其模块工作过程。 具体研究反向代理软件 squid 如何在 g/s 分布式集群中的 应用和实现,结合反向代理软件 squid,提出了一种 g/s 模式下的反向代理配置 方案; (3)通过对两个 g/s 集群节点的分别测试和两个 squid 之间的通信测试, squid 在 g/s 分布式集群中的应用目的基本达到。 1.5 技术路线技术路线 课题组采用 xen 的半虚拟化技术,在一台高性能的物理服务器上,构建 20 台 linux 服务器,两个虚拟网桥,来搭建整个分布式的 g/s 服务器集群平台。 xen 虚拟机是基于内核级的虚拟技术,支持半虚拟化,虚拟的服务器与物理 服务器采用相同类型的内核,因而可达到接近物理机的性能。xen 支持 64 位平 台和支持 32 位平台上的 pae(physical address extension,物理地址扩展)技术, 可以在 32 位平台上支持超过 4gb 的内存。 host 和 guest 操作系统均采用 centos 5, 集群技术采用 bind view, lvs (linux virtrue server) ,ha(heartbeat) ,apache 等。 反向代理服务器采用开源软件 squid,在深入了解其工作机制的前提上,提 第 1 章 引言 5 出缓存算法改进的设想, 并针对 g/s 模式的具体实际, 提出可行的反向代理方案, 并对 g/s 模式下的 squid 反向代理服务获取实际的数据进行对比说明、 总结和分 析。 1.6 文章总体结构文章总体结构 文章总体分为以下六个部分: (1)引言部分,对题目来源、选题背景、国内外研究现状等进行了描述, 并对新型空间信息网络访问模式-g/s 模式下的反向代理技术的研究目的、研究 内容和技术路线进行了分析和说明。 (2)对 g/s 模式、分布式集群分类、基于 g/s 模式的分布式集群技术原理 进行了简单的介绍。 (3)对反向代理的概念和实现的相关技术进行了详细的分析,主要包括高 速缓存技术、应用层防火墙技术、负载均衡技术等。 (4)反向代理在 g/s 系统中应用的设计部分,具体包括,设计目标、需求 分析、g/s 分布式集群的架构、g/s 单个集群的架构以及 g/s 模式下的反向代理 服务流程设计。 (5)反向代理软件 squid 在 g/s 架构中的实现部分,结合 g/s 模式,具体 研究反向代理软件 squid 如何在 g/s 分布式集群中的应用和实现,给出 squid 用 于 g/s 模式下的较为理想的配置。 (6)测试部分,包括实验平台的构建,对 g/s 模式下的 squid 反向代理服 务获取实际的数据进行说明和总结。 成都理工大学硕士学位论文 6 第第 2 章章 g/s 分布式分布式集群概述集群概述 2.1g/s 模式模式 随着信息技术的发展,空间信息网络访问经历了由客户端/服务器 (client/server)模式到浏览器/服务器(brower/server)模式(苗放,2007) ,到 目前的 c/s、b/s 结构共存的局面。可以说 b/s 和 c/s 各有优点,互为补充但是 却不能完全替代。在这种情况下为了适应空间信息技术的发展,一种全新的,结 合两者优势的地学信息浏览器/空间信息服务器(g/s)模式被提出来。 g/s 模式是基于新型的超地理(或超图形)标记语言 hgml(hyper geographic markup language, 或 hyper graphic markup language) 数据交换标准。 其中 g 是地学浏览器或空间信息浏览器,它符合 hgml 的规范要求,所处理和 显示的内容以空间位置为主要组织方式,除了包括 web 浏览器的全部功能外, 还有空间矢量模型重建、三维图形互操作等新功能。s 是空间信息服务器,它通 过 hgml 来组织和管理各种类型的海量空间数据,通过数据服务器群的协同服 务,提高数据处理效率,使用分布式技术实现高效的数据管理和安全分级。该架 构能高效并实时地提供数据服务,实现一次下载数据,多次重复使用,并将 gis 复杂的显示和处理功能放入 g 端,可以大大的提高查询效率和处理速度。g/s 模 式的整体架构包括服务器的数据组织管理、网络传输、前端显示和互操作、数据 的实时更新等多方面的衔接和数据流程。 2.1.1g/s 模式与 c/s、b/s 模式的比较2 基于 g/s 模式的空间信息网络访问的服务体系结构, 空间数据存在于网络节 点的数据服务器,数据和服务在服务端的分布状况对用户是透明的2。拥有 c/s 结构充分利用客户端资源、高效处理客户端数据的优点,以及 b/s 结构客户端统 一、网络访问方便的优点,在处理海量空间信息和提供高效服务方面,是一种全 新的解决办法。g/s 模式与 c/s、b/s 模式的比较如下2: 在互联网出现初期的系统应用是以 c/s 模式为主的应用。b/s 模式是在互联 网技术不断发展的基础上提出的。 解决了 c/s 模式所存在的应用程序分发和管理 的诸多问题。由于应用程序统一部署在服务器端,维护工作只需要在服务器端进 行,不但简单方便,也极大减少了部署维护的费用。对客户端的要求则更简单, 简单到只需要一个 web 浏览器就足够了。但是随之新的问题又出现了2。首先, 统一的浏览器界面和链接操作方式无法为最终用户提供丰富的图形使用体验, 可 第 2 章 g/s 分布式集群概述 7 操作性较差,而越来越多的操作者却渴望得到更加丰富的使用体验。其次,b/s 应用程序更多地依赖于 web 服务器的性能,无法充分利用客户端机器的硬件处 理能力, 当现实中数据处理量飞速增长时, b/s 应用慢慢显示出捉襟见肘的态势, 无法满足大量高效率的用户的交互性需求2。最后,基于“请求/响应”模式的 b/s 应用程序需要很高的网络能力以保证交互性能,难以快速响应大量业务逻辑 的处理需求。所以,面向 c/s 的应用局面再次打开了。由于 b/s 应用程序无法满 足用户要求,c/s 又成为流行的开发模式2。特别是近年来的数字化潮流的出现 大量的数据需要处理, 虽然 b/s 模式能解决一些问题但是在面对目前的网络环境 下对于数字地球这样需要处理海量数据的应用来说还是没有很好的解决办法。 虽 然 c/s 模式可以很好的解决这个问题, 但是其主要以 socket 编程的模式很难满足 目前日益丰富的数据资源,其部署麻烦,升级更新费时的特点依然是其发展比较 大的障碍2。 从 c/s 和 b/s 发展的过程中我们就可以看出两种模式的特点和各自的利弊。 随着数字地球平台的出现,传统的 c/s 和 b/s 模式已经不能满足目前的需要, g/s 模式便随之而出成为解决目前问题的新的模式,g/s 模式结合了 c/s 和 b/s 两者的优势, 属于多层的网络架构, 提供了对多种协议的支持是一种先进的模式。 g/s模式虽然是为数字地球平台这一特殊应用而产生的但是由于g/s模式的先进 性和应用的广泛性所以相信 g/s 模式将会成为通用的模式2。 表 2-1、2-2 是 g/s 模式、c/s 模式和 b/s 的对比2: 表表 2 2- -1 1 c/s、b/s、g/s 模式比较 2 模式 c/s b/s g/s 含义 客户端/服务器 web 浏览器/服务器 地学信息浏览器/空间信 息服务器 结构 两层 三层/多层 两层/多层 ogc标准 无 gml(2000.4) kml(2008.4.14) 优点 网络关系简单,网络 带宽开销小 无需要专门设计客户端, 维护方便 充分利用客户端的图形图 像处理能力,灵活方便, 网络开销小,一次数据下 载,多次使用 缺点 客户端软件维护复杂 服务器负载大,网络负担 大 需要装载客户端软件,但 可以通过网络下载解决 (今后可以集成至操作系 统中) 软件 实例 google earth world wind 各类 webgis 软件 google maps yahoo maps google earth, world wind, ustar 成都理工大学硕士学位论文 8 表表 2 2- -2 2 b/s 与 g/s 开发应用模式比较 b/s(浏览器/服务器) g/s (地学浏览器/空间数据服务器) 技术描述 web,webgis dep,数字地球平台 结构 三层/多层 两层/多层 浏览器 ie(microsoft internet explorer) ge(google earth) 页面语言 html,xml,gml xml,kml 页面表现 超文本(hyper text) 超图形(hyper graphic) 三维表现 无,很弱 强大,虚拟现实 浏览器大小 19mb 19mb 服务器 httpd,数据库 httpd,数据库,分布式,集群 开发方式 asp,jsp,php,java,.net 等 asp,jsp,php,java,.net 等 应用方式 鼠标,简单 鼠标,简单 应用领域 网站发布,电子商务,电子政务 网站发布,电子商务,电子政务 应用效果 一般,依赖于网页设计 直观、真实、体验感 2.1.2g/s 模式的构成 g/s 模式不能简单理解为图形加强版的 c/s 模式,也不能简单理解为 3d 版 的 b/s 模式,它是结合了空间信息技术、计算机网络技术、多媒体虚拟现实技术 和海量数据处理技术多种现代技术的综合性模式, 是一种全新的网络空间数据访 问模式。 g/s 模式由两层或者多层构成,目前客户端需要单独安装。它的特点和优势 如下: (1)两层或者多层可以适应不同类型的需要。 (2)客户端结构单一,展现能力强,通用性强,类似浏览器。 (3)在大量数据尤其是大量地学信息数据的处理方面有着高效,逼真地能 力。 (4)处理数据格式丰富,可以处理通用的和主流的数据格式。 (5)支持各种网络协议。 (6)操作简单,视觉效果直观、逼真。 由于 g/s 模式本身固有的特点和优势,其势必将会得到巨大的发展。但是 g/s 模式是新提出来的, 还处于雏形阶段, 还需要很多的研究和大量的工作去做, 特别是以下几点是今后 g/s 模式研究工作的重点: (1)统一开放标准的数据格式 在目前的主力的地学信息系统或者数字化地学系统中 gml是其中一个最重 要的标准,kml 还未成为标准但是目前广泛使用,表现能力强大是一个主流的 格式,还有其他的一些格式,特别是在三维展现方面格式更加的繁多,如何用统 第 2 章 g/s 分布式集群概述 9 一的格式去表现数据或者实现数据的相互转换是今后 g/s 模式研究的重心。 (2)通用的客户端 g/s模式在地学信息浏览器即g方面应该借鉴b/s模式统一使用浏览器的特 点,将地学信息浏览器设计成通用、操作简单、可以处理地学信息和其他通用标 准格式的客户端,类似浏览器一样的简单方便,但又能处理大量地学信息甚至其 他信息。 g/s 模式结构图如图 2-1 所示: internetinternet 手机手机/pda电脑电脑cnss(gps)笔记本笔记本 行业数据服务器群行业数据服务器群 基础信息服务器群基础信息服务器群 空间信息服务器空间信息服务器 图图 2-1 g/s 模式结构图 在 g/s 模式结构下, 用户界面完全通过地学浏览器实现, 一部分事务逻辑在 客户端实现,但是主要事务逻辑在服务器端实现。 地学浏览器设计的出发点应是方便、快捷、直观、形象的空间数据浏览与查 询终端,同时应尽量采用先进技术,压缩程序占用空间,为用户提供快捷、方便 的下载,也为在异构系统上的运行打下基础。 空间信息服务器主要完成空间数据的管理,一部分事务逻辑,空间数据具有 空间、属性、时间三方面的特征,同时空间数据是海量的、分布的、异构的。针 对空间数据的处理涉及多方面的技术:比如数据的获取、更新、存储、转换、融 合、提取、应用等很多方面。 2.2 分布式分布式集群集群概述概述 g/s 模式下的空间信息服务器采用分布式集群技术。 分布式集群就是一组地理上分布的,由一定协调关系组成的多个集群系统。 成都理工大学硕士学位论文 10 它由很多连接在一起的独立计算机组成, 像一个单独集成的计算资源一样协同工 作。它们作为一个整体向用户提供一组最优化的网络访问资源。分布式的调度规 则可以按照 icp(internet communication provider)网内优先,地理位置就近优 先,最短响应时间优先,最常使用优先等方式来定义。一个集群系统是一群松散 结合的服务器组,形成一个虚拟的服务器,为客户端用户提供统一的服务。对于 这个客户端来说, 通常在访问集群系统时不会意识到它的服务是由具体的哪一台 服务器提供3。集群系统一般应具高可用性、可伸缩性、负载均衡、故障恢复和 可维护性等特殊性能。 分布的单个集群系统通常由一组计算机组成。 单个集群一般是指连接在一起 的两个或多个计算机(节点)3。节点可以是在一起的,也可以是物理上分散而 通过 lan 连结在一起的:一个连接在一起(lan 基础上)的计算机集群对于用 户和应用程序来说像一个单一的系统3。这样的系统可以提供一种价格合理的并 可获得所需性能和优势(快速而可靠的服务)的解决方法,这在以往只能通过更昂 贵的专用共享内存系统来达到3。四个节点的单个集群系统如图 2-2 所示: 图图 2-2 四个节点的集群 采用分布式集群系统的目的是,在出现故障或断电的情况下,保证客户对应 用程序和资源的访问。如果分布式集群里的某服务器由于故障或维护的缘故,不 可用,资源和应用程序将转移到其它可用的集群节点上。使用分布式服务器集群 的优点包括: 第 2 章 g/s 分布式集群概述 11 (1)高可用性。分布式集群技术可以用来避免单台服务器或单个集群节点 的资源或应用程序出现故障。使用分布式集群技术,资源的所有权,如磁盘驱动 器和 ip 地址将自动地从有故障的服务器上转移到可用的集群的服务器上。当分 布式集群中的某个节点的系统或应用程序出现故障时, 集群软件将在可用的服务 器上重启失效的应用程序, 或将失效服务器的工作分配到剩余的可用的集群的服 务器上,结果是用户只是觉得服务器暂时停顿了一下。 (2)可扩展性。可以很方便地通过添加更多的服务器,来提高集群的计算 能力和网络的可用性。 (3)可管理性。可以使用分布式集群管理器来管理各个集群,并管理应用 程序。可以通过拖放集群对象,在集群里的不同服务器之间移动应用程序,也可 以通过同样的方式移动数据。可以通过这种方式来手工平衡服务器的负荷,卸载 服务器,从而方便地进行维护。可以从网络的任意地方的客户端和资源处,监视 分布式集群的状态。 2.2.1 集群分类 根据使用分布式集群的目的不同,服务器集群有三种主要的集群模式4:一 种是负载均衡集群(load balance cluster) ,一种是高可用(high availability)集 群,另一种是高性能计算(high perfermance computing)集群,简称 hpc 集群。 (1)负载均衡集群集群就是带均衡算法的服务器集群。负载均衡集群在多 节点之间按照一定的策略(算法)分发网络或计算处理负载。负载均衡建立在现 有网络结构之上, 它提供了一种廉价有效的方法来扩展服务器带宽, 增加吞吐量, 提高数据处理能力, 同时又可以避免单点故障。 这里的负载均衡是一种动态均衡, 它通过一些工具实时地分析数据包,掌握网络中的数据流量状况,把任务合理分 配出去。对于不同的应用环境,使用的均衡算法是不同的4。目前,均衡算法主 要有三种:轮循(round-robin) 、最小连接数(least connections first)和快速 响应优先(faster response precedence) 4。轮循算法,是将来自网络的请求依次 分配给集群中的服务器进行处理。最小连接数算法,是为集群中的每台服务器设 置一个记数器,记录每个服务器当前的连接数,负载均衡系统总是选择当前连接 数最少的服务器分配任务。快速响应优先算法,是根据群集中的服务器状态 (cpu、内存等主要处理部分)来分配任务,采用这个算法的负载均衡系统比较 少4。 采用负载均衡集群的场合很多,其中以 web/ftp 服务器集群应用最为典型。 互联网的出现使信息访问产生了质的飞跃,但随之而来的是 web 流量的激 增。由于涉及的信息量十分庞大,用户访问的频率也高,许多基于 web 的大型 公共信息系统(如电子图书馆、bbs、搜索引擎和远程教育等)需要在实时性和 成都理工大学硕士学位论文 12 吞吐量方面都具有较高性能的 web 服务器支持。一些热门的 web 站点由于负荷 过重而变得反应迟缓。如何提高 web 服务器的性能和效率成为一个亟待解决的 问题4。 目前比较成熟的产品主要有 cisco 的 localdirector、ibm 的 network dispatcher、hydraweb 的 hydraweb dispatcher 和 rnd 的 web server director 等等。这些产品的应用非常广泛,如 yahoo、net center 和 msn 都是用几百到几 千台计算机组成 web 服务器群集来对外提供服务,它们使用了上述产品4。 (2)高可用性集群,是指以减少服务中断(当机)时间为目的的服务器集 群技术。可用性是指一个系统保持在线并且可供访问。有很多因素会造成系统当 机,包括为了维护而有计划的当机以及意外故障当机等,高可用性的目标是使当 机时间以及故障恢复时间最小化。高可用性集群一般将集群系统分为 5 层,分别 为集群硬件层、操作系统层、集群服务层、虚拟服务层、应用系统层,如下图 2-3 所示4: 集群硬件层 操作系统层 集群服务层 虚拟服务层 应用系统层 图图 2-3 高可用性集群系统的分层图 第 1 层为集群硬件层,该层提供了高可用性支持的物理基础。为避免硬件单 点故障,可以采用集群专用子网来传递两节点的信息(包括心跳信息) 。 第 2 层为操作系统层,操作系统是集群支持的底层软件。在有的系统中,操 作系统和集群服务是集成在一起的,也有的是分开提供的。这里为了描述方便, 将其单独作为一层4。 第 3 层为集群服务层,可提供高可用性虚拟服务。在这一层可以确定配置方 式是活动活动,还是活动备份。这一层主要有如下功能4: 1)集群服务监视各节点的运行状态,并在共享存储磁盘上专门划一个区存 储该集群服务的数据和日志信息。 2)提供并解析虚拟 ip 名和虚拟机器名,维护虚拟服务的各项资源。 第 2 章 g/s 分布式集群概述 13 3)一旦有故障发生,在一定的策略下能够自动进行故障转移。故障转移包 括该虚拟服务的所有资源转移。 4)如果故障清除,则可以自动进行故障恢复。 5)可以配置集群的故障转移和恢复策略,创建和管理虚拟服务。可管理和 维护整个集群,如增加和删除节点。 第 4 层为虚拟服务层,定义该虚拟服务所包括的各项资源,提供一个接口与 集群进行通信。主要包括以下资源4: 1)虚拟 ip 名; 2)虚拟机器名; 3)共享存储资源; 4)应用程序接口资源。 第 5 层为应用系统层,高可用性应用系统。通过虚拟服务的接口加载到集群 服务中,这样,集群服务就可以监控该应用系统。保证其高可用性。 (3)高性能计算集群,是指以提高科学计算能力为目的计算机集群技术5。 hpc cluster 是一种并行计算集群的实现方法。并行计算是指将一个应用程序分 割成多块可以并行执行的部分并指定到多个处理器上执行的方法。 目前的很多计 算机系统可以支持 smp(对称多处理器)架构并通过进程调度机制进行并行处 理,但是 smp 技术的可扩展性是十分有限的。为了满足某些科学计算任务,并 行计算集群的方法被引入到计算机界。著名的“深蓝”计算机就是并行计算集群 的一种具体实现。 2.3g/s 分布式服务器集群分布式服务器集群技术技术 g/s 模式的空间数据服务平台的基本构架是由分布式服务器集群构成的数 据处理平台。利用分布式服务器集群能够高效的处理各种空间信息数据、多媒体 虚拟现实数据和海量网络数据等等复杂的数据。 在海量空间数据服务和网络传输方面,集群系统是最重要的体现。集群系统 用于空间信息处理方面主要分为两种:高可用性集群和高性能集群。高可用性集 群的主要功能就是提供不间断的服务。 高性能集群通过将多台机器连接起来同时 处理复杂的计算问题。集群中的每个节点必须运行集群软件以提供服务,如故障 检测、恢复和将服务器作为单个系统进行管理的能力。目前国内外大部分使用的 服务器集群技术都是针对某些通用的网络服务和网络应用的,比如 web 应用、 网络数据库服务、网络视频等,在一定程度上能够缓解服务器的压力问题,但对 网络带宽的压力没有很好地解决。因此,本课题提出分布式空间信息网络服务器 群,采用动态 dns 负载均衡、p2p 点对点、ldap 等技术,解决海量空间信息 成都理工大学硕士学位论文 14 的高效传输问题。 分布式服务器集群是整个系统的基础。为保证性能和安全要求,分布式是服 务器集群的各个节点应分布于不同的网络位置和物理位置。 集群使用由动态dns 和反向代理两种技术组成的混合型负载均衡。和一般的服务器集群技术不同,本 系统的分布式服务器集群系统是针对整个 g/s 式模式中所有涉及的应用和服务 的整体动态的性能集群。 g/s 分布式集群框架图如图 2-4 所示: 图图 2-4 g/s 分布式集群框架图 智能资源判断系统实时记录分析某一数据的用户访问频率以及一次性访问 数据块的大小,以此为依据来控制数据处理方式。对于访问频率高的数据,自动 增加在分布式集群中的异地性能备份数量, 使多个用户可以通过访问不同的性能 异地备份, 以实现负载均衡提高系统能。 同样, 当一个数据热点慢慢冷却下来后, 智能资源判别处理系统会逐渐加少该数据的异地性能备份。 对于数据块较大的数 据,传输时采用异地服务器多线程并发技术,将一个文件分成多个数据段,分别 从多个异地服务器同时下载。对于一些特别大且访问用户多的数据,系统会选择 使用客户端 p2p 技术,在多个服务器和客户端之间传输,大大提高系统的性能。 智能资源判别处理系统还为其提供 p2p 内网穿透 tcp 中继服务,保证用户最大 化使用资源。 大量的空间数据存放于大规模的分布式集群中,采用树形结构来组织数据, 第 2 章 g/s 分布式集群概述 15 同时 g/s 模式数据索引在使用时读取应用远大于修改应用, 系统选用读取性能远 优于写入性
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 容积旋转调强放射治疗中危及器官亚结构保护剂量学研究
- 周易导读试题及答案
- 和平区期末七上数学试卷
- 市政工程计价课件
- 巴塞罗那主题课件
- 工程质量问题及解读课件
- 疫情安全班会课件视频
- 工程翻译课件
- 多层建筑改造合作协议
- 疫情健康防护课件
- 军人心理健康课件
- 2025年综合类-国家统考科目-国家统考科目-第十三章我国社会保险的法规与政策历年真题摘选带答案(5卷100题)
- 2025年天津市初中学业水平考试中考物理真题试卷(中考真题+答案)
- 2025年赤峰市翁牛特旗招聘社区工作者考试试题【答案】
- 2025年陕西建材科技集团股份有限公司招聘笔试真题含答案
- 2025年广东省中考物理试题卷(含答案)
- 劳动教育概论智慧树知到期末考试答案章节答案2024年哈尔滨工业大学
- 秒懂艺术那些事智慧树知到期末考试答案章节答案2024年商丘师范学院
- GB 38454-2019 坠落防护 水平生命线装置
- 加油站夏季安全教育内容
- 《高速铁路竣工验收办法》
评论
0/150
提交评论