超算在云计算网络中的部署方案.docx_第1页
超算在云计算网络中的部署方案.docx_第2页
超算在云计算网络中的部署方案.docx_第3页
超算在云计算网络中的部署方案.docx_第4页
超算在云计算网络中的部署方案.docx_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

微小卫星组网技术研究背景 1957年前苏联发射了第一颗人造地球卫星旅伴号“Sputnik”,从而开创了人类探索宇宙的新纪元;1970年我国也成功发射了第一颗人造卫星“东方红一号”。迄今,已有数千颗人造卫星曾在或正在轨道上上运行,并且这些卫星可以为人类提供特定的服务。目前,大多数研究都基于单颗大卫星,而技术的需求以及功能的扩展,使得单颗卫星的造价越来越高,体积越来越大,功能越来越集中,这都在无形中增加了大卫星的开发周期,提高了技术难度。上世纪80年代,科学界提出了开发小卫星,自此小卫星甚至微小卫星的技术得到了快速发展,应用领域也越来越广,比如空间通信技术、遥感遥测、GPS导航、电子侦察对抗等。小卫星的主要思想是:利用目前先进的软硬件技术具有高功能集成度的小卫星集群编队以此代替大卫星,从而解决大卫星航天研究的高投入、抗毁性能差的弊端。英国萨里大学定义的微小卫星是指重量小于100kg的卫星。现代小卫星与传统意义上小卫星有很大的区别,它不在是要求单一体积小、功能简单、重量轻,而是更加看重在此基础上具有更高的性能和更先进的技术。 基于以上分析以及目前地面上的高性能计数机集群以实现超速计算的原理,本文设想将目前地面上的计算机集群的思想应用于空间中的微小卫星星群上,以实现在轨微小卫星群的超速计算,从而满足一些实时业务的需要。超级计算中心概述20世纪后半期,全世界范围掀起第三次产业革命的浪潮,人类开始迈入后工业社会信息社会。在信息经济时代,其先进生产力及科技发展的标志就是计算技术。时至今日,计算科学,尤其是以超级计算机(或高性能计算机)为基础的计算科学已经与理论研究、实验科学相并列,成为现代科学的三大支柱之一。现代超级计算基于先进的集群技术构建,就是我们常说的网格计算技术(Grid Computing)。网格计算是伴随着互联网而迅速发展起来的,专门针对复杂科学计算的新型计算模式。这种计算模式是利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”,其中每一台参与计算的计算机就是一个“节点”,而整个计算是由成千上万个“节点”组成的“一张网格”,所以这种计算方式叫网格计算。这样组织起来的“虚拟的超级计算机”有两个优势,一个是数据处理能力超强;另一个是能充分利用网上的闲置处理能力。实际上,网格计算是分布式计算(Distributed Computing)的一种。超级计算在一个国家的发展中,特别是一些尖端科技的发展中,发挥着不可替代的使用。生物科技,石油勘探,气象预报,国防技术,工业设计,城市规划等经济、社会发展的关键领域都离不开超级计算。各个国家,尤其是经济、科技水平比较发达的国家,都把促进超级计算的发展作为重要的规划内容。超级计算中心(超算中心)是指基于超级计算机系统对外提供计算资源、存储资源以及技术咨询等服务的机构或单位。1 超级计算与云计算1.1 云计算的概念云计算是一种将全球范畴、高度可扩展与灵活的服务通过互联网进行发布与消费,采取按需求和实际使用付费的商业模式。云计算代表着全新的价值:它可以让企业获得高度可扩展和灵活的互联网服务;SaaS的廋客户端应用减轻了软件采购、维护成本。所有的功能都以服务的方式提供给用户。1.2 超级计算与云计算的关系云计算是从网格计算演化来的,能够随需应变地提供资源。网格计算可以在云中,也可能不在,这取决于什么样的用户在使用它。如果用户是系统管理员和集成商,他们就会关心如何维护云。他们升级、安装和虚拟化服务器与应用程序。如果用户是消费者,就不必关心系统是如何运行的。网格计算要求软件的使用可以分为多个部分,将程序的片段作为大的系统映像传递给几千个计算机中。网格的一个问题是如果某个节点上的软件片段失效,可能会影响到其他节点上的软件片段。如果这个片段在其他节点上可以使用故障转移组件,那么就可以缓解问题,但是如果软件片段依赖其他软件片段完成一项或多项网格计算任务,那么问题仍然得不到解决。大型系统镜像以及用于操作和维护的相关硬件可能造成很高的资本和运营支出。1.3 超级计算与云计算的相同点从定义上来说,网格计算和云计算都试图将各种IT资源看成一个虚拟的资源池,然后向外提供相应的服务。云计算试图让“用户透明地使用资源”,而网格计算当初的口号就是让“使用IT资源像使用水电一样简单”。云计算是一种宽泛的概念,它允许用户通过互联网访问各种基于IT资源的服务,这种服务允许用户无需了解底层IT基础设施架构就能够享受到作为服务的“IT相关资源”。而网格的内涵包括两个方面,一个方面是所谓的效用计算或者随需计算,在这一点上面,网格计算跟云计算是非常相似的,都是通过一个资源池或者分布式的计算资源来提供在线的计算或者存储等服务;另外一个方面就是所谓的“虚拟超级计算机”,以松耦合的方式将大量的计算资源连接在一起提供单个计算资源所无法完成的超级计算能力,这也是狭义上的网格计算跟云计算概念上最大的差别。云计算和网格计算都是可伸缩的。可伸缩性是通过独立运行在通过Web 服务连接的各种操作系统上的应用程序实例的负载平衡实现的。CPU 和网络带宽根据需要分配和回收。系统存储能力根据特定时间的用户数量、实例的数量和传输的数据量进行调整。两种计算类型都涉及到多承租(multitenancy)和多任务,即很多用户可以执行不同的任务,访问一个或多个应用程序实例。通过大型的用户池共享资源来降低基础设施成本,提高峰值负荷能力。云计算和网格计算都提供了服务水平协议(SLA)以保证可用性,比如99%。如果服务达不到承诺的正常运行时间,消费者将由于数据延迟而得到服务补偿。 1.4 超级计算与云计算的不同点可以看出,网格计算和云计算有相似之处,特别是计算的并行与合作的特点;但他们的区别也是明显的。主要有以下几点:首先,网格计算的思路是聚合分布资源,支持虚拟组织,提供高层次的服务,例如分布协同科学研究等。而云计算的资源相对集中,主要以数据中心的形式提供底层资源的使用,并不强调虚拟组织(VO)的概念。其次,网格计算用聚合资源来支持挑战性的应用,这是初衷,因为高性能计算的资源不够用,要把分散的资源聚合起来;到了2004年以后,逐渐强调适应普遍的信息化应用,特别在中国,做的网格跟国外不太一样,就是强调支持信息化的应用。但云计算从一开始就支持广泛企业计算、Web应用,普适性更强。第三,在对待异构性方面,二者理念上有所不同。网格计算用中间件屏蔽异构系统,力图使用户面向同样的环境,把困难留在中间件,让中间件完成任务。而云计算实际上承认异构,用镜像执行,或者提供服务的机制来解决异构性的问题。当然不同的云计算系统还不太一样,像Google一般用比较专用的自己的内部的平台来支持。第四,网格计算用执行作业形式使用,在一个阶段内完成作用产生数据。而云计算支持持久服务,用户可以利用云计算作为其部分IT基础设施,实现业务的托管和外包。第五,网格计算更多地面向科研应用,商业模型不清晰。而云计算从诞生开始就是针对企业商业应用,商业模型比较清晰。总之,云计算是以相对集中的资源,运行分散的应用(大量分散的应用在若干大的中心执行);而网格计算则是聚合分散的资源,支持大型集中式应用(一个大的应用分到多处执行)。但从根本上来说,从应对Internet的应用的特征特点来说,他们是一致的,为了完成在Internet情况下支持应用,解决异构性、资源共享等等问题。1.5 超级计算的分类随着超级计算的不断发展,逐渐出现了新的应用。这些新的应用丰富了传统的网格计算的种类,同时也给网格计算带来的新的问题。从网络的角度出发,将超级计算分为三大类:n 并行信息处理n 分布式I/O处理n 并行文件处理1.6 并行信息处理并行信息处理指的是应用在所有计算节点并行执行,主节点管理各计算节点输入处理,节点之间高速信息交互,通过等-停机制保证信息交互的正确性。通常是定制的计算环境,追求最高计算性能。这一类应用就是通常所说的科学计算,包括:气候模型,材料科学,生物系统模型,核模拟和人工智能等等。这类应用的共同特点是对信息交互时延极敏感。对网络的要求就是高带宽、低时延(Top500高端计算应用IPC时延10us)。1.7 分布式I/O处理分布式I/O处理指的是客户请求通过主节点发送到所有计算节点进行并行处理,各节点结果直接返回主节点,由主节点响应给客户端,时延要求不苛刻,但是所有计算节点以最快速度响应主节点,使得主节点网络位置短时会产生较大突发流量。这类计算的典型应用就是网站搜索引擎。信息显示:Google 每天需要提供1.5 亿次查询服务,平均每毫秒发生1.736次查询。举例来说,搜索“高性能计算”,得到3,250,000结果,用时0.20秒(第二次再搜0.05秒)。这类应用的共同特点是对网络丢包敏感。对网络的要求就是高带宽、不丢包。对设备带宽、包缓存大小及分配方式有要求,与应用的具体规模(服务器数量等)相关。1.8 并行文件处理并行文件处理指的是将庞大的源数据文件通过主节点分割成多个小文件后,分发到各计算节点并行处理,处理完毕后返回主节点进行文件组装。这类计算的典型应用就是动漫渲染和影视动画制作。将影视文件有机分割,分发到集群内相应服务器进行渲染等工作,各部分完成后组合成新的文件。这类应用的特点是节点之间信息交互少,但都是以大文件的形式完成。网络流量很大,且存在很强的并发性。对网络的要求是高带宽互联。2 H3C超级计算中心网络安全解决方案2.1 超级计算在云计算中的部署方案超级计算可以作为云计算的一种业务对internet用户提供便捷的服务。从这个角度来看,超算中心可以作为云计算数据中心的一个部分。但是超级计算与云计算还是很大区别的,因此需要看作是一个特殊的云计算服务。这种特殊性对于网络和安全方面的需求表现在:超级计算是一种“聚合”业务,是一种特殊的服务器集群应用。这种应用要求服务器自成系统,具体表现在:n 集群系统不能出现异构现象。n 集群内部的通信服务质量要求非常高,因此不能与其他业务共享业务通道。n 集群系统的安全级别很高,从接入区开始一直到超算区,要求与其他系统保持物理或是逻辑隔离。n 集群节点的计算性能要求较高,一般不会出现虚拟机。因此,集群内部的通信流量并不是很大。综合各种需求,H3C提出融合超级计算中心和云计算数据中心的网络解决方案。将超级计算服务作为云计算的一个独立的区;保证超级计算端到端的安全隔离;在超级计算区内实现统一交换架构。在该组网方案中,重点强调性能、安全、可靠和易用性设计。2.2 超级计算组网方案的高性能设计传统的超级计算网络通常会用Infiniband进行组网,而不是用以太组网。原因是Infiniband本身就是为超级计算量身订制的,具有高带宽、低时延转发的特点(通常可以低于10us,甚至达到纳秒级)。尽管HPC TOP500集群中,采用千兆以太网的是采用InfiniBand集群的两倍。但事实上在绝大多数商业环境中,千兆以太网高性能计算集群的规模远不够大。随着万兆以太网成本逐渐降低,高性能集群升级到万兆以太网将会有效的降低整体成本。以太网的发展速度非常快。从1983年IEEE建立了10Mbps以太网标准。之后快速以太网(100 Mbps )、千兆以太网、万兆以太网,40GE和100GE标准即将推出。目前关于Tb级以太网的讨论已经开始了。尽管以太网发展迅速,但基本的以太网帧格式和运行原理本质上仍维持不变。万兆以太网传输数据速度比千兆以太网快十倍。新一代万兆以太网网卡可以减少服务器之间延迟约八倍。由带宽增加和延迟缩小获得的更高的应用性能比想象的还要好,而且几乎与InfiniBand速度不相上下。根据最新的Spirent测试报告,H3C的数据中心级交换机S12500的万兆端口转发时延614us。盒式万兆交换机的转发时延更低。除了转发时延有了大幅度降低之外,H3C的数据中心级交换机还能够提供超高密度的万兆接入端口。S12518最大可以支持576个万兆端口,可以实现大量计算节点的高密度接入,有效的降低成本。另外,万兆以太网每Gb的功耗比千兆以太网的要低,这使得用户可获得10倍的带宽,而能耗需求却远低于原来。2.3 超级计算组网方案的高安全设计H3C超算中心安全解决方案的技术特色可用:安全分区规划以及端到端的安全部署来概括。在超算中心网络中存在不同业务种类和易受攻击程度不同的设备,按照这些业务种类和设备的情况制定不同的安全策略和信任模型,将超算网络划分为不同区域。区域之间实现逻辑隔离,重点保证高性能计算区域(HPC)的数据安全和流量服务。端到端的安全部署强调对于不同级别、不同业务的用户,从接入到超算中心开始一直到最终的服务器,都能一直保持逻辑隔离的状态。通过端到端的安全隔离进一步加强超算中心核心业务的数据中心安全性和服务质量。2.4 超级计算组网方案的高可靠设计通过第二代智能弹性架构IRF II技术,可以有效地将超算业务的网络可靠性提高一个级数。极大的保证了用户业务的连续性,提高客户对于超算业务的信心。同时,使超算中心网络的性能以倍数级别灵活扩展,增强可靠性,简化配置,降低投入和维护成本。IRF II可实现分布式设备管理、分布式路由和跨设备链路聚合,部署IRF II除了提高超算中心网络的可用性,减少单点故障影响,还可以: 分布式处理二三层协议,极大提高网络性能。 每组当成一个逻辑Fabric,配置管理更高效。 交换集群内设备软件版本同步升级,升级容易。 整个交换集群的设备支持热插拔,灵活管理。 交换集群实现倍数级的接入密度和背板交换能力,并提高组网的可靠性。 对高端设备而言,可将多台设备当成一台设备进行管理,实现性能倍增,简化组网。部署IRF II后,无需再考虑MSTP、VRRP等协议,解决了传统设备和链路只能工作在主/备模式和利用率低于50的性能瓶颈。2.5 超级计算组网方案的易用性设计传统的超算中心网络结构异构复杂,接口不统一:前端网和管理网采用以太网;存储网采用FC;计算网用Infiniband。超算中心通信网络复杂异构、接口不统一,导致超算中心运行时协议转换开销大、速率不匹配、存在性能瓶颈、开发与部署周期长、无法满足业务快速灵活部署和性能的需求。超算中心一体化网络通过CEE(增强以太网)和标准IP协议融合前端、计算、存储和管理四张网络,消除网络技术割裂所来的种种弊端。3 微小卫星的组网技术实现“超算星云”IRF2部署实践三部曲IRF2(Intelligent Resilient Framework2,即第二代智能弹性架构技术):实现网络的简化,包括网络结构、业务和管理维护的简化。IRF1解决了接入层的网络结构简化和大量的接入层设备管理维护问题,而业务的简化并没有解决。对任何网络来说,网络层次越高,业务部署越丰富,则越需要简化。2009年,H3C在从100G平台的核心交换机到接入层交换机产品(即基于全线交换机产品S12500,S9500E,S7500E,S5800,S5600,S5500,S5120EI,S3600系列)实现了统一的虚拟化整合技术IRF2。不仅可以实现端到端的网络结构简化,管理维护简化,更重要的是通过机框式设备虚拟化,实现了全网业务的简化。在基础网络架构技术已经迈入虚拟化技术的时代,主流网络设备制造商纷纷推出自己的网络虚拟化解决方案。H3C的IRF2技术可以满足从核心到接入全套的虚拟化解决方案,满足客户不同需求。本文根据真实应用情况总结了3个实践步骤,对实际的应用部署会有所帮助。H3C IRF2在技术上实现了多项突破,操作上也非常简单易用。如图1所示为2台S12500交换机配置IRF2的步骤:图1:2台交换机IRF2互联示意图Switch1配置如下:switch1irf member 1配置设备的成员编号为1switch1 irf-port 1配置设备间互联端口switch1-irf-port1port group interface Ten-GigabitEthernet 6/0/1指定互联的物理端口switch1chassis convert mode irf系统切换到IRF2工作模式Switch2配置如下:switch2irf member 2配置设备的成员编号为2switch2 irf-port 2配置设备间级联端口switch2-irf-port2port group interface Ten-GigabitEthernet 6/0/1指定互联的物理端口switch2chassis convert mode irf系统切换到IRF2工作模式配置完成后会提示进行设备重启,连接好级联端口电缆等待设备启动完成后2台设备就完成虚拟化,之后就如同使用一台设备。唯一的区别只是增加了一维的chassis成员号,例如设备上某个接口编号为GigabitEthernet 3/0/1。当该设备加入堆叠后,如果成员编号为2,则接口的编号将为GigabitEthernet 2/3/0/1,其他的配置则与之前完全一样。部署实践1:方案选择以常用的核心与接入二级架构组网为例,使用万兆链路互联,IRF2虚拟化部署可以分为三类,如图2所示。图2:3种常见的网络虚拟化组网示意图从上图可以看出,仅在接入层IRF2虚拟化组网的情况下,接入与核心设备之间还需要运行传统的STP协议来解决二层冗余链路问题,核心层的2台设备之间也要运行VRRP协议进行备份。在其他2种方案中,接入层与核心层之间都可以使用跨设备链路聚合来代替STP,使网络切换的可靠性由STP的秒级降低到链路聚合的毫秒级,两台核心设备被虚拟成一台设备后也不再需要运行VRRP协议,因此这2种组网方案能够完全体现IRF2的全部优点:解决了STP冗余环路的问题,提高了网络的可靠性,并且降低了配置与管理的复杂度;而接入层虚拟化仅仅解决了接入层设备的配置与管理复杂问题。对于高密度接入的组网需求,可以考虑核心层与接入层全部进行IRF2虚拟化的方案;对于密度较低的接入或者需要高性能吞吐量的组网需求,可以考虑核心层进行IRF2虚拟化的方案。实际使用中可以根据实际业务需求及综合成本进行选择。S12500S9500ES7500E*S5800系列S5820系列S5500EI系列S12500XXXXXS9500EXXXXXS7500E*XXXXXS5800系列XXXXXS5820系列XXXXXS5500EI系列XXXXX注:7500E的特定型号及主控板对IRF2有特殊要求,使用前请咨询H3C工程师。表1 H3C交换机IRF2互联的可行性支持IRF2级连接的端口类型:1、S12500/9500E系列:支持万兆XFP与SFP+端口互联,以及千兆接口相互互联。其中SFP+接口也可以使用电缆连接,不用使用昂贵的光模块,在短距(最大10M)情况下可大大降低了成本。支持远程级联。2、S7500E系列:支持万兆XFP接口互联,需要通过光纤直连。3、S5800/S5820系列:支持万兆SFP+接口互联,可以使用光模块互联,也可以使用成本更低的SFP+电缆互联。4、S5500EI系列:支持万兆接口互联,可使用CX4堆叠电缆或光纤互联。总体来说,核心设备建议选择多插卡机箱式设备,这样可以满足后续业务扩展需求,接入设备可以选择低端盒式设备。通常建议使用万兆接口作为IRF2互联端口,短距离情况下使用电缆连接可以大大降低成本。部署实践2:拓扑选择如图3所示,2台交换机进行IRF2级联,下行通过链路聚合,上行使用ECMP(等价路由)或者链路聚合连接。在此组网环境下,某台IRF2设备接收的数据会优先从本设备的出接口转发出去,而不会通过设备间级联端口到经过外一台IRF2设备的出接口转发出去。只有在本台设备没有出接口的情况下,才会选择其他IRF2设备的出接口转发,此时数据会通过2台IRF2设备之间的级联端口。这种数据流处理模式即为“本地转发优先”。图3:等价路由及链路聚合方式下IRF2内部转发示意图如图4所示,如果两条上行链路一条为主用一条为备用,或者两条上行链路连接两台使用了类似VRRP技术进行热备份的防火墙/负载均衡设备,就有可能出现上行非等价路由情况,如果IRF2系统的上行为非等价路由或链路聚合的情况,将会出现上下行流量路径不一致情况:一部分流量上行时会同时经过2台IRF2交换机,另外一部分上行流量及所有下行流量将只经过一台IRF2交换机。图4:非等价路由方式下IRF2内部转发示意图通过以上对比分析可以看出,“本地转发优先”的优点是:流量一般不经过级联端口,减少了级联端口的数量,从而降低了设备成本;数据经过最少的设备,降低了转发时延;当网络发生故障时,理论上一半的业务流量完全不会受到故障影响,缩小了故障影响范围。因此,使用IRF2技术组网时,我们建议:1、下行端口一般使用链路聚合,上行端口一般使用ECMP或者链路聚合进行互联,特殊情况下也可以使用非等价路由,但是要仔细评估业务流量的走向的影响。2、级联端口总带宽2倍的上行出口带宽,一台设备最少使用2条同样类型的接口与另外一台设备进行互联,接入层设备使用环形连接。部署实践3:提高IRF2可靠性在选择了合适的IRF2组网的方案与拓扑之后,每台IRF2系统内的成员设备去往同一目的地至少有两条链路连接到其他设备上,一条链路中断即可快速切换到另外一条链路;IRF2设备之间也互相备份,即使一台宕机也不会对网络造成严重的影响,从传统意义上看网络已经足够可靠了。但是IRF2技术提供了一个不一样的可靠性技术,在部署了这个技术之后才能真正打造出一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论