版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 Page * MERGEFORMAT 47高性能计算平台解决方案目 录 TOC o 1-3 h z u HYPERLINK l _Toc506671173 1概述 PAGEREF _Toc506671173 h 4 HYPERLINK l _Toc506671174 1.1建设背景 PAGEREF _Toc506671174 h 4 HYPERLINK l _Toc506671175 1.2设计范围 PAGEREF _Toc506671175 h 4 HYPERLINK l _Toc506671176 1.3总体设计原则 PAGEREF _Toc506671176 h 4 HYPERLINK
2、 l _Toc506671177 2系统平台设计 PAGEREF _Toc506671177 h 6 HYPERLINK l _Toc506671179 2.1项目需求 PAGEREF _Toc506671179 h 6 HYPERLINK l _Toc506671180 2.2设计思想 PAGEREF _Toc506671180 h 7 HYPERLINK l _Toc506671181 2.3云存储系统方案 PAGEREF _Toc506671181 h 7 HYPERLINK l _Toc506671182 2.4系统优势和特点 PAGEREF _Toc506671182 h 8 HYP
3、ERLINK l _Toc506671183 2.5作业调度系统方案 PAGEREF _Toc506671183 h 10 HYPERLINK l _Toc506671184 3系统架构 PAGEREF _Toc506671184 h 11 HYPERLINK l _Toc506671186 3.1平台系统基本组成 PAGEREF _Toc506671186 h 11 HYPERLINK l _Toc506671187 3.2平台系统功能描述 PAGEREF _Toc506671187 h 13 HYPERLINK l _Toc506671188 3.3Jobkeeper系统基本组成 PAGE
4、REF _Toc506671188 h 20 HYPERLINK l _Toc506671189 4系统安全性设计 PAGEREF _Toc506671189 h 23 HYPERLINK l _Toc506671191 4.1安全保障体系框架 PAGEREF _Toc506671191 h 23 HYPERLINK l _Toc506671192 4.2云计算平台的多级信任保护 PAGEREF _Toc506671192 h 25 HYPERLINK l _Toc506671193 4.3基于多级信任保护的访问控制 PAGEREF _Toc506671193 h 30 HYPERLINK l
5、 _Toc506671194 4.4云平台安全审计 PAGEREF _Toc506671194 h 32 HYPERLINK l _Toc506671195 5工作机制 PAGEREF _Toc506671195 h 36 HYPERLINK l _Toc506671197 5.1数据写入机制 PAGEREF _Toc506671197 h 36 HYPERLINK l _Toc506671198 5.2数据读出机制 PAGEREF _Toc506671198 h 37 HYPERLINK l _Toc506671199 6关键技术 PAGEREF _Toc506671199 h 39 HYP
6、ERLINK l _Toc506671201 6.1负载自动均衡技术 PAGEREF _Toc506671201 h 39 HYPERLINK l _Toc506671202 6.2高速并发访问技术 PAGEREF _Toc506671202 h 39 HYPERLINK l _Toc506671203 6.3高可靠性保证技术 PAGEREF _Toc506671203 h 40 HYPERLINK l _Toc506671204 6.4高可用技术 PAGEREF _Toc506671204 h 40 HYPERLINK l _Toc506671205 6.5故障恢复技术 PAGEREF _T
7、oc506671205 h 41 HYPERLINK l _Toc506671206 7接口描述 PAGEREF _Toc506671206 h 42 HYPERLINK l _Toc506671208 7.1POSIX通用文件系统接口访问 PAGEREF _Toc506671208 h 42 HYPERLINK l _Toc506671209 7.2应用程序API接口调用 PAGEREF _Toc506671209 h 42 HYPERLINK l _Toc506671210 8本地容错与诊断技术 PAGEREF _Toc506671210 h 43 HYPERLINK l _Toc5066
8、71213 8.1 平台高可靠性 PAGEREF _Toc506671213 h 43 HYPERLINK l _Toc506671214 8.2平台数据完整性 PAGEREF _Toc506671214 h 43 HYPERLINK l _Toc506671215 8.3平台快照技术 PAGEREF _Toc506671215 h 44 HYPERLINK l _Toc506671216 8.4Jopkeeper故障处理技术 PAGEREF _Toc506671216 h 44 HYPERLINK l _Toc506671217 9异地容灾与恢复技术 PAGEREF _Toc50667121
9、7 h 46 HYPERLINK l _Toc506671220 9.1平台数据备份与恢复系统功能 PAGEREF _Toc506671220 h 46 HYPERLINK l _Toc506671221 9.2平台异地文件恢复 PAGEREF _Toc506671221 h 47概述建设背景云存储平台与作业调度为本次高性能计算总体解决方案的一部分。主要针对海量的数据的集中存储、共享、计算与挖掘,建立一套具有高可靠、可在线弹性伸缩,满足高吞吐量并发访问需求的云存储与计算平台。为数据存储和高效计算提供便捷、统一管理和高效应用的基础平台支撑。设计范围本技术解决方案针对海量数据集中存储、共享与计算,
10、提供从系统软硬件技术架构、原理、硬件选型、网络接入以及软件与应用之间的接口等方面的全面设计阐述。总体设计原则针对本次工程的实际情况,充分考虑系统建设的建设发展需求,以实现系统统一管理、高效应用、平滑扩展为目标,以“先进、安全、成熟、开放、经济”为总体设计原则。先进性原则在系统总体方案设计时采用业界先进的方案和技术,以确保一定时间内不落后。选择实用性强产品,模块化结构设计,既可满足当前的需要又可实现今后系统发展平滑扩展。安全性原则数据是业务系统核心应用的最终保障,不但要保证整套系统能够7X24运行,而且存储系统必须有高可用性,以保证应用系统对数据的随时存取。同时配置安全的备份系统,对应用数据进行
11、更加安全的数据保护,降低人为操作失误或病毒袭击给系统造成的数据丢失。在进行系统设计时,充分考虑数据高可靠存储,采用高度可靠的软硬件容错设计,进行有效的安全访问控制,实现故障屏蔽、自动冗余重建等智能化安全可靠措施,提供统一的系统管理和监控平台,进行有效的故障定位、预警。成熟性原则为确保整个系统能够稳定工作,软件平台将使用先进、完善、易于管理和稳定可靠的云存储资源管理系统,对于与应用的集成接口,提供统一的通用稳定访问接口。开放性原则系统建设具有开放性的标准体系,提供符合POSIX标准的通用文件系统访问接口,开放的应用API编程接口,提供人性化的应用和管理界面,以满足用户需求。遵循规范的通用接口标准
12、,使全系统中的硬件、通信、软件、操作平台之间的互联共享。充分考虑系统的升级和维护问题,维护采用在线式的,即在系统不停止工作的情况下,可以更换单元备件。系统的维护和升级操作由系统管理员即可完成。经济性原则现有业务系统存储数据量较大,且数据的增长速度较快。因此在建设系统存储架构时,应从长远的角度考虑,建设一个长期的存储架构,除了可以应对存储硬件设备的升级速度外,还必须考虑到对前期存储设备的投资保护,在保证不断提供功能和性能提高的同时,存储架构在较长的时间内能够保持相对稳定。结合先进的云平台技术架构优势,根据本次项目建设的实际容量需求设计,同时充分考虑应用发展需求,实现系统可弹性在线平滑升级。通过软
13、件实现在较廉价普通服务器上实现高度容错,同时能够在较低冗余度的情况下实现高度可靠容错,大大节约和降低系统建设的硬件成本。系统平台设计项目需求容量需求针对本次建设实际数据容量,一期拟建设XXTB裸容量数据存储平台,主要存储数据。吞吐量需求为满足多用户或应用整体吞吐带宽需要,确保数据访问流畅,系统需提供多用户或应用并发访问高吞吐带宽设计,系统能够有效利用网络带宽,性能可通过规模增加实现平滑增长。扩展性需求未来根据业务应用的变化和发展,需要快速实施系统资源的升级,可以在业务服务不间断的状态下平滑扩展,不会导致架构发生根本性变化,为不断产生和变化的业务需求提供持续的支持,支持业务系统的快速整合和部署对
14、核心系统基础架构的特别要求。低成本需求要求系统能够以低硬件成本、低维护成本实现高可靠高性能应用要求,充分提高资源利用率,简化管理,并能灵活、可持续扩展。可维护性需求要求系统具有自适应管理能力,安装、维护、升级简易方便,提供统一易用的WEB配置管理监控平台,实现智能化管理。接口需求要求能够提供通用的文件系统接口,方便用户及应用系统访问,减少与应用集成或开发工作量,实现系统快速部署与集成。设计思想采用业界成熟先进的云平台架构思想,采用软件实现对大量普通商用服务器存储空间资源进行虚拟化整合,实现软硬件故障高度容错,将系统控制流与数据流分离,同时使得数据在逻辑上集中、物理上分散,每台服务器同时对外提供
15、服务,以达到多并发高吞吐量的性能要求,采用自注册机制、故障自动屏蔽、自动冗余重建技术实现系统自我维护和平滑扩展,系统服务724小时不间断。系统采用先进的编解码容错技术,可根据数据可靠性要求设置适当的冗余编解码策略进行系统部署,可以以极小的磁盘和硬件冗余度,实现高度的可靠性数据容错。云存储系统方案采用业界已经成熟的平台云存储资源管理系统,在多台普通商用服务器上构建高性能高可靠云存储系统,作为本次云媒资系统云数据中心存储平台,其应用部署示意图如下图所示。平台云存储资源管理系统部署示意图系统优势和特点平台云存储系统是一套软件与硬件相结合的系统,其中专有技术和软件是高附加值部分,可以广泛应用于需要存储
16、大量数据的应用场合(如安防、广电、电信、互联网、银行等领域)。该系统相比传统存储系统有如下技术优势:高度可靠存储系统采用云架构,数据被分块存储在不同的存储节点上,数据采用先进的1:1容错机制进行容错,可在任意损坏一个存储服务器节点的情况下实现数据完整可靠,系统对外存储访问服务不间断。云存储的管理节点采用了主备双机镜像热备的高可用机制,在主管理节点出现故障时,备管理节点自动接替主管理节点的工作,成为新的主管理节点,待故障节点修复并重启服务后,它则成为新的备管理节点,保障系统的724小时不间断服务。优异性能平台采用控制流与数据流分离的技术,数据的存储或读取实际上是与各个存储节点上并行读写,这样随着
17、存储节点数目的增多,整个系统的吞吐量和IO性能将呈线性增长。同时,平台采用负载均衡技术,自动均衡各服务器负载,使得各存储节点的性能调节到最高,实现资源优化配置。无限容量系统容量仅受限于卷管理服务器内存,可支撑的容量接近无限,经推算,理论容量为102410241024 PB (1G个PB容量)。在线伸缩平台云存储资源管理系统扩容非常方便,支持不停止服务的情况下,动态加入新的存储节点,无需任何操作,即实现扩容;同时,无需人为干预,也可以摘下任意节点,系统自动缩小规模而不丢失数据,存储在此节点上的数据将会重新备份到其他节点上。通用易用平台云存储系统提供符合POSIX标准的通用文件系统接口,无论是哪种
18、操作系统下的应用程序,都可以不经修改将云存储当成自己的海量磁盘来使用。同时,也提供专用的API接口,供开发人员调用。智能管理提供基于WEB的管理控制平台,所有的管理工作均由平台管理模块自动完成,使用人员无需任何专业知识便可以轻松管理整个系统。通过管理平台,可以对平台中的所有节点实行实时监控,用户通过监控界面可以清楚地了解到每一个节点和磁盘的运行情况;同时也可以实现对文件级别的系统监控,支持损坏文件的查找和修复功能。系统提供用户安全认证及对不同用户进行配额设置与权限管理功能,满足应用的日常维护和安全管理需求。作业调度系统方案采用业界已经成熟的Jobkeeper多任务调度系统,在多台普通商用服务器
19、上构建高性能高可靠的任务调度平台。高度可靠性Jobkeeper采用“多主多备,负载均衡”的管理节点,从而保证无论管理节点还是处理节点都不存在任何单点故障问题。低依赖性Jobkeeper采用模块化设计思想,通过统一化配置和API接口的方式向用户提供服务。低干预性Jobkeeper采用基于事件化的统一管理模式。在系统无人值守的情况下自动完成故障处理等功能。高实时性Jobkeeper在机器性能允许的范围内,所有任务的控制工作基本都在秒级完成,具有前所未有的高效性。系统架构在本次高性能计算系统建设中,云存储系统属于基础平台支撑层,以用于数据集中存储和共享,实现对数据的统一管理和高效应用。将数据逻辑集中
20、物理分散,以提供多并发高吞吐带宽,最大程度降低系统访问瓶颈,任务调度则基于云存储进行大规模的高性能的并发计算。下面具体说明平台云存储资源管理系统和Jobkeeper任务调度系统的基本组成和主要功能。平台系统基本组成平台云存储资源管理系统采用分布式的存储机制,将数据分散存储在多台独立的存储服务器上。它采用包括卷管理服务器、元数据管理服务器(Master Server)、数据存储节点服务器(Chunk Server)和挂接访问客户端以及管理监控中心服务器的结构构成虚拟统一的海量存储空间。在每个服务器节点上运行平台云存储资源管理系统的相应的软件服务程序模块。系统架构框图如下图所示。平台云存储资源管理
21、系统架构其中,Master Server保存系统的元数据,负责对整个文件系统的管理,Master Server在逻辑上只有一个,但采用主备双机镜像的方式,保证系统的不间断服务;Chunk Server负责具体的数据存储工作,数据以文件的形式存储在Chunk Server上,Chunk Server的个数可以有多个,它的数目直接决定了平台云存储系统的规模;挂接访问客户端即为服务器对外提供数据存储和访问服务的窗口,通常情况下,客户端可以部署在Chunk Server上,每一个块数据服务器,既可以作为存储服务器同时也可以作为客户端服务器。由一对元数据服务器及其管理的存储服务器节点所提供的存储空间称为
22、一个卷空间,不同的卷空间由卷管理服务器虚拟化统一管理,对外可提供统一的海量存储空间。管理监控中心提供统一易用的WEB配置管理监控平台,提供设备监控、空间监控、文件监控、服务监控、用户认证管理、配额管理、故障告警及预警等功能,实现智能化管理。这种分布式系统最大的好处是有利于存储系统的扩展和实现,在小规模的数据扩展时,只需要添加具体的Chunk Server即可,而不需要添加整套设备。在实现大规模扩展时也可方便地添加整个卷设备。平台系统功能描述平台云存储资源管理系统从功能上划份为三大部分:平台分布式文件系统分布式文件系统实现文件数据存储、可靠性容错、可伸缩性保证、高可用保证、负载均衡和流量分担等功
23、能。存储访问接口平台提供符合POSIX规范的文件系统访问接口,通过平台访问挂接程序可将云存储空间挂接为本地目录或磁盘。同时可提供专用的API接口,支持业务应用层程序对云存储系统的直接访问。管理监控中心管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。下面逐一详细介绍各部分系统功能。平台分布式文件系统平台分布式文件系统包括卷管理、元数据管理、块数据管理服务。参考上面系统架构框图左侧部分。元数据是指文件的名称、属性、数据块位置信息等,元数据管理通过元数据服务程序完成。因元数据访问频繁,故系统将元数据加载缓存至内存中管理,提高访问效率。由于元数据的重要性,元数据损坏或丢
24、失则相当于文件数据丢失,因此实现了元数据服务器主备双机高可用,确保小时不间断服务。通过元数据远程多机冗余备份功能,实现在多台其它机器上备份元数据,当元数据服务器损坏,可以通过备份的元数据重新恢复服务,切保数据可以完整找回。块数据是指文件数据被按照一定大小(默认64MB)分割而成的多个数据块,分布存储到不同的存储节点服务器上,并通过编解码容错算法产生相应的冗余块。块数据服务是运行在每个存储节点服务器上的块数据管理程序,负责使用存储服务器上的磁盘空间存储文件数据块,并实现相应的编解码功能。相比较传统业界的云存储采用块数据简单备份冗余容错机制,编解码容错方式大大降低了硬件资源冗余度,提高了磁盘利用率
25、。由一对主备元数据服务器及其所管理的块数据服务器管理节点设备及其所提供的存储空间称为一个卷。卷管理服务器负责将多个卷虚拟化整合,对外提供统一的整体访问云存储空间。文件系统采用中心服务器模式分布式存储架构,控制流与数据流分离,通过增加存储节点系统采用自动注册机制,实现系统高可伸缩性,增加或减少存储节点规模,不影响系统正常提供存储访问服务。该系统架构实现了统一调度,负载均衡和流量自动分担功能,多个存储节点同时对外提供数据流服务,系统根据磁盘空间使用比例进行资源优化配置。同时在多个不同的存储节点之间实现根据空间比例进行优化配置,数据优先存储的空间利用比例相对较低的磁盘或存储服务器上。平台分布式文件系
26、统具有自动冗余重建功能,确保损坏的数据块能够被解码或编码后存储到在线的正常的存储服务器节点上。存储访问接口平台分布式文件系统提供符合POSIX规范的文件系统访问接口。支持Linux、Windows、MaxOS X等操作系统平台。可将云存储系统提供的存储空间挂接为本地目录或本地盘符来使用。用户操作云存储空间和操作本地文件相同。另外平台提供专用的高速存取访问API接口,供性能要求很高的高端应用程序对接使用。管理监控中心管理监控中心为系统管理员配置和维护平台云存储资源管理系统的有效工具,充分体现了系统的可维护性。管理监控中心提供帐户管理、设备管理、系统监控、卷管理、告警管理、故障管理等功能。以下为部
27、分系统管理界面。设备管理系统监控告警信息告警配置告警日志故障处理卷管理帐户管理添加帐户Jobkeeper系统基本组成Jobkeeper的系统架构如下图所示:上图中对Jobkeeper进行了分层,对每层进行具体阐述虚拟化资源层:将机器进行虚拟化,形成更大范围的服务集群。存储层:存储数据的处理结果集或其他中间结果集的单元。数据处理层:独立的数据处理程序,是对不同需求数据的统一处理方案,由JobKeeper调度平台进行统一的配置管理。业务层:对于应用层的相关功能的业务化,数字化处理,用于将应用层的需求任务进行规则化划分,形成统一的处理化模式。应用层:一组用于管理和结果反馈的显示组件。是整个系统面向用
28、户和开发人员的基础承载。JobKeeper的任务分发流程如下图所示: JobKeeper任务分发流程图当用户在应用层下发任务给管理节点,管理节点调度机器采集机器节点的信息,根据具体的算法选取最优节点并分发任务,接下来具体的处理节点接收到任务并处理同时将结果返回给管理节点,管理节点整理汇总处理结果,而后返回给应用层。服务器节点组:负责对处理节点的系统信息以及任务处理信息进行实时的跟踪和保存,对应的信息镜像存储在基于平台或者NFS服务的存储系统上。处理节点组:通过RPC的远程调用获取各自节点的任务处理目标,并实时的和处理节点上的任务处理目标进行对比,控制程序的执行和结束。处理节点组会在一个设定的心
29、跳间隔内主动的和管理节点组联系一次,报告节点存活状态。系统安全性设计安全保障体系框架NSA提出的信息安全保障技术框架(IATF),如下图所示。IATF依据“深度防护战略”理论,要求从整体、过程的角度看待信息安全问题,强调人、技术、操作这三个核心原则,关注四个层次的安全保障:保护网络和基础设施、保护边界、保护计算环境、支撑基础设施。 图表 基于深度防护战略的IATF模型IATF模型从深度防护战略出发,强调人、技术和操作三个要素:人:人是信息的主体,是信息系统的拥有者、管理者和使用者,是信息保障体系的核心,是第一位的要素,同时也是最脆弱的。正是基于这样的认识,安全组织和安全管理在安全保障体系中是第
30、一位的,要建设信息安全保障体系,首先必须建立安全组织和安全管理,包括组织管理、技术管理和操作管理等多个方面。技术:技术是实现信息安全保障的重要手段,信息安全保障体系所应具备的各项安全服务就是通过技术机制来实现的。当然IATF所指的技术是防护、检测、响应、恢复并重的、动态的技术体系。操作:也可称之“运行”,它体现了安全保障体系的主动防御,如果说技术的构成是被动的,那操作和流程就是将各方面技术紧密结合在一起的主动过程,运行保障至少包括安全评估、入侵检测、安全审计、安全监控、响应恢复等内容。信息安全保障体系的实现就是通过建立安全组织、安全管理和防护技术体系,协调组织、技术、运作三者之间的关系,明确技
31、术实施和安全操作中技术人员的安全职责,从网络和基础设施、区域边界、计算环境、支撑基础设施等多层次保护,从而达到对安全风险的及时发现和有效控制,提高安全问题发生时的反应速度和恢复能力,增强网络与信息的整体安全保障能力。对于云计算安全参考模型,云安全联盟CSA(Cloud Security Alliance)提出了基于3种基本云服务的层次性及其依赖关系的安全参考模型,并实现了从云服务模型到安全控制模型的映射。该模型显示PaaS位于IaaS之上,SaaS位于PaaS之上。该模型的重要特点是供应商所在的等级越低,云服务用户所要承担的安全能力和管理职责就越多。 根据资源或服务的管理权、所有权和资源物理位
32、置的不同,CSA也给出了不同的云部署模型的可能实现方式及其不同部署模式下共享云服务的消费者之间的信任关系,如下图所示。图表 云部署模型的实现此图显示,对于私有云和社区云,有多种实现方式,可以和公共云一样,由第三方拥有和管理并提供场外服务(off-premises),所不同的是共享云服务的消费者群体之间具有信任关系,局限于组织内部和可信任的群体之间。 对于每一种云部署实现方式,都可以提供3种基本的云服务。云部署实现的不同方式和基本云服务的组合构成不同的云服务消费模式。结合云服务安全参考模型,可以确定不同的云服务消费模式下供应商和用户的安全控制范围和责任,用户评估和比较不同云服务消费模式的风险及现
33、有安全控制与要求的安全控制之间的差距,做出合理的决策。云计算平台的多级信任保护云计算可信平台实现系统平台(计算环境)认证、应用系统完整性认证、分布式资源信任认证和用户身份认证4个层次。多层信任保护的具体结构如下图所示。图表 多级信任保护在上图中,平台认证是基础,为其他3种认证提供一个可靠的计算环境。平台认证、应用认证、资源认证和用户认证都通过统一的证书机制来实现。(1)云平台信任保护由于TPM(trust platform module)规范能够支持现有的公钥基础设施,并且TPM内部的认证密钥和64位物理唯一序列号都能很好地实现自身和平台的绑定。因此可信平台之间的信任关系可以借助基于可信第三方
34、的证书机制来保障。即每一个节点将能够代表自身特征的关键信息以可靠地方式提交到可信第三方(如CA中心),可信第三方在核实这些数据的真实性和完整性后对其签名,并为其颁发一个平台证书。此后,该平台在和其他平台通信时可以出示该证书,以表明自己的合法身份。平台在向可信第三方提交平台信息和验证其他平台证书合法性时,都需要借助TPM的硬件支持。在下图所示的实例中,云平台A和B都从证书颁发中心获得自己的平台证书。当B请求与A建立连接并向A出示自己的证书后,A借助TPM验证B出示的证书的有效性。图表 基于可信第三方的平台认证为了确保云端用户访问云平台的可信性,并确保远程节点具有期望的完全保障条件,基于可信计算平
35、台的多级信任保护方法构造包含下表中各种主要因素的平台证书。数据名称数据类型数据说明Cert_NumChar证书编号Cert_TypeShort证书类型Cert_DistributeTimeByte20颁发时间Cert_LimitTimeByte20有效期限TPM_IDByte8TPM序列号Hardware_CodeByte20平台硬件标识Software_CodeByte20平台软件标识SecureComponent_CodeByte20安全组织组件标识CA_SignatureByte128CA签名信息图表 主要因素平台证书在图中,TPM和端系统唯一绑定;硬件标识码代表了端系统中各种硬件设备的
36、完整性信息,包括CPU序列号、主板型号、硬盘序列号、内存容量等;软件标识码代表了端系统中包含操作系统版本、补丁、主要服务等软件完整性信息;安全组件标识码是各种安全组件的完整性度量结果,包括防火墙类型、安全补丁、防病毒软件名称等。为了获取这些数据的完整性度量结果,采用Hash函数对系统中的硬件标识信息、软件版本信息或安全组件描述信息进行计算,得出一个代表该系统相关信息完整性的度量值。此处,选择SHA-1算法作为完整性度量函数。签名信息是可信第三方对证书内容的数字签名,签名信息的存在确保了证书的合法性和不可篡改性。(2)应用信任保护有了云平台认证,用户就能断言远程协作者在确定的节点和环境中进行工作
37、。但在网络计算等复杂应用中,一个节点可能承载了多个应用系统、担负着多个计算任务。所以,需要确保单个应用系统不同部分间(如客户端和服务器端)的可信。Seshadri等人研究了代码的远程完整性验证方法。该方法从数据完整性的角度解决了授权执行的远程应用的可信性。借鉴他的思想,采用认证应用系统中进程完整性的办法对应用系统进行信任保护。即端系统控制各个应用的进程,只有通过完整性认证并授权执行的进程才能被启动。为此,系统为每个重要的分布式应用定义若干个进行完整性证书,证书的主要内容如下表所示。数据名称数据类型数据说明Process_IDByte20进程IDProcess_IntegrityByte20完整
38、性度量值TPM_SignByte20TPM签名信息在图中,进程完整性度量值是采用单向散列函数对进程代码进行计算后得出的值。进程完整性证书中。进程完整性认证可以确保远程协作进程的可信性,一定程度上降低病毒和木马进行插入攻击的风险。(3)资源信任保护多级信任保护方法仍然采用证书机制实现对资源的信任保护,即端系统基于TPM给平台中共享的网络资源颁发完整性证书并签名。其他对等的端系统需要访问该资源时,可以验证该证书的合法性并从证书中获悉资源的完整性度量数据。由于采用单向散列函数计算出的资源完整性度量值能够代表该资源的可信性,因此远程用户可以据此决定是否访问该网络资源。考虑单纯采用单向散列函数计算资源的
39、完整性消耗的时间过长,实际实现时根据资源可信要求的不同采取了一些灵活的措施。如一些可信要求不高的资源文件,只针对资源文件的基本属性或按样条规则抽出部分数据进行完整性度量;资源完整性证书的主要数据成员如下表所示。数据名称数据类型数据说明Process_IDByte20资源标识IDProcess_IntegrityByte20资源完整性信息TPM_SignByte20TPM签名信息(4)用户信任保护用户信任保护的需求在现有分布式应用中已经普遍存在,但现有基于身份认证的用户信任保护方法仅仅针对用户实体进行认证,无法将用户实体和计算环境以及用户的物理存在性联系起来。基于可信平台的多级信任保护方法在系统
40、平台认证和应用认证的基础上进一步进行用户身份认证,从而能够将系统中的用户锁定到具体的计算平台和具体的应用系统。多级信任保护方法中的用户身份证书的主要数据成员如下表所示。数据名称数据类型数据说明User_IDByte16用户IDApplication_IDByte16应用IDPlatform_IDByte16平台IDApp_SignByte16应用签名TPM_SignByte16TPM签名在上表中,用户ID是系统中用户的惟一标识,可以使用用户编号(用户名称)或者用户拥有的智能卡(SKEY)的序列号;所属应用ID是用户所属应用的惟一标识,可以使用应用的完整性度量值来代替(单进程应用可以使用进程的完
41、整性数据代替,多进程应用可以将各个进程完整性度量数据拼接后,计算出新的整个应用的完整性度量数据);平台ID是创建该用户的端系统标识,可以使用和平台绑定的TPM的惟一序列号。基于多级信任保护的访问控制用户管理与权限控制子系统的接口关系如下图所示,各模块间接口关系如下:身份服务模块在用户提交进入系统的申请后向身份管理系统模块提交用户信息和身份申请;身份管理系统模块在确认用户信息后将身份管理指令和身份信息反馈至身份服务模块;认证服务模块对用户身份进行验证,确认用户合法性;访问控制模块接收用户的授权请求后,向授权管理系统模块提交用户授权和相关信息;授权管理系统模块根据用户信息(如用户所对应角色、所在安
42、全域等)为用户分配相应的权限或回收相应权限将结果反馈给访问控制模块;访问控制模块得到用户的权限信息后根据信息的内容和用户请求执行需要的具体操作。数据隔离、数据校验(防篡改)、数据加密和数据保护模块提供对存储数据的安全保护。图表 云存储安全子系统接口关系图在云平台中,用户有不同的访问权限,针对不同权限的用户可以设定不同等级的操作。同时存储在底层资源池中的资源也同样划分为不同的安全等级,不同等级的资源,访问途径是不相同的。本项目提出了基于可信平台的多级信任保护方法,其主要目标是能够认证访问云平台的应用(进程)、资源和用户的可信性,从而能够非常方便地服务于多级访问控制技术,为其提供良好的基础。简单地
43、,可以将系统中的资源按可信性需求程度分为高、中和低3个等级。资源的可信要求越高,对访问该资源的用户的可信性也要求越高。具体流程如下图所示:图表 基于多级信任保护的多级访问控制流程为了更好的保护虚拟资源池的数据安全,首先要建立一个可信的资源访问控制,可以利用网闸和访问控制器建立一套监控机制,对访问资源池的请求进行监督,只允许外部连接通过专用的协议进行访问,而对其它非可信的访问一律拒绝,以防止恶意的非法入侵和攻击,包括漏洞攻击、DDoS攻击和带宽攻击等,建立一个数据安全交换平台,如下图所示。图表 数据安全交换平台具体实现方式包括:会话终止:请求端通过网闸与资源池建立连接时,网闸的对外网络接口会通过
44、模拟应用的服务器端,终止网络之间的会话连接,这样可确保在不可信和可信网络之间没有一条激活的会话连接;协议安全检查:对来自连接的数据包进行基于内部RFC的协议分析,也可以对某些协议进行动态分析,检查是否有攻击成分;数据抽取和内部封装:在协议检查同时,将协议分析后的数据包中的数据提取出来,然后将数据和安全协议一起通过特定的格式压缩、数据封装转化成网闸另一端能接受的格式;基于安全策略的决策审查:安全策略决策是运行在访问控制器上,由系统管理员定义。它分析外部来的数据,主要是源地址、目的地址以及协议等信息,并且和规则库进行匹配,看是否允许通过或丢弃;编码与解码:对静态的数据块进行编码,编码是相对复杂而且
45、基于随机关键字的。一旦编码,则打乱了数据或命令的原有格式,使数据中可能携带的可执行恶意代码失效,阻止恶意程序执行。一旦数据经过了内容检测且确认是安全的,它就被解码,准备发送到内部网络;会话生成内部服务器模拟应用的客户端,将经检测过的数据发送到内部网络,和内部网络上真正的应用服务器建立一个新的连接,接着生成符合RFC协议的新通信包。同时,通过外部集成入侵检测系统IDS,对网络通信进行安全审计,及时发现和追踪各类非法连接行为;通过外部集成的负载均衡设备,为访问用户提供虚拟IP地址,保证物理机器对用户不可见,避免非法用户对真实物理机的直接访问,避免对物理机的可能操作动作。云平台安全审计云平台安全审计
46、任务由分布于网络各处的功能单元协作完成,这些单元还能在更高层次结构上进一步扩展,从而能够适应网络规模的扩大。云安全审计体系结构如下图所示。图表 云存储安全审计体系结构它由三部分组成:主机代理模块:在受监视系统中作为后台进程运行的审计信息收集模块。主要目的是收集主机上与安全相关的事件信息,并将数据传送给中央管理者。局域网监视器代理模块:主要分析局域网通讯流量,根据需要将结果报告给中央管理者。中央管理者模块:接收包括来自局域网监视器和主机代理的数据和报告,控制整个系统的通信信息,对接收到的数据进行分析。在云安全审计体系结构中,代理截获审计收集系统生成的审计记录,应用过滤器去掉与安全无关的记录,然后
47、将这些记录转化成一种标准格式以实现互操作。然后,代理中的分析模块分析记录,并与该用户的历史映像相比较,当检测出异常时,向中央管理者报警。局域网监视器代理审计主机与主机之间的连接以及使用的服务和通讯量的大小,以查找出显著的事件,如网络负载的突然改变、安全相关服务的使用等。对于安全审计系统来说,数据源可以分为三类:基于主机、基于目标、基于网络,下面分别对每类来源进行论述。(1)基于主机的数据源基于主机(包括虚拟机)的数据有以下四类:操作系统日志、系统日志、应用日志和基于目标的信息。(2)基于目标的数据源评估出系统中关键的或是有特殊价值的对象,针对每一个对象制定信息收集和监视机制,该对象即为审计的目
48、标;对于审计目标的每一次状态转变,与系统的安全策略进行比较,所出现的任何异常都进行记录或响应。最常见的基于目标的审计技术是完整性校验,其审计对象多为文件。采用消息摘要算法,计算需要保护的系统对象(如关键文件)的校验值,并存储在安全区域。周期性地对目标进行检查,可以发现目标是否被改变,从而提供一定级别的保护。(3)基于网络的数据源网络数据源的基本原理是:当网络数据流在网段中传播时,采用特殊的数据提取技术,收取网络中传输的数据,作为安全审计系统的数据源。在计算机网络系统中,局域网普遍采用的是基于广播机制的IEEE 802.3协议,即以太网(Ethernet)协议。该协议保证传输的数据包能被同一冲突
49、域内的所有主机接收,基于网络的安全审计正是利用了以太网的这一特性。安全审计方法描述:为系统描述方便,用T表示安全服务器,与外部网络隔离,它的通信安全性可由各种方法实现,如抵赖的令牌、VPN安全信道、SSL安全信道等,如内部网络中的安全服务器、安全的电子证据收集设备或安全的中央服务器等;用U表示不安全的系统,容易受到攻击却记录着日志的计算机系统,它在物理位置上并不安全,也就是说它是接入网络的,也没有有效的防御措施来确保不被攻击者控制,如个人PC、防火墙、入侵检测系统或其它应用系统等;用V表示某些授权用户使用的计算机,安全性介于U和T之间,它能被信任查看某些日志记录,但不能修改记录,也就是说并不支
50、持所有的操作,如内部工作站等。本系统创建新的安全日志文件时,由U随机产生初始认证密钥,并由安全信道发送到T保存。U产生原始日志信息,通过多种加密的标准工具对原始日志的每条记录进行保护后写入安全审计日志文件中,并定期将安全审计日志文件备份到T中保存。安全审计时,T发送认证码给V,指定V查看或审计U和T中的日志文件的部分日志记录,也可由T直接对U中的日志文件进行安全审计,出现可疑信息时与T中的备份日志数据进行比较,发现确实不一致的则可初步判断U可能遭受攻击。安全日志审计系统结构如下图所示。图表 安全日志审计系统结构图U开始创建日志文件时与安全的认证系统T共享一个密钥,用这个密钥创建日志文件。对于分
51、布式安全审计系统的具体实现来说,应用Agent技术是一个较好的解决方案,该技术已经在一些实际的安全审计系统中得到了应用。Agent最早起源于人工智能,现广泛地应用于人工智能、网络管理、软件工程等领域。我们将Agent(代理)定义为“一个自治的实体,它能够感知环境,并且对外界的信息做出判断和推理,来控制自己的决策和行动,以便完成一定的任务”。基于Agent的安全审计系统是将Agent分布于系统的关键点上,包括提供各项服务的服务器、重要的工作站、内部网关和防火墙上,完成大部分安全审计和响应任务。由于代理本身具有自治性,可以针对特定的应用环境编程和配置,使得代理占用系统资源最小;在将代理放入具体复杂
52、环境前可以对它进行独立测试;同时通过Agent间的有限交互(包括数据和控制信息),可以获得更复杂的信息,有利于解决网络中的协作入侵活动。安全审计中Agent通过探查所在的系统的日志文件,捕获网络数据包或其他的信息源获取数据。 此外,将审计任务分配到多台计算机上有利于减少监控计算机的负荷,而且能提高系统的处理速度和效率,提高系统的实时性;最后,Agent可以自动升级,而且对系统的其他部分保持透明。工作机制数据写入机制数据写入过程参考下图:客户端向元数据服务器请求写入文件数据,元数据服务器返回写入服务器列表;客户端进行文件切块写入有块数据服务器;客户端每写入一定量的块数据后,通知元数据服务器,由元
53、数据服务器启动一个编码任务,进行编码;而客户端继续写数据,真到写完成为止;元数据服务器调度一个或多个块数据服务器进行编码任务;被调度的块数据服务器,获取需要的原始信息块组进行编码,产生冗余数据块;数据读出机制数据读出过程参考下图:客户端向元数据服务器请求读出文件数据,元数据服务器返回数据块位置列表;客户端进行数据块读出;客户端进行数据块校验;对未能读出的数据块或无效块通过同编码组内其它数据块进行解码,获得完整正解的文件数据。关键技术负载自动均衡技术云存储系统采用中心服务器模式来管理整个云存储文件系统,所有元数据均保存在主管理服务器上,文件则划分为多个节点存储在不同的节点服务器上。主卷管理服务器
54、维护了一个统一的命名空间,同时掌握整个系统内节点服务器的使用情况,当客户端向元数据服务器发送数据读写的请求时,元数据服务器根据节点服务器的磁盘使用情况、网络负担等情况,选择负担最轻的节点服务器对外提供服务,自动均衡负载负担。另外,当某有一个节点服务器因为机器故障或者其他原因造成离线时,主卷管理服务器会将此机器自动屏蔽掉,不再将此节点服务器提供给客户端使用,同时存储在此节点服务器上的数据也会自动的编码冗余到其他可用的节点服务器上,自动屏蔽节点服务器故障对系统的影响。高速并发访问技术客户端在访问云存储时,首先访问主卷管理服务器节点,获取将要与之进行交互的节点服务器信息,然后直接访问这些节点服务器完
55、成数据存取。客户端与主卷管理服务器之间只有控制流,而无数据流,这样就极大地降低了主卷管理服务器的负载,使之不成为系统性能的一个瓶颈。客户端与节点服务器之间直接传输数据流,同时由于文件被分成多个节点进行分布式存储,客户端可以同时访问多个节点服务器,从而使得整个系统的I/O高度并行,系统整体性能得到提高。通常情况下,系统的整体吞吐率与节点服务器的数量呈正比。高可靠性保证技术云存储系统对于元数据,通过操作日志来提供容错功能,当主管理服务器发生故障时,在磁盘数据保存完好的情况下,可以迅速恢复以上元数据。为了防止主管理服务器彻底死机的情况,还提供了主管理服务器远程的实时备份,这样在当前的主管理服务器出现
56、故障无法工作的时候,另外一台备管理服务器可以迅速接替其工作。对于节点服务器,采用编解码的方式实现容错,分布存储在不同的节点服务器上。数据块的分布策略考虑了多种因素,如网络的拓扑、机架的分布、磁盘的利用率等。在其后的过程中,如果相关的数据块出现丢失或不可恢复等状况,主管理服务器会自动将该数据块编解码冗余到其他节点服务器,从而确保数据块的一定的冗余容错,进行自动冗余容错重建。在有多个节点服务器的情况下,任意损失一个节点,数据都不会丢失,而且随着节点服务器数目的增多,整个系统的可靠性越大。高可用技术云存储系统中的所有服务节点均是通过网络连接在一起,由于采用了高可靠的容错机制,系统增减节点不必停止服务,可在线增减存储节点,存储节点和元数据节点间通过注册管理机制自适应管理,实现自动伸缩。元数据服务器采用主备双机热备技术,主机故障,备机自动接替其工作,对外服务不停止;存储节点采用编解码冗余备份机制,如采用4:2编码容错,任意损失两个节点,数据不丢失,服
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 21715.1-2025健康信息学患者健康卡数据第1部分:总体结构
- 内保民警培训课件
- 药店药品追回管理制度试题(3篇)
- 试验模型管理制度和流程(3篇)
- 金融市场管理制度(3篇)
- 食堂管理制度样式图片卡通(3篇)
- 2026年及未来5年市场数据中国在线餐饮外卖行业发展监测及发展趋势预测报告
- 养老院入住资格审查制度
- 企业员工培训与职业发展策略制度
- 企业内部审计制度
- 集团债权诉讼管理办法
- 上海物业消防改造方案
- 钢结构施工进度计划及措施
- 供应商信息安全管理制度
- 智慧健康养老服务与管理专业教学标准(高等职业教育专科)2025修订
- 2025年农业机械化智能化技术在农业防灾减灾中的应用报告
- 发展与安全统筹策略研究
- 移动式压力容器安全技术监察规程(TSG R0005-2011)
- 2025年广东省惠州市惠城区中考一模英语试题(含答案无听力原文及音频)
- 征兵体检超声诊断
- 云南省大理白族自治州2025届高三上学期二模考试 英语 含解析
评论
0/150
提交评论