版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据中心建设方案
信息技术有限公司
目录
第1章方案概述...............................................................3
1.1.建设背景...............................................................3
1.2.当前现状...............................................................4
1.3.建设目标...............................................................6
第2章方案设计原则...........................................................7
2.1.设计原则...............................................................7
2.2.设计依据...............................................................9
第3章数据中心方案架构.........................................................10
3.1数据中心架构设计.......................................................10
3.2大数据处理设计.........................................................16
3.3大数据存储设计.........................................................24
3.4安全设计................................................................26
3.5平台搭建实施步骤.......................................................31
3.6物理架构设计............................................................31
第4章数据中心网络方案组成....................................................34
4.1.防火墙设计............................................................34
4.2.接入层设计............................................................35
4.3.网络拓扑..............................................................35
第5章数据中心基础设施方案组成................................................36
5.1.机柜系统设计..........................................................37
5.2.制冷系统设计..........................................................39
5.3.供配电系统设计.......................................................43
5.4.模块监控系统设计.....................................................47
第6章运维方案.................................................................53
6.1.技术和售后服务........................................................53
6.2.售后服务项目..........................................................53
6.3.售后服务项目内容.....................................................53
第1章方案概述
“百年大计,教育为本〃,教育行业是我国经济发展的关键命脉之一,伴随
着数据集中在教育业信息化的逐渐展开,数据中心在企业和信息化的地位越来越
重要。教育数据中心建设已成为教育机构信息化趋势下的必然产物。教育数据中
心作为承载教育机构业务的重要IT基础设施,承担着教育机构稳定运行和业务
创新的重任。在教育机构新型客户服务模式下,数据中心需要更高效地支持后台
业务和信息共享需求,同时要24小时不间断的提供服务,支持多种服务手段。
这对教育数据中心的资源整合,全面安全,高效管理和业务连续性提出更高的要
求。
此数据中心建设方案主要对数据中心的基础设施和网络规划部分提出整体
建议,保证数据中心的高性能、安全、可靠,从而使数据中心能承载更多高品质
的业务。
1.1.建设背景
自从出现数字化教育以来,数据中心作为数字化交易的核心,被各个教育系
统广泛采用。目前Ia着教育电子化的推广,客户市场细分的深入,教育产品设计
的专业化,以及对于教育系统安全性的要求。教育系统的数据中心需要更强大的
运算能力,更多的存储空间,更安全可靠的规划和设计。不仅如此,教育系统相
比其他行业的数据中心有其自身特有的特点和要求。教育行业数据中心的非常重
要的一点就是安全和可靠。因为哪怕是短时间的网络瘫痪也会造成非常广泛和严
重的后果。这对教育数据中心的资源整合,全面安全,高效管理和业务连续性提
出更高的要求。所以教育行业数据中心产品和方案的应用必须采用更高等级的产
品和整体设计方案,以满足对于系统安全性的要求。
从数据大集中到多业务整合,教育行业的数据中心建设正围绕着业务发展的
需要迅速展。教育基础设施的建设很重要的一个环节就是教育数据中心的建设。
教育数据中心工程不仅集建筑、电气、安装、网络等多个专业技术于一体,更需
要丰富的工程实施和管理经验。教育数据中心设计与施工的优劣直接关系到数据
中心内计算机系统是否能稳定可靠地运行,是否能保证各类信息通讯畅通无阻。
由于教育数据中心的环境必须满足计算机等各种数据,以达到反愦信息和处理问
题的功效。特别是要将需要解决电池放电状态和旁路运行状态的监控管理问趣等
重要信息发到主要负责人的手机上,以便能随时掌握信息,对一些天气灾害停电
而有应急预案。
1.2.当前现状
随着业务的发展,数据中心的问题与日俱增,数据中心所面临的压力和挑战
也越来越大:业务的不断调整和改变让数据中心总体架构面临极大的压力、有限
的物理空间让数据中心扩展性和灵活性有所限制、虚拟化的欠缺让数据中心资源
调配能力有限、复杂多变的异构环境让数据中心管理效率异常低下、高居不下的
耗电量让数据中心能源成本迅速上升。这些问题与挑战让数据中心管理者迫切需
要对数据中心进行整合和升级。通过有效的整合让传统数据中心升级成为一个智
能化、自动化、高效化的数据中心。当前数据中心面临的问题:
•可靠性问题
供电可靠性是数据中心安全性的重要保障,随着以信息技术为支撑的新业务
的不断涌现,教育行业数据中心对供电可靠性的要求大大提升。在数据中心领域,
动力平台的可用性指标分别高于数据中心的可用性指标和整个网络系统的可用
性指标,因此,对动力平台的关注理应放到最核心的位置。比如服务器电源的冗
余方式发生了变化,供电系统就应当做出相应改变。刀片服务器以及虚拟化的应
用,使高热密度问题凸显数据中心环境更加恶劣,制冷模式就也需要做出改变。
•节能降耗问题
数据中心建设的加速,导致的最直接后果就是能源消耗量的急剧攀升。在当
前全球能源紧张的大背景下,节能降耗是整个数据中心行业的大趋势。对于企业
本身而言,能耗的急剧增长大大提升了数据中心的运行成本,数据中心的节能和
能效改善已成为整个行业的迫切要求。
•管理与维护问题
数据中心是一个庞大而复杂的系统,这些系统是一个有机的整体,牵一发而
动全身,数据中心可靠性的发挥有赖于每个设备的正就运行,有赖于这些设备的
协调一致,任何一个环节出现故障,都有可能造成巨大损失。因此,对整个系统
的管理越来越重要,而难度也越来越大。
•扩容问题
随着业务■的不断扩大,教育行业IT应用系统日益增长,服务器规模变得
日益庞大,带来了高能耗、数据中心空间紧张、IT预算紧张等问题。同时,数
据中心动力平台的匹配性却不够,要么利用率低,资源浪费严重;要么供电与制
冷明显不足,影响数据中心可用性。简言之,动力系统对核心设备供电或者制冷
需求的反映不够灵敏。
针对上述问题,技术有限公司推出了创新型的数据中心解决方案。该解决方
案具有高可用性、高节能性、高灵活性、高可维护性等四大特点,能够帮助教育
行业客户解决数据中心建设与应用的难题,满足教育企业在信息化过程中对数据
中心动力安全、节能环保等方面日益增长的应用需求。
1.3.建设目标
数据中心建设应达成以下目标:
高可用一数据中心的高可用直接影响到业务系统的可用性,高可用至少包括
高可靠、高安全和先进性三个方面:
♦高可靠:应采用高可靠的产品和技术,充分考虑系统的应变能力、容错
能力和纠错能力,确保整个基础设施运行稳定、可靠。当今,关键业务
应用的可用性与性能要求比任何时候都更为重要。
♦高安全:基础设计的安全性,涉及到核心数据安全。应按照端到端访问
安全、网络分层安全两个维度对安全体系进行设计规划,采用软硬件安
全设备,从局部安全、全局安全到智能安全,将安全理念渗透到整个数
据中心网络中。
♦先进性:数据中心将长期支撑企业的业务发展,数据中心建设需要考虑
后续的机会成本,采用主流的、先进的技术和产品,建立高性能,大容
・存储的数据中心。
♦易扩展一着信息化的发展,企业内通信网络的建立和全面覆盖,未来
的业务范围会更多更广,业务系调整与扩展再所难免,因此数据中心必
须能够适应业务系统的频繁调整,同时在性能上应至少能够满足未来
5~10年的业务发展。对于设备的选择和协议的部署,应遵循业界标准,
保证良好的互通性和互操作性,支持业务的快速部署。
♦易管理一数据中心是IT技术最为密集的地方,数据中心的设备繁多,各
种协议和应用部署越来越复杂,对运维人员的要求也越来越高,单独依
赖运维人员个人的技术能力和业务能力是无法保证业务运行的持续性的。
因此数据中心需要提供完善的运维管理平台,对数据中心IT资源进行全
局掌控,减少日常的运维的人为故障。同时一旦出现故障,能够借助工
具直观、快速定位。
第2章方案设计原则
2.1.设计原则
根据“先进、实用、稳定、可靠”的总原则,对云数据中心软硬件系统进行
科学合理的设计,保证中心建设的胜利完成。
数据中心工程是智能弱电工程的重要组成部分。其基本要求可归纳为:保证
系统运行的可靠性、保证系统的设计寿命、保证信息安全的要求、保证操作人员
的工作环境。
设计一个好的数据中心,要以兼顾人机并重之原则,一个合格的现代化计算
机数据中心,应该是一个安全可靠、舒适实用、节能高效和具有可扩充性的数据
中心,设计应以运行条件、安全可靠作为首要的考虑因素。因此对数据中心建设
要求遵循以下设计原则:
1.高安全可靠性
为保证数据中心能为用户提供连续不间断的7x24小时服务,数据中心必须
具有高可靠性。在系统设计时应注意尽■减少单点故障的存在,对存在单点故障
的环节,在设计上必须减少其对整个系统的影响。
由于该数据中心内部计算机系统涉及到机密信息,其泄密可能严重危害社会
秩序,所以需要保证数据中心的安全性,必须具有安保系统以保证用户的设备和
数据不受侵害。实现高安全性的措施包括:闭路电视监测、门禁系统、自动安全
报警系统等。
中心软硬件系统要高度可靠,虚拟机出现故障要能自动迁移,数据要有冗余
备份,可以从故障中及时恢复。。
2.可扩展性
鉴于信息网络系统需求的不断发展与变化,技术也在不断提高,故在建设时
应考虑这些变化对资源需求的改变,以使整个系统具有灵活的可扩展性,特别是
精密空调、配电开关及配电柜、UPS及供电母线等。
中心的服务器、存储、网络都可以不用停机就线性扩容服务器、存储、网络
等设备。
3.易于管理
通过使用先进和可靠的管理工具来实现系统的高质量管理,以节约人力资
源。由于数据中心内设备繁多,具有一定复杂性,随着业务的不断发展,管理的
任务必定会日益繁重。所以在设计时,必须建立一套完善的数据中心管理和监控
系统。实时监控、监测整个数据中心的运行状况、语音报警,实时事件记录,可
以迅速确定故障,提高可靠性,简化数据中心管理人员的维护工作。
中心的资源池支持方便灵活地管理维护和审计。
4.高性能价格比
数据中心所需设备的选型应该以适用为主,合理选择材料与设备;不要造成
资源浪费;同时也要保证该数据中心的高可靠性。以较高的性能价格比设计数据
中心,能以较低的成本、较少的人员投入来维持系统运转,提供高效能与高效益。
中心的软硬件设旅选择合理,具有高性价比。
2.2.设计依据
《电子计算机数据中心设计规范》GB50174-93
《计算机场地技术条件》GB2287-89
《计算机场地安全要求》GB9361-88
《计算机机房活动地板技术条件》GB6650-86
《建筑物防雷设计规范》GB50057-94
《高层民用建筑设计防火规范》GBJ45
《电子计算机机房施工及验收规范》SJ/T30003-93
《建筑防火设计规范》GB5004-95
《空调与通风工程施工及验收规范》GB50243-97
《建筑与建筑群综合布线系统工程设计规范》GB/T50311-2000
《建筑与建筑群综合布线系统工程验收规范》GB/T50312-2000
《中华人民共和国通信行业标准》YD-T9261,2、3
《国际综合布线标准》TIA/EIA568-B
《供配电系统设计规范》GB50052-92
《火灾自动报警系统设计规范》GBJ116-98
《工业企业通信接地设计规范》GBJ79-85
《高性能屏藏室屏蔽效能的测■方法》GB12190
第3章数据中心方案架构
3.1数据中心架构设计
云计算数据中心通过运行在单独的服务器上的云操作系统对服务器、存储、
网络等资源进行虚拟化管理,提供可以自定义的虚拟机,在虚拟机上安装
Hadoop,hbase等Nosql分布式数据库集群,对现有的数据ETL采集、清洗、
转换、汇总进来,使用海量数据分布存储技术,用spark,storm等大数据处理
软件对hbase中的数据进行分析处理,挖掘数据价值。还可以在虚拟机上运行
业务应用系统,提供负载均衡和冗余备份,达到系统的稳定、高可用和方便的扩
展性。
通过安装SSR等安全软件和安全服务器,可以保证提升操作系统的安全级别,
从而达到国家等级保护的三级要求,为客户构建真正的安全长城。
云计算数据中心可以自动管理和动态分配、部署、配,、重新配量以及回收
资源,也可以自动安装软件和应用,具有良好的弹性和灵活性,管理、使用方便。
云中心可以向用户提供虚拟基础架构。用户可以自己定义虚拟基础架构的构成,
如服务器配量、数・,存储类型和大小等等。用户通过自服务界面提交请求,每
个请求的生命周期由平台维护。
服务器虚拟化系统基于服务器,存储和网络设备构建资源池,在资源池上通
过资源的管理、调度和镜像管理实现系统的各种高级功能,例如计算层面的系统
负载均衡和虚拟机高可用,存储层面的镜像复制和冗余。系统支持以主机或者虚
拟群集为单位管理资源,虚拟群集为一组共享存储资源的物理主机。
云中心既是一个企业云,也可以对外提供服务,扩展成公有云。学校还可以
使用别的公有云如阿里云,形成混合云。
云业务
云计算
基础服务
监控&告警语型迁存品份&恢复安全&审计
虚报化—源池I
物理◎中等国命
基础架构
福安机架服务督刀片系段布・为段阿站系段安全不接
云中心包括iaas、paasvsaas三层服务:
1)SaaS提供给客户的服务是运营商运行在云计算基础设施上的应用程序,
用户可以在各种设备上通过客户端界面访问,如浏览器。消费者不需要管理或控
制任何云计算基础设施,包括网络、服务器、操作系统、存储等等;
2).PaaS:提供给消费者的服务是把客户采用提供的开发语言和工具(例如
Java,python,.Net等)开发的或收购的应用程序部署到供应商的云计算基础设
施上去。客户不需要管理或控制底层的云基础设施,包括网络、服务器、操作系
统、存储等,但客户能控制部署的应用程序,也可能控制运行应用程序的托管环
境配置;可以使用docker容器完成应用系统的部署和管理。
3).laaS:提供给消费者的服务是对所有计算基础设施的利用,包括处理
CPU、内存、存储、网络和其它基本的计算资源,用户能够部署和运行任意软
件,包括操作系统和应用程序。消费者不管理或控制任何云计算基础设施,但能
控制操作系统的选择、存储空间、部詈的应用,也有可能获得有限制的网络组件
(例如路由器、,防火墙,、负载均衡器等)的控制。
云中心采用xen、kvrrivVMware进行虚拟化,LXC提供Linux容器,支持
docker应用容器。
安全保I*体系应用功帔*舞(SAAS)
——a][-MM]
个人云♦男I.;企H务改务E•努
gQSBQBBIBl
-.服务器采用浪潮整机柜服务器SmartRack,面向海■数据的存储和处理,
造合云资源池如虚拟化、分布式存储,大数据处理如Hadoop集群等应用,目前
在国内服务器中占主导地位,特点如下:
定位多种应用,支持各类服务器节点。
针对不同业务对存储、计算、10吞吐・、功耗的不同要求,设计开发出不同
种类的服务器节点,包括:1U全宽双路12盘位综合型节点、1U全宽单路18
盘位冷存储节点、1U半宽双路计算型节点,满足不同需求。
整机柜集中供电、集中散热,相比其他架构服务器,运行功耗降低10%以上。
整机柜由一组电源模块集中供电,最大输出功率高达22.5kw,直接支持交
流或高压直流供电,各节点通过铜排从电源模块取电,结合电源负载动态调整技
术,电源转换效率高达94%以上。
机柜背部风扇墙集中散热,根据节点数量灵活调节风扇墙高度,采用140mm
大尺寸风扇,相同功耗下可提供更大散热量。
领先的架构设计,保障系统高可靠运行。
服务器节点中无独立的电源和风扇,有效降低单点故障。
根据整机柜实际负载情况,电源可实现N+N/N+2/N+1多种冗余方式。
风扇可根据温度状况自动调节转速,支持2+1冗余。
对整机柜节点、电源、风扇进行集中监控管理。
实现管理中心RMC对整个机柜各模块的统一监控和管理,节点、电源、风
扇的健康状况、温度、配置信息一目了然,还可进行批■开关机、重启,功耗控
制,风扇转速自动/手动调节等功能,搭配专为SmartRack设计的可视化管理软
件,轻松实现简易化智能管理。
简易维护,无需繁琐拆装。
独有节点前维护设计、各模组免工具热插拔设计、优化的线缆走线设计,使
得系统运维难度大大降低。风扇等易损部件全部裸露在外,更加方便更换维护。
-,云操作系统建议采用浪潮云海•云数据中心操作系统V3.0,此系统秉承开
放化、模块化、标准化的设计理念,基于虚拟化技术,实现了数据中心资源融合、
资源管理及服务交付,简化了云数据中心运维,提高了云数据中心服务水平。云
海•云数据中心操作系统有以下特点:
自主可控、安全可靠的云数据中心操作系统:
浪潮自主研发的国产云数据中心操作系统,加强了WEB安全、虚拟化安全、
数据安全、访问控制、安全审计等方面的安全控制,可帮助用户构建安全可控的
云数据中心。
异构资源管理:
云海OS支持对数据中心各类异构硬件设备及软件资源的统一管理;支持
对VMWarevSphere、Inspu门Virtual等异构虚拟化资源池的集中管理,已部署
的虚拟化环境可被云海OS无缝接管;
精细的软硬件资源监控:
云海OS支持对数据中心主流厂商的服务器、网络设备、存储设备等物理
资源,操作系统、数据库、WEB应用等软件资源,VMWarevSphere.Inspur
iVirtual等虚拟化环境的精细监控,提供界面、邮件、短信等多种告瞽方式,通
过详尽清晰的报表分析数据,帮助数据中心的运维人员随时掌握数据中心的各类
资源的运行状况,降低运维管理复杂度,提高运维效率。
快速的服务交付:
云海OS支持通过虚拟机模板、应用服务模板的方式,实现业务的快速交
付,业务上线时间由原来的几周、几天,缩短为几分钟,大大提高数据中心的服
务水平。
资源使用按量计费:
实时的资源使用情况统计,让用户精确掌控自身资源和费用使用情况,帮
助IT部门实现由成本中心向价值中心的角色转变。
资源按需服务:
云海OS可实现将基础架构作为服务交付,用户可通过自助服务门户在线
申请及访问自己的虚拟数据中心、应用服务、虚拟机等资源,实现资源的按需申
请、便捷获取、自助使用。
可定制的业务流程:
云海OS支持用户创建与原工作流程吻合的资源申请的审批流程,实现业
务流程的个性化、可定制化。
灵活的服务交付方式:
云海OS既支持从下到上的资源申请与审批,也支持从上到下的资源创建
与分配的服务交付方式,可满足不同客户对资源获取方式的不同需要。
多租户私有云:
云海OS可创建多个组织,一个组织可代表某业务部门、分部或子公司。
每个组织都有各自独立的虚拟数据中心、用户及独有的目录,可将蛆织资源分配
给本组蛆的用户,每个组织如同拥有自己的数据中心。利用基于权限的用户控制
机制和基于虚拟交换机的网络隔离技术,实现多租户环境下的安全性和可靠性,
以此构建安全的多租户私有云。
灵活可控的权限管理:
云海OS支持用户自定义角色类型,不同的权限可自由组合,实现灵活可
控的系统权限管理。
服务全生命周期管理:
云海OS涵盖服务提供所需的各个环节,包括服务的申请审批;服务的交
付和回收;服务的使用统计和计费;服务的运行监控
服务移动性:
通过vA即封装多个虚拟机服务和相关的网络连接策略,遵循OVF等开放
式标准,实现同一个云环境的终端用户彼此之间可以轻松共享服务,而不同的云
环境的用户可以轻松的在云之间迁移服务。
3.2大数据处理设计
通过在虚拟机上安装Hadoop2.6、hbasel.O等Nosql数据库集群,用
sqoop1.3把现有的数据汇总进来,要对现有数据做个总的分析,对字段统一定
义规划,制定转换策略,做到正确性、唯一性、可用性,去除重复字段,通过
ETL抽取、清洗数据,把数据导入hbase,这样就可以消除信息孤岛,用spark,
storm等大数据处理软件对hbase中的数据进行分析处理,挖掘数据价值。
云中心通过调度系统自动采集、加工、存储数据,为应用系统提供支持:
系统
管理
回
叵I
在云中心的平台上,开发招生、创业、就业、数据实验室等应用系统,通过
元数据库管理所有的数据数据经过采集、加工后进入hbase,消除信息孤岛,统
一管理使用:
8616
个人组投各锵翻员
配
置
月
份
日
认7
证
考E
E
{
一
拄
;
17条
主
利
境
管
学
理
苣
系
克
理
等
—.hadoop2架构体系
下图是hadoop2的架构图
FO
N
ortPIGHive
An
m・ahScriptQuery
bme
ae『r
role
aH
LtwYHCatalog
5-B
ZAooA
ovenaMetadataServices
orar
kpr-skR
eCDesN
eapaMapReduce
psrt
esoaDistnbutedProcessing
cab
nja
edes
ctarce
-stYARN
oResourceSchedulingandNegotiation
-z
.e
HDFS
DistnbutedStorage
1.HDFS文件系统,Hadoop实现了一个分布式文件系统(Hadoop
DistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计
用来部詈在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)
来访问应用程序的数据添合那些有着超大数据集largedataset潮应用程序。
HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)
文件系统中的数据。
2、YARN是一套资源统一管理和调度平台,可管理各种计算框架,包括
MapReduce,Spark,MPI等。包括以下内容:ResourceManager(RM):
整个系统只有一个RM,它就只管调度方面的事情,并且为集群应用而优化,因
而具有很好的性能。RM的一个核心是它的Scheduler。调度包含两个过程,一
要搜集各节点的情况;二要根据某种调度策略,分配合适的节点。搜集节点情况
是基于一个资源容器(resourcecontainer)的概念,该容器包括cpu,disk,network
等(目前只用到cpu)
NodeManager(NM):NM是每个节点一个实例,管理每个节点,它触发
应用容器(applicationcontainer),监控节点的资源(cpu/disk等),并向RM
报告资源的情况。
ApplicationMaster(AM):AM是每个应用一个实例,它是一^特定的框架
接口库,一方面与RM中的Scheduler协商得到resourcecontainer,另一方面
与NM一起执行和监控各子任务部件,从系统的角度,AM本身也一种container
(下图中将它与container画得一样)。
Container:从逻辑上,8ntainer可认为是资源的分配容器,它包括hostname,
cpu,memory等属性。AM发送ResourceRequest给RM,然后RM分配合适
的Container给AM,AM再将此Container提交给它所在节点的NM,NM采用
此资源容器运行任务。实际上,Container是一种使用资源的"授权”,AM得
到此授权后,在NM的管理下,可以运行任何进程(包括非Java应用,这一点
与1.0不同)。
二、Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。
主要特点:
存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实
现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分
适合数据仓库的统计分析。
三、HBase
HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,
是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而
不是基于行的模式。HBase使用和BigTable非常相同的数据模型。用户存储数
据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个
列组成一个ColumnFamily,一个Fmaily下的列位于一个HFile中,易于媛存
数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。在HBase中
数据按主键排序,同时表按主键划分为多个HRegion,如下图所示(HBase数
据表结构图):
ColumnFamily«1ColumnFamily*n
Rowkoy1:vjl1.t1/keyA:val1,t1
key1:vM2.t2/keyA:val2,t2
Rowkey2:val1.t2kcyB:vaH.t2
key2va!2.t4keyB:va!2.t4
sortedsorted
keyn-valf).tnkeym:valn.tn
Columnfamily
rowkeycontents:anchor*language*•••
n.www<_h_tm_l_>t_9_<h_t_ml>.(tl.)*tncttor:cnn$i.cofn.CNN(t1)•
(t2)瑞芯温:打赢.泣Mh法部"
9nchcr:i»so.co.kr,J»soglHH)
ColumnFamlly:ColumnKey,ColumnValue(Tlmestamp)
四.Sqoop是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库
(mysqkoracle...)间进行数据的传递,可以将一个关系型数据库(例如:
MySQL,Oracle.Postgres等)中的数据导进到Hadoop的HDFS中,也可以将
HDFS的数据导进到关系型数据库中。
五.spark架构体系
本地独立
运行模式运行模式MesosYARN
HDFSAmazonS3,Hypertable,HBase,etc
第七U.I.QI
Spark与Hadoop的对比
♦Spark的中间数据放到内存中,对于迭代运算效率更高。
Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,
有RDD的抽象概念。
♦Spark比Hadoop更通用。
Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和
Reduce两种操作。比如map,filter,flatMap,sample,groupByKey,reduceByKey,
union,join,cogroup,mapValues,sort.partionBy等多种操作类型,Spark把这
些操作称为Transformationso同时还提供Count,collect,reduce,lookup,save
等多种actions操作。Spark的mllib支持机器学习。
这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。
各个处理节点之间的通信模型不再像Hadoop那样就是唯一的DataShuffle一种
横式。用户可以命名,物化,控制中间结果的存储、分区等。可以说编程模型比
Hadoop更灵活。
不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,
例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增■修改的
应用模型不适合。
♦容错性。
在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两
种方式,一个是checkpointdata,一个是loggingtheupdateso用户可以控制
采用哪种方式来实现容错。
♦可用性。
Spark通过提供丰富的Scala,Java,PythonAPI及交互式Shell来提高
可用性。
Spark与Hadoop的结合
♦Spark可以直接对HDFS进行数据的读写同样支持SparkonYARN。
Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库
Shark实现上借用Hive,几乎与Hive完全兼容。
Spark的适用场景
♦Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集
的应用场合。需要反复操作的次数越多,所需读取的数据■越大,受益越大,数
据・小但是计算密集度较大的场合,受益就相对较小
♦由于RDD的特性,Spark不适用那种异步细粒度更新状态的应用,
例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的
应用模型不适合。
♦总的来说Spark的适用面比较广泛且比较通用。
3.3大数据存储设计
采用浪潮AS13000存储大数据,支持容量、性能的在线无限扩展,提供软
硬件故障情况下的数据重建、远程容灾功能,是适用于云计算、大数据业务并兼
具高性能、高可靠、高可扩展、大容量特征的新一代存储系统平台,具有以下特
点:O
海・存储,在线横向扩展:
1.控制器集群体系架构,所有控制器并行承担数据10、保障系统整体负载
均衡,数据分散存储,避免单控制器故障带来的风险和性能的瓶颈,支持控制器
在线横向扩展,满足持续增长的容■和性能需求。
2.支持NAS/Object/IP-SAN/旧・SAN存储接口,并且支持SAN、NAS、
Object同时运行,满足客户在不同时间、不同地点、不同业务对存储的不同需
求,支持Windows、Linux、Unix等多种操作系统并存的复杂网络环境中,轻松
实现跨操作系统的数据存储与共享,另外支持NFS/CIFS/FTP等多种文件共享
协议。
3.支持丰富的主机连接接口,支持1Gb/10GbiSCSI、40Gb/56GbInfiniBand
主机连接,无缝接入用户现有环境,满足客户对高带宽及高性能的差异化需求。
4.全面支持Flash/SSD/SAS/SATA各类常见存储介质,模块化的容・扩展
模式,支持数据分级存储,满足各类型应用。
数据持续保护,业务运行无忧:
1.支持数据卷隔离映射功能、数据快照功能、快照回滚、远程卷复制(同步
/异步)、远程数据复制及恢复、逻辑分区动态扩容。
2.支持数据副本、数据纠删码、自动分层等多种数据冗余保护和性能加速功
能,为用户提供高级别的数据保护及容灾功能。
3.支持全集群Activ6Active、Activ6Standby、全局热备等控制器工作模式,
保障整体系统的高可用,确保数据存取及业务运行万无一失。
4.支持软硬件故障时的数据自动修复,系统可用性达到99.999%。
模块化设计,人性化管理
1.AS13000各主要部件均采用模块化设计,客户按需选择,维护、升级、
管理简单方便:
2.支持数据副本、全局热备,以及自动构建RAID、各RAID级别间执行在
线迁移不影响正常数据应用
3.完备监控管理方式,当系统出现异常时,除了通过机器指示灯报警外,可
通过邮件等方式将异常状况及时通知管理员
4.集中部署,统一管理
绿色节能:
1).全系统选取节能降耗的处理器、芯片组、风扇和散热片等部件,提高系
统的能效利用率。
2).支持在线扩容/缩减时数据自动迁移,确保系统按需配■,同时支持Maid
磁盘节能技术,降低磁盘能耗,节约开支。
3).支持自动精简技术,大大提高存储资源利用率。
3.4安全设计
采用浪潮SSR主机安全增强系统,这是一款基于操作系统内核层开发的安
全加固软件。与传统的防火墙、IDS/IPS不同,SSR工作在最贴近用户数据的
操作系统层面,不仅可以避免外部的黑客攻击,同样可以预防来自内网攻击的风
险。该产品弥补了传统信息安全解决方案在主机层安全的“短板”,与传统信息安
全产品形成了良好的互补,提升操作系统的安全级别,从而达到国家等级保护的
三级要求。为客户构建真正的安全长城。
功能特性:
1、强制访问控制
在操作系统内核层实现文件、注册表、进程、服务、网络等对象的强制访问
控制,可配置针对以上对象不同的访问策略来保护系统和应用资源,即使是系统
管理员也不能破坏被保护的资源。
2、完整性检测
对文件和服务进行完整性检测,并可设置定期检测项目,当发现文件或者服
务篡改时进行报警并发现哪些文件发生改变。
3、防格式化
保护功能开启时,可防止病毒和入侵者恶意格式化磁盘,同时降低管理员意
外格式化磁盘的风险。
系统资源监控与报警:
对系统的CPU,内存、磁盘、网络资源进行监控,当这些资源的使用状况
超过设厦的阀值时将进行报警,以提前发现资源不足、滥用等问题。
4、双因子认证和组合式密码认证
不仅提供SSR安全管理员和SSR审计官员的USBKEY+密码的双因子认
证功能,还可对系统用户配发USBKEY实现双因子认证。对于远程登陆和虚拟
化系统而无法识别USBKEY的服务器,SSR提供可配■两个密码组合的登陆
认证方式,只有掌握密码的两个人同时存在才能登陆系统,以此确保自然人的可
信。
5、自我保护
SSR采用内核密封技术和完整性保护技术来保证SSR的文件不被恶意篡改,
进程不被恶意注入。
6、统一管理
在一个SSR控制台可以同时对多个平台的SSR进行管理和维护,且SSR
可开放接口给第三方管理平台集成,实现与不同产品间管理的融合。
7、灵活多样的策略模板
提供经过验证的分等级的安全策略模板,全面保护系统,方便易用,降低用
户的使用难度。
8、维护模式
当用户担心自己配置的策略是否会影响系统和应用时,可开启此功能,此时
SSR将只记录违规的日志而不进行阻止,便于管理员在不造成业务中断的情况
下调整策略。
功能亮点:
1、免疫病毒木马,抵御黑客攻击
SSR采用的ROST技术对系统中的文件、注册表、进程、网络、服务、帐
户等多方面进行防护构建立体防护体系,从文件创建、执行、访问资源到结束层
层把关,从根本上免疫各种已知未知病毒、后门等恶意代码,抵御黑客的攻击,
确保系统和应用安全稳定运行。
2、降低“零日漏洞”风险,延迟漏洞修复
SSR采用强制访问控制和白名单机制,只允许可信的帐户和进程访问被保
护资源,并对操作系统中重要二进制文件进行完整性保护。即使恶意代码利用漏
洞获取了系统的权限,也不能破坏系统文件和植入木马,降低了从“零日漏洞”发
现到用户打上补丁之间这段“真空期”的安全风险,同时允许用户延迟补丁部署,
推迟到定期修补周期进行修补。
3、分权管理,有效规避“一权独大”
SSR采用了分权管理的机制,规避了原操作系统管理员“一权独大”的风险,
将原系统管理员权限分散为系统操作员、安全管理员和审计管理员,三个权限各
司其职,相互制约,实现了最小权限,不仅保证了系统安全性,同时贴合了国家
相关信息安全标准规范。
4、提升系统安全级别,增强用户合规体验
SSR在操作系统内核层实现了安全标记和强制访问控制机制,与用户系统
自身的自主访问控制相融合,为系统和用户重要应用提供更强的约束和更高的安
全控制级别,同时提供三权分立、完整性校验、双因素认证、剩余信息保护等紧
贴信息安全标准的功能,帮助用户在系统安全建设时的合规要求。
5、统一管理机制,化繁为简
管理员可以从任何地方通过双因子身份认证后,对所有被保护的服务器进行安全
策略制定和维护,实现集中管理,减少日常维护工作•。
--采用浪潮SSA安全应用交付硬件系统,特点是:
1.丰富的应用负载均衡功能,保障数据中心应用可用性。
支持丰富的四到七层应用负载均衡功能;
支持针对多种算法的全局负载均衡;
支持针对不同运营商多链路的负载均衡;
支持丰*的健康检查功能,保障后台服务实时可用;
可以实现N+1台设备的集群、双机热备、双机互备等多种高可用性部署模
式;
支持冗余电源,最大化网络运行时间,降低了系统宕机或网络故障对业务的
影响。
2.多项应用加速技术,降低服务器负载,提升访问速度,改善用户体验。
采用内存媛存技术,有效降低服务器负载,并提升访问响应速度。
采用业界标准Gzip、Deflate压缩算法,对文本类型资源可实现80%以上的
压缩率,能降低服务器的压力,提高带宽的利用率。
可对多个客户端的TCP连接进行合并,通过少■的长连接与后台服务器通
信'o
SSL卸载功能,将加解密负荷卸载到应用交付设备上,有效降低服务器压
力,并保证用户安全。
3.强大的应用攻击检测和防御能力,应用与安全并重。
内量多种DDOS监测算法,可有效防御4・7层DDOS、配合防止各类SQL
注入、XSS,绶冲区溢出黑客攻击,为客户提供最佳的应用漏洞和未知威胁的防
御能力。
三,对管理员密码进行严格管理,半年定期更换。
四.网络设备可以采用华为的产品,性价比高,行销世界,可以抵御DDOS攻
击。
五.对数据进行冗余存储,以防不测,有问题可以及时恢复。
3.5平台搭建实施步骤
1.搭建机房、供电、冷却设备,购买服务器10台(可以提供1000个4G内存
的虚拟机人存储设备(2P)、云操作系统、安全软件、路由器、交换机、防
火墙等网络设备,搭建云计算平台,建立虚拟资源池,设置虚拟机。
2.制定迁移计划,通过docker容器,打包把学校原有的应用系统迁移到虚拟机
上,在另外的虚拟机上搭建hadoop、spark集群,安装hive、hbase,根据需
要建立hbase数据库表和列,一张表可以有几千列,几十亿条数据,把原有的
所有数据库合为一张表,便于大数据处理,原有数据库的数据通过sqoop导入
hbase。再把学校原有的服务器、存储、网络设备接入云平台,进行虚拟化。
3.根据需要,用spark对hbase数据进行准实时分析,用机器学习处理大数据
进行预测,用storm对hbase数据进行实时分析、处理,还可对数据进行可视
化。还可以基于云平台开发应用系统。
3.6物理架构设计
模块化数据中心采用一系列模块化设计的动力设备,如一体化集成机柜系统、
供配电系统、制冷系统、监控系统和综合布线系统,高集成设计,通过简单的接
口将相关模块进行组合,从而形成一个完整的数据中心。具有高宓模块化,高可
靠性与安全性,快速灵活部署,简单低耗,完善监控等特点。
模块化数据中心充分考虑组件设计、功能和相关性,按照在标准化级别与用
户灵活性之间取得最佳平衡的方式进行模块化。例如,模块化电源系统在电源、
冗余模块和运行时间方面均实现了可扩展性,可以根据当前的IT需求进行部署,
并且考虑后续业务的扩展,这种系统规模优化能力显著降低了总拥有成本。而且
提供热插拔,从而在不需要停止运行系统的条件下进行维护设备。
单排密封通道的横块化数据中心如下图所示。
模块化数据中心整体架构,如下图所示。
模块化设计为满足不断变化的IT需求提供了极大的灵活性。在安装、升级、重新
配量或移动模块化系统时,独立组件、标准接口既节省了时间又节约了费用。同
时也方便设备的选型、采购、安装、维护和扩容,降低整体运营成本,越来越具
有吸引力。
•模块化数据中心特点
模块化数据中心集成方案具有高密模块化,高可靠性和安全性,快速灵活部
V,低成本和低能耗,完善的监控等特点,是新一代集成模块化数据中心产品。
1.高密模块化
•集成机柜系统、供配电系统、制冷系统、监控系统和综合布线系统,高
集成设计,提供完整的解决方案。
•与云主机、桌面云业务无缝集成,提供端到端数据中心解决方案。
2.快速灵活部署
•工厂预制部件,现场快速组装,部詈灵活。
•建设周期缩短50%以上,场地限制少。
3.按需定制
•采用模块化的部件和统一的接口标准,可实现以机架为单位或以模块。
•为单位按需扩容,实现按需调度和动态调整网络资源,节省投资。
4.智能管理
・弹性IT平台,全面的虚拟化能力,极大提升管理效率。
•可通过多种传感器,实现对数据中心内各功能模块的不间断监控。
・应用智能化的运营管理平台,可实现对数据中心基础设施动力、环境、
视频、门禁全领域的远程监控,统一管理、统一部署、统一监控和统一
备份。
5.低成本和低能耗
•可以直接安装在楼宇水泥地面上,无需专用数据中心,可减少外配套工
程。
•空调靠近设备提高送风效率;水平送风空调靠近热源,送风距离大大缩
短,从而减少了距离导致的气流压力损失,冷空气的泄漏损失,提高了
冷量的利用效率。
•供应周期短,快速交付,快速安装,有效降低成本。
第4章数据中心网络方案组成
根据业界企业数据中心网络最佳设计实践参考,结合新一代的业务现状及
发展趋势,我们可以看到未来几年内业务处于一个高速成长期,必须在本期网络
架构中充分考虑未来的可扩展性。
网络规划如,通过防火墙接入Internet,通过策略允许云管理服务器与外网
通讯;内网通过VLAN技术,即将每台分析服务器与云管理服务器之间隔离,
每台分析服务器之间在内网不通讯
4.1.防火墙设计
为保护数据的安全性,在云管理服务器接外网之间,架设一台防火墙。通过
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 宜昌市教育系统事业单位招聘公益事业聘用编制考试真题2025
- 胃癌肝转移诊疗进展基于胃癌肝转移中国专家共识总结完整版
- 百日咳治疗与预防要点2026
- 心脏冠脉CTA(CCTA)成像与斑块分析
- 2021年二氧化硅行业研究报告
- 中班有趣的识字
- 2026沪教版七下【Unit1-4】【知识清单】专题03+单词短语语法归纳
- GB∕T 12235-2025 石油、石化及相关工业用钢制截止阀和升降式止回阀
- 论我国以农林为基础的文化产业高质量发展
- 任务8.2钢桥架设施工
- 2024-2025学年辽宁省县域重点高中高二下学期期末考试数学试卷(含答案)
- 取民工驻地管理办法
- 地质矿产专家库管理办法
- 2025年安徽省中考数学试题含答案
- 湖南省雅礼集团2024-2025学年七年级下学期期末语文试题(含答案)
- 2025年广东省中考数学试卷真题(含答案详解)
- 2025年高考数学真题一卷和二卷(含答案)
- 中国石油化工股份有限公司西北油田分公司顺北油田原油外输管道工程环境影响后评价环评报告
- 浙江省杭州市临平区2023-2024学年五年级下数学期末基础性学力测评试卷(含答案)
- CJ/T 288-2008预制双层不锈钢烟道及烟囱
- 2025广州市小升初英语复习汇编:任务型阅读(含解析)
评论
0/150
提交评论