海量信息存储_第1页
海量信息存储_第2页
海量信息存储_第3页
海量信息存储_第4页
海量信息存储_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020/5/25,通信与信息工程学院,1,第11章海量信息存储,2020/5/25,通信与信息工程学院,2,物联网背景下如何适应海量信息存储的需求,数据中心将成为解决海量数据存储的主要手段介绍典型网络存储体系结构及数据中心的基本概念11.1物联网对海量信息存储的需求11.2网络存储体系结构11.3数据中心11.4典型的数据中心*11.5Hadoop*11.6数据中心的研究热点,第11章海量信息存储,2020/5/25,通信与信息工程学院,3,11.1物联网对海量信息存储的需求,2020/5/25,通信与信息工程学院,4,11.1物联网对海量信息存储的需求,2020/5/25,通信与信息工程学院,5,11.1物联网对海量信息存储的需求,全球信息总量迅猛增长2007年产生的数据量为281EB(1EB=10亿GB)物联网中对象的数量将庞大到以百亿为单位物联网中的对象积极参与业务流程的需求高强度计算需求数据的持续在线可获取特性导致网络化存储和大型数据中心的诞生,2020/5/25,通信与信息工程学院,6,11.2网络存储体系结构,2020/5/25,通信与信息工程学院,7,11.2网络存储体系结构,三种基本网络存储体系结构:直接附加存储,网络附加存储,存储区域网络11.2.1直接附加存储(DAS:DirectAttachedStorage)将存储系统通过缆线与服务器或工作站相连包括多个硬盘驱动器,与主机总线通过电缆或光纤连接存储设备和主机总线适配器之间不存在其它网络设备实现了计算机内存储到存储子系统的跨越,2020/5/25,通信与信息工程学院,8,11.2网络存储体系结构,11.2.2网络附加存储(NAS:NetworkAttachedStorage)文件级计算机数据存储架构计算机连接到一个仅为其它设备提供基于文件数据存储服务的网络NAS与DAS的区别DAS是对已有服务器的简单扩展,并未真正实现网络互联NAS则将网络作为存储实体,更容易实现文件级别的共享NAS性能比DAS有所增强,2020/5/25,通信与信息工程学院,9,11.2网络存储体系结构,11.2.3存储区域网络(SAN:StorageAreaNetwork)通过网络方式连接存储设备和应用服务器的存储架构由服务器、存储设备和SAN连接设备组成特点存储共享支持服务器从SAN直接启动,2020/5/25,通信与信息工程学院,10,11.2网络存储体系结构,DAS:易管理,结构简单;集中式体系结构,不能满足大规模数据访问的需求;存储资源利用率低,资源共享能力差,造成“信息孤岛”NAS:网络存储实体,实现文件级别共享;性能依赖于网络流量,用户数过多,读写过于频繁时性能受限SAN:存储管理简化,存储容量利用率提高;无直接文件级别的访问能力,但可在SAN基础上建立文件系统,2020/5/25,通信与信息工程学院,11,11.3数据中心,2020/5/25,通信与信息工程学院,12,11.3数据中心,维基百科数据中心是一整套复杂的设施。不仅包括计算机系统和与之配套的设备(如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置Google多功能网络建筑物,容纳多个服务器及通信设备。这些设备被放置在一起是因为它们具有相同的环境要求及物理安全需求,并且这样放置便于维护,2020/5/25,通信与信息工程学院,13,11.3数据中心,大型机,微型机,大规模数据中心(MegaDataCenter),11.3.1数据中心的起源及发展,2020/5/25,通信与信息工程学院,14,11.3数据中心,11.3.2数据中心的相关标准数据中心建设的难题如何规划一个新的数据中心?怎样对数据中心进行升级?数据中心的标准对相关经验进行了总结ANSI/TIA/EIA-942(简称TIA-942):数据中心标准由电信产业协会(TIA)提出,并经美国国家标准学会(ANSI)批准,2020/5/25,通信与信息工程学院,15,11.3数据中心,1、选址与布局需要考虑的因素建设和运营成本应用需求政策优惠布局按功能区域划分,2020/5/25,通信与信息工程学院,16,11.3数据中心,(1)入口室:放置互联网接入点设备的场所(2)主分布区:核心区域,各个LAN与SAN结构的核心路由器及交换机所放置的区域,同时放置光纤、电缆等(3)水平分布区:主分布区的下层,水平缆线集中点(4)设备分布区:放置服务器和其它设备的机架与机柜(5)区段分布区:水平分布区与设备分布区间的连接点,可放置独立设备(6)主干缆线和水平缆线:各个区域间的连接,2020/5/25,通信与信息工程学院,17,11.3数据中心,TIA-942规定了缆线系统、能源系统、降温系统、可靠性分级(四个等级,P228229,表11.1),缆线系统规格如何放置,能源系统外部电力供应电池组发电机,降温系统降温设备架空地板冷通道与热通道,2020/5/25,通信与信息工程学院,18,11.4典型的数据中心*,2020/5/25,通信与信息工程学院,19,11.4典型的数据中心*,11.4.1Google数据中心每月将近3.8亿用户、30亿次查询每天处理20PB数据、存有数十亿网页地址与个人资料Google站点可靠性超过99.99%全球共建有近40个大规模数据中心单个数据中心需要至少50兆瓦功率,约等于一个小型城市所有家庭的用电量独特的硬件设备:定制的以太网交换机、能源系统等,2020/5/25,通信与信息工程学院,20,11.4典型的数据中心*,选址考虑大量而廉价的电能有利于获得风能、水利等低碳电能靠近大型水源,为降温设备使用较大面积空地,提供缓冲带,增加保密性与其它数据中心的距离,保证数据高速互连税收优惠自行研发的软件技术:GoogleFileSystem、MapReduce、BigTable等,2020/5/25,通信与信息工程学院,21,11.4典型的数据中心*,11.4.2GoogleFileSystem(GFS)Google处理超大规模数据密集型应用的分布文件系统GFS的设计观念组件失效不再被认为是意外,而是被看做正常的现象GFS的文件非常巨大对文件的操作具有特定的模式文件系统应用程序编程接口(API:ApplicationProgrammingInterface)和应用程序的协同设计提高了整个系统的灵活性,2020/5/25,通信与信息工程学院,22,11.4典型的数据中心*,GFS的设计架构,GFS集群包含一个主服务器和多个块服务器,并被多个客户端访问,文件分成固定大小的“块”。每个块创建时都由主服务器分配一个固定不变的64位唯一标识块服务器把“块”作为Linux文件存储在本地磁盘上,并根据指定的块字节范围对数据进行读写操作,2020/5/25,通信与信息工程学院,23,11.4典型的数据中心*,主服务器维护所有文件系统的元数据,包括名字空间、访问控制信息、文件到块的映射信息以及块当前的位置。此外,主服务器还控制其它的系统级活动。主服务器周期性与块服务器通信,以下达指令和收集状态GFS客户端代码嵌入到每个应用中,实现文件系统API、主服务器与块服务器的通信,从而代表应用实现读写操作客户端与服务器交互,从而实现元数据操作,但所有数据操作都通过直接与块服务器交互而完成,2020/5/25,通信与信息工程学院,24,11.4典型的数据中心*,11.4.3MapReduceMapReduce:一种针对超大规模数据集的编程模型和系统用MapReduce开发的程序可在计算机集群上并行执行、处理计算机失效、调度计算机间的通信MapReduce的基本思想用户编写两个程序:Map和Reduce一个在计算机集群上执行多个程序实例的框架,2020/5/25,通信与信息工程学院,25,11.4典型的数据中心*,MapReduce的执行流程(共7步,P235236),2020/5/25,通信与信息工程学院,26,11.4典型的数据中心*,11.4.4BigTableBigTable:在海量数据规模下(包含PB量级数据和数千台计算机)管理结构化数据的分布式存储的系统应用Google地球网页索引RSS阅读器,2020/5/25,通信与信息工程学院,27,11.4典型的数据中心*,每个BigTable都是一个稀疏的、分布式的多维有序图,按行键值、列键值和时间戳建立索引(P236238),2020/5/25,通信与信息工程学院,28,11.5Hadoop*,2020/5/25,通信与信息工程学院,29,11.5Hadoop*,HadoopApache开源发布的分布式计算开源框架用于大型集群廉价服务器设备上运行数据密集型分布式应用程序早期是Google文件系统与MapReduce分布式计算框架及相关IT基础服务的开源实现包括多个子项目HDFS、MapReduce、HBase、Chukwa、Pig、ZooKeeper,2020/5/25,通信与信息工程学院,30,11.5Hadoop*,HDFS(HadoopDistributedFileSystem)系统架构及特点(P239240)设计前提与目标硬件错误是常态而不是异常流式数据访问大规模数据集简单的一致性模型移动计算比移动数据更经济轻便的访问异构软硬件平台,2020/5/25,通信与信息工程学院,31,11.6数据中心的研究热点,2020/5/25,通信与信息工程学院,32,11.6数据中心的研究热点,2006年Google在数据中心项目花费19亿美元2007年该项支出增加到24亿美元Google俄勒冈州数据中心近100兆瓦的功率,满负荷运行时能耗基本上与纽卡斯尔(Newcastle)全市所有家庭用电量一样研究热点:如何在保证服务质量的前提下降低成本?,2020/5/25,通信与信息工程学院,33,11.6数据中心的研究热点,基础设施包括能源系统、降温系统、各种防火设备、安保设备等。降低该部分成本涉及机械制造技术或政策优惠等,与计算机学科的关联程度较低在此,分别从服务器,网络设备,能源三个方面对造成高成本的原因和目前的解决方法进行介绍,2020/5/25,通信与信息工程学院,34,11.6数据中心的研究热点,1、服务器成本(45%)服务器的实际利用效率较低分配到各服务器的应用不能完全利用某些组件对应用需求的预测比较难,无法做到按需分配为了提高系统的可靠性,一般都留有冗余设备提高服务器利用率的关键在于及时应对需求的动态变化2、网

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论