海量信息存储_第1页
海量信息存储_第2页
海量信息存储_第3页
海量信息存储_第4页
海量信息存储_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2020/7/4,通信与信息工程学院,1,第11章大容量信息存储,2020/7/4,通信与信息工程学院,2,数据中心作为解决大容量数据存储的主要手段, 典型的网络存储体系结构和数据中心基本概念11.1物理网络对大容量信息存储的需求11.2网络存储体系结构11.3数据中心11.4典型数据中心*11.5Hadoop*11.6数据集第11章大容量信息存储,2020/7/4,通信和信息工程学院,3 11.1对物网络大容量信息存储的需求,2020/7/4,通信和信息工程学院,4,11.1对物网络大容量信息存储的需求,2020/7/4,通信和信息工程11.1对物质网络大容量信息存储的需求全世界的信息总量急

2、剧增加2007年发生的数据量为281 EB (1eb=10亿GB )的物网络中的对象数量,100亿单位的物网络中的对象积极参加业务流程的需求需求数据的持续在线捕获特性导致网络存储和大型数据中心的诞生,2020/7/4,通信和信息工程学院,6,11.2网络存储架构2020/7/4,通信信息工程学院,7, 11.2网络存储体系结构,三种基本网络存储体系结构:直接连接存储、网络连接存储、存储区域网络11.2.1直接连接存储(das:directattached 存储系统通过电缆连接到服务器或工作站,并通过电缆或光纤连接到包含多个硬盘驱动器的主机总线的存储设备与主机总线适配器之间不存在其他网络设备,这

3、意味着, 2020/7/4,通信和信息工程学院,8,8,8,存储飞跃到计算机内的存储子系统, 11.2网络连接存储(nas )文件级计算机数据存储体系结构的计算机具有11.2.2网络连接存储(nas )。 仅向其他设备提供文件数据存储服务的网络NAS和DAS的差异DAS是现有服务器的简单扩展,是以没有实际实现网络连接NAS的网络为存储实体的文件级共享NAS的性能4、通信和信息工程学院,9, 11.2网络存储体系结构11.2.3.3存储区域网络(San )存储设备和应用服务器通过网络连接的存储体系结构是服务器, 包含存储设备和SAN连接设备的特征存储共享支持服务器直接从SAN启动,2020/7/

4、4,通信和信息工程学院,10,11.2网络存储体系结构,DAS :易于管理,结构简单,大型数据访问集中式体系结构存储资源利用率低,资源共享能力低,“信息仓”NAS :实现网络存储实体、文件级共享,性能取决于网络通信量,用户太多, SAN的读写频繁性能受到限制: SAN简化了存储管理,没有直接的文件级访问能力,可以提高存储容量的利用率,但能够基于SAN构建文件系统,2020/7/4,通信和信息工程学院,和2020/7/4,通信和信息工程学院,12,11.3数据中心,维基数据中心是一组复杂的设施。 不仅包括计算机系统及其相关设备(通信和存储系统等),还包括冗馀的数据通信连接、环境控制设备、监视设备

5、、各种安全装置谷歌多功能网络建筑物,容纳多台服务器和通信设备。这些设备之所以放在一起是因为它们有相同的环境要求和物理安全要求,这种配置很容易维护。2020/7/4、通信和信息工程学院、13、11.3数据中心、大型机、微机、大数据中心、11.3.1数据中心的起源和发展、2020/7/4、通信和11.3.2数据中心相关标准数据中心建设的挑战是如何规划新的数据中心? 数据中心的升级方法数据中心的标准是总结相关经验的ANSI/tia/eia-942(TIA-942 ) :数据中心的标准由电信产业协会(TIA )提交,并经美国国家标准学会(ansi )认可,2020 11.3数据中心1,位置和配置需要考

6、虑的因素的建设和运营成本的适用需求政策优惠的配置按功能区分,2020/7/4,通信和信息工程学院,16,11.3数据中心,(1)入口室:配置互联网接入点设备的地方(2)主要分布同时放置各局域网和SAN结构的核心路由器和交换机的区域光纤、电缆等(3)水平分布区域:主分布区域的下层,水平电缆集中点(4)设备分布区域:放置服务器和其他设备的机架和机柜(5)区域分布区域:水平分布区域和设备分布区域的连接点,独立设备(6) 可以设置干线电缆和水平电缆:各区域间的连接,2020/7/4,通信和信息工程学院,17, 11.3数据中心TIA-942包括电缆系统、能源系统、降温系统、可靠性等级(4个等级,P22

7、8229,表11.1 )、电缆系统的规格如何配置,能源系统外部的供电组电池发电机,降温系统降温设备的虚拟地板的冷气通路和暖气通路,2 通信和信息工程学院,18,11.4典型数据中心*,2020/7/4通信和信息工程学院,19,11.4典型数据中心*,11.4.1谷歌数据中心每月约有3.8亿用户,30亿次咨询每天处理20PB数据数十亿网站和个人数据谷歌网站的可靠性超过99.99%,世界上要建设约40个大数据中心至少需要50兆瓦的约一个小型城市的所有家庭的用电量都是独特的硬件设备:定制的以太网能源系统等,2020/7/4,通信和信息工程学院,20,11.4典型的数据中心*,选择大量廉价的电力考虑风

8、力和水利等低碳电力接近大型水源,为冷却设备使用大面积的空地,提供缓冲带, 增加机密性和其他数据中心的距离数据高速互连税收优惠保证自己开发的软件技术:谷歌文件系统、MapReduce、BigTable等,2020/7/4,通信和信息工程学院,21,11.4典型数据中心11.4.2谷歌文件系统(GFS ) Google处理超大规模数据密集型应用的分布式文件系统GFS的设计观念组件并不意外,但被认为是正常现象的GFS文件非常巨大。 文件处理中具有特定模式的文件系统应用程序编程接口(API )和应用程序的协同设计提高了整个系统的灵活性,2020/7/4 11.4典型的数据中心*、GFS的设计架构、GF

9、S集群包括一个主服务器和多个块服务器,并且被多个客户端访问,该文件被划分成固定大小的“块”。 在创建每个块时,主服务器分配固定的64位唯一的识别块服务器,将“块”作为Linux文件存储在本地磁盘中,根据指定的块字节范围读写数据,2020/7/4,通信信息工程学院11.4典型的数据中心*,主服务器维护所有文件系统的元数据,包括名称空间、访问控制信息、文件块映射信息、块的当前位置等。 主服务器还控制其他系统级的活动。主服务器定期与块服务器通信,以下指令和收集状态GFS客户端代码内置到各应用程序中,实现文件系统API、主服务器与块服务器的通信,代表应用程序与读写操作客户端和服务器的交互所有的数据操作

10、都是通过直接与块服务器对话完成的,2020/7/4,通信和信息工程学院,24 11.4典型的数据中心*, 11.4.3MapReduceMapReduce :超大型数据集的编程模型和用于系统的MapReduce开发的程序在计算机群集上并行执行,以处理计算机故障。 调度计算机间通信的MapReduce基本思想用户编写两个程序: Map和Reduce是在计算机集群上执行多个程序实例的框架2020/7/4,通信和信息工程学院,25,11.4的典型MapReduce的执行流程(共7个步骤,P235236 )、2020/7/4,通信和信息工程学院,26,11.4典型数据中心*,11.4.4BigTabl

11、eBigTable :大容量数据(PB级和数千台计算机) 谷歌地球网页索引RSS阅读器、2020/7/4、通信和信息工程学院、27、11.4典型数据中心*、BigTable都是稀疏分布的多维有序图,行键值、 使用列键值和时间戳建立索引(P236238 )、2020/7/4,通信和信息工程学院,28,11.5Hadoop*,2020/7/4,通信和信息工程学院,29,11.5 Hadoop * ) HadoopApache开源发布的分布式计算开源框架在大集群廉价服务器设备上运行数据密集型分布式应用程序的初期, 为了实现与谷歌文件系统和MapReduce分布式计算框架相关的基于IT的服务的开源,我

12、们提供了多个子项目HDFS、MapReduce、HBase、Chukwa、Pig、ZooKeeper,2020/7/4、通信和信息工程学院、30、11.5hadoop*、HDFS (hadoopdistributedfilesystem )系统架构和特征(P239240 )设计前提和目标硬件错误正常, 访问大数据集而不是异常的流数据的简单的一致性模型移动计算访问比移动数据更经济轻量的异构硬件平台2020/7/4,通信和信息工程学院,31,11.6数据中心的研究焦点,2020/7/4 11.6数据中心的研究热点,2006年谷歌在数据中心项目中,19亿美元2007年将这一支出增加到24亿美元谷歌俄

13、勒冈州数据中心的约100兆瓦的电力,全运行时的能源消费量是纽卡斯尔市所有家庭的电力消费量、2020/7/4、通信与信息工程学院、33、11.6数据中心研究热点、基础设施包括能源系统、冷却系统、各种防火设备、保安设备等。 这个部分的成本降低了机械制造技术和政策优惠等,由于与计算机学科的关联度低,分别从服务器、网络设备、能源三个方面介绍了高成本的原因和现在的解决方法:2020/7/4,通信和信息工程学院,34, 11.6数据中心的研究焦点是1,分配给服务器成本(45% )服务器的实际利用效率低的服务器的应用很难预测,不能完全利用应用的需求,为了按需提高系统的可靠性,请留下冗馀设备及时应对需求动态变化2、网络设备成本(15% )的主要来源:传统数据中心使用树结构,交

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论