计算机海量信息存储教学讲义-华中科技大学_第1页
计算机海量信息存储教学讲义-华中科技大学_第2页
计算机海量信息存储教学讲义-华中科技大学_第3页
计算机海量信息存储教学讲义-华中科技大学_第4页
计算机海量信息存储教学讲义-华中科技大学_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

海量信息存储 华中科技大学计算机学院 on 物联网导论 ,刘云浩编著,科学出版社 内容提要 物联背景下如何适应海量信息存储的需求呢?随着物联网的发展,数据中心 将成为解决海量数据存储的主要手段。 本章将介绍典型的网络存储体系结构以及数据中心的基本概念。 第 10章介绍了数据库管理系统的基本概念 数据库模型的发展 关系数据库的基本概念 利用关系代数写查询表达式 物联网数据管理的特点 本章重点介绍三种基本的 网络存储体系结构 ,并以绍 大规模数据中心 的相关技术,最后简要开源分布式计算框架 内容回顾 联网对海量信息存储的需求 络存储体系结构 据中心 信息存储的发展历程如何?物联网对海量信息存储的需求促使了哪些技术的发展? 本章内容 数据存储的发展历史 甲骨文 纸质书籍 数字化存储 物联网对海量信息存储的需求 全球信息总量迅猛增长 2007年产生的数据量为 281 10亿 物联网中对象的数量 将 庞大到以百亿为单位 物 联网中的 对象积极参与业务流程的需求 高强度计算需求 数据的持续在线可获取特性 导致了 网络化存储 和 大型数据中心 的诞生 联网对海量信息存储的需求 络存储体系结构 据中心 三种基本的网络存储体系结构:直接附加存储,网络附加存储,存储区域网络,各有什么特点? 本章内容 直接附加存储 直接附加存储 (将 存储系统 通过缆线 直接与服务器或工作站相连 一般包括 多个硬盘驱动器 ,与主机总线适配器通过电缆或光纤 在存储设备和主机总线适配器之间 不存在其他网络设备 实现了 计算机内存储 到 存储子系统 的跨越 直接附加存储 一 个计算机系统也由各有专长的厂商所领导,可大体分为:处理器、操作系统、网络、资源共享、数据库等等不同的水平 领域 从 封闭走向开放的代表是直接连接存储系统的出现和 应用 直接附加存储( 指将外部存储设备通过连接电缆直接连接到服务器上 外部数据存储设备采用 技术,通过数据连接电缆直接挂接在服务器的内部控制器上 特点 够解决单台服务器的存储空间扩展、高性能传输需求 单台个 其是一些中小型企业常使用 问题 是随着数据量及访问人数的不断增多, 份、恢复、扩展、灾备等方面存在的问题 变得日益突出 作系统进行数据的 I/据备份和恢复要求占用服务器主机的 I/ 份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大 网络附加存储 网络附加存储 (文件级 的计算机数据存储架构 计算机连接到一个 仅为其它设备提供基于文件级数据存储服务的网络 没有真正实现网络互联。 容易实现文件级别的共享。 与 靠性和稳定性 都要高,特别是 价格也比 与 部存储介质直接连接到网络上 特点 用了目前较为流行的 嵌入式技术 。使得 度智能、性能稳定等 特点 立存储操作系统 ,可以更加有效地利用系统总线资源,更好地支持 I/ 同时, 以不经过服务器便将 地 备份 而且 盘 余的电源和风扇以及冗余的控制器 ,可以保证 定性 主要应用于 中小型 网络 安装、调试 、使用和管理非常简单。 数据从服务器分离 ,减少了数据管理上的许多问题 有自己 专用的管理软件 ,通过管理软件可以方便地实现设备的配置 支持 种操作系统 特点 由于大量的数据访问由 务器减少了数据的I/提高了服务器的性能 立于服务器 。如果一个服务器出现故障,其他服务器也可以访问存储设备中的数据 由于 且可以通过管理软件进行配置和管理,所以 便于 可支持 种应用平台 与 存储区域网络 存储区域网络 (通过 网络方式 连接存储设备和应用服务器的存储架构 由 服务器 、 存储设备 和 成 存储共享 支持服务器从 目前,企业存储方案所遇到的两个问题是: 数据与应用系统紧密结合所产生的结构性限制 目前广泛使用的小型计算机系统接口( 准的限制 在 储设备通过 专用交换机 与多台服务器相连 提供了多主机连接,允许任何服务器连接到任何存储设备 ,不管数据置放在那里,服务器都可直接访问所需的数据 同时,随着存储容量的增长, 不同于普通的网络交换机, 纤通道 ( 术的高速传输网络。 ,支持 讯协议与传输物理介质隔离 开,这样多种协议可在同一个物理连接上同时传送 使高性能存储设备与宽带网络使用单一的 I/得系统的成本和复杂程度大大降低 光纤通道支持 多种拓扑结构 ,主要有点到点( 仲裁环( 交换式网络结构( 点对点方式 : 盘阵列 因为采用了 高的带宽 在提高了服务器性能的同时,便于对数据的管理,也便于系统的扩充,同时支持多种应用平台 但与 不会消耗应用网络的带宽资源 ,所以 随着 2已从成本和技术上解决了 三种网络存储结构的比较 三种网络存储结构的比较 理容易,结构简单;集中式体系结构,不能满足大规模数据访问的需求;存储资源利用率低,资源共享能力差,造成“信息孤岛”。 络的存储实体,容易实现文件级别共享;性能严重依赖于网络流量,用户数过多,读写过频繁时性能受限。 储管理简化,存储容量利用率提高;无直接文件级别的访问能力,但可在 联网对海量信息存储的需求 络存储体系结构 据中心 什么是数据中心?典型的数据中心有哪些?数据中心的研究热点是什么? 本章内容 什么是数据中心? 维基百科 : “数据中心是一整套复杂的设施。它不仅仅包括 计算机系统和其它与之 配套的设备 (例如通信和存储系统),还包含冗余的 数据通信连接 、 环境控制设备 、 监控设备 以及各种 安全装置 。 ” “多功能的 建筑物 ,能容纳多个 服务器 以及 通信设备 。这些设备被放置在一起是因为它们具有相同的对环境的要求以及物理安全上的需求,并且这样放置便于维护 。” 数据中心的起源与发展 大型机 微型机 大规模数据中心 (数据中心的起源与发展 大规模数据中心 已经得到推广 数据中心标准 数据中心建设者面对的 难题 如何规划一个新的数据中心? 怎样对数据中心进行升级? 数据中心的标准 对相关经验进行了总结 称 数据中心标准 电信产业协会( 出 美国国家标准学会( 准 数据中心标准: 址 : 需要考虑多方面因素 建设和运营成本 应用需求 政策优惠 布局 : 按 功能区域 划分 入 口 室主 分 布 区水 平 分 布 区水 平 分 布 区水 平 分 布 区设 备 分 布 区设 备 分 布 区设 备 分 布 区区 段 分 布 区水 平 缆 线水 平 缆 线水 平 缆 线 水 平 缆 线主 干 缆 线主 干 缆 线 电 信 室办 公 室 , 控 制中 心 , 支 持 室主 干缆 线连 接 运 营 商连 接 运 营 商水 平 缆 线计 算 机 房功能区域组成 数据中心标准: ) 线系统 , 可靠性分级 , 能源系统 和 降温系统 等做了规定。 缆线系统 规格 如何放置缆线 能源系统 外部电力供应 电池组 发电机 机 柜 机 柜机 柜正面有 小 孔 的地 板背面背面正面正面背面有 小 孔 的地 板冷 通 道热 通 道降温系统 降温设备 架空地板 冷通道与热通道 典型数据中心: 据中心 简介 全球共建有近 40个大规模数据中心 单个 数据中心需要至少 50兆瓦功率 ,约等于一个小型城市所有家庭的用电量 独特的 硬件设备 : 定制的以太网交换机 、 能源系统 等 自行研发的 软件技术 : 组件失效不再被认为是意外,而是被看做正常的现象 对文件的操作具有特定的模式 应用程序和文件系统 A p p l i c a t i o S c l i e n S m a s t e rF i l e n a m e s p a c e/ f o o / b a rc h u n k 2 e f 0G F S c h u n k s e r v e rL i n u x f i l e s y s t e S c h u n k s e r v e rL i n u x f i l e s y s t e mI n s t r u c t i o n s t o c h u n k s e r v e rC h u n k s e r v e r s t a t e( f i l e n a m e , c h u n k i n d e x )( c h u n k h a n d l e , c h u n k l o c a t i o n s )( c h u n k h a n d l e , b y t e r a n g e ). . . . . . .D a t a m e s s a g eC o n t r o l m e s s a g 含一个主服务器 和多个块服务器 ,并被多个客户端访问。 文件 分成固定大小的“ 块 ”。每个块在创建时都由主服务器分配一个固定不变的 64位句柄唯一 标识 。 块服务器 把块作为 地磁盘 上,并根据指定的块句柄和字节范围对数据块进行读写操作。 ) 主服务器维护 所有 文件系统 的 元数据 ,包括名字空间、访问控制信息、文件到块的映射信息以及块当前的位置。此外,主服务器还控制其它系统级的活动。主服务器周期性地与块服务器通信,以下达指令和收集状态。 嵌入到每个应用中。它实现了 文件系统 现主服务器与块服务器的通信从而代表应用实现读写操作。客户端与服务器交互从而实现元数据操作,但所有的数据操作都通过直接与块服务器交互而完成。 对超大规模数据集 的 编程模型 和 系统 用 理计算机的失效以及调度计算机间的通信 本思想 用户写的两个程序: 一个在计算机集群上执行多个程序实例的框架 用 户 程 序m a s t e rw o r k e rw o r k e rw o r k e 片 段 1文 件 片 段 2文 件 片 段 3w o r k e rw o r k e 文 件 1输 出 文 件 2输 入 文 件 M a p 阶 段 中 间 文 件 R e d u c e 阶 段 输 出 文 件如包含以 理结构化数据的 分布式存储系统 。 应用 网页索引 个 疏的 、 分布式 的 多维有序图 ,按行键值、列键值和时间戳建立索引 “ . . . ”“ . . . ”“ . . . ”c o n t e n t s : ”“ a n c h o r : c n n s i . c o m ”“ C N N ”C N N . c o m ”a n c h o r : m y . l o o k . c a ”“ c o m . c n n . w w w ”典型数据中心: 么是 布式计算开源框架 用于在大型集群的廉价服务器设备上运行数据密集型分布式应用程序 在早期实际上是 a m e n o d eC l i e n tM e t a d a t a ( N a m e , r e p l i c a s , . . . ) :/ h o m e / f o o / d a t a , 3 , . . .B l o c k o p sM e t a d a t a o p sR e a d D a t a n o d eC l i e n tW r i t eW r i t eR e p l i c a t i o nD a t a n o d e sR a c k 1R a c k 2数据中心的研究热点 2006年 9亿美元,而 2007年该项支出增加到 24亿美元 。 00兆瓦的功率,满负荷运行时消耗的电力基本上和纽卡斯尔( 个城市所有家庭的用电量加起来一样多 。 研究热点: 如何 在 保证服务质量 的前提 下 降低成本 ? 数据中心的成本构成 基础设施部分 包括能源系统、降温系统、各种防火设备、安保设备等。降低这一部分成本往往涉及到机械设备制造技术或政策优惠等因素,与计算机学科的关联程度相对较低。 我们 分别从 服务器 , 网络设备 ,能源 三个方面 对造成高成本的原因和目前的解决方法进行简要介绍 。 服务器成本 服务器 网络设备 能源 服务器的 实际利用效率较低 分配到各服务器的应用不能完全利用某些组件 对应用需求的预测比较难,无法做到按需分配 为了提高系统的可靠性,一般都留有冗余设备 提高服务器利用率的 关键 在于 及时应对需求的动态变化 网络设备成本 服务器 网络设备 能源 主要来源 交换机、路由器、负载均衡设备 传统的数据中心使用树形结构,核心交换机和路由器构成流量瓶颈,且造价昂贵 研究热点: 新的 数据中心网络结构 以交换机为中心的多层树形结构 :例如 以服务器为中心的互联结构 :例如 源成本 服务器 网络设备 能源 研究热点 降低服务器工作能耗 降低

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论