大数据存储方式概述_第1页
大数据存储方式概述_第2页
大数据存储方式概述_第3页
大数据存储方式概述_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精品文档 1欢迎下载 大数据存储方式概述 随着信息社会的发展 越来越多的信息被数据化 尤其是伴随着 Internet 的发展 数 据呈爆炸式增长 从存储服务的发展趋势来看 一方面 是对数据的存储量的需求越来越 大 另一方面 是对数据的有效管理提出了更高的要求 首先是存储容量的急剧膨胀 从 而对于存储服务器提出了更大的需求 其次是数据持续时间的增加 最后 对数据存储的 管理提出了更高的要求 数据的多样化 地理上的分散性 对重要数据的保护等等都对数 据管理提出了更高的要求 随着数字图书馆 电子商务 多媒体传输等用的不断发展 数 据从 GB TB 到 PB 量级海量急速增长 存储产品已不再是附属于服务器的辅助设备 而成 为互联网中最主要的花费所在 海量存储技术已成为继计算机浪潮和互联网浪潮之后的第 三次浪潮 磁盘阵列与网络存储成为先锋 一 海量数据存储简介 海量存储的含义在于 其在数据存储中的容量增长是没有止境的 因此 用户需要不 断地扩张存储空间 但是 存储容量的增长往往同存储性能并不成正比 这也就造成了数 据存储上的误区和障碍 海量存储技术的概念已经不仅仅是单台的存储设备 而多个存储 设备的连接使得数据管理成为一大难题 因此 统一平台的数据管理产品近年来受到了 广 大用户的欢迎 这一类型产品能够整合不同平台的存储设备在一个单一的控制界面上 结 合虚拟化软件对存储资源进行管理 这样的产品无疑简化了用户的管理 数据容量的增长是无限的 如果只是一味的添加存储设备 那么无疑会大幅增加存储 成本 因此 海量存储对于数据的精简也提出了要求 同时 不同应用对于存储容量的需 求也有所不同 而应用所要求的存储空间往往并不能得到充分利用 这也造成了浪费 针对以上的问题 重复数据删除和自动精简配置两项技术在近年来受到了广泛的关注 和追捧 重复数据删除通过文件块级的比对 将重复的数据块删除而只留下单一实例 这 一做法使得冗余的存储空间得到释放 从客观上增加了存储容量 二 企业在处理海量数据存储中存在的问题 目前企业存储面临几个问题 一是存储数据的成本在不断地增加 如何削减开支节约 成本以保证高可用性 二是数据存储容量爆炸性增长且难以预估 三是越来越复杂的环境 使得存储的数据无法管理 企业信息架构如何适应现状去提供一个较为理想的解决方案 目前业界有几个发展方向 1 存储虚拟化 对于存储面临的难题 业界采用的解决手段之一就是存储虚拟化 虚拟存储的概念实 际上在早期的计算机虚拟存储器中 就已经很好地得以体现 常说的网络存储虚拟化只不过 是在更大规模范围内体现存储虚拟化的思想 该技术通过聚合多个存储设备的空间 灵活 精品文档 2欢迎下载 部署存储空间的分配 从而实现现有存储空间高利用率 避免了不必要的设备开支 存储虚拟化的好处显而易见 可实现存储系统的整合 提高存储空间的利用率 简化 系统的管理 保护原有投资等 越来越多的厂商正积极投身于存储虚拟化领域 比如数据 复制 自动精简配置等技术也用到了虚拟化技术 虚拟化并不是一个单独的产品 而是存 储系统的一项基本功 能 它对于整合异构存储环境 降低系统整体拥有成本是十分有效的 在存储系统的各个层面和不同应用领域都广泛使用虚拟化这个概念 考虑整个存储层次大 体分为应用 文件和块设备三个层次 相应的虚拟化技术也大致可以按这三个层次分类 目前大部分设备提供商和服务提供商都在自己的产品中包含存储虚拟化技术 使得用 户能够方便地使用 2 容量扩展 目前而言 在发展趋势上 存储管理的重点已经从对存储资源的管理转变到对数据资 源的管理 随着存储系统规模的不 断扩大 数据如何在存储系统中进行时空分布成为保证 数据的存取性能 安全性和经济性的重要问题 面对信息海量增长对存储扩容的需求 目 前主流厂商均提出了 各自的解决方案 由于存储现状比较复杂 存储技术的发展业界还 没有形成统一的认识 因此在应对存储容量增长的问题上 尚存在很大 的提升空间 技术 是发展的 数据的世界也是在不断变化的过程中走向完美 企业信息架构的 分 与 合 的情况并不绝对 目前 出现了许多的融合技术 如 NAS 与 SAN 的融合 统一存储网等等 这些都将对企业信息架构产生不同的影响 至于到底采用哪种技术更合适 取决于企业自 身对数据的需求 三 海量数据存储技术 为了支持大规模数据的存储 传输与处理 针对海量数据存储目前主要开展如下三个 方向的研究 1 虚拟存储技术 存储虚拟化的核心工作是物理存储设备到单一逻辑资源池的映射 通过虚拟化技术 为用户和应用程序提供了虚拟磁盘或虚拟卷 并且用户可以根据需求对它进行任意分割 合并 重新组合等操作 并分配给特定的主机或应用程序 为用户隐藏或屏蔽了具体的物 理设备的各种物理特性 存储虚拟化可以提高存储利用率 降低成本 简化存储管理 而 基于网络的虚拟存储技术已成为一种趋势 它的开放性 扩展性 管理性等方面的优势将 在数据大集中 异地容灾等应用中充分体现出来 2 高性能 I O 集群由于其很高的性价比和良好的可扩展性 近年来在 HPC 领域得到了广泛的应用 数据共享是集群系统中的一个基本需求 当前经常使用的是网络文件系统 NFS 或者 CIFS 当一个计算任务在 Linux 集群上运行时 计算节点首先通过 NFS 协议从存储系统中获取数 精品文档 3欢迎下载 据 然后进行计算处理 最后将计算结果写入存储系统 在这个过程中 计算任务的开始 和结束阶段数据读写的 I O 负载非常大 而在计算过程中几乎没有任何负载 当今的 Linux 集群系统处理能力越来越强 动辄达到几十甚至上百个 TFLOPS 于是用于计算处理 的时间越来越短 但传统存储技术架构对带宽和 I O 能力的提高却非常困难且成本高昂 这造成了当原始数据量较大时 I O 读写所占的整体时间就相当可观 成为 HPC 集群系统 的性能瓶颈 I O 效率的改进 已经成为今天大多数 Linux 并行集群系统提高效率的首要 任务 3 网格存储系统 高能物理的数据需求除了容量特别大之外 还要求广泛的共享 比如运行于 BECPII 上 的新一代北京谱仪实验 BESIII 未来五年内将累积数据 5PB 分布在全球 20 多个研究单位 将对其进行访问和分析 因此 网格存储系统应该能够满足海量存储 全球分布 快速访 问 统一命名的需求 主要研究的内容包括 网格文件名字服务 存储资源管理 高性能 的广域网数据传输 数据复制 透明的网格文件访问协议等 四 海量数据处理时容易出现的问题分析 1 数据量过大 数据中什么情况都可能存在 处理海量数据时 由于软件与硬上都具 有很高的要求 可能会造成系统崩溃和硬件损坏 将导致处理程序终止 2 软硬件要求高 系统资源占用率高 对海量的数据进行处理 除了好的方法 最 重要的 就是合理使用工具 合理分配系统资源 一般情况 如果处理的数据过 TB 级 小 型机是要考虑的 普通的机子如果有好的方法可以考虑 不过也必须加大 CPU 和 内存 就 象面对着千军万马 光有勇气没有一兵一卒是很难取胜的 3 要求很高的处理方法和技巧 这也是本文的写作目的所在 好的处理方法是一位工 程师长期工作经验的积累 也是个人的经验的总结 没有通用的处理方法 但有通用的原 理和规则 五 海量数据存储的处理方法 1 选用优秀的数据库工具 2 编写优良的程序代码 3 对海量数据进行分区操作 4 建立广泛的索引 5 建立缓存机制 6 加大虚拟内存 7 分批处理 8 使用临时表和中间 表 9 优化查询 SQL 语句 10 使用文本格式进行处理 11 定制强大的清洗规则和出错处 理机制 12 建立视图或者物化视图 13 避免使用 32 位机子 极端情况 14 考虑操作 系统问题 15 使用数据仓库和多维数据库存储 16 使用采样数据 进行数据挖掘 17 海 量数据关联存储 六 海量数据是发展前景 海量数据存储技术的发展前展 可以归结为以下几个方面 精品文档 4欢迎下载 高容量光存储技术的到来可以说改变了目前的存储格局 为原本暗淡的光存储带 来了一线生机 虽然光存储器的支持者们一直宣传该技术将成为下一代伟大的存储技 术 但是即便在它得到广泛推广之后 其企业客户基础在整个市场上的份额仍然很小 分布式存储与 P2P 存储 分布式存储概念提出较早 目前再次成为热点 P2P 存 储可以看作分布式存储的一种 是一个用于对等网络的数据存储系统 它的目标是提 供高效率的 鲁棒和负载平衡的文件存取功能 数据网格 为了满足人们对高性能 大容量分布存储能力的要求所提出的概念 类似于计算网格 是有机的智能单元的组合 智能存储系统 包括主动的信息采集 主动信息分 主动调整等 存储服务质量 QoS 应用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论