




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于HDFS 的复合式大数据存储研究 陈新华CHENXin-hua;孙雅妮SUNYa-ni (四川信息职业技术学院,广元628017) 摘要:Hadoop中的HDFS是大数据存储处理的关键技术之一,HDFS有着存储超大数据集高效可靠等优点,HDFS存储小文件有着明显的缺陷。HBase是有着非常高效的数据查询能力,本文目标是结合HDFS和HBase各自的优点,设计一个复合式的大数据存储系统,将大于64MB文件存储在HDFS中;大于10M小于64MB文件存储在HDFS中,将文件目录存储在HBase中,提高检索速度;小于10M的文件直接存储在HBase中,较好的解决了大量小文件存储时NameNode内存瓶颈问题。实验证明这种设计能够提高存储效率。 关键词:hdfs;复合式;大数据存储 :TP333:A:1006-4311(xx)24-0051-03 作者简介:陈新华(1978-),男,陕西蒲城人,讲师,工学硕士,研究方向为云计算技术、信息安全技术。 0引言 HDFS是设计目标是TB级以上的大数据存储,存储小于64MB的文件时会给Hadoop系统带来服务性能上的问题。首先,小文件过多会影响NameNode的内存和DataNode的内存使用。其次,访问大量小文件的速度远小于访问几个大文件1。根据HDFS数据存储的机制读取数据时不论大小数据先要到NameNode中查找数据文件的分块情况及每块文件的存储路径,然后转到相应的DataNode上获取数据块,读取大量小文件时要多次与NameNode交互,增加了NameNode的负担。因此要对HDFS存储小文件机制进行改进。 本文使用HBase高效检索的优点,结合HDFS文件高可靠性的优点,设计能够高效处理大量小文件存储,能够作为一般信息系统的复合型存储系统框架,本框架能够充分提高数据存储的安全性,提高信息系统运行的可靠性。 1hadoop平台简介 Hadoop是由Apache基金会开发的分布式大数据存储和处理的系统2,具有高可靠性,高可扩展性及高容错等。Hadoop采用虚拟化的技术封装了底层实现细节,为用户提供了一个高度抽象的应用环境。 Hadoop中核心模块是HDFS(HadoopDistributedFileSystem)和MapReduce(分布式编程模型),Hadoop中所包含的组件如图1所示3。 HDFS作为Hadoop底层基础设施,为云计算提供了高可靠性、高性能的存储服务,MapReduce是一个分布是大数据处理编程框架。简单来说HDFS是hadoop中存储数据的机制,MapReduce是处理存储在HDFS中要处理的数据集的技术框架。 2HDFS文件系统 2.1HDFS架构 HDFS文件系统框架如图2所示,HDFS是一个主从结构的体系,Hadoop集群中的HDFS文件系统由一个NameNode(主)节点、若干个DataNode(从)节点和SecondaryNameNode节点组成4。 其中NameNode负责管理文件系统的元数据,维护整个系统中分布式文件系统的目录,主节点通过心跳线检测每个从节点的活动状态及数据块副本个数是否满足配置最低个数要求,DataNode是实际存储数据的节点。 客户需要写入数据时通过与NameNode通信,由NameNode根据负责数据分块数目、每个数据块具有的副本个数及数据块存储在那些节点和机架中,并将数据存储到具体的存储节点中;用户需要读取数据时先通过NameNode获取数据目录信息,然后到相应的DataNode上获取数据。HDFS文件系统中的SecondNameNode作为NameNode的备份系统,通过实时获取NameNode内存中的目录,在NameNode出现故障时可用SecondNameNode节点备份数据启动集群。(图2) 2.2HDFS文件系统特点 HDFS文件系统被设计为存储非常大的数据,并且具有很好的可靠性和高效性,HDFS文件系统具有以下的特点5。 HDFS设计目标是面向廉价的服务器集群设计的; 具有良好的容错能力; 具有较好的服务扩展能力; 包含了检测和处理故障的机制; 向用户提供透明的存储服务; 由驻留在物理服务器上的软件集群控制着系统运行的各个方面; HDFS通常以最小64M的数据块存储文件; HDFS对“一次存入,多次读取”的工作进行了负载优化。 虽然HDFS文件系统有着非常多的优点,但是HDFS有着与生俱来的一些缺点,主要表现在HDFS文件系统主要面向大文件存储,存储小文件时受到文件总数的限制,HDFS系统中每个文件及文件块都需要在NameNode中以150字节的存储容量保存其目录信息6,假设每个文件只有一个文件块,要保存一千万个小文件需要NameNode提供2.8G内存空间,如果文件数目增加至一亿个,则要占据28G内存空间,可见Hadoop集群中存储文件的大小受限于NameNode的内存大小;另一个问题是小文件给Hadoop的读取性能带来很大的影响。 3存储框架设计 3.1大数据存储策略 DFS本身就是为超大数据集提供高效存储和访问而设计的,根据HDFS的设计原理,HDFS首先会把文件按照默认块大小(64M)分块7,在根据副本个数分别存储在不同的DataNode中。所以针对大文件存储我们直接使用HDFS的存储系统。 3.2小文件的存储策略 HDFS在存储小文件方面没有优势,而且访问小文件的速度也会比较低。因此可以结合HBase实现小文件的存储,对于小于10M的文件直接将其存储到HBase中,对于大于10M小于64M的文件将其索引存储在HBase中,提高检索速度,提高文件存储的效率。 3.3基于Hadoop的存储框架 不同的数据类型有着不同的存储策略,结合Hdoop框架设计出如图3的复合型数据存储框架。在存储框架中用户或者应用程序根据不同的数据类型访问不同的存储方式,主要分为结构化存储和非结构化存储,结构化存储保存在关系型数据库中,然后利用关系型数据库和HDFS的相互导入功能达到使用HDFS系统高可靠性特点,非结构化数据通过非结构化的访问接口对大型文件直接存储到HDFS系统中,小文件采用存入HBase中,对于文件大小介于小文件和HDFS分块大小之间的数据在HBase建立相关的索引,将文件存入HDFS中,提高其访问效率。 复合型存储框架的特点有: 结构化和非结构化数据都能够进行存储; 对小文件存储减少了HDFS的固有问题的影响; 使用了HDFS系统的高可靠性,达到保证数据存储安全的目标; 对存储在HDFS中的数据可直接使用MapReduce进行分析。 4性能评估 4.1实验环境 实验环境为三个节点的Hadoop集群,操作系统均为64位的Ubuntu14.04,Hadoop版本为1.0.4,JDK版本为1.8.0.40。三个节点中其中一个节点为主节点运行NameNode、Secondary和JobTracker服务,从节点上运行DataNode和JobTracker服务。HBase安装在主节点上,提供快速查询服务。 4.2实验结果 本实验在未做改进之前向HDFS中写入100000个3MB的文件,做了改进之后再向HDFS存入100000个3M文件,分别测试器其内存使用情况和读写文件的耗时情况如图4所示,图5所示。通过测试可以得出改进后HDFS对小文件的存储在消耗NameNode、存储时间上有了比较好的改善。 5结论 依据Hadoop关键功能HDFS的机制和特点,在据存储过程中对大文件存储使用了HDFS系统存储,小文件使用HBase直接存储,介于小文件和HDFS数据分块大小之间的文件采用在HBase中建立索引信息,利用HBase的高效存取的性能,减少HDFS系统存储小文件时带来的不利影响,提高了存储效率。 参考文献: 1smallfilesproblem.cloud-era./blog/xx/02/the-small-problem/.xx-2-2. 2贾欧阳,阮树桦,田兴,李丹.MapReduce中Combine优化机制的利用J.计算机时代,xx,9. 3蔡斌,陈湘萍.Hadoo
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能化工生产-洞察与解读
- 钻孔桩水下打捞合同范本7篇
- 风险评估与量化-洞察与解读
- 2025年及未来5年中国高端女装市场竞争态势及行业投资潜力预测报告
- 微纳米颗粒清洗技术-洞察与解读
- 2025年度周口西华县中医院校园招聘17名考前自测高频考点模拟试题附答案详解
- 2025江苏泰州市第四人民医院招聘高层次人才15人考前自测高频考点模拟试题有完整答案详解
- 2025河南新乡市拓晋科技中等专业学校招聘模拟试卷及答案详解(网校专用)
- 2025黑龙江黑河市漠河市公益性岗位招聘18名考前自测高频考点模拟试题及完整答案详解
- 2025春季四川叙永县委组织部叙永县人力资源和社会保障局叙永县事业单位人才岗位需求70人考前自测高频考点模拟试题及答案详解(必刷)
- 监控验收单完整版本
- DL-T-5743-2016水电水利工程土木合成材料施工规范
- (正式版)YST 1682-2024 镁冶炼行业绿色工厂评价要求
- 体育健康知识教案课件
- 卡西欧dh800电吹管说明书
- 体育课免修申请书体育课免修申请书八篇
- 【超星尔雅学习通】商法的思维网课章节答案
- 509册泵类书籍大全-截止到20150531
- GB/T 5796.3-2022梯形螺纹第3部分:基本尺寸
- GA 576-2018防尾随联动互锁安全门通用技术条件
- 工厂化育苗基质与营养
评论
0/150
提交评论