基于Hadoop的海量小文件处理技术研究

上传人：T*** IP属地：河北上传时间：2018-06-13 格式：DOCX 页数：99 大小：1.74MB 积分：12 举报 版权申诉

已阅读5页，还剩94页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

电子科技大学UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA硕士学位论文MASTER THESIS论文题目基于 Hadoop 的海量小文件处理技术研究学科专业通信与信息系统学号 201121010209作者姓名陈旭指导教师徐杰副教授分类号密级UDC 注 1学位论文基于 Hadoop 的海量小文件处理技术研究（题名和副题名）陈旭（作者姓名）指导教师徐杰副教授电子科技大学成都（姓名、职称、单位名称）申请学位级别硕士学科专业通信与信息系统提交论文日期 2014.05.12 论文答辩日期 2014.05.19学位授予单位和日期电子科技大学 2014 年 6 月 25 日答辩委员会主席评阅人注 1：注明国际十进分类法 UDC 的类号。RESEARCH ON PROCESSING TECHNIQUESOF MASSIVE SMALL FILES BASED ON HADOOPA Master Thesis Submitted toUniversity of Electronic Science and Technology of ChinaMajor:Author:Advisor:School :Communication and Information SystemsChen XuA.Prof. Xu JieSchool of Communication & InformationEngineering独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名：日期：年月日关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。（保密的学位论文在解密后应遵守此规定）签名：导师签名：日期：年月日摘要摘要当前，由 Apache 基金会所研发的 Hadoop 云计算平台，已经迅速成为了大数据处理领域的热门首选。与此同时，个性化互联网及移动互联网技术的发展，迅速催生出大量具有重要价值的小文件。由于在现实的应用中，存在较多利用 Hadoop对海量小文件进行存取的需求；同时海量的小文件经过合并处理可以方便地得到适合 Hadoop 平台处理的大文件。因此，利用 Hadoop 平台在处理大数据处理方面的优势来对海量的小文件进行处理，具有十分重要的研究价值和实用意义。然而， Hadoop 云平台本身是为大数据的处理而生，如果直接对海量小文件进行处理，存在耗费节点内存等问题。现有基于小文件合并思想的解决方案，很好地解决了海量小文件耗费节点内存的问题。但是由于其索引结构设计的缺陷，又带来小文件检索效率低、名字节点负担重、实用性差等问题。本文深入研究 Hadoop处理海量小文件时存在的问题，提出海量小文件处理的优化方案。论文在第三章和第四章分别提出基于多层索引的小文件读写策略（简称多层索引技术）以及基于缓存技术的小文件读取策略（简称缓存预取技术）两种方案，并在 Hadoop 平台上对两种方案分别进行了测试验证和结果分析。其中缓存预取技术是对多层索引技术的补充与完善，它对利用多层索引技术所检索出的热点小文件进行缓存处理，以进一步提高检索效率。本文的主要工作包括两个方面：1) 基于多层索引的小文件读写策略的研究与实现。本文根据 Hadoop 平台现有小文件处理的思想，对海量小文件进行合并然后建立索引。其中索引结构的设计是本文的创新点及研究重点，包括索引预处理、索引分层、索引分片等。通过对小文件按类型进行合并，建立多层索引，并对 Hadoop 平台源代码进行相应改进，海量小文件在 Hadoop 平台上耗费节点内存的问题得到解决，检索效率得到一定程度提升、名字节点负担得到减轻、实用性也得到提高。2) 基于缓存技术的小文件读取策略的研究与实现。本文实现了基于 Java 语言的 Adaptive Repalcement Cache 缓存管理算法 (ARC 算法 )，并提出改进的 ARC 算法，以适应海量小文件中存在大量热点数据的情况。改进的 ARC 算法可以预测将会被频繁访问的小文件并将其进行缓存，并动态置换缓存中的数据，以此提高热点小文件的检索效率。关键词： Hadoop，海量小文件， Trie 树，多层索引， ARC 算法。IABSTRACTABSTRACTCurrently, the Hadoop platform developed by Apache Foundation, is rapidlybecoming a popular choice for cloud computing, due to its advantages of open source,robust, scalable features and strong abilities of distributed storage and distributedprocessing. Meanwhile, with the booming of personalized Internet technology andmobile Internet technology, the Internet is filled with massive small files, such asimages and files. These small files are massive, varied and very important because ofthe massive user information they include. Meanwhile, there are plenty of requirementsof storing and accessing small files, and small files can be merged to be processed byHadoop. Therefore, it will be very practical to process and analyze these massive smallfiles with Hadoop platform.However, problems like memory resources cost are bound to arise when we useHadoop to process massive small files, because Hadoop platform itself is built to handlebig data. The existing solutions based on merging small files solved the problems well.But problems like low retrieval efficiency, heavy burden of NameNode, lowconveniences and low practicability arise in addition, because of the defect of indexstructure designing. This thesis tries to study the problems when using Hadoop toprocess small files, take advantages of Hadoop, and propose optimization techniques toprocess massive small files.This thesis proposes two optimization techniques in chapter III and chapter IV:strategy of reading/writing small files based on multilayer index (abbr. multilayer indextechnology), strategy of accessing small files based on Cache (abbr. caching andprefetching technology). At the end of each chapter, we do simulation experiments,analyse the result and get the conclusion. The caching and prefetching technology isthe supplement and perfection for the multilayer index technology. If a small file isretrieved many times by multilayer index technology, then it will be cached by caching and prefetching technology.The main work of this thesis includes two aspects:1) Strategy of reading/writing small files based on multilayer index. According tothe existing thought for massive small files processing, we merge the small files andIIABSTRACTestablish index for them. And, the design of index structure is the key point andinnovation point of this thesis, includes preprocessing of index, layering of index,slicing of index, et al. The problems like memory resources cost, low retrieval efficiency,heavy burden of NameNode, low practicability, can be resolved by merging small filesand establish index for them and modifying the source code of Hadoop platform.2) Strategy of accessing small files based on Cache. We implement the Java-basedAdaptive Replacement Cache(ARC algorithm), to adjust to the hot spot data inmassive small files and propose an improved ARC algorithm. The improved ARCalgorithm can predict the small files that will be frequently accessed, put them in thecache, and replace the old cache files dynamically.Keywords: Hadoop, Massive Small Files, Trie Tree, Multilayer Index, ARC AlgorithmIII目录目录第一章绪论 . 11.1 大数据的出现 . 11.2 云计算的出现 . 11.3 海量小文件的出现 . 31.4 海量小文件的处理 . 41.4.1 Hadoop 处理小文件的问题 . 51.4.2 Hadoop 小文件处理技术国内外研究现状 . 51.5 论文的研究内容与意义 . 71.6 论文的组织结构 . 7第二章 Hadoop 关键技术研究 . 92.1 Hadoop 简介 . 92.2 Hadoop 的构造模块 . 92.3 HDFS 分布式文件系统 .112.3.1 NameNode 名字节点 . 122.3.2 HDFS 文件分块 . 132.3.3 DataNode 数据节点 . 132.3.4 Client 客户端 . 142.3.5 HDFS 文件读取 . 142.4 MapReduce 并行计算模型 . 162.4.1 JobTracker 作业跟踪节点 . 162.4.2 TaskTracker 任务跟踪节点 . 162.4.3 MapReduce 数据处理 . 172.5 Hadoop 平台搭建 . 182.5.1 网络的搭建 . 192.5.2 软件的安装 . 202.5.3 集群的配置 . 202.6 本章小结 . 23第三章基于多层索引的小文件读写策略及测试分析 . 243.1 合并小文件 . 25IV目录3.1.1 合并算法 . 253.1.2 合并实现 . 263.2 自定义输入文件分片 . 263.2.1 MapReduce 分片 . 263.2.2 自定义分片的实现 . 273.3 建立多层索引 . 283.3.1 索引预处理 . 293.3.2 全局索引的建立 . 293.3.3 Trie 树 . 323.3.4 局部一级索引的建立 . 333.3.5 索引树的分裂 . 393.3.6 局

人人文库> 全部分类> 专业文献 > 生活休闲

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

基于Hadoop的海量小文件处理技术研究

文档简介

温馨提示

最新文档

评论

基于Hadoop的海量小文件处理技术研究

文档简介

温馨提示

最新文档

评论

相关文档