已阅读5页,还剩94页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电 子 科 技 大 学UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA硕 士 学 位 论 文MASTER THESIS论 文 题 目 基 于 Hadoop 的 海 量 小 文 件 处 理 技 术 研 究学科专业 通 信 与 信 息 系 统学 号 201121010209作者姓名 陈 旭指导教师 徐 杰 副 教 授分 类 号 密 级UDC 注 1学 位 论 文基 于 Hadoop 的 海 量 小 文 件 处 理 技 术 研 究( 题 名 和 副 题 名 )陈 旭( 作 者 姓 名 )指 导 教 师 徐 杰 副 教 授电 子 科 技 大 学 成 都( 姓 名 、 职 称 、 单 位 名 称 )申 请 学 位 级 别 硕 士 学 科 专 业 通 信 与 信 息 系 统提 交 论 文 日 期 2014.05.12 论 文 答 辩 日 期 2014.05.19学 位 授 予 单 位 和 日 期 电 子 科 技 大 学 2014 年 6 月 25 日答 辩 委 员 会 主 席评 阅 人注 1: 注 明 国 际 十 进 分 类 法 UDC 的 类 号 。RESEARCH ON PROCESSING TECHNIQUESOF MASSIVE SMALL FILES BASED ON HADOOPA Master Thesis Submitted toUniversity of Electronic Science and Technology of ChinaMajor:Author:Advisor:School :Communication and Information SystemsChen XuA.Prof. Xu JieSchool of Communication & InformationEngineering独 创 性 声 明本 人 声 明 所 呈 交 的 学 位 论 文 是 本 人 在 导 师 指 导 下 进 行 的 研 究 工 作及 取 得 的 研 究 成 果 。 据 我 所 知 , 除 了 文 中 特 别 加 以 标 注 和 致 谢 的 地 方外 , 论 文 中 不 包 含 其 他 人 已 经 发 表 或 撰 写 过 的 研 究 成 果 , 也 不 包 含 为获 得 电 子 科 技 大 学 或 其 它 教 育 机 构 的 学 位 或 证 书 而 使 用 过 的 材 料 。 与我 一 同 工 作 的 同 志 对 本 研 究 所 做 的 任 何 贡 献 均 已 在 论 文 中 作 了 明 确 的说 明 并 表 示 谢 意 。签 名 : 日 期 : 年 月 日关 于 论 文 使 用 授 权 的 说 明本 学 位 论 文 作 者 完 全 了 解 电 子 科 技 大 学 有 关 保 留 、 使 用 学 位 论 文的 规 定 , 有 权 保 留 并 向 国 家 有 关 部 门 或 机 构 送 交 论 文 的 复 印 件 和 磁 盘 ,允 许 论 文 被 查 阅 和 借 阅 。 本 人 授 权 电 子 科 技 大 学 可 以 将 学 位 论 文 的 全部 或 部 分 内 容 编 入 有 关 数 据 库 进 行 检 索 , 可 以 采 用 影 印 、 缩 印 或 扫 描等 复 制 手 段 保 存 、 汇 编 学 位 论 文 。( 保 密 的 学 位 论 文 在 解 密 后 应 遵 守 此 规 定 )签 名 : 导 师 签 名 :日 期 : 年 月 日摘 要摘 要当 前 , 由 Apache 基 金 会 所 研 发 的 Hadoop 云 计 算 平 台 , 已 经 迅 速 成 为 了 大 数据 处 理 领 域 的 热 门 首 选 。 与 此 同 时 , 个 性 化 互 联 网 及 移 动 互 联 网 技 术 的 发 展 , 迅速 催 生 出 大 量 具 有 重 要 价 值 的 小 文 件 。 由 于 在 现 实 的 应 用 中 , 存 在 较 多 利 用 Hadoop对 海 量 小 文 件 进 行 存 取 的 需 求 ; 同 时 海 量 的 小 文 件 经 过 合 并 处 理 可 以 方 便 地 得 到适 合 Hadoop 平 台 处 理 的 大 文 件 。 因 此 , 利 用 Hadoop 平 台 在 处 理 大 数 据 处 理 方 面的 优 势 来 对 海 量 的 小 文 件 进 行 处 理 , 具 有 十 分 重 要 的 研 究 价 值 和 实 用 意 义 。然 而 , Hadoop 云 平 台 本 身 是 为 大 数 据 的 处 理 而 生 , 如 果 直 接 对 海 量 小 文 件 进行 处 理 , 存 在 耗 费 节 点 内 存 等 问 题 。 现 有 基 于 小 文 件 合 并 思 想 的 解 决 方 案 , 很 好地 解 决 了 海 量 小 文 件 耗 费 节 点 内 存 的 问 题 。 但 是 由 于 其 索 引 结 构 设 计 的 缺 陷 , 又带 来 小 文 件 检 索 效 率 低 、 名 字 节 点 负 担 重 、 实 用 性 差 等 问 题 。 本 文 深 入 研 究 Hadoop处 理 海 量 小 文 件 时 存 在 的 问 题 , 提 出 海 量 小 文 件 处 理 的 优 化 方 案 。论 文 在 第 三 章 和 第 四 章 分 别 提 出 基 于 多 层 索 引 的 小 文 件 读 写 策 略 ( 简 称 多 层索 引 技 术 ) 以 及 基 于 缓 存 技 术 的 小 文 件 读 取 策 略 ( 简 称 缓 存 预 取 技 术 ) 两 种 方 案 ,并 在 Hadoop 平 台 上 对 两 种 方 案 分 别 进 行 了 测 试 验 证 和 结 果 分 析 。 其 中 缓 存 预 取 技术 是 对 多 层 索 引 技 术 的 补 充 与 完 善 , 它 对 利 用 多 层 索 引 技 术 所 检 索 出 的 热 点 小 文件 进 行 缓 存 处 理 , 以 进 一 步 提 高 检 索 效 率 。 本 文 的 主 要 工 作 包 括 两 个 方 面 :1) 基 于 多 层 索 引 的 小 文 件 读 写 策 略 的 研 究 与 实 现 。 本 文 根 据 Hadoop 平 台 现有 小 文 件 处 理 的 思 想 , 对 海 量 小 文 件 进 行 合 并 然 后 建 立 索 引 。 其 中 索 引 结 构 的 设计 是 本 文 的 创 新 点 及 研 究 重 点 , 包 括 索 引 预 处 理 、 索 引 分 层 、 索 引 分 片 等 。 通 过对 小 文 件 按 类 型 进 行 合 并 , 建 立 多 层 索 引 , 并 对 Hadoop 平 台 源 代 码 进 行 相 应 改 进 ,海 量 小 文 件 在 Hadoop 平 台 上 耗 费 节 点 内 存 的 问 题 得 到 解 决 , 检 索 效 率 得 到 一 定 程度 提 升 、 名 字 节 点 负 担 得 到 减 轻 、 实 用 性 也 得 到 提 高 。2) 基 于 缓 存 技 术 的 小 文 件 读 取 策 略 的 研 究 与 实 现 。 本 文 实 现 了 基 于 Java 语 言的 Adaptive Repalcement Cache 缓 存 管 理 算 法 (ARC 算 法 ), 并 提 出 改 进 的 ARC 算 法 ,以 适 应 海 量 小 文 件 中 存 在 大 量 热 点 数 据 的 情 况 。 改 进 的 ARC 算 法 可 以 预 测 将 会 被频 繁 访 问 的 小 文 件 并 将 其 进 行 缓 存 , 并 动 态 置 换 缓 存 中 的 数 据 , 以 此 提 高 热 点 小文 件 的 检 索 效 率 。关 键 词 : Hadoop, 海 量 小 文 件 , Trie 树 , 多 层 索 引 , ARC 算 法 。IABSTRACTABSTRACTCurrently, the Hadoop platform developed by Apache Foundation, is rapidlybecoming a popular choice for cloud computing, due to its advantages of open source,robust, scalable features and strong abilities of distributed storage and distributedprocessing. Meanwhile, with the booming of personalized Internet technology andmobile Internet technology, the Internet is filled with massive small files, such asimages and files. These small files are massive, varied and very important because ofthe massive user information they include. Meanwhile, there are plenty of requirementsof storing and accessing small files, and small files can be merged to be processed byHadoop. Therefore, it will be very practical to process and analyze these massive smallfiles with Hadoop platform.However, problems like memory resources cost are bound to arise when we useHadoop to process massive small files, because Hadoop platform itself is built to handlebig data. The existing solutions based on merging small files solved the problems well.But problems like low retrieval efficiency, heavy burden of NameNode, lowconveniences and low practicability arise in addition, because of the defect of indexstructure designing. This thesis tries to study the problems when using Hadoop toprocess small files, take advantages of Hadoop, and propose optimization techniques toprocess massive small files.This thesis proposes two optimization techniques in chapter III and chapter IV:strategy of reading/writing small files based on multilayer index (abbr. multilayer indextechnology), strategy of accessing small files based on Cache (abbr. caching andprefetching technology). At the end of each chapter, we do simulation experiments,analyse the result and get the conclusion. The caching and prefetching technology isthe supplement and perfection for the multilayer index technology. If a small file isretrieved many times by multilayer index technology, then it will be cached by caching and prefetching technology.The main work of this thesis includes two aspects:1) Strategy of reading/writing small files based on multilayer index. According tothe existing thought for massive small files processing, we merge the small files andIIABSTRACTestablish index for them. And, the design of index structure is the key point andinnovation point of this thesis, includes preprocessing of index, layering of index,slicing of index, et al. The problems like memory resources cost, low retrieval efficiency,heavy burden of NameNode, low practicability, can be resolved by merging small filesand establish index for them and modifying the source code of Hadoop platform.2) Strategy of accessing small files based on Cache. We implement the Java-basedAdaptive Replacement Cache(ARC algorithm), to adjust to the hot spot data inmassive small files and propose an improved ARC algorithm. The improved ARCalgorithm can predict the small files that will be frequently accessed, put them in thecache, and replace the old cache files dynamically.Keywords: Hadoop, Massive Small Files, Trie Tree, Multilayer Index, ARC AlgorithmIII目 录目 录第 一 章 绪 论 . 11.1 大 数 据 的 出 现 . 11.2 云 计 算 的 出 现 . 11.3 海 量 小 文 件 的 出 现 . 31.4 海 量 小 文 件 的 处 理 . 41.4.1 Hadoop 处 理 小 文 件 的 问 题 . 51.4.2 Hadoop 小 文 件 处 理 技 术 国 内 外 研 究 现 状 . 51.5 论 文 的 研 究 内 容 与 意 义 . 71.6 论 文 的 组 织 结 构 . 7第 二 章 Hadoop 关 键 技 术 研 究 . 92.1 Hadoop 简 介 . 92.2 Hadoop 的 构 造 模 块 . 92.3 HDFS 分 布 式 文 件 系 统 .112.3.1 NameNode 名 字 节 点 . 122.3.2 HDFS 文 件 分 块 . 132.3.3 DataNode 数 据 节 点 . 132.3.4 Client 客 户 端 . 142.3.5 HDFS 文 件 读 取 . 142.4 MapReduce 并 行 计 算 模 型 . 162.4.1 JobTracker 作 业 跟 踪 节 点 . 162.4.2 TaskTracker 任 务 跟 踪 节 点 . 162.4.3 MapReduce 数 据 处 理 . 172.5 Hadoop 平 台 搭 建 . 182.5.1 网 络 的 搭 建 . 192.5.2 软 件 的 安 装 . 202.5.3 集 群 的 配 置 . 202.6 本 章 小 结 . 23第 三 章 基 于 多 层 索 引 的 小 文 件 读 写 策 略 及 测 试 分 析 . 243.1 合 并 小 文 件 . 25IV目 录3.1.1 合 并 算 法 . 253.1.2 合 并 实 现 . 263.2 自 定 义 输 入 文 件 分 片 . 263.2.1 MapReduce 分 片 . 263.2.2 自 定 义 分 片 的 实 现 . 273.3 建 立 多 层 索 引 . 283.3.1 索 引 预 处 理 . 293.3.2 全 局 索 引 的 建 立 . 293.3.3 Trie 树 . 323.3.4 局 部 一 级 索 引 的 建 立 . 333.3.5 索 引 树 的 分 裂 . 393.3.6 局
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中暑的中医治疗原则与方法
- 2025年安全意识提升课件
- 尿管留置的并发症护理措施
- 2026广西南宁市五一路小学春季学期临聘教师招聘考试备考试题及答案解析
- 2026广东江门市东林物业管理有限公司招聘25人笔试备考题库及答案解析
- 中医护理实践中的创新思维培养
- 2026四川安吉物流集团有限公司上半年社会招聘23人(一)考试参考试题及答案解析
- 2026四川德阳市人民医院招聘5人考试参考试题及答案解析
- 2026天津市河东区东新街社区卫生服务中心招聘编外工作人员1人考试参考题库及答案解析
- 2026广西百色市西林县就业服务中心招聘编外聘用人员2人考试备考试题及答案解析
- 七年级上册英语语法专项训练题库
- 国际金融(江西财经大学)学习通测试及答案
- 2025年智能文化旅游景区智能化建设方案
- 高层建筑动火作业安全专项施工方案
- 2025年驻马店辅警招聘考试真题附答案详解(完整版)
- 2026年苏州工业职业技术学院单招职业倾向性测试必刷测试卷附答案
- 医院2024年度内部控制风险评估报告
- 2024-2025学年福建省福州市九校高一下学期7月期末考试语文试题(解析版)
- FIDIC1999版《施工合同条件》在石化工程中的应用剖析:优势、挑战与实践路径
- 山东省济南市2025届中考数学真题(含答案)
- 土木工程 毕业论文
评论
0/150
提交评论