云计算之HDFSPPT课件.ppt_第1页
云计算之HDFSPPT课件.ppt_第2页
云计算之HDFSPPT课件.ppt_第3页
云计算之HDFSPPT课件.ppt_第4页
云计算之HDFSPPT课件.ppt_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 主要内容 Hadoop项目简介HDFS体系结构HDFS关键运行机制HadoopVS Google 分布式文件系统 HadoopAPIHadoop环境搭建 2020 3 18 2 Hadoop项目简介 吃水不忘挖井人 DougCutting简介 Lucene 开源的全文检索包人 Nutch 开源搜索引擎 hadoop创始人 曾经在是雅虎搜索工程师 后面加入Cloudera 发展hadoop的企业级应用 一位盗火者 把高深的搜索引擎技术带给普通大众 2020 3 18 3 Hadoop项目简介 Apache的解决方案 GFS HDFSMapReduce HadoopBigTable HBase 2020 3 18 4 HDFS为了做到可靠性 reliability 创建了多份数据块 datablocks 的复制 replicas 并将它们放置在服务器群的计算节点中 computenodes MapReduce就可以在它们所在的节点上处理这些数据了 Hadoop项目简介 2020 3 18 5 HDFS体系结构 NameNode MasterDataNode Chunksever 2020 3 18 6 一个名字节点和多个数据节点数据复制 冗余机制 存放的位置 机架感知策略 故障检测 数据节点心跳包 检测是否宕机 块报告 安全模式下检测 数据完整性检测 校验和比较 名字节点 日志文件 镜像文件 空间回收机制 HDFS关键运行机制 保障可靠性的措施 2020 3 18 7 HDFS关键运行机制 写文件流程 客户端缓存流水线复制并发写控制流程 1 客户端把数据缓存到本地临时文件夹2 临时文件夹数据超过64M 客户端联系NameNode NameNode分配DataNode DataNode依照客户端的位置被排列成一个有着最近物理距离和最小的序列3 与序列的第一个数据服务器建立Socket连接 发送请求头 然后等待回应 依次下传 客户端得到回包 流水线建立成功 4 正式发送数据 以4K为大小传送 2020 3 18 8 HDFS关键运行机制 读文件流程 客户端联系NameNode 得到所有数据块信息 以及数据块对应的所有数据服务器的位置信息尝试从某个数据块对应的一组数据服务器中选出一个 进行连接 选取算法未加入相对位置的考虑 数据被一个包一个包发送回客户端 等到整个数据块的数据都被读取完了 就会断开此链接 尝试连接下一个数据块对应的数据服务器 整个流程 依次如此反复 直到所有想读的都读取完了为止 2020 3 18 9 HDFSVS GFS 总体架构的比较数据结构化管理组件 Hbase BigTable并行计算模型 MapReduce MapReduce分布式文件系统 HDFS GFSHadoop缺少分布式锁服务Chubby HBase MapReduce HDFS BigTable MapReduce GFS Hadoop云计算应用 Google云计算应用 2020 3 18 10 HDFSVS GFS HDFS与GFS比较中心服务器模式的差异GFS 多台物理服务器 选择一台对外服务 损坏时可选择另外一台提供服务HDFS 单一中心服务器模式 存在单点故障原因 Hadoop缺少分布式锁服务 2020 3 18 11 HDFSVS GFS HDFS与GFS比较子服务器管理模式差异GFS ChunkServer在Chubby中获取独占锁表示其生存状态 Master通过轮询这些独占锁获知ChunkServer的生存状态HDFS DataNode通过心跳的方式告知NameNode其生存状态GFS中 Master损坏时 替补服务器可以快速获知ChunkServer的状态HDFS中 NameNode损坏后 NameNode恢复时需要花费一段时间获知DataNode的状态在添加数据存储节点时 GFS的伸缩性较HDFS要好原因 Hadoop缺乏分布式锁服务 2020 3 18 12 HDFSVS GFS HDFS与GFS比较HDFS具备安全模式获知数据块副本状态 若副本不足 则拷贝副本至安全数目 如3个 GFS不具备安全模式副本损坏处理 API读取副本失败时 Master负责发起拷贝任务 2020 3 18 13 HDFSVS GFS HDFS与GFS比较HDFS具备空间回收机制文件删除时 仅删除目录结构实际数据的删除在等待一段时间后实施优点 便于恢复文件 2020 3 18 14 HDFSAPI 简单的HDFSAPI hdfs copyFromLocalFile pathsrcPath pathdstPath 上传本地文件到HDFS的指定位置上eg 1 Configurationconfig newConfiguration 2 FileSystemhdfs FileSystem get config 3 PathsrcPath newPath srcFile 4 PathdstPath newPath dstFile 5 hdfs copyFromLocalFile srcPath dstPath hdfs create pathpath 创建HDFS文件1 Configurationconfig newConfiguration 2 FileSystemhdfs FileSystem get config 3 Pathpath newPath fileName 4 FSDataOutputStreamoutputStream hdfs create path 5 outputStream write buff 0 buff length 2020 3 18 15 HDFSAPI 常用的HDFSAPI hdfs rename PathfromPath PathtoPath 重命名hdfs文件hdfs delete Pathf Booleanrecursive 删除指定HDFS文件hdfs exists Pathpath 检查指定路径是否存在 2020 3 18 16 HDFS 安防行业的应用前景 HDFS存储相对传统存储的优势硬盘使用寿命传统存储 硬盘每天24小时不停的读写 造成寿命锐减 HDFS存储 多硬盘并行工作 负载均衡保证不会过度使用硬盘 2020 3 18 17 HDFS 安防行业的应用前景 HDFS存储相对传统存储的优势海量数据存储传统存储 海量视频存储对硬盘要求过高 不能动态增加硬盘容量 扩展容量方便HDFS存储 可以动态增加容量 容量抽象为没有上限 流式存储很适合视频数据 2020 3 18 18 HDFS 安防行业的应用前景 HDFS存储相对传统存储的优势海量数据分析传统存储 从海量视频数据存储中分析数据基本无法实现 HDFS存储 和hadoop另外的MapReduce分布式计算架构配合 可以进行海量视频数据的分析 2020 3 18 19 HDFS 安防行业的应用前景 HDFS存储的缺点实际存储数据比应存数据多传统存储 一份数据只需要存储一份 HDFS存储 一份数据需要至少两份的存储才能保证容错设计 造成实际存储大小比应该存储大小大2倍以上 2020 3 18

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论