已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
汤立谢峰帕斯卡 云端漫步 1 云计算的基本概念 2 世界为我们保存了多少数据 照片 5M 100张 500M视频 50M 10部 500M微博记录 10M 50条 500MQQ聊天记录 1KB 文字 5000条 100KB 图片 200张 25M各种账号信息 各种成绩信息 各种游戏信息 各种坑爹信息 2020 2 29 3 数据 数据 2020年35 2ZB 2001年1 8ZB 增长20倍 数据太多 搞不定怎么办 抬头看天 2020 2 29 4 云 2020 2 29 5 云 商业上的模型 IaaS Infrastructure as a Service 基础设施即服务PaaS Platform as a Service 平台即服务SaaS Software as a Service 软件即服务 2020 2 29 6 云 旧 的技术 下面的词是不是很熟悉 网格计算高性能计算分布式计算虚拟化负载均衡 2020 2 29 7 2020 2 29 8 分布式计算 神经网络 网格技术 广播网络 Web2 0 虚拟化 各种开源框架 新的浏览器技术 基础技术支持 按需服务 无处不在的网络 快速计算反应 独立的资源池 标准服务 基础特征 IaaS PaaS SaaS 交互模式 私有的 公共的 社区的 混合的 部署模式 2020 2 29 9 云的实质 资源的共享 将互联网看作一个大的资源池 我们本地除了具有基本的终端设备 不限种类 可能是PC 手机 电视 甚至电冰箱洗衣机等 而这些终端只具备基本的功能 可视 可输入 发声 电力 之外 其余的能力 直接从互联网上获取 记住 我们获取的仅仅是我们需要的部分 并且我们也只为这部分付费 运气好可能还免费 2020 2 29 10 IBM的创立者托马斯 沃森 全世界只需要5台电脑就足够了 BillGates 个人用户的内存只需640K足矣 李开复先生的一个比喻 银行 2020 2 29 11 分布式计算的难点 怎样将资源有效而透明的整合起来怎样存储大数据怎样建立编程模型 2020 2 29 12 Google三大论文 GFSBigTableMap Reduce其实现分别对应于hadoop HDFSHBaseMapReduce 2020 2 29 13 GFS GoogleFileSystem 本质 一个面向大规模数据密集型应用的 可伸缩的分布式文件系统效果 客户 云端 主机 主机 主机 存储空间无限大 2020 2 29 14 基本特征 高容错性性能上的高稳定性对大文件的处理进行了优化数据的更新不会删除原数据灵活性高 应用程序API 2020 2 29 15 BigTable 本质 数据库不同点 非关系型 NoSQL 分布式可扩展服务可配置 2020 2 29 16 架构 2020 2 29 17 Map Reduce 本质 编程模型Or框架应用场景 分布式大文件的并行计算贡献 通过简单的接口来实现自动的并行化和大规模的并行计算 2020 2 29 18 MapReduce过程 Map 映射简单说来 一个map函数就是对一些独立元素组成的概念上的列表的每一个元素进行指定的操作 Reduce 化简reduce操作指的是对一个列表的元素进行适当的合并 2020 2 29 19 一个简单的例子 统计 ababccbaabacbacacaba的字符频率 ababccbaab acbacacaba Map1 a 4b 4c 2 Map2 a 5b 2c 3 格式化输出1 格式化输出2 最终输出 Map过程 Map Reduce框架 Reduce过程 2020 2 29 20 21 云计算和Hadoop有几毛钱关系 云计算只是商业概念 它提出的是一种新的商业模式 是网格计算的进化版 Hadoop是云计算的产品 它是云计算在发展过程中应运而生的一个框架 22 Hadoop是什么 Hadoop 是一个分布式系统基础架构 简单说 就是一个可以简单快速运行和处理大规模数据的软件平台 Hadoop的特点 1 扩容能力 可靠存储和处理PB级数据 2 成本低 普通机器即可搭建 3 高效率 并行计算 4 可靠性 自动维护备份 失败后自动重新部署任务 23 Hadoop主要子项目 HDFS Hadoop分布式文件系统MapReduce 并行计算框架HBase 类似BigTable的分布式NoSQL列数据库Hive 数据仓库工具Zookeeper 分布式锁设施Avro 新的数据序列化格式与传输工具 将逐步取代Hadoop原有的IPC机制 24 25 分而治之 Hadoop的做法就是 大事化小 小事化了 将一个大任务分割成很多的小任务 然后分别进行处理 类似于分布式系统 对于大量任务 我们一般的处理方法就是并行和串行两种 但是串行处理过于缓慢 因此一般是并行处理 Hadoop的设计思想 26 Hadoop结构组成 Master NameNode和JobTrackerSlave DataNode和TaskTracker Master负责接收和调度任务 并对下面的Slave进行监控 一般还有一个SecondaryNameNode Slave主要负责对Client的任务进行处理 计算或者存储 27 结构示意 Hadoop平台一般由一个Master和多个Slave组成 Master节点 Slave节点 28 心跳机制 Master和Slave之间怎么进行联系的呢 它们是通过一种叫做HeartBeat的方式进行通信的 Slave每隔一定的时间 可调 默认为3秒 向Master发送一个消息 报告自己当前的状态 然后Master也通过这个心跳的返回值 向Slave传达指令 HeartBeat是单向的 只能是Slave发送给Master 29 30 Hadoop的当前应用 31 百度 Baidu对Hadoop中关键组件使用C 进行了重写 包括map shuffler和reducer等 经他们内部测试 5nodes 40GBdata 效率提升了约20 淘宝 淘宝针对自己集群特点 作业小 slot多 作业之间有依赖 集群共享 有些作业有时效性 对jobtracker和namenode进行了优化 据其官方博客称 其jobtracker有较大性能提升 且namenode吞吐量提升了8 倍 但其具体优化方法 未公开 一些公司对Hadoop的优化 32 Hadoop存在的不足 1 采用Java实现 对于CPU密集型任务来说 IO操作是致命缺点 2 开源项目 开源是把双刃剑 大家都可以修改 但是一些企业改进后为了公司的技术利益 不予公布 3 性能还不稳定 尚不成熟 4 HDFS小文件问题 HDFS存储文件的默认大小是64MB 5 JobTracker同时监控和调度 负载过大 33 未来 我来 34 深入理解HDFS 35 为什么需要HDFS 在哪里存储数据 什么是HDFS 为什么需要HDFS 36 HDFS的结构 Namenode 名字节点 负责文件系统名称 管理文件存储和控制客户端的访问 一般在一个单独机器上运行 Datanode 数据节点 负责文件的操作 读 写 删除 他也一般在一个单独机器上运行 SecondaryNamenode 当名字节点出问题 负责管理整个系统像名字节点 37 HDFS结构 Namenode Secondarynamenode Datanode Datanode Datanode Dat
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 混凝土搅拌站工艺设备调试与使用培训
- 高校消防安全智能化管理系统开发与应用
- 仓库消防安全自查自改方案
- 物流配送中心安全管理规范
- 物业维修保养管理流程及责任划分
- 废金属项目可行性分析报告范文(总投资20000万元)
- 风电场电气系统施工质量管理
- 蓝宝石压力传感器项目可行性研究报告(立项备案申请)
- 排水管道施工计划编制与执行方案
- 双减政策下教育APP辅助英语听说课堂教学
- 控制器说明书
- 10以内加减法练习题-直接打印版
- 音频处理器说明书
- 原发性中枢神经系统淋巴瘤
- 德语智慧树知到答案章节测试2023年西安理工大学
- 坚持成就梦想(励志经典)
- GB/T 21140-2017非结构用指接材
- GB/T 20019-2005热喷涂热喷涂设备的验收检查
- 北师大七年级初一数学上册-初一数学-分单元全套试卷
- 演讲希特勒的一生课件
- 穿支蒂皮瓣vs穿支筋膜蒂皮瓣课件
评论
0/150
提交评论