Google_云计算核心技术及应用场景分析.ppt_第1页
Google_云计算核心技术及应用场景分析.ppt_第2页
Google_云计算核心技术及应用场景分析.ppt_第3页
Google_云计算核心技术及应用场景分析.ppt_第4页
Google_云计算核心技术及应用场景分析.ppt_第5页
免费预览已结束,剩余36页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Google云计算 核心技术介绍及应用场景分析 CloudComputing 2020年2月16日 1 网络信息内容安全 讲义 张华平 2010 10 小组成员 2020年2月16日 2 内容目录 2020年2月16日 3 云计算的基本概念 云计算的概念 云计算的服务形式 云计算的发展现状 2020年2月16日 4 是由分布式计算 并行处理 网格计算发展来的新兴商业计算模型 将计算任务分布在大量计算机构成的资源池上 使各种应用系统能够根据需要获取计算力 存储空间和各种软件服务 类似电厂集中供电模式 最终目标是将计算 服务和应用作为公共设施提供给公众 使人们能够像使用水 电 煤气那样使用计算机资源 云计算的概念 2020年2月16日 5 云计算的发展现状 2020年2月16日 6 IaaS Infrastructureasaservice AmazonWeb服务 AWS IBM的BlueCloud等PaaS Platformasaservice Google的AppEngineSalesforce的开放平台八百客的800APPSaaS Softwareasaservice GoogleDocsGoogleMailSalesforce的CRM ERP 云计算的服务形式 2020年2月16日 7 Google云计算核心技术 并行计算模型MapReduce 分布式文件系统GFS 分布式数据库BigTable 2020年2月16日 8 Google拥有海量数据 并且需要快速处理 为什么需要MapReduce GoogleMapReduce架构设计师JeffreyDean 2020年2月16日 9 处理和生成海量数据的并行编程模型 用于大规模数据集 通常大于1TB 的并行运算 MapReduce的核心是Map和Reduce两个函数Map 映射 对列表中的所有元素进行指定的操作 返回基于这个处理的中间结果集 Reduce 化简 对中间结果集进行分类和归纳得到最终的计算结果 两个函数可能会并行运行普通的PC机集群上 MapReduce的概念 2020年2月16日 10 MapReduce执行流程 1 2 3 4 5 6 7 2020年2月16日 11 Worker故障Master周期性的ping每个worker 检查状态重新执行失效节点上已经执行或尚未执行的Map任务重新执行失效节点上未完成的Reduce任务Master故障定期写入检查点数据备恢复之用Master的数据多重备份机制重新发起MapReduce计算请求 MapReduce架构的思考 MapReduce计算架构有什么问题 2020年2月16日 12 任务分割的粒度 时间复杂度任务备份机制 解决长尾效应本地文件读写 节省带宽跳过异常记录 避免崩溃 MapReduce的优化 2020年2月16日 13 MapReduce的性能 实践证明 MapReduce是出色的分布式计算模型对分布于1000台计算机上1TB数据进行排序仅需要68s对4000台计算机上的1PB数据进行排序处理仅需要6小时2分钟 每次测试至少会损坏1块硬盘 GoogleMapReduce平均每天的数据处理量是20PB 相当于美国国会图书馆当年5月份存档网络数据的240倍 Google云计算平台上运行的MapReduce实例 2020年2月16日 14 网站访问量统计Map Reduce 反向连接分析Map Reduce 倒排索引Map Reduce MapReduce的应用场合 2020年2月16日 15 MapReduce示例 单词计数 案例 单词记数问题 WordCount 给定巨大的文本文件 大于1TB 如何计算文件中所有单词出现的数目 2020年2月16日 16 MapReduce示例 单词计数 使用MapReduce求解该问题定义Map和Reduce函数 PseudoCode 2020年2月16日 17 MapReduce示例 单词计数 使用MapReduce求解该问题Step1 自动对文本进行分割 2020年2月16日 18 MapReduce示例 单词计数 使用MapReduce求解该问题Step2 在分割之后的每一对进行用户定义的Map进行处理 生成新的对 2020年2月16日 19 MapReduce示例 单词计数 使用MapReduce求解该问题Step3 对Map返回的中间结果集归拢排序 2020年2月16日 20 MapReduce示例 单词计数 使用MapReduce求解该问题Step4 将分组过的中间结果集传给Reduce操作 通过计数生成最后结果 2020年2月16日 21 Google云计算核心技术 并行计算模型MapReduce 分布式文件系统GFS 分布式数据库BigTable 2020年2月16日 22 产生的背景数据存储在多个可能出故障的普通PC机集群上和传统文件系统相比文件很大 GB级别 多数文件在写操作时为追加内容而不是重写主要负担为文件持续或随机读取 同步写 连续写等功能特性可扩展的分布式文件系统用于访问大量数据的大型应用高效运行在廉价硬件的集群上容错 集群中的机器可热拔插 分布式文件系统GFS 2020年2月16日 23 GFS文件系统架构 分布式文件系统GFS 块大小为64MB Master的必要性 2020年2月16日 24 Google云计算核心技术 并行计算模型MapReduce 分布式文件系统GFS 分布式数据库BigTable 2020年2月16日 25 BigTable的概念大型的分布式数据库 存储大规模结构化数据建立在GFS LockService和MapReduce之上把所有数据都作为对象来处理BigTable的作用为Google云计算应用提供数据结构化存储功能为应用提供简单数据查询功能 不支持联合查询 为MapReduce提供数据源或数据结果存储 分布式数据库BigTable 2020年2月16日 26 BigTable的数据模型分布式的多维映射 以 row column timestamp 索引 分布式数据库BigTable Rows Columns timestamps contents 2020年2月16日 27 Google云计算应用场景 学术搜索服务GoogleScholar 流量统计服务GoogleAnalytics 应用架构服务GoogleAppEngine 2020年2月16日 28 学术搜索服务GoogleScholar 2020年2月16日 29 数据抽取寻找包含学术论文信息的网页数据 并结构化存储学术论文信息抽取 分析参考文献 摘要等 可能的技术方案 MapReduce BigTable数据统计基于抽取的数据进行统计分析 如分析被引用次数等 可能的技术方案MapReduce BigTable数据存储行键 论文标题列键 作者 主题词 摘要 参考文献 期刊信息 被引次数等 学术搜索服务GoogleScholar 2020年2月16日 30 学术搜索服务GoogleScholar 2020年2月16日 31 学术搜索服务GoogleScholar 2020年2月16日 32 Google云计算应用场景 学术搜索服务GoogleScholar 流量统计服务GoogleAnalytics 应用架构服务GoogleAppEngine 2020年2月16日 33 GoogleAnalytics免费的企业级网络分析解决方案帮助企业了解网站流量和营销效果能以灵活的方式 各类报表 查看并分析流量数据 流量统计服务 GoogleAnalytics 2020年2月16日 34 流量统计服务 GoogleAnalytics 2020年2月16日 35 应用特征海量数据 要存储海量的用户行为数据 如点击时间 位置 海量用户 需要为任意多的网站提供流量分析技术路线使用BigTable存储和检索数据使用MapReduce统计数据 流量统计服务 GoogleAnalytics 2020年2月16日 36 GoogleAnalytics业务流程 流量统计服务 GoogleAnalytics 2020年2月16日 37 Google云计算应用场景 学术搜索服务GoogleScholar 流量统计服务GoogleAnalytics 应用架构服务GoogleAppEngine 2020年2月16日 38 应用架构服务 GoogleAppEngine 2020年2月16日 39 Google云计算关键技术并不仅仅是GFS BigTable MapReduce 还依靠其他软硬件的支持 3项关键技术都比较成熟 最近几年也有比较大的更新和修正 开源社区也有类似的开源项目可供研究使用 比如Hbase B

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论