

下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、201工年4月28RGoogle云计算核心技术介绍及应用场景分析hltp:hi.baidiJ com/dr1ceSnzhang小组成员王仕军PPT制作报吿人-王长凯论文捜集,论文翻译图片和视频捜集荚术指导201年4月日内容目录云计算的概念云计算的概念云计算的服务形式云计算的发展现状Google 云计算 核心技术介绍Ad|分布式文件系统GFS分布式数据库BigTable并行计算模型MapReduceGoogle 云计算 应用场景分析 Google Scholar Google Analytics Google AppEnginc云计算的基本概念云计算的概念云计算的服务形式云计算的发展现状201年
2、4月日201年4月28R云计算的概念是由分布式计算算模型.“将计算任务分衣用系统能够根拒务DIOL G 8 *夬川八,金业/敷将/7木忸梅/个人爭IMLI云计算的发展现状JHIOIamazonweb servicesG8teMicr3阿里Soo ARP/ 百客检RUf费的住业桧/云计算的服务形式 laaS (Infrastructure as a service)Amazon Web服务(AWS)IBM的Blue Cloud等 PaaS (Platform as a service)Google的AppEngineSalesforce的开放平台 八百客的800APP SaaS (Softwar
3、e as a service)Google 云计算核心技术并行计算模型MapReduce分布式文件系统GFS分布式数据库BigTable?0l年4月日Google DocsGoogle Mail201年4月”曰201M 年4月28R10为什么需要MapReduce? Google拥有海量数据,并且需要快速处理MapReduce的概念处理和生成海量数据的并行编程模型;用于大规模数据集(通常大于1TB)的并行运算; MapReduce的核心是Map和Reduce两个函数Map,映射,对列表中的所有元素进行指定的操作,返回基于 这个处理的中间结果集;Reduce,化简,对中间结果集进行分类和归纳得到
4、最终的计 算结果;两个函数可能会并行运行普通的PC机集群上:201年4月28R12MapReduce执行流程MapReduce架构的思考 Worker故障Master周期性的ping每个worker,检查状态 雷摯蛙珞芒M a p任务MapReduce计算架构有什么问题? 定期写入检查点数据备恢复之用Master的数据多重备份机制 重新发起MapReduce计算请求MapReduce的优化卜任务分割的粒度:时间复杂度任务备份本地文跳过异13Map201年4月16MapReduce的应用场合网站访问量统计Map:Rcducc:反向连接分析Map:target, sourcoReduce:倒排索引
5、Map:Reduce:MapReduce示仮ij:单词计数案例:单词记数问题(Word Count)给定巨大的文本文件(大于1TB),如何计算文件中所有单词 出现的数目?Hello: 3IIcllo World Bye WcrldNWorld 2Hello lladoop Bye I(udoopMapReduce :Bye Hadcx) )p Hello Itadaop1/n)C. JHadoop 4201年4月MRIS201年4月16输入数据:输出数据:甲词所山现的频率201工年4月28R18MapReduce示仮ij:单词计数卜使用MapReduce求解该问题定义Map和Reduce函数(
6、Pseudo Code)Map(K,V)(For each word w in V Collect(w .1);Reduce(K,V int count = 0;For each v in vcount + v; Collect(K /count);MapReduce示仮ij:单词计数卜使用MapReduce求解该问题Step 1:自动对文本进行分割201工年4月28R18201M 年4月28R20Worl.lvByc 1-eWorldteWorld . 1AWorld .1 a- Hndocp lHvc 1FlodByc Ay-Hadoop l* Bye. I、. I JS-I、I N丿 H
7、iKkwip . 1 MapReduce示仮ij:单词计数卜使用MapReduce求解该问题Step 2:在分割之后的每一对vkey, value进行用户定义 的Map进行处理,生成新的vkey, value对MapReduce示例:单词计数卜使用MapReduce求解该问题Step 3:对Map返回的中间结果集归拢排序19201M 年4月28RMnp rail old愉山MapReduce示例:单词计数卜使用MapReduce求解该问题Google 云计算核心技术Fold 倫出Step 4:将分组过的中间结果集传给Reduce操作通过计 数生成最后结果?01炖4月曰、分布式文件系统GFS20
8、1年4月”曰22分布式文件系统GFS产生的背景数据存储在多个可能出故障的普通PC机集群上 和传统文件系统相比文件很大(GB级别) 多数文件在写操作时为追加内容而不是重写 主要负担为文件持续或随机读取,同步写,连续写等功能特性可扩展的分布式文件系统用于访问大量数据的大型应用高效运行在廉价硬件的集群上容错:集群中的机器可热拔插分布式文件系统GFS GFS文件系统架构Application(ctwmk byte nrnEMaster 的必要性?I chunk handle,chunk location*)(file QilNT . huaik jn3v I一I me ziR、Conrmlmessag
9、es块大小为 64 MB?chunk dalMGoogle 云计算核心技术分布式数据库BigTable分布式数据库BigTableBigTable的概念大型的分布式数据库,存储大规模结构化数据 建立在GFS丄ockService和MapReduce之上 把所有数据都作为对象来处理BigTable的作用为Google云计算应用提供数据结构化存储功能 为应用提供简单数据查询功能(不支持联合查询) 为M apReduce提供数据源或数据结果存储201年4月日分布式数据库BigTable BigTable的数据模型分布式的多维映射,以(row, column, timestamp)索引Colu mns
10、Google 云计算应用场景、学术搜索服务Coogle ScholarEngine1-4 o:1t2: timestampi1_ _ I1111Column FamilyRTableletanchorbold”ch or google-Contents:*201年4月28R学术搜索服务Google ScholarWebWdzs Maa Ms Shftaoig Gmail more vA Yi”cknid smcutinciArr- ar mt A Fax R Gnltth如JOA绅R (ho ACM 20=0 portal aem sgptrsnsfmnia Ur. part cf the 1
11、1 industry makng saRi%ara 6or mors attractnro a sarvico andwy FT ho&剛are & dsined aM purchased氐eiopon Aitbmnvach id3r. Cted av二?貨:m2 AH 89 0287Mfkct-Rntcd cloud computtnoi Vivien, hyp化and rcdlityJor dci/nno 1SQAICCS AScomputinoR 8vyya. CS Yoc. S Verxigopo I -_Pffcfmjrcc ComfMiting . 2C08 - l
12、ee explore teee orgAbstract This keynote paner presert a 21st certury vision o4 computing de-t6es varnuB computing pwadigms pfomiaing to dolrrtheSBIa9 computing uftiliio. deAnoo Cloud compiiling and pro旳deEthe arch4octure for creatirg r-arlceinig wfllMday be the 5th utility (alter力met elecincity ges
13、. and leleohony)7h*s computing utHKv*. I Ke all other . Cad All 25学术搜索服务Google Scholar。数据抽取寻找包含学术论文信息的网页数据.井结构化存储学术论文信息抽取(分析参考文献摘要等)可能的技术方案:MapReduce+Bi gTable。数据统计基于抽取的数据进行统计分析(如分析被引用次数等)可能的技术方案MapReduce+B i gTab IeGoogleschola8e chScholarAncles andT ar./ifne二nckidechai tens 201年4月28R。数据存储行键:论文标题列键
14、:作者主题词.摘要,参考文献期刊信息被引次数等201M 年4月28R学术搜索服务Google ScholarGUMOCUJ匕出、J里九&hx/ut( (wm和“呛文记食学术搜索服务Google ScholarGoadc Scholar tllB 沃 iWG*it U iftXG P it i:D citVQ.l总衣C” tA 1v 伦文0.1,论文八讣OA.】“rc. 1论S. 1论瓷人“ *HmJv 论MF:$ ZA. 2炖48.论文C.论G .Z 与QIU龙Q论2C仑二列.;TCXM.fifcTD it TH. Kt TAI $ Z诊2鼻.QX ZC料料9 Kh1iitSuifeX
15、A尢ZD论丈A. lx论t A. 1X丈入lx走XA. 1 V4 11伦YU. ixtf:?U“】X化t 9. t1应用架构服务Coogle AppEngine?01年4月“日38201年4月28日40应用架构服务:Google AppEngine报告总结MH年4月”口M10Google云计算关键技术并不仅仅是GFS,BigTable,MapReduce,还依靠其他软硬件的支持;3项关键技术都比较成熟,最近几年也有比较大的更 新和修正,开源社区也有类似的开源项目可供研究使 用,比如Hbase(BT), Hadoop(GFS4-MapReduce);Google正在研发新的分布式计算框架Spanner,希 望能够在全球范围内配置,调度计算资源;由于时间有限,研究不够深入,有兴趣的同学可以自 行阅读相关论文和书籍.201年4月28日40参考资源相关书籍:叶伟
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论