版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第二届全国高校云计算应用创新大赛宣讲cloud东南大学2015年11月云的世界等你来赢!云计算(Cloud Computing) 越来越受到人们的关注,短短的几年时间产生巨大的影响力为什么云计算促使云计算产生的因素- 低硬件利用率提高了硬件和劳动力成本- 日益复杂的中间件安装时间长,配置复杂,操作系统要求。环境切换,人工参与大大增加问题的产生概率- 资源负荷高点和低点差距日益加大。云计算案例(1)IBM公司计划将分散在各个研究院的资源系统(如服务器、存储)整合,为公司内部所使用IBM公司构建了IBM Research Compute Cloud(RC2)该系统为科研人员提供了共享计算和存储资源
2、的平台RC2是公司内部的私有云平台美国国家档案馆公布1993-2001年希拉里作为第一夫人期间的白宫日程档案低质量的PDF需要被转换成可检索的文件格式华盛顿邮报现有的计算能力转换1页要30min,丧失新闻时效性Amazon EC2同时使用200个虚拟服务器案例,每个服务器的单页平均处理时间都缩短为一分钟,并在9小时内将所有的档案转换完毕,以最快的速度将这些第一手资料呈现给读者只需支付144.62美元云计算案例(2)纽约时报打算将其自1851年以来的1100万份报道转变成可搜索的数字化文档用传统转换技术方法,这项工作可能要数月才能完成租用亚马逊的云计算服务,使用基于云计算的开源软件Hadoop,
3、耗时仅一天云计算案例(3)Giftag是与好友分享购物清单的Web2.0应用以插件形式安装在浏览器上一经推出便广泛流行,服务器不堪重负迁移到Google App Engine平台 通过GAE可伸缩的计算性能来响应用户请求实现初创应用向稳定、持续增长的服务过渡云计算案例(4)哈根达斯需要一个CRM解决方案让分布在世界各地的员工进行沟通协作可根据不同的需求进行灵活配置通过Salesforce CRM在不到6个月上线无需构建自己的计算中心云计算案例(5)云计算机遇与挑战云计算带来的产业变革新的商业模式:计算资源的采购,获取,交付的变革;新的创新平台:突破硬件限制,可充分利用网络能力。云计算技术将使得
4、中小企业的成本大大降低。“云”让每个普通人都能以极低的成本接触到顶尖的IT技术。新的软件标准新的合作流程:不受地理限制的合作平台;云计算带来的IT革命资源的合理利用,提高运算效率;快速的资源交付,提高软件开发测试速度;标准的传输和协议,服务提供和访问标准化;易于复制,快速扩展容量。云计算支撑办公用户在家完成文档编辑用户在公司可以继续编辑数据加密数据备份云服务器云存储将用户的数据存储在云端,让用户何时何地都可以访问云储存的高可用性让用户的数据更加安全云存储按照用户使用的容量进行收费,按需使用,节约成本电子商务云端存储基于云的文档处理云服务器云端代码托管分析您的厨房数据云端虚拟主机云计算正在改变我
5、们生活的方方面面云计算的定义“云计算是一种商业计算模式和信息服务模式,它能够将动态伸缩的虚拟化资源通过互联网以服务的方式提供给用户。”维基百科“云计算包括互联网上各种服务形式的应用以及数据中心提供这些服务的软硬件设施。”伯克利云计算白皮书“云计算是一种共享的网络交付信息服务的模式,云服务的使用者看到的只有服务本身,而不用关心相关基础设施的具体实现。” IBM云计算机遇与挑战云计算带来的产业变革新的商业模式:计算资源的采购,获取,交付的变革新的创新平台:突破硬件限制,可充分利用网络能力。云计算技术将使得中小企业的成本大大降低。“云”让每个普通人都能以极低的成本接触到顶尖的IT技术新的软件标准新的
6、合作流程:不受地理限制的合作平台云计算带来的IT革命资源的合理利用,提高运算效率快速的资源交付,提高软件开发测试速度标准的传输和协议,服务提供和访问标准化易于复制,快速扩展容量IaaSPaaSSaaSIaaS:以基础设施形式提供服务(如虚拟机)PaaS:以平台形式提供服务(如Web托管,大数据处理平台)SaaS:以软件形式提供服务(如云网盘,在线Office)云计算的典型使用场景与层次划分云的发展- IaaS, PaaS, SaaS NetworkingStorageServersVirtualizationO/SMiddlewareRuntimeDataApplications传统环境Net
7、workingStorageServersVirtualizationO/SMiddlewareRuntimeDataApplicationsPlatformas a ServiceNetworkingStorageServersVirtualizationO/SMiddlewareRuntimeDataApplicationsSoftwareas a ServiceNetworkingStorageServersVirtualizationMiddlewareRuntimeDataApplicationsInfrastructureas a ServiceO/SIaaS: Cut IT ex
8、pense and complexity through a cloud enabled data centerPaaS: Accelerate time to market with cloud platform servicesSaaS: Gain immediate access with business solutions on cloudInnovate business models by becoming a cloud service provider云的发展- IaaS, PaaS, SaaS云到底在哪里?云计算的主要特征(外部)数据在云端:不怕丢失,不必备份,可以任意点的
9、恢复软件在云端:不必下载自动升级无所不在的计算:在任何时间,任意地点,任何设备登录后就可以进行计算服务无限强大的计算:具有无限空间的,无限速度The Cloud is typically a large data-centerAnd very different from a PC云计算的主要特征(应用)IT能力以服务的方式交付资源池自动化管理与快速交付弹性扩展按使用量计费使用者自助服务开放的访问接口虚拟化技术大数据存储与管理技术大数据处理技术云计算的主要技术IaaS相关技术什么是虚拟化?虚拟化就是把物理资源转变为逻辑上可以管理的资源,以打破物理结构之间的壁垒所有的资源都透明地运行在各种各样的
10、物理平台上,资源的管理都将按逻辑方式进行,完全实现资源的自动化分配CPU网络服务器存储应用桌面操作系统为什么需要虚拟化技术?虚拟化前:每台主机一个操作系统软件硬件紧密耦合应用程序之间相互干扰系统的资源利用率低硬件成本高且不够灵活虚拟化后:打破了操作系统和硬件的紧耦合通过虚拟机提供资源,实现故障隔离各虚拟机之间软件相互独立虚拟机独立于硬件, 能在任何硬件上运行虚拟化与云计算虚拟化技术可用于资源管理,提升资源利用率,降低能耗,是云计算的关键技术。虚拟化技术使得不同用户的应用运行在同一个服务器资源上,却可以保证不同用户数据的隔离。虚拟化技术使得虚拟机能够在底层服务器发生故障,自动迁移到其他状态良好的
11、服务器上,甚至整个数据中心发生灾难,都能够实现快速恢复。虚拟化技术使得用户的系统配置需求能够快速获得满足,不同配置的VM(资源+OS+App)能够自动部署到资源池上。云计算IaaS是通过互联网请求和配置VM的(例如需要能够运行Windows Server 2003和Oracle DB,要求500G硬盘,CPU为3GHZ),如果不采用虚拟化,需要人工去寻找特定的服务器(x86)以及相应的配置,并且进行安装部署虚拟化技术使得用户的VM能够实现动态弹性变更,而不需要预先预测容量需求云计算IaaS服务的一大特色正是用户可以在互联网弹性变更资源需求X虚拟化在云计算中的开源实现OpenStackOpenS
12、tack是由Rackspace和NASA共同开发的云计算平台,帮助服务商和企业内部实现类似于Amazon EC2和S3的云基础架构服务(IaaS)OpenStack能做什么将海量计算资源以虚拟机形式提供给用户管理云服务,查看运行和计费情况创建和存储用户应用的自定义镜像,并通过这些镜像启动、监控和终止实例管理云计算资源,能够配置和操作网络、存储等基础架构PaaS相关技术云环境下大数据处理Hadoop数据文件(由数据块构成)数据并行作业(由子任务构成)数据分析应用计算节点云计算工作流(由作业构成)PigLatinJavaSQLXMLSCOPEIaaS编程接口数据并行作业执行引擎分布式文件系统Paa
13、SMR编程模式及Hadoop的实现方式什么是MapReduce?MapReduce是Google公司提出的一种面向大规模海量数据处理的高性能并行计算平台和软件编程框架,是目前最为成功和最易于使用的大规模海量数据并行处理技术,广泛应用于搜索引擎(文档倒排索引,网页链接图分析与页面排序等)、Web日志分析、文档分析处理、机器学习、机器翻译等各种大规模数据并行计算应用领域。MR编程模式及Hadoop的实现方式MapReduce计算流程Input split shuffle output 读入数据: key/value 对的记录格式数据Map: 从每个记录里extract somethingmap (
14、in_key, in_value) - list(out_key, intermediate_value) 处理input key/value pair 输出中间结果key/value pairsShuffle: 混排交换数据把相同key的中间结果汇集到相同节点上Reduce: aggregate, summarize, filter, etc.reduce (out_key, list(intermediate_value) - list(out_value) 归并某一个key的所有values,进行计算输出合并的计算结果 (usually just one) 输出结果MR编程模式及Hado
15、op的实现方式Google MapReduce并行处理的基本过程 Cite from Dean and Ghemawat (OSDI 2004)有一个待处理的大数据,被划分为大小相同的数据块(如64MB),及与此相应的用户作业程序系统中有一个负责调度的主节点(Master),以及数据Map和Reduce工作节点(Worker)MR编程模式及Hadoop的实现方式Google MapReduce并行处理的基本过程 Cite from Dean and Ghemawat (OSDI 2004)3.用户作业程序提交给主节点4.主节点为作业程序寻找和配备可用的Map节点,并将程序传送给map节点 5.
16、主节点也为作业程序寻找和配备可用的Reduce节点,并将程序传送给Reduce节点 MR编程模式及Hadoop的实现方式Google MapReduce并行处理的基本过程 Cite from Dean and Ghemawat (OSDI 2004)6.主节点启动每个Map节点执行程序,每个map节点尽可能读取本地或本机架的数据进行计算 7.每个Map节点处理读取的数据块,并做一些数据整理工作(combining, sorting等)并将中间结果存放在本地;同时通知主节点计算任务完成并告知中间结果数据存储位置 MR编程模式及Hadoop的实现方式Google MapReduce并行处理的基本过
17、程 Cite from Dean and Ghemawat (OSDI 2004)8.主节点等所有Map节点计算完成后,开始启动Reduce节点运行;Reduce节点从主节点所掌握的中间结果数据位置信息,远程读取这些数据9.Reduce节点计算结果汇总输出到一个结果文件即获得整个处理结果MR编程模式及Hadoop的实现方式案例:单词记数问题(Word Count)给定一个巨大的文本(如1TB),如何计算单词出现的数目?MR编程模式及Hadoop的实现方式使用MapReduce求解该问题定义Map和Reduce函数MR编程模式及Hadoop的实现方式使用MapReduce求解该问题Step 1:
18、 自动对文本进行分割MR编程模式及Hadoop的实现方式使用MapReduce求解该问题Step 2:在分割之后的每一对进行用户定义的Map进行处理,再生成新的对MR编程模式及Hadoop的实现方式使用MapReduce求解该问题Step 3:对输出的结果集归拢、排序shuffle(系统自动完成)MR编程模式及Hadoop的实现方式使用MapReduce求解该问题Step 4:通过Reduce操作生成最后结果MR编程模式及Hadoop的实现方式图计算编程模式及实现方式297亿网页297亿网页Facebook 14亿用户700PB 人类基因分布式图计算数据量大计算复杂+主控节点计算节点1计算节点
19、2计算节点3计算节点4网络需要分布式的处理方式基于Spark的图存储dabacb314256数据图GVIDLabelID1a2a3d4b5c6bSrcIDDestID14411331155125525445244326点集文件(Vertices)边集文件(Edges)基于Spark的分布式处理处理结果VerticesRowRowEdgesRowRowRowRow点集文件边集文件并行处理将文件分块,存储于多个计算节点内存Join操作class Graph V, E def Graph(vertices: Table (Id, V) , edges: Table (Id, Id, E) )/ Ta
20、ble Views -def vertices: Table (Id, V) def edges: Table (Id, Id, E) def triplets: Table (Id, V), (Id, V), E) / Transformations -def reverse: GraphV, Edef subgraph(pV: (Id, V) = Boolean, pE: EdgeV,E = Boolean): GraphV,Edef mapV(m: (Id, V) = T ): GraphT,E def mapE(m: EdgeV,E = T ): GraphV,T/ Joins -de
21、f joinV(tbl: Table (Id, T): Graph(V, T), E def joinE(tbl: Table (Id, Id, T): GraphV, (E, T)/ Computation -def mrTriplets(mapF: (EdgeV,E) = List(Id, T), reduceF: (T, T) = T): GraphT, ESpark上关于图的操作Spark的例子(寻找最大的年龄)为每个用户找年龄最大的关注者val followerAge = graph.aggNbrs( e = e.src.age, / MapF max(_, _), / Reduce
22、F InEdges).verticesaggNbrs函数:根据邻居顶点的信息,更新每个顶点的属性516岁75岁19岁23岁30岁42岁ID:2ID:3ID:1ID:4ID:6ID:7子图匹配应用搜索引擎生物信息化学分析图像识别查询图数据图子图匹配问题子图匹配任务就是在一张大图G中找出与给定的查询图 q 同构的所有子图,并输出这些同构子图。数据图由“点集文件”和“边集文件”表示,并存储于分布式环境中。abcddabacb1423314256数据图G查询图q参考思路(步骤1-将查询图分解成若干子图)abcd1423查询图qabcabcbcd将查询图分解成若干子图参考思路(步骤2-匹配查询图的子图)
23、abcabcbcddabacb314256数据图Gabc145bac245acb256bac254abc145dbc534查询图的子图初始的匹配结果参考思路(步骤3-获取最终结果)abc145bac245acb256bac254abc145dbc534Join的中间结果dbc534a1a2dbc345a2dbc345dbc534a1初始的匹配结果两个最终结果云计算的典型应用云计算在AMS-02项目中的应用阿尔法磁谱仪航天飞机重110吨外掛燃料筒重756吨两个固体火箭推进器重1,142吨共计2,008吨AMS重7.5吨2011年5月16日上午8:56分奋进号发射升空云计算在AMS-02项目中的应
24、用Huntsville, AL数据中心(地区SOC)数据存储数据服务数据分析数据重建蒙特卡罗数据生产东南大学国际空间站上的AMS数据中继卫星RWTHCIEMATMilano监控中心AMS飞行状态监测监控中心AMS飞行状态监测和控制数据中心(SOC)数据重建数据分析数据分发和协调蒙特卡罗数据生产CERNJSC太空粒子束TDRSMSFC马歇尔宇航中心KU波段AMS Scientific Operation Center云计算在AMS-02项目中的应用AMS数据存储及管理、数据重建、蒙特卡洛仿真及物理分析等云计算在AMS-02项目中的应用根据AMS数据处理需求,东南大学于2011年建成了拥有3500
25、核(峰值计算能力达37万亿次)和500TB存储的云计算平台,部署了Openstack以及Hadoop等云计算软件实现了三大核心子系统资源管理系统任务调度系统数据管理系统完成了相应的应用部署蒙特卡洛仿真数据重建物理分析60东南大学AMS-SOC建设数据来源:AMS-02官方统计网站 http:/ams.cern.ch/ProdPlot/index.php东南大学AMS-SOC最新进展61四年多来,东南大学为AMS实验进行了大量的数据处理SEU东南大学产生的AMS数据量东南大学为AMS贡献的计算量原始数据141TB,蒙特卡洛仿真数据372TB,重建数据190TB,东南大学处理AMS实验数据总量达7
26、03TB.东南大学计算量达157万CPU小时,在六家AMS-SOC地区中心排行第一.AMS实验最新进展62 2013年2月17日,在美国科学促进会AAAS上丁肇中教授首次宣布将会发表AMS实验的第一批关于暗物质的成果。AMS实验的第一批成果:分析了250亿个初级宇宙射线,确认了680万个电子及其反粒子正电子(约40多万个)的事件。日内瓦时间2013年4月3号下午17:00在CERN宣布第二届全国高校云计算创新应用大赛第二届全国高校云计算应用创新大赛本届大赛由教育部科技发展中心主办,东南大学计算机科学与工程学院、中南大学信息科学与工程学院联合承办,ACM南京分会、焦点科技股份有限公司协办的全国性
27、赛事。本次大赛分为创意赛、技能赛及命题赛。本次大赛面向全国所有高校研究生以及本科生,以团队形式参加比赛,每团队由一名队长,三名队员以及一名指导老师组成。允许研究生本科生混合组队。大赛官网 /contest/创意赛充分发挥创造力和动手能力,自主设计与云计算理念相关的应用系统;着重突出趣味性、创新性与实用性。 创意赛的范围较广,任何同云计算理念挂钩的idea都可以大数据、物联网、基于云的图片处理方案、智能家居、医疗、环保、制造业、移动互联网,车载网等方面均可以作为本题的入手点。技能赛题目一:基于 Hadoop Map-Reduce的日志统计分析 电商公司越来重视接口访问日志的利用,从文件里边可以获
28、取到的访问性能、访问频率、访问来源,统计有以下意义:能够快速获取接口访问性是否下降,或者频率异常结合公司的访问量,可以预估举行促销活动时需要增加机器数接口修改后,是否出现波动等现实生活中的很多关系,例如社交网络、互联网网页超链关系、语义网、生物作用网络等,都可以用离散数学中的图加以描述并进行分析现实世界产生的图数据规模越来越大。Facebook的社交网络目前已经包括至少9亿日常活跃用户,每个用户平均有130个朋友。大规模的图分析任务需利用分布式计算系统进行并行处理子图匹配是图分析中的一个基础操作,被广泛应用于蛋白相互作用网络分析、知识库、程序分析等应用中。本题目希望选手利用Spark平台并行化子图匹配算法,使子图匹配操作能高效地在大规模图数据集上完成技能赛题目二:基于Spark的同构子图查询命题赛题目一:基于云端的在线教育系统近年来,在线公开课、在线直播、微课、慕
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 类器官培养技师考试试卷及答案
- 2025年信科公司机电分公司招聘57名员工(第三批)笔试历年参考题库附带答案详解
- 2025山东芳蕾田园综合体有限公司招聘17人笔试历年参考题库附带答案详解
- 2025山东威海经发投资控股集团有限公司及下属子公司市场化招聘8人笔试历年参考题库附带答案详解
- 2025安徽滁州某国企监控维修及泊车收费员等派遣岗位招聘12人笔试历年参考题库附带答案详解
- 2025四川蓬州自然资源投资集团有限责任公司招聘考试总及排名笔试历年参考题库附带答案详解
- 2025呼伦贝尔额尔古纳市蒙源旅游文化有限公司招聘136人笔试历年参考题库附带答案详解
- 2025内蒙古锡林浩特市鑫胜利汽保工具五金机电经销部招聘10人笔试历年参考题库附带答案详解
- 2025内蒙古呼和浩特市玉泉区阜丰生物科技有限公司招聘37人笔试历年参考题库附带答案详解
- 2025云南玉溪川洋产业发展有限公司招聘2人笔试历年参考题库附带答案详解
- (二模)德州市2026届高三年级4月学习质量综合评估政治试卷(含答案)
- 2026年丝绸博物馆陈列设计岗面试作品集准备
- 2026广西华盛集团有限责任公司招聘7人农业考试备考试题及答案解析
- 2026山东济清控股集团有限公司招聘23人农业笔试备考试题及答案解析
- 外研版八年级下册英语全册教学设计(配2026年春改版教材)
- 技术合同技术性收入核定表
- 多智能体强化学习概述
- 英语图表类作文实例
- 15D503利用建筑物金属体做防雷及接地装置安装图集
- 粉尘防爆安全管理台账-全套
- 2023北京朝阳初三一模语文(试卷及答案)
评论
0/150
提交评论