大数据与相关技术简介PPT课件

上传人：优*** IP属地：广东上传时间：2020-06-19 格式：PPT 页数：41 大小：1.11MB 积分：35 举报 版权申诉

已阅读5页，还剩36页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、云安全事业部,大数据与相关技术简介,李鹏2016-01,目录,什么是大数据大数据应用场景大数据的相关技术,什么是大数据,大数据就是数据量大，很大，非常大因为数据量大，所以可以用来做很多事情，或者是用来将很多事情做得更好一些,什么是大数据,不是随机样本，而是全体数据小数据时代，精心设计的算法模型在大数据时代已经没有必要了，好的算法模型和不好的算法模型在大数据面前已经没有明显差距了不是精确性，而是混杂性因为数据量巨大，不准确的数据并不会对最终结果产生重大影响，相反在小数据时代，一个不准确的数字可能带来灾难性结果不是因果关系，而是相关关系事件万物都相互关联，但是没有必要苛求为什么关联，只要知道能关联

2、就可以了例子：1）沃尔玛在飓风之前将手电筒和蛋挞放到一起销售,大数据应用场景,大数据的很多应用场景之前就有，未必是因为大数据才兴起的，而是随着大数据技术而逐步完善的过去是有心无力（有想法，无技术），现在是既有心又有力（有想法，有技术）,大数据应用场景,多角度分析买家、卖家和商品,大数据应用场景,商品推荐,大数据应用场景,实时分析交易额,大数据应用场景,饿了么通过分析晚上的外卖，得出某某地方加班最多farecast通过分析常年历史数据，得出某某日期机票最便宜(可惜微软将其关闭)交管局通过分析实时交通数据，有效疏导客流，安排车辆,大数据应用场景,凡是数据量非常大的地方，都是大数据的应用场景通过大数

3、据分析，能够获取很多结论和预测,大数据相关技术,分布式基本框架zookeeper(竞争选举)mesos(资源管理)marathon（调度管理）chronos（调度管理）docker（虚拟化，进程管理，应用发布）hadoop（分布式计算系统，文件系统）HBase（数据库）Spark（更快的集群计算系统）还有很多，不再举例,分布式基本框架,1）多台服务器和PC主机通过网络相连2）多台服务器协同完成工作，管理员通过主机访问、控制服务器集群3）多个服务器必然有主服务器(master)和从服务器(slave)4）主服务器收集各个从服务器的工作状态，下发工作命令5）管理员通过PC主机将命令下发到主服务器,

4、分布式基本框架,为了防止master单点故障，可以配置多个master，如图中有三个master多个master中只有一个对外提供功能，该master称为leader除leader外的其他master，作为备份，同步leader的数据，当leader失效后接管leader工作，并变为leader,zookeeper,zookeeper是分布式应用程序协调服务，为分布式应用提供一致性的服务，提供的功能包括：配置维护、名字服务、分布式同步、组服务zookeeper通常用来进行选举leader。想想前面多个master之间选举leader实际上zookeeper能做的事情很多，选举leader只是其

5、中之一,mesos:只是做资源调度，不做任务调度,多个mesosmaster通过zookeeper选举出leaderleader下发任务到mesosslave一个mesosslave可以执行多个任务,marathon:基于mesos的任务调度平台,基于mesos的任务调度marathon适合启动会长期的、始终运行的任务，如果任务终止说明任务出现问题，marathon会重新启动任务，即marathon会确保任务始终得到执行（类比下p003中的sigcuggio.bin）marathon根据资源使用情况动态安排任务到某个mesosslave，每个任务在执行之前是不知道它将来在哪一台服务器上执行,c

6、hronos：基于Mesos的任务调度平台,和marathon区别：1）chronos适合执行短期的任务，即任务在执行完毕后会主动退出2）chronos可以定时执行某个任务以上两点可以和定时器做下类比3）支持通过某个完成的任务来触发新任务,docker:Build,Ship,andRunAnyApp,Anywhere,Docker提供了一种在安全、可重复的环境中自动部署软件的方式，它的出现拉开了基于云计算平台发布产品方式的变革序幕DockerContainersasaService(CaaS)Docker使得软件开发、运维变得更容易，通过建立docker镜像，发布docker，可以方便的在任何

7、地方运行基于docker的分布式应用程序,Docker解决的问题,可以简化部署多种应用实例工作，比如Web应用、后台应用、数据库应用、大数据应用比如Hadoop集群、消息队列等等都可以打包成一个Image部署,组成docker后，后续的部署再也不需要繁琐的步骤，直接运行docker就可以了，否则每个服务器都需要按照手操一步一步执行,Docker解决的问题,虚拟化手段的变化:云时代采用标配硬件来降低成本，采用虚拟化手段来满足用户按需分配的资源需求以及保证可用性和隔离性可以类比下VM,dockervsVM,docker更轻量级docker启动速度快docker部署更容易,hadoop,开源的、可靠

8、的、可扩展的、分布式的计算系统hadoop包含下述模块1）Utilities:基础工具模块，比如hadoop的基本命令程序2）HDFS:HadoopDistribtedFileSystem，分布式文件系统，具有高容错性，和高吞吐性的特点3）YARN:YetAnotherResourceNegotiator，任务调度和集群资源管理框架4）MapReduce:基于YARN的，并行处理大数据的系统,hadoop-HDFS,我要存东西,给你存到server1,server1原始数据,server2,这里看下简化模型,我要取东西,我想想？给你存到哪里了？知道了，是server1,server1原始数据,

9、server2,命令响应者：1）负责响应命令2）负责管理文件存在哪里server：负责实际存储动作,hadoop-HDFS,我要存东西,给你存到server1,server1原始数据,server2,继续看下简化模型,你挂了，我给你顶上,有备份更安全,hadoop-HDFS,我要存东西,给你存到server1还给你存上副本到server2,原始数据,继续看下简化模型,你挂了，我给你顶上,多存点更保险,副本,hadoop-HDFS,我要存东西,给你存到server1还给你存上副本到server2给你分开存储，并行操作更快,原始数据1/副本1,继续看下简化模型,你挂了，我给你顶上,分散存储，并行操

10、作，速度更快,原始数据2/副本2,hadoop-HDFS,HadoopDistribtedFileSystem，分布式文件系统数据分散在各个存储节点，数据都有副本，副本丢失或者宕机后可以自动恢复一句话保证了数据的可靠性。,hadoop-HDFS,HDFS通常由namenode，datanode，secondarynamenode组成，namenode是master，datanode是slave，secondarynamenode是namenode的冷备份。,namenode，secondarynamenode和datanode是三个进程，进程通过相互通信完成存储协作。namenode，seco

11、ndarynamenode各自占用1个服务器节点，3个datanode占用3个服务器节点。当然还有其他部署方案，比如将namenode和secondarynamenode部署在同一个节点上等等datanode负责将数据写入本节点的存储设备中,Hadoop-MapReduce,一个文件，其内容是a,b,c,a,b,a,c,在HDFS中被分为3个部分存储（不考虑副本）第一部分内容是a,b,c第二部分内容是a,b第三部分内容：a,c现在要统计该文件中，字母a的个数，怎么统计？方法：1）串行统计三个部分，逐步累加2）分别统计三个部分，最后综合到一起,Hadoop-MapReduce,我们要数图书馆中的

12、所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数得就越快。现在我们到一起，把所有人的统计数加在一起。这就是“Reduce”。,Hadoop-YARN,YARN:YetAnotherResourceNegotiator，任务调度和集群资源管理框架，通常YARN也称为MapReduce2.0(MRv2)，它是对第一代MapReduce的改进。可以简单的认为YARN用于资源管理下面两个图是两种资源管理的基本方法，可以用来说明一些基本原理，实际情况会更复杂一些,Hadoop-YARN,进一步讨论，在分布式集群中，资源管理的简化模型,对于分布式集群来说，一个任务或者说应用可能会在多个

13、节点上同时执行(MapReduce)资源管理者只能有一个，统筹管理所有资源资源管理者如何知道当前有多少资源可用呢？,Hadoop-YARN,每个节点上报自己的本节点的资源情况，由资源管理者统一管理、分配除非有显示说明，后续讨论为了画图方便，会隐去资源汇报者部分,Hadoop-YARN,多个任务（A和B），都可以向资源申请者发起请求，由申请者向资源管理者申请资源当任务较多时，资源申请者会比较忙。资源管理者要多资源请求进行排队资源申请者做的事情太简单了，想扩展下其他功能，比如获取下资源使用者的状态。当任务比较多时，资源申请者变为瓶颈。如何解决？,Hadoop-YARN,前面提到的资源申请者现在不仅

14、用于资源申请了，还做了其他功能，因此将名字换为“任务掌控者”任务掌控者可以控制、获取任务的状态，可以向资源管理者申请资源对于资源管理者来说，还是需要对请求排队每个任务都有自己的唯一一个任务掌控者，这样任务掌控者不再成为瓶颈，但是会占用一些资源,Hadoop-YARN,一个全局ResourceManager，对可用资源进行管理。ApplicationMaster(AppMstr)用来协调应用程序内的所有任务的执行。这包括监视任务，重新启动失败的任务，向ResourceManager申请资源。Nodemanager:以容器的形式提供资源，监控资源的使用情况，向ResourceManager报告资源

15、情况。容器：运行具体的任务。ResourceManager和NodeManager是HadoopYARN的进程，ApplicationMaster提供了编程框架，不同的应用程序会有自己的实现,HBase,HBase:HadoopDatabase分布式的、可以扩展的大数据存储数据库适用于随机的、实时的读写大数据可以认为HBase是基于HDFS的数据库，是和Hadoop配合一起使用的,Spark,快速的、通用的集群计算系统提供了高级别的API，包括Java，Scala，Python，R提供了优秀的图形计算引擎支持丰富的高级工具，包括SparkSQL相对比hadoop而言提供了不仅map，reduce操作，还有其他更多的操作有文章称spark会替换掉hadoop目前看到很多案例是hadoop和spark结合使用,Storm,分布式的、实时计算系统用于实时分析、在线机器学习、连续计算注意“实时”二

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据与相关技术简介PPT课件

文档简介

温馨提示

最新文档

评论

大数据与相关技术简介PPT课件

文档简介

温馨提示

最新文档

评论

相关文档