SPARK大数据处理引擎(初级).ppt_第1页
SPARK大数据处理引擎(初级).ppt_第2页
SPARK大数据处理引擎(初级).ppt_第3页
SPARK大数据处理引擎(初级).ppt_第4页
SPARK大数据处理引擎(初级).ppt_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

云软件组陈修恒,SPARK大数据处理引擎,Spark,一、ApacheSpark项目三、Spark技术架构四、Spark核心技术五、部署方式六、运行流程七、配置要求,Hadoop生态系统,Ambari(安装、部署、配置和管理工具),zookeeper分布式协作服务,HBase(实时分布式数据库),Hive(数据仓库),Pig(数据流处理),Mahout(数据挖掘库),MapReduce(分布式计算框架),HDFS(分布式文件系统),Flume(日志收集工具),Sqoop(数据库ETL工具),ApacheHadoop项目,CommonHDFS一个部署在廉价的机器上、具有高度容错性的文件系统YARN资源调度引擎MapReduce基于YARN调度引擎的大数据并行处理系统,AYARN-basedsystemforparallelprocessingoflargedatasets.,ApachSpark项目,Spark是一个快速通用的大规模数据处理框架。具有Hadoop的批处理能力,而且性能更佳。可以用于流处理、Sql统计、机器学习和图计算。,ApachSpark项目,ApacheSparkTMisafastandgeneralengineforlarge-scaledataprocessing,ApacheSparkTM是一个快速、通用的大数据处理引擎,ApacheSparkTM是HadoopMapReduce的改进版,SparkVSHadoopMapReduce,Spark技术架构,Kafka/HDFS/TCP/Flume/ZeroMQ/MQTT/Twiter,Spark,RDD,MapReduce,函数式编程接口,AmazonEC2/Mesos/YARN,由Scala编写,支持函数式编程。,支持多种数据源接入。,RDD-弹性分布式数据集,Spark将数据分布到多台机器的内存中进行并行计算。,Spark不具备集群管理能力,需要别的软件进行管理。,支持流式运算,可以从kafka等数据源不断的获取数据,并按时间切片处理。,Spark核心技术,MapReduce编程模型SparkRDDSpark运行流程SparkTransformationjssc=newJavaStreamingContext(conf,Dliseconds(1000);,SparkStreaming,JavaStreamingContextjssc;jssc=newJavaStreamingContext(conf,Dliseconds(300);,SparkStreaming,JavaStreamingContextjssc;jssc=newJavaStreamingContext(conf,Dliseconds(3);,SparkStreaming不适合即时计算,SparkSQL,处理结构化数据把结构数据抽象成DataFrame工作方式:分布式SQL查询引擎,SparkMllib,机器学习库目标:简化机器学习过程,提供可扩展性提供基本的机器学习算法和功能,包括:分类、回归、聚类、协同过滤、降维。提供底层优化提供管道化API,SparkGraphX,并行的图计算,三、部署方式,Standalone模式独立模式,自己负责资源调度。单点故障借助zookeeper实现。SparkOnMesosSpark运行在Mesos上,支持CPU非独占,资源由Mesos负责管理。SparkOnYarn资源由Yarn负责管理,最有前景的部署模式,支持动态添加资源。但是限于YARN自身发展,目前仅支持粗粒度模式。SparkOncloud如AWS的EC2,使用这种模式,访问Amazon的S3很方便。,standalone模式,(Stondalone模式)启动多个Master并注册到Zookeeper集群中,并保存状态。其中一个会被选为Leader,其余的保持Standby模式,当Leader故障,则选择另一个Master为Leader,并从Zookeeper中读取状态恢复。Master节点可动态添加或删除,四、配置要求,五、关键术语,Spar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论