简析Spark的发展历程ppt课件_第1页
简析Spark的发展历程ppt课件_第2页
简析Spark的发展历程ppt课件_第3页
简析Spark的发展历程ppt课件_第4页
简析Spark的发展历程ppt课件_第5页
已阅读5页,还剩25页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、简析spark -高效的分布式计算架构Life is short,you need spark!.Spark简介与体系架构Spark的安装与配置Spark的开发与运用Life is short,you need spark!.Spark简介与体系架构Spark的安装与配置Spark的开发与运用Life is short,you need spark!.Spark是一个高速,通用大数据计算处置引擎。的官方定义官方网址/.Spark的开展历史2021诞生于伯克利大学2021正式开源2021成为Apache基金工程2021发布2.0版本.Spark开展中的学术奉献“D

2、iscretized Streams: Fault-Tolerant Streaming Computation at Scale. Matei Zaharia, Tathagata Das, Haoyuan Li, Timothy Hunter, Scott Shenker, Ion Stoica. SOSP 2021. November 2021.“Shark: SQL and Rich Analytics at Scale. Reynold Xin, Joshua Rosen, Matei Zaharia, Michael J. Franklin, Scott Shenker, Ion

3、Stoica. SIGMOD 2021. June 2021.“Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters. Matei Zaharia, Tathagata Das, Haoyuan Li, Scott Shenker, Ion Stoica. HotCloud 2021. June 2021.“Shark: Fast Data Analysis Using Coarse-grained Distributed Memory (demo)

4、. Cliff Engle, Antonio Lupher, Reynold Xin, Matei Zaharia, Haoyuan Li, Scott Shenker, Ion Stoica. SIGMOD 2021. May 2021. Best Demo Award.“Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin

5、 Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica. NSDI 2021. April 2021. Best Paper Award and Honorable Mention for Community Award.“Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. HotCloud 2021. June

6、2021.Spark开展中的学术奉献 Spark主要奠基者如今Spark是在其博士论文的根底上开展而来的“An Architecture for Fast and General Data Processing on Large Clusters.Spark的版本开展在开源社区的奉献下Spark版本更新速度很快,平均1-2个月就推出一个新版本.Spark的体系架构被称为Spark core,是其最中心的部分,包含了Spark最根本、最中心的功能和根本分布式算子。Spark core 的根本功能有义务调度、内存管理、缺点恢复以及和存储系统的交互。.Spark的体系架构数据选集被分割为多个数据子集

7、Sparkcore RDD (resilient distributed dataset) 是Spark的中心概念,指的是一个只读的,可分区的分布式数据集分布式弹性数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。Spark的中心思绪就是将数据集缓存在内存中加快读取速度,同时用RDD以较小的性能代价保证数据的鲁棒性RDDRDD都是可序列化的,在内存缺乏时可自动降级为磁盘存储计算的中间结果会被保管,出错后可以方便地重新调度.Spark的体系架构Spark SQL用于分布式构造化数据的SQL查询与分析,在编写程序中,可以直接运用SQL语句.Spark的体系架构Spark Strea

8、ming是用于处置流数据的分布式流处置框架,它将数据流以时间片为单位进展分割构成RDD,可以以较小的时间间隔对流数据进展处置,从严厉意义上说是一个准实时处置系统。.Spark的体系架构Mllib是一个分布式机器学习库,在Spark平台上对一些常用的机器学习算法进展了分布式实现,如今都包括:分类、回归、聚类、决策树等等。.Spark的体系架构GraphX是一个分布式图处置框架,在Spark上实现了大规模图计算的功能,提供了对图计算和图发掘的各种接口。.使用场景时间跨度同类框架使用Spark复杂的批量数据处理小时级MapReduce(Hive)Spark基于历史数据的交互式查询分钟级,秒级Impa

9、laSpark SQL基于实时数据流的数据处理秒级StormSpark Streaming基于历史数据的数据挖掘-MahoutSpark MLlib基于增量数据的机器学习-Spark Streaming+MLlibSpark的体系架构在特定的运用场景下,Spark提供的处理方案不一定是最优,比如在实时数据流处置中,相比于Spark Streaming,Storm的实时性更强、时间切片更小,但Spark模块间的数据可以无缝结合,因此Spark生态体系可以为大数据的处置、分析提供一站式处理方案。.Spark简介与体系架构Spark的安装与配置Spark的开发与运用Life is short,you

10、 need spark!.Spark的安装与配置Spark支持在多种操作系统上安装和运用,包括Windows、Linux、Ubuntu以及苹果的Mac OS 等等。目前运用最广泛的是Linux和Ubuntu。缘由是其安装配置方便。.Spark的安装与配置将Spark部署一台单机系统中,需求安装的软件为 -Ubuntu -jdk -Hadoop-2.4.0 此为稳定版本 -Scala 编译spark的言语环境 -spark-bin-hadoop2.4 Spark的开源代码 -Spark开发环境以及IDE.Spark的安装与配置1、安装JDK,配置Java运转环境 测试jdk能否安装胜利:.Spa

11、rk的安装与配置2、安装Hadoop,配置环境变量 测试hdfs能否配置胜利:.Spark的安装与配置2、安装Hadoop,配置环境变量 测试hdfs能否配置胜利:.Spark的安装与配置3、安装Scala,配置相应环境变量 测试Scala安装能否胜利:.Spark的安装与配置4、安装Spark,配置环境变量 测试Spark能否安装胜利:.Spark的安装与配置4、安装Spark,配置环境变量 测试Spark能否安装胜利:.Spark简介与体系架构Spark的安装与配置Spark的开发与运用Life is short,you need spark!.Spark的开发与运用可以运用多种编程言语编写Spark运用,包括Java、Scala、Python和R。其中Scala是Spark框架的开发言语,所以运用Scala言语可以和Spark的源代码进展更好的无缝结合,更方便调用其相关功能。.Spar

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论