Spark大数据技术原理与实践_第1页
Spark大数据技术原理与实践_第2页
Spark大数据技术原理与实践_第3页
Spark大数据技术原理与实践_第4页
Spark大数据技术原理与实践_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Spark大数据技术原理与实践技术创新,变革未来2提纲Spark 简介Spark 功能与架构Spark 生态圈介绍1234Spark 编程3是什么Spark系统是分布式批处理系统和分析挖掘引擎;AMP LAB贡献到Apache社区的开源项目,是AMP大数 据栈的基础组件;做什么数据处理( Data Processing): 可以用来快速处理数 据,兼具容错性和可扩展性。迭代计算( Iterative Computation):支持迭代计算, 有效应对多步的数据处理逻辑。数据挖掘( Data Mining):在海量数据基础上进行复 杂的挖掘分析,可支持各种数据挖掘和机器学习算法。Spark 简介

2、4轻: Spark核心代码有3万行。Scala语言的简洁和丰富表达力巧妙利用了Hadoop和Mesos的基础设施快: Spark对小数据集可达到亚秒级的延迟,对大数据集的迭代机器 学习、即席查询、图计算等应用,Spark版本比基于MR、 Hive和Pregel的实现快。内存计算、数据本地性和传输优化、调度优化灵: Spark提供了不同层面的灵活性。Scala trait动态混入策略(如可更换的集群调度器、序列化库);允许扩展新的数据算子、新的数据源、新的language bindings( Java和 Python);Spark支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多 种范式

3、。巧:巧妙借力现有大数据组件。Spark借Hadoop之势,与Hadoop无缝结合;Shark借了Hive的势;Spark 特点5提纲Spark 简介Spark 功能与架构Spark 生态圈介绍1234Spark 编程6Spark数据共享机制iter. 1. . .InputreadHDFSwritereaditer. 2writequery 1query 2query 3result 1result 2result 3. . .HDFSread太慢,冗余读写、序列化、磁盘IOHDFSHDFSData Sharing in MapReduceHDFSiter. 1iter. 2. . .Inp

4、utDistributed memoryInputquery 1query 2query 3. . .one-time processing10-100 x快于网络和磁盘InputData Sharing in Spark7弹性分布式数据集(Resilient Distributed Datasets)A distributed memory abstraction that lets programmers performin-memory computations on large clusters只读的,可分区的分布式数据集只能直接通过操作符来创建和处理支持容错处理RDD 操作:Tran

5、sformation & ActionSpark 核心概念- RDDs8Spark 容错机制iter. 1iter. 2. . .InputDistributed memoryInputquery 1query 2query 3. . .one-time processing快的同时,也要保证系统鲁棒性血统关系(Lineage):记录RDD是如何从其它RDD中演变过来的一系列操作当这个RDD的部分分区数据丢失时,它可以通过Lineage获取足够的信息来 重新运算和恢复丢失的数据分区采用粗颗粒的数据模型,性能的提升9Spark 任务调度RDD ObjectsDAGSchedulerTaskSch

6、edulerWorkerrdd1.join(rdd2).groupBy().filter()build operator DAGsplit graph intostages of taskssubmit each stage as readylaunch tasks via cluster managerretry failed or straggling tasksexecute tasksstore and serve blocksDAGTaskSetCluster managerThreadsBlock managerTask10提纲Spark 简介Spark 功能与架构Spark 生态

7、圈介绍1234Spark 编程11Spark 生态圈MesosSpark StreamingSparkSQL (Shark)统一集群资源管理系统, 支持多种计算框架共享集群,eg Hadoop, MPI通过共享集群资源和数据,提高资源利用率和数据共享率目前最大部署集群为3500+节点支持大规模流式计算,吞吐量高于Storm基于Spark单一框架,完善Spark批处理、交互式处理和流式处理模式将流式计算分解成一系列小而确定的批处理作业Hive on Spark, 提供SQL访问Spark内的RDDs比Hive性能高40-100倍SparkSQL抛弃Hive,直接SQL on SparkShark

8、项目已经停止,目前是单独的SparkSQL12Spark 生态圈之GraphXBlinkDB大规模的模糊查询引擎允许用户在准确率和响应时间作出权衡主要是facebook在使用和维护快速的图计算框架,性能优于Giraph和GraphLab提供GraphLib和APIGraphXMLBase(MLlib)基于Spark的机器学习算法包支持可扩展的机器学习算法13提纲Spark 简介Spark 功能与架构Spark 生态圈介绍1234Spark 编程14Spark提供 Java,Python, Scala三种语言的编程接口,官网上有详细的Api 文档Spark提出的最主要抽象概念是弹性分布式数据集 (resilient distributed dataset,RDD),它是一个元素集合,划分到集群的各个节点上,可以被并行 操作。每个RDD都封装了不同的操作,开发者通过合理组合,应用这些RDD函数来实现需求功能。Spark提供的API主要分为两类:转换(transformation ):用来创建新的RD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论