Spark概述星赟(徐波).pptx

上传人：m*** IP属地：四川上传时间：2019-01-13 格式：PPTX 页数：48 大小：2.86MB 积分：15 举报 版权申诉

已阅读5页，还剩43页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

Spark概述星赟(徐波) 2016年9月7日星期三 Spark概述 1为什么会出现Spark？ 2Spark是什么？ 3Spark能做什么？一. 为什么会出现Spark？ MapReduce等系统建立在非迭代型数据流模型上，这不适合当前很多流行的应用中间结果保存在HDFS上，IO开销大 Hadoop提供的操作简单，表达能力欠缺，复杂计算实现难度大时延高，只适合批处理计算，实时数据处理支持不够 iter. 1iter. 2 . . . Input HDFS read HDFS write HDFS read HDFS write iter. 1iter. 2. . . Input 二. Spark是什么？（1）Spark的定义： Apache Spark is a fast and general engine for large-scale data processing 2009年 AMPLab启动Spark项目 2013年6月成为Apache孵化项目 2014年2月成为Apache顶级项目 7.26发布 Spark2.0， 900+ 二. Spark是什么？（2）Spark的主要特点速度快：比Hadoop快10-110X 二. Spark是什么？（2）Spark的主要特点容易使用：多语言：Java, Scala, Python, R. 易部署交互式操作多二. Spark是什么？（2）Spark的主要特点通用性 Spark SQL Spark Streaming Mllib GraphX SparkR 二. Spark是什么？（2）Spark的主要特点 Runs Everywhere 可以运行在：Hadoop, Mesos, standalone, or in the cloud 支持多数据源：HDFS, HBase, S3, and Cassandra 二. Spark是什么？（3）Spark的架构与运行机制 RDD：定义 RDD(Resilient Distributed Dataset，弹性分布式数据集) RDD是Spark操纵数据的一个高度抽象，即Spark所操作的数据集都是包装成RDD来进行操作的二. Spark是什么？（3）Spark的架构与运行机制 RDD：定义 RDD partition 分区分区分区分区 RDD: 分布式存储分布式弹性的，可以repartition 只读的不支持细粒度的操作二. Spark是什么？（3）Spark的架构与运行机制 RDD：生成从文件生成：文本、HDFS、Alluxio等从scala中生成：Array 从其他RDD转换 RDD FRDDMRDD filtermap URDD union GRDD3GRDD2GRDD1 groupByKey stage stage 二. Spark是什么？（3）Spark的架构与运行机制 RDD：依赖关系二. Spark是什么？（3）Spark的架构与运行机制 RDD：数据空间二. Spark是什么？（3）Spark的架构与运行机制 RDD：Lineage lPersist lCheckpoint l减少备份二. Spark是什么？（3）Spark的架构与运行机制 Spark架构 Deploy mode Client Cluster 运行在JVM上二. Spark是什么？（3）Spark的架构与运行机制 Spark架构 Cluster manager Standalone Yarn Mesos Spark On Yarn TRANSWARP 2014 Resource Manager NodeManager Executor Executor App1 SparkContext Application Master Job1Job2 NodeManager Executor Executor NodeManager Executor Executor NodeManager Executor Executor App2 SparkContext Application Master Job3Job4 Spark On Yarn TRANSWARP 2014 Resource Manager NodeManager Executor Executor App1 SparkContext Application Master Job1Job2 NodeManager Executor Executor NodeManager Executor Executor NodeManager Executor Executor App2 SparkContext Application Master Job3Job4 可以与其他框架更好的兼容二. Spark是什么？（3）Spark的架构与运行机制运行机制三. Spark能做什么？ WordCount实例 WordCount WordCount WordCount Spark Streaming 27 Port Folder Spark Streaming 28 Dstreams:离散流准实时 WordCount Spark Streaming 29 Spark SQL 特点：整合：Spark程序中可以查询结构化数据统一的数据访问：Avro, Parquet, ORC, JSON, and JDBC. 兼容Hive 标准连接历史：Shark = Spark SQL GraphX GraphX 点分割 Graph： VertexRDD EdgeRDD RDDEdgeTripletVD, ED GraphX 最大最小出入度 TopK最大出入度求单源最短路径 PageRank ConnectedComponents（取联通图） TriangleCount =二跳邻居(阿里) MLLib 类型算法 Data typesVector(dense、sparse vector)、Labeled point Local matrix(dense、sparse matrix) Distributed matrix（RowMatrix、IndexedRowMatrix、 CoordinateMatrix、BlockMatrix） Basic Statisticssummary statistics(sum、var) Correlations（Pearson、Spearman） Stratified sampling hypothesis testing(chi) random data generation Classification and Regression linear models (SVMs, logistic regression, linear regression) naive Bayes(多项式朴素贝叶斯、伯努利朴素贝叶斯) decision trees（Gini、entropy、variance） Random Forests（Gini、entropy、variance） Gradient-Boosted Trees（GBDT、GBRT） Collaborative Filteringalternating least squares (ALS) Clusteringk-means、Gaussian mixture、PIC、LDA、Streaming kmeans Dimensionality Reduction SVD, PCA Feature extraction and Transformation TF-IDF, HashingTF、Word2Vec, Normalizer, StandardScaler、 ChiSqSelector、PCA特征转换 Frequent pattern mining FP-growth、association rules、PrefixSpan otherlimited-memory BFGS (L-BFGS)、评估度量、预言模型标记语言PMML 35 MLLib-ml Spark.ml a uniform set of high-level APIs that help users create and tune practical machine learning pipelines an alpha component in Spark 1.2.0 ML Dataset TransformerEstimator PipelineParam 36 MLLib-ml 37 Pipeline Transformer Estimator ML Dataset Param MLLib-ml 预测 MLLib 39 Alluxio 减少与磁盘的IO Job之间数据共享增强稳定性：防止Spark 程序崩溃时，JVM进程退出 Spark最新进展 2016.7.26发布Spark2.0 钨丝计划（ Tungsten engine ）：JVM的GC问题, Tungsten使用了 Off-Heap 统一了DataFrames 和Datasets SparkSession、ML、Pipeline、Distributed algorithms in R Spark最新进展 Spark & Alibaba :Road map 小集群采坑 Avatar Yarn 集群 Ali Spark on yarn spark streaming & 双12 ML Studio 监控调度支持 ODPS 读写 43 2013.1 2013.4 2013.5 2013.8 2013.11 2014.2 2014.5 淘宝推荐系统架构离线近线在线 HBASE Mysql 原始数据 Spark 目标数据模型混合系统统推荐结果隐性反馈显性反馈点击流（Spark Streaming）日志 Hadoop & Hive ETL Model Training 模模型型模型 Spark & Alibaba 阿里云E-Mapreduce Spark的不足不过由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Spark概述星赟(徐波).pptx

文档简介

温馨提示

最新文档

评论

Spark概述星赟(徐波).pptx

文档简介

温馨提示

最新文档

评论

相关文档