




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Spark概述 星赟(徐波) 2016年9月7日星期三 Spark概述 1为什么会出现Spark? 2Spark是什么? 3Spark能做什么? 一. 为什么会出现Spark? MapReduce等系统建立在非迭代型数据流模型上,这不适合当 前很多流行的应用 中间结果保存在HDFS上,IO开销大 Hadoop提供的操作简单,表达能力欠缺,复杂计算实现难度大 时延高,只适合批处理计算,实时数据处理支持不够 iter. 1iter. 2 . . . Input HDFS read HDFS write HDFS read HDFS write iter. 1iter. 2. . . Input 二. Spark是什么? (1)Spark的定义: Apache Spark is a fast and general engine for large-scale data processing 2009年 AMPLab启 动Spark项 目 2013年6月成 为Apache孵 化项目 2014年2月成 为Apache顶 级项 目 7.26发布 Spark2.0, 900+ 二. Spark是什么? (2)Spark的主要特点 速度快:比Hadoop快10-110X 二. Spark是什么? (2)Spark的主要特点 容易使用: 多语言:Java, Scala, Python, R. 易部署 交互式 操作多 二. Spark是什么? (2)Spark的主要特点 通用性 Spark SQL Spark Streaming Mllib GraphX SparkR 二. Spark是什么? (2)Spark的主要特点 Runs Everywhere 可以运行在:Hadoop, Mesos, standalone, or in the cloud 支持多数据源:HDFS, HBase, S3, and Cassandra 二. Spark是什么? (3)Spark的架构与运行机制 RDD:定义 RDD(Resilient Distributed Dataset,弹性分布式数据集) RDD是Spark操纵数据的一个高度抽象,即Spark所操作的数据集都 是包装成RDD来进行操作的 二. Spark是什么? (3)Spark的架构与运行机制 RDD:定义 RDD partition 分区 分区 分区 分区 RDD: 分布式存储 分布式弹性的,可以repartition 只读的 不支持细粒度的操作 二. Spark是什么? (3)Spark的架构与运行机制 RDD:生成 从文件生成:文本、HDFS、Alluxio等 从scala中生成:Array 从其他RDD转换 RDD FRDDMRDD filtermap URDD union GRDD3GRDD2GRDD1 groupByKey stage stage 二. Spark是什么? (3)Spark的架构与运行机制 RDD:依赖关系 二. Spark是什么? (3)Spark的架构与运行机制 RDD:数据空间 二. Spark是什么? (3)Spark的架构与运行机制 RDD:Lineage lPersist lCheckpoint l减少备份 二. Spark是什么? (3)Spark的架构与运行机制 Spark架构 Deploy mode Client Cluster 运行在JVM上 二. Spark是什么? (3)Spark的架构与运行机制 Spark架构 Cluster manager Standalone Yarn Mesos Spark On Yarn TRANSWARP 2014 Resource Manager NodeManager Executor Executor App1 SparkContext Application Master Job1Job2 NodeManager Executor Executor NodeManager Executor Executor NodeManager Executor Executor App2 SparkContext Application Master Job3Job4 Spark On Yarn TRANSWARP 2014 Resource Manager NodeManager Executor Executor App1 SparkContext Application Master Job1Job2 NodeManager Executor Executor NodeManager Executor Executor NodeManager Executor Executor App2 SparkContext Application Master Job3Job4 可以与其他框架更好的 兼容 二. Spark是什么? (3)Spark的架构与运行机制 运行机制 三. Spark能做什么? WordCount实例 WordCount WordCount WordCount Spark Streaming 27 Port Folder Spark Streaming 28 Dstreams:离散流 准实时 WordCount Spark Streaming 29 Spark SQL 特点: 整合:Spark程序中可以查询结构化数据 统一的数据访问:Avro, Parquet, ORC, JSON, and JDBC. 兼容Hive 标准连接 历史:Shark = Spark SQL GraphX GraphX 点分割 Graph: VertexRDD EdgeRDD RDDEdgeTripletVD, ED GraphX 最大最小出入度 TopK最大出入度 求单源最短路径 PageRank ConnectedComponents(取联通图) TriangleCount =二跳邻居(阿里) MLLib 类型算法 Data typesVector(dense、sparse vector)、Labeled point Local matrix(dense、sparse matrix) Distributed matrix(RowMatrix、IndexedRowMatrix、 CoordinateMatrix、BlockMatrix) Basic Statisticssummary statistics(sum、var) Correlations(Pearson、Spearman) Stratified sampling hypothesis testing(chi) random data generation Classification and Regression linear models (SVMs, logistic regression, linear regression) naive Bayes(多项式朴素贝叶斯、伯努利朴素贝叶斯) decision trees(Gini、entropy、variance) Random Forests(Gini、entropy、variance) Gradient-Boosted Trees(GBDT、GBRT) Collaborative Filteringalternating least squares (ALS) Clusteringk-means、Gaussian mixture、PIC、LDA、Streaming kmeans Dimensionality Reduction SVD, PCA Feature extraction and Transformation TF-IDF, HashingTF、Word2Vec, Normalizer, StandardScaler、 ChiSqSelector、PCA特征转换 Frequent pattern mining FP-growth、association rules、PrefixSpan otherlimited-memory BFGS (L-BFGS)、评估度量、预言模型标记语言PMML 35 MLLib-ml Spark.ml a uniform set of high-level APIs that help users create and tune practical machine learning pipelines an alpha component in Spark 1.2.0 ML Dataset TransformerEstimator PipelineParam 36 MLLib-ml 37 Pipeline Transformer Estimator ML Dataset Param MLLib-ml 预测 MLLib 39 Alluxio 减少与磁盘的IO Job之间数据共享 增强稳定性:防止Spark 程序崩溃时,JVM进程退 出 Spark最新进展 2016.7.26发布Spark2.0 钨丝计划( Tungsten engine ):JVM的GC问题, Tungsten使用了 Off-Heap 统一了DataFrames 和Datasets SparkSession、ML、Pipeline、Distributed algorithms in R Spark最新进展 Spark & Alibaba :Road map 小集群采坑 Avatar Yarn 集群 Ali Spark on yarn spark streaming & 双12 ML Studio 监控 调度 支持 ODPS 读写 43 2013.1 2013.4 2013.5 2013.8 2013.11 2014.2 2014.5 淘宝推荐系统架构 离 线 近 线 在 线 HBASE Mysql 原始数据 Spark 目标数 据 模型混合系 统统 推荐结 果 隐性反馈 显性反馈 点击流 (Spark Streaming) 日志 Hadoop & Hive ETL Model Training 模 模 型 型 模 型 Spark & Alibaba 阿里云E-Mapreduce Spark的不足 不过由于RDD的特性,Spark不适用那种异步细粒度更新状态的应 用,例如web服务的存储或者是增量的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年地面垂直度调整设备项目发展计划
- 2025江苏连云港灌江农业发展集团有限公司招聘拟聘(第二批)考前自测高频考点模拟试题及参考答案详解1套
- 2025广西河池市天峨县自然资源局招聘机关事业单位编外聘用人员2人模拟试卷及一套参考答案详解
- 2025北京外国语大学附属外国语学校招聘模拟试卷及答案详解(历年真题)
- 2025年度青岛市园林和林业局所属事业单位青岛市园林和林业综合服务中心公开模拟试卷含答案详解
- 2025年济宁市任城区事业单位公开招聘工作人员(教育类)(125人)考前自测高频考点模拟试题及1套完整答案详解
- 2025湖北省三支一扶招募高校毕业生2000人模拟试卷及答案详解(全优)
- 2025年泰安新泰市市属国有企业公开招聘考前自测高频考点模拟试题附答案详解(完整版)
- 2025年长江工程职业技术学院人才引进24人模拟试卷及答案详解(全优)
- 2025福建福州市仓山区卫健系统招聘编内31人模拟试卷完整参考答案详解
- 土石方平场施工方案
- 2023年临汾市翼城县社区工作者招聘考试真题
- 《高级会计学(第9版)》习题答案
- 左传人物关系表还原版
- 快手磁力聚星星选达人认证考试试卷答案
- 临高县和舍镇先光村民委员会诉海南省国营西流农场土地纠纷一案
- 水泥混凝土路面设计
- 无机及分析化学 化学反应速率和化学平衡
- TY/T 3001-2006中国青少年儿童 手腕骨成熟度及评价方法
- GB/T 7631.5-1989润滑剂和有关产品(L类)的分类第5部分:M组(金属加工)
- 急性心力衰竭治疗的最新指南
评论
0/150
提交评论