Spark概述与编程模型-1 0_第1页
Spark概述与编程模型-1 0_第2页
Spark概述与编程模型-1 0_第3页
Spark概述与编程模型-1 0_第4页
Spark概述与编程模型-1 0_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Spark概述与编程模型 陈 超 CrazyJvm Whats Spark Apache Spark is an open source cluster computing system that aims to make data analytics fast both fast to run and fast to write ? 2 BDAS ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? the Berkeley Data Analytics Stack 搞定所有! 4 回顾Hadoop 5 Hadoop的数据共享?慢! 为什么慢?额外的复制,序列化和磁盘IO开销。 6 Spark的共享数据?快! 7 Spark的快只是因为内存? ? 内存计算 DAG ? 很多优化措施其实是想通的,譬如说delay scheduling. 8 Spark API呢? 支持3种语言的API Scala(很好) Python(不错) Java() 9 通过哪些模式运行Spark呢? 有4种模式可以运行 local(多用于测试) Standalone Mesos YARN 10 其实一切都以RDD为基础 Resilient Distributed Dataset A list of partitions A function for computing each split A list of dependencies on other RDDs Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS fi le) 11 Spark runtime 12 流程示意 ? ? ? ? ? ? ps:RDD可以从集合直接转换而来,也可以由从现存的任何Hadoop InputFormat而来,亦或者HBase等等。 ? 13 分布式文件系统 File System transformation (延迟执行) 加载数据集 Action (执行) action触发执行 针对RDD的操作 fi rst demo! lines = sc.textFile(“hdfs:/.”) ? ? errors = lines.fi lter(_.startsWith(“ERROR”) ? ? errors.persist() ? ? Mysql_errors = errors.fi lter(_.contains(“MySQL”).count ? ? http_errors = errors.fi lter(_.contains(“Http”).count ? ? ? ? ? 14 加载进来成为RDD transformation 缓存RDD action 缓存策略 class StorageLevel private(? private var useDisk_ : Boolean,? private var useMemory_ : Boolean,? private var deserialized_ : Boolean,? private var replication_ : Int = 1)? ? ? ? ? val NONE = new StorageLevel(false, false, false)? val DISK_ONLY = new StorageLevel(true, false, false)? val DISK_ONLY_2 = new StorageLevel(true, false, false, 2)? val MEMORY_ONLY = new StorageLevel(false, true, true)? val MEMORY_ONLY_2 = new StorageLevel(false, true, true, 2)? val MEMORY_ONLY_SER = new StorageLevel(false, true, false)? val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, 2)? val MEMORY_AND_DISK = new StorageLevel(true, true, true)? val MEMORY_AND_DISK_2 = new StorageLevel(true, true, true, 2)? val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false)? val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, 2) 15 cache默认 transformation we sure will set SPARK_MASTER_IP explicitly, the SPARK_MASTER_PORT option, however, we probably do not set just using spark default port 7077. So if we do not set SPARK_MASTER_PORT, the condition will never be true. We should just use default port if users do not set port explicitly I think. 24 IDE 推荐Intellij IDEA 加入依赖 coding 打包 运行 25 Demo with IDE 26 ? ? ? Spark 1.0相关变动 27 ? ? spark-defaults.conf 默认参数 ? spark.master spark:/server1:8888 spark.local.dir /data/tmp_spark_dir/ spark.executor.memory 10g ? 注意:SPARK_MEM已被弃用 28 ? ? SPARK_JAVA_OPTS不建议再使用 SPARK_SUBMIT_OPTS为替代者 29 ? ? ? spark-submit /docs/latest/submitting-applications.html 30 ? ? ? ? http:/spark.ap

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论