Spark项目实战培训大纲_第1页
Spark项目实战培训大纲_第2页
Spark项目实战培训大纲_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Spark项目实战培训大纲第1 章 Spark 的设计与运行原理1、概述2、 Spark 生态系统3、Spark 运行架构l 基本概念l 架构设计l Spark 运行基本流程l RDD 的设计与运行原理4、Spark 的部署方式5、Spark 和Hadoop 的交互6、在spark-shell 中运行代码l spark-shell 命令l 启动spark-shell 7、开发Spark 独立应用程序l 安装编译打包工具l 编写Spark 应用程序代码l 编译打包l 通过spark-submit 运行程序8、 Spark 集群环境搭建l 集群概况l 集群部署方案9、在集群上运行Spark 应用程序l 启动Spark 集群l 采用独立集群管理器l 采用Hadoop YARN 管理器第2 章 RDD 编程实战1、 RDD 编程基础l RDD 创建l RDD 操作l 持久化l 分区l 一个综合实例2、键值对RDD l 键值对RDD 的创建l 常用的键值对转换操作3、数据读写l 文件数据读写l 读写HBase 数据4、综合实例l 求TOP 值l 文件排序l 二次排序第3 章 Spark SQL 实战1、 Spark SQL 简介l Shark功能 l Spark SQL 架构l 为什么推出Spark SQL2、DataFrame 概述3、DataFrame 的创建4、DataFrame 的保存5、 DataFrame 的常用操作6、从RDD 转换得到DataFramel 利用反射机制推断RDD 模式l 使用编程方式定义RDD 模式7、使用Spark SQL 读写数据库l 通过JDBC 连接数据库l 连接Hive 读写数据第4章 Spark Streaming实战1、流计算概述l 静态数据和流数据l 批量计算和实时计算l 流计算概念l 流计算框架l 流计算处理流程2、 Spark Streamingl Spark Streaming 设计l Spark Streaming 与Storm 的对比l Hadoop+Storm”架构转向Spark 架构3、DStream 操作概述l Spark Streaming 工作机制l 编写Spark Streaming 程序的基本步骤l 创建StreamingContext 对象4、基本输入源l 文件流l RDD 队列流5、高级数据源l Kafka 简介l Kafka 准备工作l Spark 准备工作l 编写Spark Streaming 程序使用Kafka 数据源第6章 Spark Mllib 实战1、 基于大数据的机器学习2、Spark机器学习库MLlib 概述3、机器学习流水线l 流水线的概念l 流水线工作过程4、特征提取、转换和选择l 特征提取l 特征转换l 特征选择l 局部敏感哈希5、分类算法l 逻辑回归分类器l 决策树分类器6、聚类算法l K-Means 聚类算法l GMM 聚类算法8、协同过滤算法第7章 Spark监控和优化1、Spark UIl 监控界面l 标签类型l 各个界面用途、界面各个元素含义l 执行计划图l 异常分析2、 常见优化分析l 框架配置优化l 应用配置优化l Rdd初始分区数l spark sql的调优l spark stream的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论