Spark大数据技术与应用教学大纲_第1页
Spark大数据技术与应用教学大纲_第2页
Spark大数据技术与应用教学大纲_第3页
Spark大数据技术与应用教学大纲_第4页
Spark大数据技术与应用教学大纲_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、、课程的性质、地位与任务该课程是专业基础课,其目标是培养学生掌握 Spark大数据计算框架的基本原理和使用, 培养学生大数据思维与动手能力。二、课程的教学目标与基本要求Spark大数据技术与应用介绍了大数据处理框架Spark的使用,为大数据分析与应用提供了强有力的工具。通过该课程可以了解大数据项目开发中大数据计算框架发挥的重要 作用。本课程以理论指导实践,以实践加深理论的理解,循序渐进通过对Spark的讲解与实 操,对大数据分析与应用产生更直观的认识。三、课程内容(各章节主要知识点见课程实施计划)第1章Spark简介与运行原理Spark是什么Spark的版本发展历程Spark与Hadoop的区

2、别与联系Spark的应用场景Spark的生态系统Spark CoreSpark StreamingSpark SQL 与 DataFrameGraphXSpark的构架与原理Spark架构设计Spark作业运行流程Spark核心原理Spark 2.X 新特性精简的APISpark作为编译器智能化程度小结第2章 Spark的环境搭建环境搭建前的准备Spark相关配置安装 SSHSSH免密码登录修改访问权限修改profile文件修改Spark配置文件Spark集群启动与关闭Spark应用提交到集群Spark web监控页面小结第3章 使用Python开发Spark应用Python编程语言Pytho

3、n语言的特点Python与人工智能PySpark 是什么PySpark启动与日志设置PySpark的启动方式日志输出内容控制PySpark开发包的安装使用pip命令安装使用离线包安装PyCharm 编写 Spark 应用PyCharm安装与基本配置Spark应用编写小结第 4 章 Spark RDD弹性分布式数据集RDDRDD的定义RDD的特点RDD的创建RDD的操作transform 算子map 转换flatMap 转换filter 转换union 转换intersection 转换distinct 转换sortBy 转换mapPartitions 转换mapPartitionsWithIn

4、dex 转换partitionBy 转换action 算子reduce(f)动作collect()动作count()动作take( num)动作first()动作top(num)动作saveAsTextFile 动作foreach( f)动作foreachPartition(f)动作RDD Key-value 转换算子mapValues(f)操作flatMapValues(f)操作reduceByKey 操作groupByKey 操作sortByKey 操作keys()操作values()操作join 操作leftOuterJoin 操作rightOuterJoin 操作RDD key-val

5、ue 动作运算collectAsMap()操作countByKey()操作共享变量累力口器 accumulator广播变量 Broadcast依赖关系血统 Lineage宽依赖与窄依赖shuffleDAG的生成Spark RDD的持久化持久化使用方法持久化存储等级检查点 checkpoint小节第 5 章 DataFrame & Spark SQLDataFrameDataFrame 介绍DataFrame 创建Spark SQLSpark SQL 介绍Spark SQL的执行原理Spark SQL 的创建Spark SQL、DataFrame 的常用操作字段计算条件查询数据排序数据去重数据分

6、组统计数据连接数据绘图小结第 6 章 Spark StreamingSpark Streaming 介绍SparkStreaming 是什么SparkStreaming 工作原理流数据加载初始化 StreamingContextDiscretized Streams 离散化流SparkStreaming 数据源DStreams输出操作DStream转换操作map 转换flatMap 转换filter 转换reduceByKey 转换count 转换updateStateByKey 转换其他转换DataFrame 与 SQL 操作实时WordCount实验小结第7章Spark机器学习库Spark

7、机器学习库机器学习简介Spark机器学习库的构成准备数据获取数据数据预处理数据探索使用MLib机器学习库搭建环境加载数据探索数据预测婴儿生存机会使用ML机器学习库转换器、评估器和管道预测婴儿生存机会小结第8章 GraphFrames图计算图度(degree)路径(path)和环(cycle)二分图(bipartite graph )多重图(multigraph)和伪图(pseudograph)GraphFrames 介绍应用背景GraphFrames 库使用 GraphFrames 库GraphFrame 编程模型GraphFrame 实例视图和图操作模式发现(Modif 巾nding )图加

8、载和保存GraphFrames实现的算法广度优先搜索(BFS,Breadth-first search)最短路径(Shortest Path)三角形计数(Triangle Counting )连通分量(Connected Components )标签传播算法(LPA,Label propagation algorithm)PageRank 算法基于GraphFrames的网页排名准备数据集创建 GraphFrame使用PageRank进行网页排名小结第9章 出租车数据分析数据处理数据分析创建 DataFrameKMeans聚类分析百度地图可视化申请地图key聚类结果可视化小结第10章图书推荐系

9、统Django 简介Django 是什么Django 的安装ORM 模型Template 模板View 视图Django项目搭建创建项目创建应用创建模型推荐引擎设计导入数据训练模型图书推荐系统设计与实现BootStrap介绍与使用Redis数据库安装与使用视图与路由设计小结四、时间分配课 程 分 段 标 识序 号教学内容教学环节(学时)讲课习 题实 验上机课 外小 计1第1章Spark简介与运行原理( 1.1 1.4)22第2章Spark的环境搭建( 2.1 2.5)23第3章使用Python开发Spark应用( 3.1 3.4)24第 4 章 Spark RDD ( 4.1 4.7)45第

10、5 章 Spark SQL & DataFrame ( 5.1 5.4)46第 6 章 Spark Streaming ( 6.1 6.6)47第7章Spark机器学习库( 7.1 7.6)48第 8 章 GraphFrames 图计算( 8.1 8.5)49第9章 出租车数据分析( 9.1 9.3)210第10章 图书推荐系统( 10.1 10.5)4总 计32五、课程说明课程英文名称Big data technology and Application with Spark主要先修课程Spark大数据技术与应用适用专业类别计算机科学与技术专业,信息管理与信息工程、软件工程主要教材 Spar

11、k大数据技术与应用白皮书考核方式考试课程简介该课程是专业基础课,其目标是培养学生掌握Spark大数据计算框架的基本原理和使用,培养学生具备大数据思维与动手能力。必 开 实 验 项 目序号项目名称实验内容提要学时1Spark伪分体式集群拾建基于实验讲授Spark集群的搭建2基于RDD勺Word Count实验基于实验讲授RDD勺使用3Spark DataFrame 实验基于实验讲授Spark DataFrame的使 用4Spark SQL 实验基于实验讲授Spark SQL的使用5SparkStreaming WordCount 实验基于实验讲授Spark Streaming 的使 用6基于ML

12、lib电影推荐系统实验基于实验讲授Spark MLlib的使用7出租车数据聚类分析实验基于实验讲授Spark MLlib的使用8基于GraphFrames的网贝排名 实验基于实验讲授Spark图计算的原理和 使用六、实践教学大纲课程名称Spark大数据技术与应用课程编码一、本课程实践教学目的与要求:通过实验加深对Spark各个组件的认识,提高解决实际工程问题的能力。二、本次实践教学项目和主要内容序号项目名称学时主要内容1Spark伪分体式集群拾建4设计性2基于RDD勺Word Count实验2设计性3Spark DataFrame 实验2设计性4Spark SQL 实验4设计性5SparkSt

13、reaming WordCount 实验2设计性6基于MLlib电影推荐系统实验4设计性7出租车数据聚类分析实验4设计性8基于GraphFrames的网贝排名实验4设计性三、实验说明课程总学分实验学时数32实验项目数课程性质通识基础口学科基础口专业选修集中实践环节口实验类别课程内实验口独立设课实验集中综合实验口考核方式日常考核操作技能考核卷面考核口提交实验结果面试口适用专业与年级:大数据科学与技术,计算机科学与技术,软件工程实验教材及参考书:注:实践教学类型一般分为演示性、验证性、综合性、设计性、研究创新性6种。七、课程实施计划序 号教学 方式教学内容(标注重点A ,难点)作业 要求教学目标1

14、课堂 讲课第1章Spark简介与运行原理Spark是什么Spark的版本发展历程A 1.1.2 Spark与Hadoop的区别与联系A1.1.3 Spark的应用场景Spark的生态系统Spark CoreSpark StreamingSpark SQL 与 DataFrameGraphXSpark的构架与原理A 1.3.1 Spark架构设计A 1.3.2 Spark作业运行流程A 1.3.3 Spark核心原理Spark 2.X 新特性精简的APISpark作为编译器智能化程度小结课后了解Spark 在 行业中的 应用有哪 些了解 Spark 的发展历 程,了解 Spark生态 系统以及

15、架构原理,了解Spark2.x版本与之 前版本的 区别。2课堂 讲课第2章 Spark的环境搭建环境搭建前的准备Spark相关配置安装 SSHSSH免密码登录修改访问权限A 2.2.4 修改 profile 文件A 2.2.5 修改Spark配置文件Spark集群启动与关闭2.4 Spark应用提交到集群A 2.5 Spark web监控页面2.6 小结在电脑中 安装部署 伪分布式 Spark 集群了解Spark集群 环境搭建 的整个过 程。3课堂 讲课第3章 使用Python开发Spark应用Python编程语百Python语言的特点Python与人工智能A 3.1.3 PySpark 是什

16、么PySpark启动与日志设置PySpark的启动方式日志输出内容控制PySpark开发包的安装A 3.3.1使用pip命令安装A 3.3.2使用离线包安装PyCharm 编写 Spark 应用A 3.4.1 PyCharm女装与基本配置3.4.2 Spark应用编写小结了解Python 编 程语言的 特点和基 本语法,配 置 Spark 的 Python 编程环境熟悉使用 Python 开 发 Spark 的环境搭 建。4课堂 讲课第 4 章 Spark RDD弹性分布式数据集RDDA4.1.1 RDD的定义A 4.1.2 RDD的特点A4.1.3 RDD的创建4.1.4 RDD的操作4.2

17、 transform 算子map 转换flatMap 转换filter 转换union 转换intersection 转换distinct 转换sortBy 转换mapPartitions 转换mapPartitionsWithIndex 转换partitionBy 转换4.3 action 算子4.3.1 reduce动作课后在官 网中了解 RDD的其 他算子, 并对常见 的算子进 行练习。了解Spark 中 RDD的定 义、特点。熟悉RDD 常见算子 的使用以 及依赖关 系和持久 化。10collect()动作count()动作take( num)动作first()动作top(num)动作

18、saveAsTextFile 动作foreach( f)动作foreachPartition(f)动作4.4 RDD Key-value 转换算子mapValues(f)操作flatMapValues(f)操作reduceByKey 操作groupByKey 操作sortByKey 操作keys()操作values()操作join 操作leftOuterJoin 操作rightOuterJoin 操作4.5 RDD key-value 动作运算collectAsMap()操作countByKey()操作4.6 共学艾量累力口器 accumulator广播变量 Broadcast4.7依赖关系血

19、统 Lineage宽依赖与窄依赖shuffleDAG的生成4.8 Spark RDD的持久化4.8.1持久化使用方法4.8.2持久化存储等级4.8.3 检查点 checkpoint114.9 小节5课堂 讲课第 5 章 DataFrame & Spark SQLDataFrameDataFrame 介绍A 5.1.2 DataFrame 创建Spark SQLSpark SQL 介绍A 5.2.2 Spark SQL的执行原理A 5.2.3 Spark SQL 的创建A 5.3 Spark SQL、DataFrame 的常用操作字段计算条件查询数据排序数据人重数据分组统计数据连接数据绘图5.4

20、 小结了解如何 连接Mysql 数据库进行 查询统 计。熟悉SparkSQL、SparkData frame 使 用,了解SparkSQL 与SparkDataFrame 的 区别与联 系。6课堂 讲课第 6 章 Spark StreamingSpark Streaming 介绍SparkStreaming 是什么A 6.1.2 SparkStreaming 工作原理A 6.2流数据加载初始化 StreamingContextDiscretized Streams 离散化流SparkStreaming 数据源A 6.3 DStreams输出操作A 6.4 DStream转换操作map 转换fl

21、atMap 转换filter 转换reduceByKey 转换count 转换updateStateByKey 转换了解socket 、TCP/IP、 UD项、议, 查询流计 算使用的熟悉SparkStre aming的定 义,数据的 加载、转换 输出等操 作的使用。126.4.7其他转换6.5 DataFrame 与 SQL 操作A 6.6 实时 WordCount 实验6.7 小结7课堂 讲课第7章 Spark机器学习库Spark机器学习库A 7.1.1机器学习简介A 7.1.2 Spark机器学习库的构成准备数据狄取数据数据预处理数据探索使用MLib机器学习库搭建环境加载数据探索数据预测

22、婴儿生存机会使用ML机器学习库转换器、评估器和管道预测婴儿生存机会小结了解机器 学习的应 用领域有 哪些,尝 试使用MLlib 实 现对出租 车数据进行k-means 聚类。了解机器 学习的定 义以及机 器学习的 一般流程, 熟悉SparkMLli b的使用。了解SparkMLLi b和ML包 之间的区 别与联系。8课堂 讲课第8章 GraphFrames图计算A 8.1 图度(degree)路径(path)和环(cycle)二分图(bipartite graph )多重图(multigraph) 和伪图(pseudograph) 8.2 GraphFrames 介绍应用背景GraphFrames 库使用 GraphFrames 库8.3 GraphFrame 编程模型GraphFrame 实例了解图的 定义、类 型,了解 图在各个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论