Spark大数据技术与应用 教学大纲 及 授课计划_第1页
Spark大数据技术与应用 教学大纲 及 授课计划_第2页
Spark大数据技术与应用 教学大纲 及 授课计划_第3页
Spark大数据技术与应用 教学大纲 及 授课计划_第4页
Spark大数据技术与应用 教学大纲 及 授课计划_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《Spark大数据技术与应用》教学大纲

课程名称:Spark大数据技术与应用

课程类别:必修

适用专业:大数据技术类相关专业

总学时:乂学时(其中理论40学时,实验24学时)

总学分:4.0学分

一、课程的性质

本课程是为大数据技大、人工智能技术应用类相关专业学生开设的课程。大数据技术蓬

勃发展,某干开源技术的Hadoop在行业中应用广泛。彳日是Hadoop本身还存在诸多缺陷,最

主要的缺陷是其MapReduce计算模型延迟过高,无法胜任实时,快速计算的需求。Spark的诞

生弥补了MapReduce的缺陷°Spark继承了M叩Reduce分布式计算的优点并改进了MapReduce

明显的缺陷。Spark拥有HadoopMapReduce所具有的优点,但不同于MapReduce,Spark的中

间输出结果可•以保存在内存中,从而大大减少了读写HDFS的次数,因此Spark能更好地适用

于数据挖掘与机器学习中需要迭代的算法。目前,Spark在企业中的运用越来越广泛,学习Spark

分布式计算框架己然是进入大数据行业所必不可少的一步。

二、课程的任务

通过本课程的学习,使学生对Spark分布式计算框架有一个全面的理解,课程内容主要包

括了Spark基本原理与架构、集群安装配置、Scala与Spark编程、Spark代表组件,完整项目

案例等精选内容。涉及的知识点简要精到,实践操作性强。通过课程学习培养学生科学的思

维方法、灵活运用知识的能力和实验操作能力,使学生具有在大数据领域较强的发现问题、

分析问题、解决问题的能力。

三、课程学时分配

序号教学内容理论学时实验学时其它

1第1章Spark概述22

2第2章Scala基础53

3第3章Spark编程73

4第4章Spark进阶编程42

第5章SparkSQI结构化数据文件处

542

第6章SparkStreaming:实时计算框

642

7第7章SparkGraphX:图计算框架42

第8章SparkMLlib:功能强大的算法

842

第9章项目案例:广告检测的流量作

966

弊识别

总计4024

四、教学内容及学时安排

1.理论教学

章节名称主要内容教学目标学时

1.了解Spark概念

2.掌握Spark分布式

1.Spark基本概念

环境特点

2.Spark发展和应用

1Spark概述3.掌握SparkRDD2

3.Spark环境配置方法

的概念

4.Spark架构及原理

4.了解Spark的运行

流程和原理

1.Scala简介

2.Scala特性

3.Scala的环境设置及安装方法1.掌握Scala环境的

4.Seala类的定义和运行方法安装

2Scala基础5

5.Scala数据类型、函数、表达式的应2.掌握Scala语言的

用应用和编程

6.Scalaif判断和for循环

7.Scala集合应用

1.掌握RDD的转化

1.从内存中已有数据创建RDD操作和行动操作方

2.从外部存储创建RDD法

3Spark编程3.RDD转化操作和行动操作方法2.掌握键值对RDD7

4.RDD键值对操作的操作

5.文件读取与存储3.掌握文本文件的

读取和存储

1.下载与安装IntelliJIDEA

1.掌握如何在IDEA

2.S^ala插件安装与使用

中配置Spark编程环

3.配置Spark运行环境的方法

4Spark编程进阶境4

4.运行Spark程序的方法

2.掌握Spark程序的

5.持久化方法

编写

6.数据分区方法

1.SparkSQL简介

SparkSQL:结

2.SparkSQL配置1.掌握SparkSQL使

5构化数据文件4

3.SparkSQL与Shell交互用方法

处理

4.DataFrame生成与操作方法

1了.解Spark

Spark1.SparkStreaming运行原理

Streaming运行原理

6Streaming:实时2.SparkStreaming使用方法4

2.掌握Spark

计算框架3.DStream编程模型基本方法

Streaming使用方法

1.图的基本概念

2.图计算的应用1.了解图计算的应

SparkGraphX:3.GraphX的基础概念用

74

图计算框架4.图的创建与存储2.掌握Spark

5.数据查询与数据转换GraphX使用方法

6.结构转换与关联聚合

1.了解机器学习算

SparkMLlib:功

1.机器学习法

8能强大的算法4

2.MLlib介绍和应用2.掌握SparkMLlib

使用方法

将汇总后的成绩1.使用join连接所有统计结果

140.5

存储为文本文件2.使用saveAsTextFile保存RDD

统计文本中性别

151.使用filter过滤出包含字符“男”的记录数

为“男”用户数

().5

1.使用nalMap转换得到(单词,1)的键值对

16单词计数

2.使用reduceByKey统计词频

1.安装IDEA

17搭建开发环境2.配置Scala插件0.5

3.配置Spark编程环境

L新建工程和类

使用移动平均预

182.计算价格波动幅度1

测股票涨跌

3.预测股票涨跌

1.新建工程和类

竞赛网站访问口

192.统计用户数、网页数0.5

志分析

3.统计用户月访问量

1.SparkSQL配置

20认识SparkSQL0.5

2.SparkSQL与Shell交互

1.获取数据

探索分析房屋售2.探索字段值分布

210.5

价数据3.各季度房屋销量和销售额分析

4.房屋评分分析

1.掌握SparkSQL配置。

统计分析顾客对2.掌握在spark-shell中操作hive表。

22某城市餐饮店的3.将数据读取为DataFrameo1

点评数据4.统计筛选出口味评分大于7分的数据

5.统计各类餐饮店点评数并输出到HDFSO

SparkStreamingI.SparkStreaming输入数据源

23实时更新书籍热2.SparkStreaming计算书籍热度1

度3.书籍热度输出

过滤打印包含单

241.使用SparkStreaming过滤打印包含单词error的记录0.5

词error的记录

实时分析用户对

广告的访问信息L读取数据创建SparkStreaming

250.5

并存储在HDFS2.SparkStreaming监听文件目录并分析及输出数据

1.上传数据到HDFSo

使用PageRank

2.在IDEA创建工程与类。

27算法完成网页排1

3.建立网页结构图。

4.调用GraphX中的PageRank算法对■网页进行排名。

利用GraphX构

1.创建家庭关系网络图。

28建家庭关系网络1

2.分析家庭人物关系数据

以Logistic回归1.数据处理。

291

实现用户分类2.MLlib实现Logistic回归。

通过KMcans定1.建立聚类模型

300.5

位商圈2.保存聚类模型、结果、聚类中心

网络攻击类型识1.建立TF-IDF模型

310.5

别2.使用决策树算法实现网络攻击类型识别

1.原始数据探索与分析。

2.异常数据处理。

32数据预处理1

3.缺失数据处理。

4.特征标准化。

1.构建与评估逻辑回归模型。

33建立推荐模型4

2.构建与评估随机森林模型。

进行广告检测流1.加载模型。

341

量作弊识别2.进行广告流量作弊识别。

学时合计24

五、考核方式

突出学生解决实际问翘的能力,加强过程性考核。课程考核的成绩构成=平时作叱和练

习(20%)+课堂参与(课堂表现与考勤)(20%)+期末考核(60%),期末考试建议采用开

卷形式,试题应包括基本概念、基础理论、基本操作、程序设计等部分,题型可采用判断题、

选择、简答、应用题等方式。

六、教材与参考资料

1.教材

肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮也出版

社.2022.

2.参考资料

[1]肖芳,张良均.Spark大数据技术与应用[M].北京:人民邮电出版社.2018.

12]王哲,张良均.Hzdoop与大数据挖掘(第2版)|M].北京:机械工业出版社.2022.

[3]张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[Mb北京:人民邮电

出版社.2021.

学院

课程教学进度计划表

(20〜20学年第二学期)

课程名称Spark大数据技术与应用

授课学时64

主讲(责任)教师______________________

参与教学教师______________________

授课班级/人数______________________

专业(教研室)_____________________

填表时间_____________________

专也(教研室)主任_____________________

教务处编印

年月

七、课程教学目的

本课程以任务为导向的教学模式,较为全面地介绍了Spark大数据技术的相关知识。全

书共9章,具体内容包括Spark概述;Scala基础;Spark编程;Spark编程进阶;SparkSQL:

SparkSlreaming;SparkGraphX;SparkMIlib;项目案例:广告检测的流量作弊识别。

本课程依据企业真实需求,使用实际项目的开发流程,在教与练中培养学生的实践能力。

基本每个章节都都包含了实训与课后习题,通过练习和操作,帮助读者巩固所学的内容。通

过创造了更加符合企业大数据应用真实场景,帮助广大学生提升对大数据专业的理解能力、

操作能力和执行能力。

八、教学方法及手段

本课程将采用理论与实践相结合的教学方法。在理论上,通过任务引入概念、原理和方

法。在实践上,由教师讲解案例背景,提供简单思路。引导学生对案例进行针对性的分析,

审理和讨论,扩展学生的志维,提高学生的兴趣。通过学生的讨论、自主实践和练习,提高

学生的团队协作能力,专业能力和综合素质。

要求学生自主搭建Spark集群、完成章节仃.务、掌握基本理论和提升专业能力。在每章

的任务教学中,可适当布置练习、组织讨论、引导提出扩展的解决方案,充分调动学生的主

观能动性,锤炼学生的专业精神并提升动手能力,以达到本课程的教学目的。

九、课程考核方法

突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业和

练习(20%)+课堂参与(课堂表现与考勤)(20%)+期末考核(60%),期末考试建议采

用开卷形式,试题应包括基本概念、基础理论、基本操作、程序设计等部分,题型可采用判

断题、选择、简答、应用题等方式。

打造数据智能BR业敕育领军企业

《Spark大数据技术与应用》教学日历

周次学时授课内容作业要求备注

Spark完全分

14第1章Spark概述

布式环境搭建

24第2章Scala基础(1)

第2堂课后习

34第2章Scala基础(2)

题与实训

44第3章Spark编程(1)

54第3章Spark编程(2)

第3章Spark编程(3)第3章课后练

64

习与实训

第4章Spark编程进阶(1)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论