Spark大数据技术与应用(第3版)(微课版)-教学大纲、授课计划_第1页
Spark大数据技术与应用(第3版)(微课版)-教学大纲、授课计划_第2页
Spark大数据技术与应用(第3版)(微课版)-教学大纲、授课计划_第3页
Spark大数据技术与应用(第3版)(微课版)-教学大纲、授课计划_第4页
Spark大数据技术与应用(第3版)(微课版)-教学大纲、授课计划_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《Spark大数据技术与应用(第3版)(微课版)》教学大纲课程名称:Spark大数据技术与应用课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论36学时,实验28学时)总学分:4.0学分课程的性质本课程是为大数据技术、人工智能技术应用类相关专业学生开设的课程。大数据技术蓬勃发展,基于开源技术的Hadoop在行业中应用广泛。但是Hadoop本身还存在诸多缺陷,最主要的缺陷是其MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求。Spark的诞生弥补了MapReduce的缺陷。Spark继承了MapReduce分布式计算的优点并改进了MapReduce明显的缺陷。Spark拥有HadoopMapReduce所具有的优点,但不同于MapReduce,Spark的中间输出结果可以保存在内存中,从而大大减少了读写HDFS的次数,因此Spark能更好地适用于数据挖掘与机器学习中需要迭代的算法。目前,Spark在企业中的运用越来越广泛,学习Spark分布式计算框架已然是进入大数据行业所必不可少的一步。课程的任务通过本课程的学习,使学生对Spark分布式计算框架有一个全面的理解,课程内容主要包括了Spark基本原理与架构、集群安装配置、Scala与Spark编程、Spark代表组件,完整项目案例等精选内容。涉及的知识点简要精到,实践操作性强。通过课程学习培养学生科学的思维方法、灵活运用知识的能力和实验操作能力,使学生具有在大数据领域较强的发现问题、分析问题、解决问题的能力。课程学时分配序号教学内容理论学时实验学时其它1项目1搭建Spark集群——Spark概述222项目2查询手机号码信息——Scala基础623项目3查询和统计员工薪资数据——SparkShell编程534项目4统计分析竞赛网站用户访问日志数据——SparkIDE编程325项目5分析水稻品种审定数据——SparkSQL结构化数据文件处理536项目6实时计算书籍热度——SparkStreaming实时计算框架437项目7统计得分排名前10的网页——SparkGraphX图计算框架538项目8饮用水源合格性预测——SparkMLlib机器学习算法库449项目9广告检测的流量作弊识别——Spark综合实战26总计3628教学内容及学时安排理论教学序号章节名称主要内容教学目标学时1搭建Spark集群——Spark概述Spark特点Spark生态圈和应用场景Spark架构和作业运行流程Spark核心数据集RDD和核心原理了解Spark特点了解Spark的运行流程和原理掌握SparkRDD的概念22查询手机号码信息——Scala基础Scala简介和特性Scala的环境设置及安装方法Scala数据类型、函数、表达式的应用Scalaif判断和for循环Scala集合应用Scala类的定义和运行方法掌握Scala环境的安装掌握Scala语言的应用和编程63查询和统计员工薪资数据——SparkShell编程从内存中已有数据创建RDD从外部存储创建RDDRDD转化操作和行动操作方法RDD键值对操作文件读取与存储掌握创建RDD的方法掌握RDD的转化操作和行动操作掌握键值对RDD的操作掌握各类型文件的读取和存储54统计分析竞赛网站用户访问日志数据——SparkIDE编程下载与安装IntelliJIDEAScala插件安装与使用AI智能编程插件安装与使用配置Spark运行环境并运行程序设置RDD持久化和数据分区掌握如何在IDEA中配置Spark编程环境掌握Spark程序的编写掌握数据持久化和数据分区的方法35分析水稻品种审定数据——SparkSQL结构化数据文件处理SparkSQL简介及配置步骤SparkSQL与Shell的交互创建与查看DataFrameDataFrame查询与输出操作掌握配置SparkSQL的方法掌握DataFrame基础操作56实时计算书籍热度——SparkStreaming实时计算框架SparkStreaming框架及运行原理SparkStreaming使用方法DStream编程模型DStream基础操作了解SparkStreaming框架与运行原理掌握SparkStreaming使用方法掌握DStream基础操作47统计得分排名前10的网页——SparkGraphX图计算框架图的基本概念图计算的应用GraphX的基础概念图的创建与存储数据查询与数据转换结构转换与关联聚合了解图计算的应用掌握SparkGraphX常用API58饮用水源合格性预测——SparkMLlib机器学习算法库机器学习概念及算法分类SparkMLlib简介及发展历史SparkMLlib常用算法与算法包MLlib中的模型评估了解机器学习算法掌握SparkMLlib使用方法49广告检测的流量作弊识别——Spark综合实战常见的流量作弊方式需求分析和流程拆分数据说明探索作弊流量的数据特征了解常见广告流量作弊方式掌握各流量作弊方式对应数据特征理解整个案例需求即流程2学时合计36实验教学序号实验项目名称实验要求学时1搭建Spark集群搭建Spark单机环境搭建Spark伪分布式环境搭建Spark完全分布式环境22查询手机号码信息识别号码类型统计广州号码段数量根据归属地对手机号码段分组编写手机号码归属地信息查询程序23查询和统计员工薪资数据读取员工薪资数据创建RDD查询上半年实际薪资排名前3的员工信息输出上半年或下半年实际薪资大于20万元的员工姓名统计每位员工2023年的总实际薪资查询每位员工2023年的月均实际薪资将汇总后的员工薪资存储为文本文件34统计分析竞赛网站用户访问日志数据计算竞赛网站每月的访问量自定义分区保存25分析水稻品种审定数据获取数据探索与预处理数据统计分析数据内容36实时计算书籍热度获取输入数据源计算用户评分次数及平均评分计算书籍被评分次数及平均评分实时计算书籍热度37统计得分排名前10的网页构建网页结构图计算网页得分找出排名前10的网页38饮用水源合格性预测读取数据探索性数据分析数据标准化基于随机森林实现饮用水源合格性预测49广告检测的流量作弊识别探索分析广告流量数据1.1基础探索数据1.2探索虚假流量的数据特征预处理数据并构建特征2.1删除缺失值字段2.2构建广告流量作弊识别特征构建与评估分类模型3.1构建与评估逻辑回归模型3.2构建与评估随机森林模型3.3加载模型进行广告流量作弊识别6学时合计28考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业和练习(20%)+课堂参与(课堂表现与考勤)(20%)+期末考核(60%),期末考试建议采用开卷形式,试题应包括基本概念、基础理论、基本操作、程序设计等部分,题型可采用判断题、选择、简答、应用题等方式。教材与参考资料教材肖芳,张良均.Spark大数据技术与应用(第3版)(微课版)[M].北京:人民邮电出版社.2026.参考资料[1] 肖芳,张良均.Spark大数据技术与应用(第2版)(微课版)[M].北京:人民邮电出版社.2022.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.[3] 张军,张良均.Hadoop大数据开发基础(第3版)(微课版)[M].北京:人民邮电出版社.2025.学院课程教学进度计划表(20~20学年第二学期) 课程名称Spark大数据技术与应用 授课学时64 参与教学教师 授课班级/人数 专业(教研室) 填表时间教务处编印年月打造基于产教融合的就业育人综合服务平台打造基于产教融合的就业育人综合服务平台课程教学目的本课程以任务为导向的教学模式,较为全面地介绍了Spark大数据技术的相关知识。全书共9个xm1,具体内容包括:项目1搭建Spark集群——Spark概述项目2查询手机号码信息——Scala基础项目3查询和统计员工薪资数据——SparkShell编程项目4统计分析竞赛网站用户访问日志数据——SparkIDE编程项目5分析水稻品种审定数据——SparkSQL结构化数据文件处理项目6实时计算书籍热度——SparkStreaming实时计算框架项目7统计得分排名前10的网页——SparkGraphX图计算框架项目8饮用水源合格性预测——SparkMLlib机器学习算法库项目9广告检测的流量作弊识别——Spark综合实战本课程依据企业真实需求,使用实际项目的开发流程,在教与练中培养学生的实践能力。基本每个项目都包含了实训与课后习题,通过练习和操作,帮助学生巩固所学的内容。通过创造了更加符合企业大数据应用真实场景,帮助广大学生提升对大数据专业的理解能力、操作能力和执行能力。教学方法及手段本课程将采用理论与实践相结合的教学方法。在理论上,通过任务引入概念、原理和方法。在实践上,由教师讲解案例背景,提供简单思路。引导学生对案例进行针对性的分析,审理和讨论,扩展学生的思维,提高学生的兴趣。通过学生的讨论、自主实践和练习,提高学生的团队协作能力,专业能力和综合素质。要求学生自主搭建Spark集群、完成章节任务、掌握基本理论和提升专业能力。在每个项目的任务教学中,可适当布置练习、组织讨论、引导提出扩展的解决方案,充分调动学生的主观能动性,锤炼学生的专业精神并提升动手能力,以达到本课程的教学目的。课程考核方法突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业和练习(20%)+课堂参与(课堂表现与考勤)(20%)+期末考核(60%),期末考试建议采用开卷形式,试题应包括基本概念、基础理论、基本操作、程序设计等部分,题型可采用判断题、选择、简答、应用题等方式。

《Spark大数据技术与应用》教学日历周次学时授课内容作业要求备注14项目1搭建Spark集群——Spark概述1.1Spark简介1.2Spark运行架构与原理任务1.1搭建单机版环境任务1.2搭建单机伪分布式集群任务1.3搭建完全分布式集群项目1课后习题24项目2查询手机号码信息——Scala基础2.1安装与运行Scala2.2Scala基本语法2.3Scala控制结构2.4Scala集合类型项目2实训34项目2查询手机号码信息——Scala基础2.5Scala面向对象编程任务2.1识别号码类型任务2.2统计广州号码段数量任务2.3根据归属地对手机号码段分组任务2.4编写手机号码归属地信息查询程序项目2课后习题44项目3查询和统计员工薪资数据——SparkShell编程3.1创建SparkRDD3.2RDD基础操作3.3RDD进阶操作3.4键值对RDD操作3.5RDD连接操作项目3实训54项目3查询和统计员工薪资数据——SparkShell编程3.6RDD文件读写任务3.1读取员工薪资数据创建RDD任务3.2查询上半年实际薪资排名前3的员工信息任务3.3输出上半年或下半年实际薪资大于20万元的员工姓名任务3.4统计每位员工2023年的总实际薪资任务3.5查询每位员工2023年的月均实际薪资任务3.6将汇总后的员工薪资存储为文本文件项目3课后习题64项目4统计分析竞赛网站用户访问日志数据——SparkIDE编程4.1搭建Spark开发环境4.2Spark持久化和数据分区任务4.1计算竞赛网站每月的访问量项目4实训74项目4统计分析竞赛网站用户访问日志数据——SparkIDE编程任务4.2自定义分区保存项目5分析水稻品种审定数据——SparkSQL结构化数据文件处理5.1SparkSQL简介5.2DataFrame基础操作(5.2.1、5.2.2)项目4课后习题项目5实训84项目5分析水稻品种审定数据——SparkSQL结构化数据文件处理5.2DataFrame基础操作(5.2.3、5.2.4)任务5.1获取数据任务5.2探索与预处理数据项目5课后习题84项目5分析水稻品种审定数据——SparkSQL结构化数据文件处理任务5.3统计分析数据内容项目6实时计算书籍热度——SparkStreaming实时计算框架6.1SparkStreaming简介6.2DStream基础操作(6.2.1、6.2.2、6.2.3)项目6实训104项目6实时计算书籍热度——SparkStreaming实时计算框架6.2DStream基础操作(6.2.4)任务6.1获取输入数据源任务6.2计算用户评分次数及平均评分任务6.3计算书籍被评分次数及平均评分任务6.4实时计算书籍热度项目6课后习题114项目7统计得分排名前10的网页——SparkGraphX图计算框架7.1SparkGraphX简介7.2GraphX常用API(7.2.1、7.2.2)项目7实训124项目7统计得分排名前10的网页——SparkGraphX图计算框架7.2GraphX常用API(7.2.3)任务7.1构建网页结构图任务7.2计算网页得分任务7.3找出排名前10的网页项目7课后习题134项目8饮用水源合格性预测——SparkMLlib机器学习算法库8.1机器学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论