版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、课程的性质、地位与任务该课程是专业基础课,其目标是培养学生掌握Spark大数据计算框架的基本原理和使用,培养学生大数据思维与动手能力。二、课程的教学目标与基本要求《Spark大数据技术与应用》介绍了大数据处理框架Spark的使用,为大数据分析与应用提供了强有力的工具。通过该课程可以了解大数据项目开发中大数据计算框架发挥的重要作用。本课程以理论指导实践,以实践加深理论的理解,循序渐进通过对Spark的讲解与实操,对大数据分析与应用产生更直观的认识。三、课程内容(各章节主要知识点见课程实施计划)第1章 Spark简介与运行原理 1.1Spark是什么1.1.1Spark的版本发展历程1.1.2Spark与Hadoop的区别与联系 1.1.3Spark的应用场景 1.2Spark的生态系统 1.2.1SparkCore1.2.2SparkStreaming 1.2.3SparkSQL与DataFrame 1.2.4GraphX 1.3Spark的构架与原理1.3.1Spark架构设计 1.3.2Spark作业运行流程1.3.3Spark核心原理 1.4Spark2.X新特性 1.4.1精简的API 1.4.2Spark作为编译器1.4.3智能化程度1.5小结 第2章 Spark的环境搭建 2.1环境搭建前的准备 2.2Spark相关配置 2.2.1安装SSH 2.2.2SSH免密码登录 2.2.3修改访问权限2.2.4修改profile文件 2.2.5修改Spark配置文件2.3Spark集群启动与关闭2.4Spark应用提交到集群 2.5Sparkweb监控页面2.6小结 第3章 使用Python开发Spark应用 3.1Python编程语言 3.1.1Python语言的特点 3.1.2Python与人工智能 3.1.3PySpark是什么 3.2PySpark启动与日志设置 3.2.1PySpark的启动方式 3.2.2日志输出内容控制 3.3PySpark开发包的安装 3.3.1使用pip命令安装 3.3.2使用离线包安装 3.4PyCharm编写Spark应用 3.4.1PyCharm安装与基本配置3.4.2Spark应用编写 3.5小结 第4章 SparkRDD 4.1弹性分布式数据集RDD 4.1.1RDD的定义 4.1.2RDD的特点 4.1.3RDD的创建 4.1.4RDD的操作 4.2transform算子 4.2.1map转换 4.2.2flatMap转换 4.2.3filter转换 4.2.4union转换 4.2.5intersection转换 4.2.6distinct转换 4.2.7sortBy转换4.2.8mapPartitions转换 4.2.9mapPartitionsWithIndex转换 4.2.10partitionBy转换 4.3action算子 4.3.1reduce(f)动作 4.3.2collect()动作 4.3.3count()动作4.3.4take(num)动作 4.3.5first()动作 4.3.6top(num)动作 4.3.7saveAsTextFile动作4.3.8foreach(f)动作 4.3.9foreachPartition(f)动作4.4RDDKey-value转换算子4.4.1mapValues(f)操作4.4.2flatMapValues(f)操作4.4.3reduceByKey操作4.4.4groupByKey操作4.4.5sortByKey操作4.4.6keys()操作4.4.7values()操作 4.4.8join操作 4.4.9leftOuterJoin操作4.4.10rightOuterJoin操作4.5RDDkey-value动作运算 4.5.1collectAsMap()操作 4.5.2countByKey()操作 4.6共享变量 4.6.1累加器accumulator 4.6.2广播变量Broadcast 4.7依赖关系 4.7.1血统Lineage4.7.2宽依赖与窄依赖 4.7.3shuffle 4.7.4DAG的生成 4.8SparkRDD的持久化 4.8.1持久化使用方法 4.8.2持久化存储等级 4.8.3检查点checkpoint 4.9小节 第5章DataFrame&&SparkSQL 5.1DataFrame 5.1.1DataFrame介绍5.1.2DataFrame创建5.2SparkSQL5.2.1SparkSQL介绍5.2.2SparkSQL的执行原理 5.2.3SparkSQL的创建 5.3SparkSQL、DataFrame的常用操作 5.3.1字段计算 5.3.2条件查询 5.3.3数据排序 5.3.4数据去重 5.3.5数据分组统计 5.3.6数据连接 5.3.7数据绘图 5.4小结 第6章 SparkStreaming 6.1SparkStreaming介绍 6.1.1SparkStreaming是什么 6.1.2SparkStreaming工作原理 6.2流数据加载6.2.1初始化StreamingContext 6.2.2DiscretizedStreams离散化流 6.2.3SparkStreaming数据源 6.3DStreams输出操作 6.4DStream转换操作 6.4.1map转换 6.4.2flatMap转换 6.4.3filter转换 6.4.4reduceByKey转换 6.4.5count转换 6.4.6updateStateByKey转换 6.4.7其他转换 6.5DataFrame与SQL操作 6.6实时WordCount实验6.7小结 第7章 Spark机器学习库 7.1Spark机器学习库 7.1.1机器学习简介 7.1.2Spark机器学习库的构成7.2准备数据 7.2.1获取数据 7.2.2数据预处理 7.2.3数据探索 7.3使用MLib机器学习库7.3.1搭建环境 7.3.2加载数据 7.3.3探索数据 7.3.4预测婴儿生存机会 7.4使用ML机器学习库 7.4.1转换器、评估器和管道 7.4.2预测婴儿生存机会 7.5小结 第8章 GraphFrames图计算 8.1图8.1.1度(degree) 8.1.2路径(path)和环(cycle) 8.1.3二分图(bipartitegraph)8.1.4多重图(multigraph)和伪图(pseudograph) 8.2GraphFrames介绍 8.2.1应用背景 8.2.2GraphFrames库8.2.3使用GraphFrames库8.3GraphFrame编程模型8.3.1GraphFrame实例 8.3.2视图和图操作8.3.3模式发现(Modiffinding)8.3.4图加载和保存 8.4GraphFrames实现的算法 8.4.1广度优先搜索(BFS,Breadth-firstsearch)8.4.2最短路径(ShortestPath)8.4.3三角形计数(TriangleCounting)8.4.4连通分量(ConnectedComponents)8.4.5标签传播算法(LPA,Labelpropagationalgorithm)8.4.6PageRank算法 8.5基于GraphFrames的网页排名8.5.1准备数据集 8.5.2创建GraphFrame8.5.3使用PageRank进行网页排名8.6小结 第9章 出租车数据分析 9.1数据处理9.2数据分析9.2.1创建DataFrame 9.2.2KMeans聚类分析 9.3百度地图可视化9.3.1申请地图key 9.3.2聚类结果可视化 9.4小结 第10章 图书推荐系统 10.1Django简介 10.1.1Django是什么10.1.2Django的安装10.1.3ORM模型 10.1.4Template模板 10.1.5View视图 10.2.Django项目搭建 10.2.1创建项目 10.2.2创建应用 10.2.3创建模型 10.3.推荐引擎设计 10.3.1导入数据 10.3.2训练模型 10.3.3图书推荐 10.4.系统设计与实现 10.4.1BootStrap介绍与使用 10.4.2Redis数据库安装与使用 10.4.3视图与路由设计 10.5小结 第1章Spark简介与运行原理(§1.1~§1.4)2第2章Spark的环境搭建(§2.1~§2.5)2第3章使用Python开发Spark应用(§3.1~§3.4)2第4章SparkRDD(§4.1~§4.7)4第5章SparkSQL&&DataFrame(§5.1~§5.4)4第6章SparkStreaming(§6.1~§6.6)4第7章Spark机器学习库(§7.1~§7.6)4第8章GraphFrames图计算(§8.1~§8.5)4第9章出租车数据分析(§9.1~§9.3)2第10章图书推荐系统(§10.1~§10.5)4Spark大数据技术与应用计算机科学与技术专业,信息管理与信息工程、软件工程《Spark大数据技术与应用》白皮书考试该课程是专业基础课,其目标是培养学生掌握Spark大数据计算框架的基本原理和使用,培养学生具备大数据思维与动手能力。SparkStreamingWordCountGraphFrames六、实践教学大纲课程名称Spark大数据技术与应用课程编码一、本课程实践教学目的与要求:二、本次实践教学项目和主要内容序号项目名称学时主要内容类型14设计性22设计性32设计性44设计性5SparkStreamingWordCount2设计性64设计性74设计性8GraphFrames设计性三、实验说明课程总学分实验学时数32实验项目数课程性质通识基础□学科基础□专业选修■集中实践环节□实验类别课程内实验□独立设课实验■集中综合实验□考核方式日常考核■操作技能考核■卷面考核□提交实验结果■面试□适用专业与年级:大数据科学与技术,计算机科学与技术,软件工程实验教材及参考书:注:实践教学类型一般分为演示性、验证性、综合性、设计性、研究创新性6种。
七、课程实施计划序号教学方式教学内容作业要求教学目标1课堂讲课第1章 Spark简介与运行原理 1.1Spark是什么1.1.1Spark的版本发展历程1.1.2Spark与Hadoop的区别与联系 1.1.3Spark的应用场景 1.2Spark的生态系统 1.2.1SparkCore1.2.2SparkStreaming 1.2.3SparkSQL与DataFrame 1.2.4GraphX 1.3Spark的构架与原理1.3.1Spark架构设计 1.3.2Spark作业运行流程1.3.3Spark核心原理 1.4Spark2.X新特性 1.4.1精简的API 1.4.2Spark作为编译器1.4.3智能化程度1.5小结 课后了解Spark在行业中的应用有哪些了解Spark的发展历程,了解Spark生态系统以及架构原理,了解Spark2.x版本与之前版本的区别。2课堂讲课第2章 Spark的环境搭建 2.1环境搭建前的准备2.2Spark相关配置2.2.1安装SSH2.2.2SSH免密码登录2.2.3修改访问权限2.2.4修改profile文件 2.2.5修改Spark配置文件2.3Spark集群启动与关闭2.4Spark应用提交到集群 2.5Sparkweb监控页面2.6小结 在电脑中安装部署伪分布式Spark集群了解Spark集群环境搭建的整个过程。3课堂讲课第3章 使用Python开发Spark应用 3.1Python编程语言 3.1.1Python语言的特点 3.1.2Python与人工智能 3.1.3PySpark是什么 3.2PySpark启动与日志设置 3.2.1PySpark的启动方式 3.2.2日志输出内容控制 3.3PySpark开发包的安装 3.3.1使用pip命令安装 3.3.2使用离线包安装 3.4PyCharm编写Spark应用 3.4.1PyCharm安装与基本配置3.4.2Spark应用编写 3.5小结 熟悉使用Python开发Spark的环境搭建。4课堂讲课第4章 SparkRDD 4.1弹性分布式数据集RDD 4.1.1RDD的定义 4.1.2RDD的特点 4.1.3RDD的创建 4.1.4RDD的操作 4.2transform算子 4.2.1map转换 4.2.2flatMap转换 4.2.3filter转换 4.2.4union转换 4.2.5intersection转换 4.2.6distinct转换 4.2.7sortBy转换4.2.8mapPartitions转换 4.2.9mapPartitionsWithIndex转换 4.2.10partitionBy转换 4.3action算子 4.3.1reduce(f)动作 4.3.2collect()动作 4.3.3count()动作4.3.4take(num)动作 4.3.5first()动作 4.3.6top(num)动作 4.3.7saveAsTextFile动作4.3.8foreach(f)动作 4.3.9foreachPartition(f)动作4.4RDDKey-value转换算子4.4.1mapValues(f)操作4.4.2flatMapValues(f)操作4.4.3reduceByKey操作4.4.4groupByKey操作4.4.5sortByKey操作4.4.6keys()操作4.4.7values()操作 4.4.8join操作 4.4.9leftOuterJoin操作4.4.10rightOuterJoin操作4.5RDDkey-value动作运算 4.5.1collectAsMap()操作 4.5.2countByKey()操作 4.6共享变量 4.6.1累加器accumulator 4.6.2广播变量Broadcast 4.7依赖关系 4.7.1血统Lineage4.7.2宽依赖与窄依赖 4.7.3shuffle 4.7.4DAG的生成 4.8SparkRDD的持久化 4.8.1持久化使用方法 4.8.2持久化存储等级 4.8.3检查点checkpoint 4.9小节 课后在官网中了解RDD的其他算子,并对常见的算子进行练习。了解Spark中RDD的定义、特点。熟悉RDD常见算子的使用以及依赖关系和持久化。5课堂讲课第5章DataFrame&&SparkSQL 5.1DataFrame 5.1.1DataFrame介绍5.1.2DataFrame创建5.2SparkSQL5.2.1SparkSQL介绍5.2.2SparkSQL的执行原理 5.2.3SparkSQL的创建 5.3SparkSQL、DataFrame的常用操作 5.3.1字段计算 5.3.2条件查询 5.3.3数据排序 5.3.4数据去重 5.3.5数据分组统计 5.3.6数据连接 5.3.7数据绘图 5.4小结 了解如何连接Mysql数据库进行查询统计。熟悉SparkSQL、SparkDataframe使用,了解Spark
SQL与SparkDataFrame的区别与联系。6课堂讲课第6章 SparkStreaming 6.1SparkStreaming介绍 6.1.1SparkStreaming是什么 6.1.2SparkStreaming工作原理 6.2流数据加载6.2.1初始化StreamingContext 6.2.2DiscretizedStreams离散化流 6.2.3SparkStreaming数据源 6.3DStreams输出操作 6.4DStream转换操作 6.4.1map转换 6.4.2flatMap转换 6.4.3filter转换 6.4.4reduceByKey转换 6.4.5count转换 6.4.6updateStateByKey转换 6.4.7其他转换 6.5DataFrame与SQL操作 6.6实时WordCount实验6.7小结 7课堂讲课第7章 Spark机器学习库 7.1Spark机器学习库 7.1.1机器学习简介 7.1.2Spark机器学习库的构成7.2准备数据 7.2.1获取数据7.2.2数据预处理 7.2.3数据探索7.3使用MLib机器学习库7.3.1搭建环境7.3.2加载数据7.3.3探索数据7.3.4预测婴儿生存机会7.4使用ML机器学习库7.4.1转换器、评估器和管道7.4.2预测婴儿生存机会 7.5小结 了解机器学习的应用领域有哪些,尝试使用MLlib实现对出租车数据进行k-means聚类。了解机器学习的定义以及机器学习的一般流程,熟悉SparkMLlib的使用。了解SparkMLLib和ML包之间的区别与联系。8课堂讲课第8章 GraphFrames图计算8.1图8.1.1度(degree) 8.1.2路径(path)和环(cycle) 8.1.3二分图(bipartitegraph)8.1.4多重图(multigraph)和伪图(pseudograph)8.2GraphFrames介绍8.2.1应用背景8.2.2GraphFrames库8.2.3使用GraphFrames库8.3GraphFrame编程模型8.3.1GraphFrame实例8.3.2视图和图操作8.3.3模式发现(Modiffinding)8.3.4图加载和保存 8.4GraphFrames实现的算法
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省周口市沈丘县达标名校2026届初三2月联考英语试题含解析
- 陕西省渭南市韩城市重点中学2026年初三3月联合考试物理试题含解析
- 贵州省都匀市第六中学2025-2026学年中考英语试题模拟试卷(4)含解析
- 河北省邢台市临西县2026年初三第一次模拟语文试题含解析
- 河北省石家庄市裕华实验中学2026年初三下学期三校联考语文试题含解析
- (正式版)DB37∕T 3115-2018 《生猪养殖环境信息物联网监测规范》
- 2026年土地订购合同(1篇)
- DB46-T 727-2025《农用地土壤微塑料监测技术规程》
- 教学设计财产属于谁
- 2026年震动传感器在周界安防入侵探测中的应用
- 2025年职业技能鉴定考试(养老护理员·初级)综合试题及答案
- 中国企业供应链金融白皮书(2025)-清华五道口
- 子宫的结构和功能
- 2025年五类人员考试真题及答案
- 苏州工业园区职业技术学院单招考试文化素质数学试题AB卷附答案详解
- 从0到1开播指导抖音本地生活商家直播培训
- 大数据平台建设工期保证体系及保证措施
- 公共区域活动管理办法
- 2024湘教版七年级地理下册知识点清单
- 护理岗位职责及工作流程
- 光伏施工安全教育培训
评论
0/150
提交评论