版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据编程技术》大纲一、课程信息项目内容中文名称大数据编程技术英文名称BigDataProgrammingTechnology课程代码A04400070课程类型必修■选修□课程类别理论■实践□实验□课程学分3.5学分课程性质专业必修考核方式考试总学时60理论学时40实验学时20前导课程数据库系统、Java程序设计、Linux操作系统、计算机网络后续课程分布式系统、数据挖掘与机器学习、云计算技术、大数据分析与应用课程形态线上□线下□线上线下混合■虚拟仿真□社会实践□其他□开课学院计算机学院授课专业软件工程、计算机科学与技术、数据科学与大数据技术二、课程介绍《大数据编程技术》是计算机相关专业的专业必修课程。通过理论讲解和实验实训操作,学生应掌握大数据处理的核心技术栈,包括Hadoop生态系统、分布式文件系统HDFS、分布式计算框架MapReduce、数据仓库工具Hive、内存计算框架Spark以及数据仓库建模方法;能掌握大数据项目从数据采集、存储、处理、分析到可视化的全流程开发方法,并对不同大数据解决方案的技术选型、性能优化和工程实现问题进行分析、比较、研究;能使用Hadoop、Spark、Hive、Superset等工具平台完成大数据系统的设计、开发与部署,并撰写相关项目文档。本课程是在数据库系统、Java程序设计、Linux操作系统等课程之后开设的一门专业核心课程。通过本课程的学习,学生能够掌握大数据工程项目的完整开发流程和方法,具备分布式编程思维和大数据处理能力,能够独立设计和实现中小型大数据应用系统,为分布式系统、数据挖掘、云计算等后继课程和从事大数据方向相关工作打下坚实基础。三、课程目标与毕业要求指标点的对应关系课程目标掌握大数据技术的基本概念、Hadoop生态体系架构、HDFS分布式存储原理、MapReduce编程模型、Hive数据仓库、Spark内存计算以及数据仓库建模等核心技术,并能用于解决复杂大数据处理问题。在对大数据系统架构设计、数据流程规划、性能优化、安全防护等方面进行整体方案设计时,能够综合考虑技术可行性、经济可行性和法律可行性等制约因素,提出合理的大数据解决方案,获得有效解决思路及结论。通过分组完成大数据综合项目的设计与实现,培养学生团队协作能力。学生需在需求分析、架构设计、编码实现、测试部署和报告撰写等环节中相互协调、相互配合。熟练掌握至少一种主流大数据处理框架(Hadoop/Spark)和相关开发工具,能够运用Java/Python语言独立完成分布式程序的编写、调试和部署,具备大数据系统的运维和优化能力。课程目标与毕业要求指标点的对应关系毕业要求指标点课程目标达成途径1工程知识1.3能够将计算机专业相关知识方法对所建的大数据模型和系统的正确性进行推理、分析并能够得出结论1线上预习:学习线上视频并完成线上习题课堂教学:基本原理讲授,思路清晰、重点突出,注重师生互动交流,通过慕课小测验及时掌握学生学习情况书面作业:每一次课后都留有巩固基本原理知识的课后作业,并全批全改,及时反馈2问题分析2.2能够对计算机复杂工程问题的一个系统或者过程,选择或建立一种模型,对关键影响因素进行分析2课堂教学:讲解大数据系统设计过程和案例专题讨论:针对重难点技术安排专题讨论,提高掌握的深度书面作业:布置大数据设计案例,考察学生的系统设计与实现能力3设计/开发解决方案3.1掌握与计算机复杂工程问题有关的工程设计和软硬件产品开发全周期、全流程的基本设计/开发方法和技术3实验教学:根据课程内容设计递进式实验,针对重难点设计实际项目案例,提高学生的动手实践能力课程设计:分组完成综合大数据项目,培养团队协作和工程实践能力5使用现代工具5.1熟悉使用计算机专业的现代仪器、信息技术工具和相关工程的使用管理和方法,并理解其局限性4实验教学:通过Hadoop、Spark、Hive、Superset等工具解决实际项目案例线上实践:利用云平台和在线实验环境进行大数据开发实践四、课程教学资源4.1线下教学资源[1]林子雨。大数据技术原理与应用。人民邮电出版社.2022年第四版.[2]王家林.Hadoop大数据开发实战。机械工业出版社.2021年第一版.[3]夏俊鸾.Spark大数据分析实战。人民邮电出版社.2020年第一版.[4]李康。大数据编程技术。湖北理工学院自编教材.2025年第一版.4.2线上教学资源[1]余刚。大数据编程技术。湖北理工学院课程中心.[2]清华大学。大数据技术原理与应用精品课程网站:/course/THU-1001997005[3]Apache官方文档:/docs/、/docs/[4]阿里云大学大数据课程:/course/list五、课程教学内容与要求序号教学内容教学主要内容、要求、重难点思政要点学时课程目标教学方式和手段1大数据概述主要内容:大数据的定义与特征(4V)大数据的应用场景与发展趋势大数据技术栈与生态体系Hadoop起源与核心组件大数据处理流程教学要求:掌握大数据的核心定义和4V特征;了解大数据的典型应用场景;熟悉Hadoop生态系统的主要组件及其功能;理解大数据处理的基本流程。教学重点:大数据的4V特征、Hadoop生态体系、大数据处理流程教学难点:分布式系统的基本概念大数据作为数字经济的核心生产要素,正在深刻改变人类的生产生活方式。从大数据在疫情防控、智慧城市、精准扶贫等领域的应用,引导学生认识技术服务国家战略、造福人民的重要价值。Hadoop等开源技术的发展历程,体现了全球开发者协作创新的精神,培养学生的开源意识和团队协作精神。41,2线上自学、线下课堂教学、提问研讨、案例分析、课后作业2Hadoop分布式文件系统HDFS主要内容:HDFS的架构设计(NameNode、DataNode、SecondaryNameNode)HDFS的文件读写流程HDFS的Shell命令操作HDFS的JavaAPI编程HDFS的高可用性与容错机制教学要求:掌握HDFS的架构原理和核心组件功能;熟练使用HDFSShell命令进行文件操作;能够使用JavaAPI进行HDFS文件的读写;理解HDFS的容错机制和高可用性设计。教学重点:HDFS架构、文件读写流程、Shell命令、JavaAPI教学难点:HDFS文件读写流程、高可用性机制HDFS的分布式存储设计体现了"分而治之"的系统思维和冗余容错的工程思想。通过学习HDFS如何保障数据的可靠性和可用性,培养学生严谨的工程态度和系统思维。数据冗余备份机制启示我们在工作和学习中也要有"备份意识",防患于未然。61,2,4线上自学+线下课堂教学、实验演示、作业3分布式计算框架MapReduce主要内容:MapReduce编程模型与思想MapReduce的执行流程MapReduce的核心组件(Mapper、Reducer、Driver)MapReduce的序列化与排序MapReduce的分区与Combiner典型MapReduce案例(WordCount、数据去重、排序)教学要求:理解MapReduce的编程思想和执行流程;掌握Mapper、Reducer和Driver的编写方法;能够独立完成常见的MapReduce程序开发;理解序列化、排序、分区和Combiner的作用。教学重点:MapReduce编程模型、执行流程、核心组件、典型案例教学难点:MapReduce执行流程、分区与Combiner的使用MapReduce将复杂问题分解为简单的Map和Reduce两个阶段,体现了"化繁为简、分而治之"的哲学思想。通过学习分布式计算的并行化处理,培养学生的并行思维和解决复杂问题的能力。开源社区中无数开发者对MapReduce的优化和改进,体现了精益求精的工匠精神。101,2,4线上自学+线下课堂教学、代码演示、作业、实验4数据仓库工具Hive主要内容:Hive的架构与工作原理Hive的数据模型(数据库、表、分区、分桶)HiveQL数据定义语言(DDL)HiveQL数据操纵语言(DML)Hive的查询优化Hive的用户自定义函数(UDF)教学要求:掌握Hive的架构和工作原理;熟练使用HiveQL进行数据定义和数据操作;能够创建和管理分区表、分桶表;了解Hive的查询优化方法;能够编写简单的UDF函数。教学重点:Hive数据模型、HiveQL语法、分区表、查询优化教学难点:Hive的执行机制、查询优化、UDF编写Hive将SQL转换为MapReduce任务执行,体现了"抽象与封装"的工程思想,降低了大数据处理的门槛。通过学习Hive如何将复杂的分布式计算封装为简单的SQL操作,培养学生的抽象思维能力和工程化思维。数据仓库的规范化设计强调数据的一致性和准确性,培养学生严谨的数据态度和质量意识。81,2,4线上自学+线下课堂教学、实验演示、作业、实验5内存计算框架Spark主要内容:Spark的架构与核心概念(RDD、DAG、Stage、Task)Spark的运行模式SparkCore编程(RDD的创建、转换、行动操作)SparkSQL与DataFrame/Dataset编程SparkStreaming流处理基础教学要求:掌握Spark的架构和核心概念;理解RDD的特性和操作原理;能够使用Scala/Java进行SparkCore编程;熟练使用SparkSQL进行数据查询和分析;了解SparkStreaming的基本原理。教学重点:Spark架构、RDD编程、SparkSQL教学难点:RDD的依赖关系与DAG调度、SparkSQL优化Spark作为新一代大数据处理框架,通过内存计算大幅提升了处理效率,体现了技术创新永无止境的精神。通过对比MapReduce和Spark的优缺点,培养学生的批判性思维和技术选型能力。Spark生态系统的快速发展,启示学生要保持终身学习的态度,不断跟进技术前沿。81,2,4线上自学+线下课堂教学、代码演示、作业、实验6数据仓库建模主要内容:数据仓库的基本概念与特征数据仓库与数据库的区别数据建模方法(关系模型与维度模型)维度建模的核心概念(事实表、维度表)星型模型、雪花模型与星座模型数据仓库的分层架构(ODS、DWD、DWS、ADS)数据仓库的开发流程教学要求:掌握数据仓库的基本概念和特征;理解维度建模的核心思想;能够设计事实表和维度表;掌握星型模型、雪花模型的设计方法;熟悉数据仓库的分层架构和开发流程。教学重点:维度建模、事实表与维度表、数据仓库分层架构教学难点:维度模型设计、数据仓库分层设计数据仓库通过整合分散的数据,为决策提供支持,体现了"整体大于部分之和"的系统观。通过学习数据仓库如何将杂乱无章的数据转化为有价值的信息,培养学生的数据思维和系统思维。数据仓库的建设需要跨部门协作,培养学生的沟通能力和团队协作精神。41,2,3线上自学+线下课堂教学、案例分析、作业六、实验教学内容与安排序号实验名称实验学时每组人数实验类型(验证/设计/综合)主要内容课程目标1实验一Hadoop集群搭建与HDFS操作21验证1.掌握Linux环境下Hadoop的安装与配置2.学会启动和关闭Hadoop集群3.熟练使用HDFSShell命令进行文件操作4.使用JavaAPI进行HDFS文件读写课程目标1,42实验二MapReduce编程基础21验证1.掌握MapReduce程序的开发流程2.实现WordCount、数据去重等经典案例3.学会打包和运行MapReduce程序4.查看MapReduce任务的运行日志课程目标1,43实验三Hive数据仓库操作21验证1.掌握Hive的安装与配置2.学会创建和管理Hive数据库和表3.熟练使用HiveQL进行数据查询和分析4.创建和使用分区表课程目标1,44实验四Spark编程基础41验证1.掌握Spark的安装与配置2.学会使用SparkShell进行交互式编程3.实现RDD的转换和行动操作4.使用SparkSQL进行数据查询课程目标1,45实验五在线教育数据仓库建模与分析102-3人综合1.完成在线教育数据集的采集与预处理2.设计并实现数据仓库的ODS、DWD、DWS、ADS四层架构3.使用Hive进行数据清洗、转换和分析4.实现用户行为分析、课程效果分析等核心指标统计5.使用Superset进行数据可视化课程目标1,2,3,4七、课堂教学本课程教学采用线上线下一体教学模式,教学过程由线上慕课自学、线下课堂讲授、作业、实验报告四部分组成,具体如下:线上慕课自学:教师发布预习重点及要求,学生通过学堂在线、中国大学MOOC等平台进行学习,并完成在线测试和讨论。线下课堂讲授:教师主讲,通过PPT展示知识重点和难点,结合大数据案例进行讲解,并进行代码演示和实验指导。评价方式为慕课随堂小测验和课堂提问。作业:针对课程要求掌握的知识点和具备的能力布置相应的书面作业和编程作业。评价方式为教师批改和代码评审。实验报告:针对课程要求掌握的知识点和具备的能力,开展大数据实验考核。学生需提交实验报告,包括实验目的、实验步骤、实验结果和分析总结。评价方式为教师批改和实验操作考核。八、成绩评定8.1课程总成绩构成本课程总成绩由过程性考核和结果性考核组成,其中过程性评价包括线上自学、线下课堂表现、作业和实验报告,结果性评价为课程考试,其构成权重分配如下表所示。课程总成绩构成考核内容考核方式监控手段和方法占比%对应课程目标过程性考核50%线上自学主要知识点线上考核线上学习分数、在线测试、讨论参与度101、2、3课堂表现主要知识点随堂小测试、课堂提问、考勤51、2、3课后作业主要知识点和编程能力线上作业批改、代码评审101、2、4实验报告实验操作和分析能力实验批改、操作考核、项目验收251、2、3、4结果性考核50%课程考试主要知识点和综合应用能力纸质闭卷考试501、2、3、4合计1008.2成绩评定方法线上自学:根据学生线上学习时长、在线测试成绩和讨论参与情况进行成绩评定。课堂表现:采用"慕课MOOC"随堂小测验和课堂提问相结合的方式,结合考勤情况进行成绩汇总。作业:由任课教师严格按照《过程性评价成绩评定标准》进行批改,作业包括理论题和编程题两种类型,主要以线上作业的形式提交。实验报告:采用线下实验形式,对学生的实验操作过程、实验结果和实验报告进行综合考核。综合实验采用分组答辩的方式进行验收。课程考试:采用闭卷形式,按卷面实际成绩计入课程总成绩评定。期末考核试题题型与课程目标分值分配参见下表。评价项目第一题多项选择题第二题简答题第三题编程题第四题综合应用题合计(分值)课程目标120100030课程目标201002030课程目标30002020课程目标40020020合计20202040100过程性考核成绩评定标准成绩区间线上慕课自学课堂教学作业实验报告90-100优秀具有较强的自主学习能力,能自觉完成所有知识点的线上学习,学习时长充足。深入理解相关知识及理论研究方法,准确把握知识难点和重点。在线测试成绩优秀,积极参与讨论。全勤、听讲认真、回答问题积极准确、"慕课MOOC"随堂小测验90-100分。严格按作业要求按时完成。书写规范、逻辑性强,代码质量高,正确率90%以上,没有抄袭情况。所有实验全达标,操作严谨规范,分析透彻深入,结论准确且具创新性或优化建议。综合实验完成度高,答辩表现优秀。80-89良好具有较强的自主学习能力,能自觉完成知识点的线上学习,学习时长充足。较好理解相关知识,明确听课重点。在线测试成绩良好,参与讨论。出勤率80-90%,听讲较认真、回答问题较积极、"慕课MOOC"随堂小测验80-89分。严格按作业要求按时完成。书写清晰,代码质量较好,正确率80%至90%,没有抄袭情况。主要实验指标达标,操作较规范,分析较深入,结论合理,存在小改进空间。综合实验完成度较好,答辩表现良好。70-79中等具有一定的自主学习能力,能完成知识点的线上学习。初步理解相关知识,明确听课重点。在线测试成绩中等。出勤率70-80%,听讲情况一般
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年消防新年工作计划
- 2026年煤矿安全生产工作计划安排部署
- 2026年服装下半年销售计划
- 2026年年终述职创意想法
- 基于临床路径的病种医疗技术准入与成本管控
- 基于RBRVS的医生绩效成本管控模式
- 肺癌中医护理的护理计划制定
- 2026年幼儿园消防计划工作方案及流程
- 围产期心肌病合并肥胖患者运动处方个体化调整方案
- 员工健康促进与医疗资源下沉
- 人工智能训练师三级理论知识试题及答案
- 2026抖音小游戏行业白皮书
- 【《离子速度成像技术研究文献综述》5500字】
- 离婚协议书 2026年民政局标准版
- 回款KPI考核制度
- 灌溉工程巡查培训课件
- TZ208-2007 客运专线铁路电力牵引供电工程施工技术指南
- 软件研发过程管理制度(3篇)
- 建筑工程标准化培训课件
- 数据讲故事与可视化【演示文档】
- 装配式活动板房安装安全技术交底
评论
0/150
提交评论