




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据技术综合实训2》教学大纲一、课程基本信息课程名称大数据技术综合实训ComprehensiveActualTrainingOfBigDataTechnology课程编码SCC320811030开课院部理学院课程团队数据科学团队学分3.0课内学时3周讲授0实验0上机0实践3周课外学时0适用专业数据科学与大数据技术授课语言中文先修课程Python语言与实训、大数据技术基础实训课程简介(必修)《大数据技术综合实训》是数据科学与大数据技术专业的一门必修课。通过本课程的实机操作,使学生掌握在本机与多台机器集群执行Spark应用程序,并运用MLlib机器学习演算法进行数据处理、训练、建立模型、训练验证模型、预测结果。另外,以大数据实际案例示范使用SparkMLPipeline机器学习流程进行二元分类、多元分类、回归分析,将机器学习的每一个步骤建立成Pipeline流程。通过对SparkMLlib机器学习算法和应用案例的研究,进一步锻炼学生的动手能力,培养学生处理大数据问题的能力。TheComprehensiveTrainingofBigDataTechnologyisacompulsorycourseforthemajorofDataScienceandBigDataTechnology.Throughthereal-timeoperationofthiscourse,studentscanmasterhowtoexecuteSparkapplicationprogramwithmultiplemachineclustersontheirown,anduseMLlibmachinelearningalgorithmtoprocessdata,train,buildmodels,trainvalidationmodelsandpredictresults.Inaddition,weuseSparkMLPipelinemachinelearningprocesstocarryoutbinaryclassification,multipleclassificationandregressionanalysiswithlargedataexamples,andbuildeverystepofmachinelearningintoPipelineprocess.ThroughthestudyofSparkMLlibmachinelearningalgorithmandapplicationcases,thestudents'practicalabilityisfurthertrainedandtheirabilitytodealwithbigdataproblemsistrained.负责人大纲执笔人审核人二、课程目标序号代号课程目标OBE毕业要求指标点任务自选1M1目标1:掌握在本机与多台机器集群执行Spark应用程序,系统掌握大数据技术的实验方法,培养学生实践实验技能是3.22M2目标2:运用SparkMLlib和SparkMLPipeline机器学习流程进行二元分类、多元分类、回归分析,能够量化分析问题,具备分析和建立大数据模型的能力是3.2,4.23M3目标3:通过对SparkMLlib机器学习算法和应用案例的研究,进一步锻炼学生的团队协作能力,培养创新精神,训练创新思维,培育创新创业实践能力、科学研究能力和技术开发能力是7.2,8.1,8.24M4目标4:能保障课程正常秩序(政治层面、课堂保障层面,非学生能力层面)否三、课程内容序号章节号标题课程内容/重难点支撑课程目标课内学时教学方式课外学时课外环节1第1章第1章Spark的介绍与安装本章重点难点:不同模式下运行spark程序////21.11.1Spark的介绍与安装Spark的介绍与安装M10.25天讲授、讨论//31.21.2运行spark程序与SparkWebUI界面本地运行spark程序、在HadoopYARN运行spark、构建SparkStandaloneCluster运行环境、在SparkStandalone运行spark、SparkWebUI界面M10.25天讲授、讨论//4实验1实验1:Spark的生态环境与安装实验Spark的生态环境与安装实验M10.5天实验、上机//5第2章第2章SparkRDD本章重点难点:RDD“转换”运算、RDD“动作”运算、Broadcast广播变量、accumulator累加器、RDDPersistence持久化////62.12.1“转换”运算基本RDD“转换”运算、多个RDD“转换”运算、RDDKey-Value基本“转换”运算、多个RDDKey-Value“转换”运算M10.25天讲授、讨论//72.22.2“动作”运算基本“动作”运算、Key-Value“动作”运算M10.25天讲授、讨论//82.32.3RDD相关概念Broadcast广播变量、accumulator累加器、RDDPersistence持久化M10.25天讲授、讨论//92.72.4使用Spark创建WordCount使用Spark创建WordCountM10.25天讲授、讨论//10实验2实验2:SparkRDD实验SparkRDD实验M11天实验、上机//11第3章第3章Spark的集成开发环境本章重点难点:PyDev和SCALA编程、不同模式下运行Spark程序/////123.13.1PyDev项目PyDev设置SparkPython链接库、PyDev设置环境变量、WordCount.py程序、测试文件并上传至HDFS目录、在HadoopYARN-client上运行WordCount程序、在SparkStandaloneCluster上运行M10.25天讲授、讨论//133.23.2SCALA编程SCALA实现WordCount.py程序、测试文件并上传至HDFS目录、在HadoopYARN-client上运行WordCount程序M10.25天讲授、讨论//14实验3实验3:Spark的集成开发环境实验Spark的集成开发环境实验M10.5天实验、上机//15第4章第4章SparkMLlib决策树分类本章重点难点:SparkMLlib运行决策树二元分类、SparkMLlib决策树多元分类////164.14.1SparkMLlib决策树分类SparkMLlib决策树分类M1,M20.25天讲授、讨论//174.24.2“StumbleUponEvergreen”大数据问题数据搜集、数据准备、训练模型、模型预测、模型准确率评估M1,M20.5天讲授、讨论//184.34.3“森林覆盖植被”大数据问题数据搜集、数据准备、训练模型、模型预测、模型准确率评估M1,M20.5天讲授、讨论//19实验4实验4:PythonSparkMLlib决策树分类实训PythonSparkMLlib决策树分类实训M2,M33天实验、上机//20第5章第5章SparkMLPipeline机器学习流程分类本章重点难点:采用SparkMLPipeline实现随机森林RandomForestClassier分类////215.15.1机器学习pipeline流程的组件建立机器学习pipeline流程、使用pipeline进行数据处理与训练、使用pipelineModel进行预测、评估模型的准确率M1,M20.25天讲授、讨论//225.25.2使用随机森林RandomForestClassier分类器使用随机森林RandomForestClassier分类器M1,M20.5天讲授、讨论//235.35.3大数据问题SparkMLPipeline实训对于大数据问题,可由教师和学生自行选择M1,M20.5天讲授、讨论//24实验5实验5:SparkMLPipeline机器学习流程二元分类SCALA实现SparkMLPipeline机器学习流程二元分类M2,M33天实验、上机//25第6章第6章SparkSQL、DataFrame、RDD数据统计与可视化本章重点难点:DataFrame、RDD数据统计与可视化////266.16.1RDD、DataFrame、SparkSQL数据整理与统计RDD、DataFrame、SparkSQL数据、显示字段与增加计算字段、筛选数据、字段数据排序、分组统计数据、Join联接数据M10.25天讲授、讨论//276.26.2大数据问题数据统计与可视化实训对于大数据问题,可由教师和学生自行选择M2,M30.25天讲授、讨论//28实验6实验6:数据统计与可视化实训数据统计与可视化实训M2,M32天实验、上机//四、考核方式序号考核环节操作细节总评占比1实验1.本课程3周实验,共六次实验。2.成绩采用百分制,根据实验完成情况评分。3.考核学生实机操作能力,使学生掌握在本机与多台机器集群执行Spark应用程序,并运用MLlib机器学习演算法进行数据处理、训练、建立模型、训练验证模型、预测结果。60%2考勤随机点名、刷卡点名等5%3课堂表现随机检查学生上课精神状态、回答问题情况5%4大作业1.本课程要求利用Python语言工具建立研究对象的模型,两到三人一组,以竞赛组队模式完成一道大数据竞赛题目,并提交论文并答辩。2.根据模型建立情况、论文方案的准确性和个人在大作业的贡献率评分。30%五、评分细则序号课程目标考核环节大致占比评分等级1M1实验60%A-按时提交实验报告,数据分析符合规范,结论无误。B-按时提交实验报告,数据分析基本规范,结论基本正确。C-数据分析过程存在问题。D-未提交实验报告或实验报告存在严重抄袭现象。2M1大作业30%A-按时提交大作业论文,数据分析符合规范,结论无误,课程答辩讲解清楚,回答问题正确。B-按时提交大作业论文,数据分析基本规范,结论基本正确,课程答辩讲解较清楚,回答问题基本正确。C-数据分析过程存在问题,课程答辩讲解不清,回答问题有错误。D-未提交大作业论文或大作业论文存在严重抄袭现象,未参加课程答辩。3M1课堂表现10%A-精神状态饱满,回答问题准确。B-精神状态良好,问题回答较好。C-精神状态一般,问题回答一般。D-很少参加课堂讨论,精神状态较差,回答问题有误。4M2实验60%A-按时提交实验报告,数据分析符合规范,结论无误。B-按时提交实验报告,数据分析基本规范,结论基本正确。C-数据分析过程存在问题。D-未提交实验报告或实验报告存在严重抄袭现象。5M2大作业40%A-按时提交大作业论文,数据分析符合规范,结论无误,课程答辩讲解清楚,回答问题正确。B-按时提交大作业论文,数据分析基本规范,结论基本正确,课程答辩讲解较清楚,回答问题基本正确。C-数据分析过程存在问题,课程答辩讲解不清,回答问题有错误。D-未提交大作业论文或大作业论文存在严重抄袭现象,未参加课程答辩。6M3实验50%A-按时提交实验报告,数据分析符合规范,结论无误。B-按时提交实验报告,数据分析基本规范,结论基本正确。C-数据分析过程存在问题。D-未提交实验报告或实验报告存在严重抄袭现象。7M3大作业50%A-按时提交大作业论文,数据分析符合规范,结论无误,课程答辩讲解清楚,回答问题正确。B-按时提交大作业论文,数据分析基本规范,结论基本正确,课程答辩讲解较清楚,回答问题基本正确。C-数据分析过程存在问题,课程答辩讲解不清,回答问题有错误。D-未提交大作业论文或大作业论文存在严重抄袭现象,未参加课程答辩。8M4考勤100%A-全勤。B-缺勤1次。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025新员工入职安全培训考试试题【必考】
- 2025新员工入职前安全培训考试试题(完美版)
- 2025企业员工安全培训考试试题及参考答案【研优卷】
- 2025年公司管理人员安全培训考试试题及答案培优B卷
- 2025公司主要负责人安全培训考试试题及答案突破训练
- 2024-2025生产经营负责人安全培训考试试题附完整答案(易错题)
- 2025年中国网络安全培训行业市场规模及未来投资方向研究报告
- 2025企业安全管理人员安全培训考试试题附答案【预热题】
- 2025-2030年中国PPR管材行业专项调研及发展战略规划报告
- 2025至2031年中国监视器吊杆行业投资前景及策略咨询研究报告
- 2025年度虚拟电厂分析报告
- 2024年浙江公路技师学院招聘笔试真题
- 2025年锅炉水处理作业人员G3证考试试题题库(200题)
- 2025年中考语文一轮专题复习:古诗词曲梳理复习重点整合
- 2025-2030中国菊芋菊粉行业市场发展趋势与前景展望战略研究报告
- 2021碳纤维复合芯导线配套金具技术条件 第2部分:接续管
- 资料对外提供管理制度
- 公路养护机械安全操作
- 2025年中国智能可穿戴设备市场深度调研分析及投资前景研究预测报告
- 2025-2030国内绿色蔬菜行业市场发展现状及发展前景与投资机会研究报告
- 部队网络安全常识授课
评论
0/150
提交评论