版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE8PAGE8PAGE7PAGE7
课题数据处理与分析(一)课时2课时(90min)教学目标知识技能目标:(1)了解常见的大数据计算模式。(2)理解MapReduce的概念和工作流程。思政育人目标:感受大数据处理与分析技术在现代生产生活中的巨大作用和价值,不断增强创新意识、合作意识、爱国主义情怀和民族自豪感。教学重难点教学重点:MapReduce的概念和工作流程教学难点:MapReduce的概念和工作流程教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学设计第1节课:→→传授新知(23min)→课堂讨论(15min)第2节课:→传授新知(15min)→实战演练(20min)→课堂小结(3min)→作业布置(2min)教学过程主要教学内容及步骤设计意图第一节课考勤
(2min)【教师】使用文旌课堂APP【学生】按照老师要求签到培养学生的组织纪律性,掌握学生的出勤情况案例导入(5min)【教师】讲述“华科师生团队荣获2021年图计算挑战赛全球冠军”案例,使学生感受大数据处理与分析技术的作用和价值,培养学生的民族自豪感【学生】聆听、理解、感受大数据处理与分析技术在现代生产生活中的巨大作用和价值通过案例导入的方法,引导学生感受大数据处理与分析技术的作用和价值,培养学生的民族自豪感,激发学生的学习兴趣传授新知
(23min)【教师】介绍常见大数据计算模式,以及离线计算与实时计算的相关知识一、常见大数据计算模式✈【教师】提出问题:常见大数据计算模式有哪些?✈【学生】思考、举手回答目前,常见的大数据计算模式有批处理计算、流计算、图计算、迭代计算、查询分析计算等。✈【教师】提出问题:批处理计算用于解决什么问题?✈【学生】思考、举手回答✈【教师】总结学生的回答批处理计算主要用于解决大规模数据的批量处理问题,是最为常见的数据处理需求。它在应对大量、持久数据方面表现极为出色,因此经常用于对历史数据进行分析,代表框架或平台有MapReduce、Spark等。(详见教材)✈【教师】利用多媒体辅助讲解流计算模式流数据(也称数据流)是指在时间分布和数量上无限的一系列动态数据的集合体,如用户使用Web或移动应用程序时生成的日志数据、网购数据、社交数据、游戏玩家数据、金融交易数据、地理空间服务数据、来自数据中心内所连接设备或仪器的遥测数据等。✈【教师】提出以下学习任务:阅读教材“高手点拨”部分,通过案例了解流计算在实际生活中的应用。✈【学生】自主学习、思考、理解✈【教师】利用多媒体辅助讲解图计算由于具有良好的表达能力,图数据结构被广泛用来对元素间具有复杂联系的数据进行建模,如社交网络、知识图谱等。随着图数据规模的高速增长,复杂的业务需求不断涌现,处理这类大规模数据,需要采用图计算模式。(详见教材)✈【教师】提出以下学习任务:阅读教材“高手点拨”部分,进一步了解图计算。✈【学生】自主学习、思考、理解✈【教师】利用多媒体辅助讲解迭代计算迭代计算主要用于机器学习过程中需要处理全量数据并进行多次迭代的计算,它利用计算机运算速度快、适合做重复性操作的特点,让计算机对一组指令(或一定步骤)进行重复执行,在每次执行这组指令(或步骤)时,都可以从变量的原值推出它的新值。(详见教材)
✈【教师】利用多媒体辅助讲解查询分析计算针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能很好地满足企业经营管理的需求。例如,Google公司开发的Dremel就是适用于大数据环境下的一款可扩展的、交互式的实时查询系统,它能做到在2~3s内完成PB级别数据的查询。(详见教材)二、离线计算与实时计算✈【教师】提出以下问题:阅读课本,思考离线计算是什么?离线计算的特点有哪些?✈【学生】思考、举手回答✈【教师】总结学生的回答离线计算是指在计算开始前要准备好所有输入数据,且输入数据不会发生变化,在此前提下进行的解决一个问题后就要立即得到结果的计算模式。离线计算具有如下特点:①数据量巨大,保存时间长;②可进行复杂的批量运算;③数据在计算之前已经完全到位,不会发生变化;④能够方便地查询计算结果。(详见教材)✈【教师】提出以下学习任务:阅读教材“高手点拨”部分,进一步了解离线计算。✈【学生】自主学习、思考、理解✈【教师】利用多媒体辅助讲解实时计算为了能够满足用户在某些场景下的实时性要求,很多技术方案加入了实时计算。实时计算是指输入数据实时产生,产生后立刻以序列化的方式逐个输入并进行处理。也就是说,它在计算开始前并不需要知道所有的输入数据。(详见教材)✈【教师】提出以下问题:对比离线计算和实时计算,有哪些不同点?✈【学生】思考、举手回答✈【教师】总结学生的回答比较而言,离线计算的数据源一般存储在HDFS中且数据量大,处理速度慢,延迟高,任务完成即可结束;实时计算的数据源一般是消息队列(如Kafka,需要实时增加),处理速度快,延迟低,需要不间断进行(即7×24小时持续进行)。【学生】聆听、记录、理解通过教师的讲解和演示,互动以及案例,使学生了解大数据计算模式的相关知识课堂讨论(15min)【教师】组织学生以小组为单位阅读“实践创新”部分,(详见教材),说一说对你有什么启示?【学生】聆听、思考、小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过课堂讨论,加深学生对大数据计算模式的了解第二节课问题导入(5min)【教师】提出问题:什么是分布式并行编程模型?【学生】聆听、思考、举手回答通过问题导入,引导学生主动思考,激发学生的学习兴趣传授新知(15min)【教师】通过学生的回答引入新的知识,介绍分布式并行编程模型MapReduce工作流程及程序编写步骤MapReduce是一种并行编程模型,它极大地方便了分布式编程,使得编程人员在不深入理解分布式并行编程的情况下,也可以很容易地将自己的程序运行在分布式系统上,完成对海量数据集的计算。一、MapReduce简介✈【教师】提出以下问题:用自己的话说一说什么是MapReduce?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结MapReduce是Hadoop系统中最重要的计算引擎,它不仅直接支持交互式应用、基于程序的应用,还是Hive等组件的基础。它主要用于大规模数据集的并行运算,可以并行执行大规模数据处理任务。(详见教材)✈【教师】提出以下学习任务:阅读教材“高手点拨”部分,了解分布式并行计算的分层和区别。✈【学生】自主学习、思考、理解✈【教师】提出以下问题:阅读教材相关内容说一说MapReduce的特点有哪些?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结MapReduce在大数据处理方面具有以下几个优点。(1)开发简单且易于实现。(2)良好的可扩展性。(3)高容错性。……(详见教材)✈【教师】利用多媒体辅助讲解MapReduce的局限性MapReduce存在以下局限性:(1)计算局限。(2)性能局限。(3)应用局限。二、MapReduce的工作流程✈【教师】提出以下问题:阅读教材相关内容说一说MapReduce的工作流程有哪几个阶段?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结总体而言,可将MapReduce的工作流程分为5个阶段,分别是输入分片和数据格式化、Map过程、Shuffle过程、Reduce过程及结果输出。……(详见教材)✈【教师】利用多媒体详细讲解MapReduce的工作流程1.输入分片和数据格式化在执行Map任务之前,MapReduce会将存储在分布式文件系统中的大规模数据集切分成独立的输入分片(InputSplit),并且每一个输入分片对应着一个Map任务。2.Map过程Map过程利用map()函数来处理数据,map()函数接收<key1,value1>形式的数据输入。3.Shuffle过程通常,map()函数的输出并不会直接交给Reduce任务,而是需要经过一系列处理,然后将处理后的数据作为Reduce任务的输入。这一系列处理过程称为Shuffle(洗牌)过程。4.Reduce过程Reduce任务接收归并排序后的数据流,并对已有序的相同key的键值对调用一次reduce()函数。(详见教材)✈【教师】提出以下问题:阅读教材相关内容说一说MapReduce的Shuffle过程具体如何进行的?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结(1)Map端的Shuffle过程。(2)Reduce端的Shuffle过程。(详见教材)三、MapReduce程序编写步骤✈【教师】利用多媒体辅助讲解MapReduce程序编写步骤Hadoop支持多种语言开发MapReduce程序,但对Java语言的支持最好,其提供了很多方便的JavaAPI。使用Java编写一个MapReduce程序,需要新建3个类:Mapper类、Reducer类和程序执行主类。当然,Mapper类和Reducer类也可作为内部类放在程序执行主类中。(详见教材)【通过讲授,提问,讨论等教学方式,让学生了解并行编程模型MapReduce工作流程及程序编写步骤实战演练(20min)【教师】演示MapReduce二次排序编程,然后组织学生上机操作(1)自定义Sort2Bean类(2)自定义Sort2Mapper类(3)自定义GroupingComparator类(4)自定义Sort2Reducer类(5)自定义Sort2Driver类【教师】巡视指导,及时解决学生问题通过实战演练,使学生熟练掌握MapReduce编程,为后面的学习打好基础课堂小结
(3min)【教师】简要总结本节课的要点本节课学习了大数据计算模式和分布式并行编程模型MapReduce。希望大家在课下多加练习,巩固所学知识。【学生】总结回顾知识点总结知识点,巩固学生对大数据计算模式和分布式并行编程模型MapReduce相关知识的印象作业布置
(2min)【教师】布置课后作业(1)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省盐城市獐沟中学2025-2026学年初三综合模拟考试语文试题含解析
- 天津市部分区(蓟州区)重点达标名校2025-2026学年初三下学期第三次阶段检测试题数学试题含解析
- 湖北省武汉市硚口区市级名校2026年初三下学期第一次质量调查英语试题含解析
- 四川省德阳市中学江县2026年初三下学期教学质量检查英语试题文试题含解析
- 舞蹈春季活动策划方案
- 2026年企业安全文化问卷调查设计与分析报告
- 2026年健康中国战略下公众健康素养提升路径
- 2026年大学生兼职经历与职业能力提升报告食品科学与工程
- 胃癌手术后营养护理指南
- PICC护理个案比赛
- 员工停车申请管理办法
- 家校合作教育促进学生健康成长
- 坚持班会活动方案
- 《数智时代下的供应链管理:理论与实践》课件 第1-7章 理解供应链- 供应链经典的生产计划
- 猪场日常巡视管理制度
- 名著导读:《经典常谈》
- 牵引挂车租赁协议书
- 江苏省宿迁市沭阳县2024-2025学年高一下学期期中英语试题(原卷版+解析版)
- 2025-2030年中国多孔金属行业发展状况及投资前景规划研究报告
- 《中国古代壁画艺术》课件
- 废旧空桶处置合同协议
评论
0/150
提交评论