版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据技术基础》课程标准【课程名称】 【课程编码】【课程类别】专业基础课 【适用专业】计算机相关专业【授课单位】 【总学时】32【教材】【编写执笔人】 【编写日期】一、课程定位和课程设计1.1课程性质本课程是面向计算机相关专业的一门专业基础课,大数据技术入门课程,为学生搭建起通往“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理,引导初步实践、了解相关应用”为原则,为学生在大数据领域“深耕细作”奠定基础、指明方向。本课程将系统讲授大数据的基本概念、大数据处理架构Hadoop、数据采集与预处理、网络爬虫技术、分布式文件系统HDFS、数据仓库Hive、数据处理与分析,包括分布式并行编程模型MapReduce,分布式资源管理器YARN,分布式协调服务ZooKeeper等,在基于内存的大数据处理引擎Spark,数据可视化及可视化工具,大数据思维与安全,在每一章的课后都安排了实践环节,让学生更好的学习和掌握大数据关键技术。1.2课程设计思路本课程的设置是为了适应大数据时代对数据分析人才的迫切需求。课程目标定位在计算机相关专业学生面临新时代就业形式下所要求掌握的基本技能。课程内容紧跟技术流行趋势,选择最适合大数据分析领域的编程语言及相关生态环境。课程中的章节设置贴近现实工作需要,章节设计面向实战。在每个章节学习完成后,学生可以通过入门级实战项目应用所学知识解决实际问题。二、课程目标1.知识目标(1)理解大数据的概念和主要特征,了解大数据的发展现状与趋势。(2)熟悉Hadoop生态系统,了解Hadoop的三种运行模式。(3)了解网络爬虫的概念、原理、分类及应用。熟悉国内比较常用的网络爬虫工具。(4)了解HDFS的概念、运行机制和工作流程。了解HBase的概念、数据模型和工作原理。了解Hive的概念、工作原理和执行流程。(5)了解YARN的基本架构及组件,理解其工作流程。了解ZooKeeper的概念、应用场景和集群总体架构。(6)了解数据可视化及常用的数据可视化方法和工具。(7)了解大数据思维的内涵。了解大数据面临的安全问题,以及大数据带来的伦理问题。2.能力目标学习大数据处理所需的各种软件包括Hadoop,网络爬虫,HDFS,YARN,可视化工具等等,学习利用所学知识解决问题的能力3.素质(思政)目标(1)理解大数据作为国家基础性战略资源的重要意义;(2)深刻理解企业坚持走自主创新路线、构建开源生态的重要意义,不断增强创新自信;(3)感受大数据处理与分析技术在现代生产生活中的巨大作用和价值,不断增强创新意识、合作意识、爱国主义情怀和民族自豪感;(4)提升自身的数据素养,让自己有能力阅读、利用、分析和质疑数据,做一个合格的数据生产者和数据消费者。三、课程内容与教学要求本课程内容分为8个章节,内容包括大数据的基本概念、大数据处理架构Hadoop、数据采集与预处理、网络爬虫技术、分布式文件系统HDFS、数据仓库Hive、数据处理与分析,包括分布式并行编程模型MapReduce,分布式资源管理器YARN,分布式协调服务ZooKeeper等,在基于内存的大数据处理引擎Spark,数据可视化及可视化工具,大数据思维与安全,其教学要求和课时分配如表1所示。表1《大数据技术基础》课程要求及课时分配表序号课程名称教学内容教学要求课时分配1大数据概述(1)大数据的概念和特征(2)大数据的处理流程(3)大数据平台架构和集群(4)大数据的行业应用(5)大数据与其他新兴技术的关系(1)理解大数据的概念和主要特征(2)了解我国的大数据发展战略,理解大数据的处理流程和关键技术(3)了解大数据平台架构的组成和大数据集群(4)了解大数据的典型行业应用,以及大数据与其他新兴技术的关系42大数据处理平台Hadoop(1)Hadoop及其生态系统(2)Hadoop的运行模式(3)安装部署Hadoop集群(1)了解Hadoop的概念、特性和发展历程(2)熟悉Hadoop生态系统(3)了解Hadoop的三种运行模式(4)熟悉Hadoop的集群环境准备工作43数据采集与预处理(1)数据采集(2)网络爬虫技术(3)数据预处理(1)了解数据的主要来源和常用的数据采集方法(2)了解常用的日志采集系统和ETL工具(3)了解分布式发布与订阅消息系统Kafka(4)了解网络爬虫的概念、原理、分类及应用。(5)熟悉国内比较常用的网络爬虫工具(6)了解数据预处理的概念和基本过程(7)了解数据脱敏的概念、原则和方法44数据存储与管理(1)数据存储与管理概述(2)分布式文件系统HDFS(3)分布式数据库HBase(4)数据仓库Hive(1)理解大数据的数据类型,熟悉数据管理技术的发展历程(2)了解NoSQL数据库、NewSQL数据库、云存储和云数据库(3)了解HDFS的概念、运行机制和工作流程(4)了解HBase的概念、数据模型和工作原理。(5)了解Hive的概念、工作原理和执行流程45数据处理与分析(1)大数据计算模式(2)分布式并行编程模型MapReduce(3)分布式资源管理器YARN(4)分布式协调服务ZooKeeper(5)基于内存的大数据处理引擎Spark(1)了解常见的大数据计算模式。(2)理解MapReduce的概念和工作流程。(3)了解YARN的基本架构及组件,理解其工作流程。(4)了解ZooKeeper的概念、应用场景和集群总体架构。(5)了解Spark的概念和主要组件。(6)理解Spark的运行架构和工作流程66数据可视化(1)数据可视化概述(2)数据可视化方法(3)数据可视化工具(1)理解数据可视化的概念和实施过程。(2)了解数据可视化的主要途径。(3)了解大屏数据可视化的概念和应用场景。(4)了解数据可视化的意义与作用。(5)了解数据可视化的特征与未来趋势。(6)了解常用的数据可视化方法和工具47大数据思维与安全(1)大数据思维(2)大数据安全(3)数据开放共享(1)了解大数据思维的内涵。(2)了解大数据面临的安全问题,以及大数据带来的伦理问题。(3)了解我国的大数据安全治理现状和策略,以及数据开放共享的现实意义、挑战和对策。28城市空气质量大数据分析实战(1)案例简介(2)准备数据(3)分析数据(4)数据可视化(1)理解本案例的基本原理和实现过程。(2)弄清计算空气质量分指数的技术细节。(3)加深对MapReduce等技术或工具的理解。4合计32四、课程实施4.1教学条件我校十分注重建设和完善本课程的教学设施,如多媒体教室、机房、网络教学平台、网络数据库等。同时,我校有一支强大的师资队伍,可以为本课程的教学出谋划策。4.2教学方法建议本课程遵循“教师引导,学生为主”的原则,采用讲解、多媒体演示、场景模拟法、讨论、翻转课堂等多种方法,努力为学生创设更多知识应用的机会。(1)讲解法:主要用于讲授基础知识、行业岗位知识等理论性较强的知识。(2)多媒体演示法:在讲解过程中,借助音频、视频、图片等直观手段来呈现教学内容,在激发其学习兴趣和积极性的同时,不断提高其知识储备能力和综合文化素质。(3)场景模拟法:针对所教内容布置任务,引导学生通过情景化的模拟训练来提升知识的实际应用能力和职业素养。(4)讨论法:根据知识点,鼓励学生运用所学知识进行主题讨论,使其在讨论中逐步提升交际能力、思辨能力、解决实际问题的能力等。(5)翻转课堂法:坚持学生的主体地位,鼓励学生在课上对自己学到的知识点进行分享和讲解,并对其讲解进行补充和评价,不断完善学生的知识结构,加深其对所学知识的理解。(6)任务驱动法:以一个学习任务为主题,学生在完成学习任务的过程中,学习知识点,并运用知识点解决问题。教师在教学过程中,可根据学生的实际情况灵活选用教学方法,因材施教,尽量照顾到每一个学生的学习需求。4.3教学评价与考核要求课程的教学评价由形成性测评(40%)和终结性测评(60%)组成,其考核要求如下:1.形成性测评形成性测评考核学生在学习本课程过程中的学习情况和实际应用能力的发展情况,包括出勤考核(10%)、课堂参与程度考核(10%)、作业完成质量考核(20%)等。(1)出勤考核:本项考核通过课前点名考核学生的课堂出勤率。迟到15分钟以内每次扣1分,迟到15分钟以上或无故缺勤一节课每次扣2分,该项考核累计最多扣10分。(2)课堂参与程度考核:本项考核主要通过课堂提问和课堂积极发言来评判学生的学习态度、学习主动性、课堂参与程度,以及学生的思辨能力、问题解决能力及其对课堂教学知识的掌握情况等。只要学生能按时上课听讲,即可获得5分的基本分。学生上课发言一次,即可另外获得0.5分,课堂发言最多可得5分。学生的最后成绩为“5+课堂发言得分”。(3)作业完成质量考核:本项考核主要通过学生作业来检测其对教学主体内容的掌握与理解程度、实际应用知识的能力、自主学习能力、信息收集与处理能力等。每次作业成绩按照相应标准而定,学生作业质量划分为优秀(10分)、良好(8分)、中等(7分)、及格(6分)和不及格(0分)五个档次。最后的作业成绩为学生作业完成质量成绩的平均数。2.终结性测评终结性测评主要考核学生在学完本课程后所达到的水平,通过期末考试进行考核。期末考试由闭卷笔试(60%)组成,主要评估学生对本门课程基本知识的掌握情况与综合运用能力。五、课程资源开发与利用5.1教材使用1.建议教材2.参考书目5.2网络资源
《大数据技术基础》
教案课时分配表章序课程内容课时备注1大数据概述42大数据处理平台Hadoop43数据采集与预处理44数据存储与管理45数据处理与分析66数据可视化47大数据思维与安全28城市空气质量大数据分析实战4合计32
课题大数据概述(一)课时2课时(90min)教学目标知识技能目标:(1) 理解大数据的概念和主要特征。(2)了解大数据的发展现状与趋势。(3)了解我国的大数据发展战略(4)理解大数据的处理流程思政育人目标: 深刻理解大数据作为国家基础性战略资源的重要意义,如推动经济发展、完善社会治理、提升政府服务和监管能力等,进一步加强对信息化新阶段和数字经济的认识,不断提升自身的信息素养。教学重难点教学重点:大数据的概念和特征教学难点:大数据的处理流程教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学设计第1节课:→→→传授新知(18min)→课堂讨论(10min)第2节课:→传授新知(20min)→课堂互动(15min)→课堂小结(3min)→作业布置(2min)教学过程主要教学内容及步骤设计意图第一节课考勤
(2min)【教师】使用APP进行签到【学生】按照老师要求签到培养学生的组织纪律性,掌握学生的出勤情况新课预热
(10min)【教师】自我介绍,与学生简单互动,介绍课程内容、考核标准等【学生】聆听、互动【教师】利用多媒体课件展示大数据的广泛应用,并和学生互动,询问学生对于大数据的印象随着信息技术的飞速发展和计算机教育的普及,社会对大数据的依赖越来越大,大数据应用也随处可见,我们经常使用的各类软件都有大数据应用的痕迹,例如抖音,淘宝,微博,微信等等。【学生】聆听、记录、互动、理解通过老师自我介绍,与学生相互熟悉,并让学生了解这门课的大致要求问题导入(5min)【教师】提出以下问题:你认为什么是大数据?它的优缺点各是什么?【学生】思考、举手回答【教师】通过学生的回答引入要讲的知识通过问题导入的方法,引导学生主动思考,激发学生的学习兴趣传授新知
(18min)【教师】通过学生的回答引入要讲的知识,介绍大数据的概念、特征和发展一、什么是大数据✈【教师】通过多媒体展示数据的基本概念和对于生活的重要作用数据是用来记录客观事物或事件的符号,具体来说,是对客观事物或事件的性质、状态及相互关系等信息进行记录的物理符号。它是可识别的、抽象的符号(详见教材)✈【教师】提出问题:我们已经知道了数据的概念,那么大数据是否只是数量较多的数据呢?如果不是,那你是怎么理解大数据呢?✈【学生】思考、举手回答✈【教师】组织学生阅读“家国情怀”中的内容(详见教材),并提问:通过阅读上面的案例,你认为大数据对于现代社会具有哪些重要意义?✈【学生】思考、举手回答二、大数据的特征✈【教师】提出以下问题:你知道大数据具有哪些特征吗?✈【学生】思考、举手回答大数据的特征包括大数据具有海量的数据规模(volume)、快速的数据流转(velocity)、多样的数据类型(variety)和数据价值密度低(value)四大特征,简称4V。三、大数据的发展✈【教师】展示与大数据发展相关的图片大数据的发展现状与趋势主要表现在以下几个方面(1)大数据底层技术逐步成熟。(2)大数据产业规模平稳增长。(3)数据合规要求日益严格。(4)大数据战略持续拓展。(详见教材)【学生】聆听、记录、理解通过教师的讲解和演示,互动以及案例,使学生了解大数据的概念、特征和发展课堂讨论(10min)【教师】组织学生阅读“青山绿水”中的案例(详见教材),然后组织学生以小组为单位讨论以下问题:这个案例体现了大数据在什么领域的应用?你还知道哪些大数据的应用领域?【学生】聆听、思考、小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过课堂讨论,加深学生对大数据发展历史的认识第二节课问题导入(5min)【教师】提出问题:你知道大数据处理数据的流程是怎样的吗?【学生】聆听、思考、举手回答通过问题导入,引导学生主动思考,激发学生的学习兴趣传授新知(20min)【教师】通过学生的回答引入新的知识,介绍大数据的处理流程一、数据采集与预处理由于大数据超大规模的体量,以及众多用户的频繁操作访问,使得仅使用传统的数据采集方法难以满足业务需求,因此需要通过专门的采集方法对大数据进行采集。采集形式主要有网络数据采集(如提取网页中的图片、文本等)、系统日志采集(业务平台每天都会产生大量的日志数据)、数据库数据采集(如关系型数据库的接入)等,常用的工具有网络爬虫工具、Flume、Kafka、Sqoop等。……(详见教材)✈【教师】提出以下问题:大数据在处理数据时,会先对数据进行预处理,这是为什么呢?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结想要获得高质量的数据分析结果,必须在数据准备阶段提高数据的质量,即对大数据进行预处理。数据预处理是指将杂乱无章的数据转化为相对单一且便于处理的结构,或者去除没有价值甚至可能对分析造成干扰的数据,从而为后期的数据分析奠定基础。二、数据存储与管理经过预处理后的数据,被放到文件系统或数据库系统中进行存储与管理。数据存储与管理是指用存储器把采集到的数据存储起来,并建立相应的数据库,以便对数据进行管理和调用。目前,主要采用HDFS分布式文件系统、NoSQL数据库(非关系型数据库)、数据仓库、云数据库等来存储和管理大数据。其中,常用的NoSQL数据库包括HBase、Redis、Cassandra、MongoDB、Neo4j等。(详见教材)✈【教师】提出问题:你知道什么是分布式系统吗?✈【学生】聆听、思考、举手回答✈【教师】对学生的回答进行总结分布式系统是由一组通过网络进行通信,为了完成共同的任务而协调工作的计算机组成的系统。分布式系统包括分布式计算和分布式存储,作用是使用众多计算机完成单个计算机无法完成的计算和存储任务。其中,分布式存储又包括分布式文件系统和分布式数据库等。三数据处理与分析数据处理与分析是指通过各种算法从大量的数据中找出潜在的有用信息,并研究数据的内在规律和相互间的关系。数据处理与分析大多需要在大数据处理平台上进行,借助分布式并行框架,通过结合一系列算法完成。常用的工具或技术有MapReduce、Spark、Storm、Hive、Pig、Flink、Impala、Mahout等。四、数据可视化✈【教师】展示“数据可视化示意图”,协助讲解知识点数据可视化是指利用可视化手段对数据进行分析,并将分析结果用图表或文字等形式展现出来,从而使读者对数据的分布、发展趋势、相关性和统计信息等一目了然。✈【教师】提出问题:你知道常用的可视化工具有哪些?✈【学生】聆听、思考、举手回答✈【教师】总结学生的回答常用的数据可视化工具有Tableau、D3.js、GoogleChartAPI、ApacheECharts等。✈【教师】提出任务举例说明大数据平台需要具备的能力。(以文档形式提交到过APP或其他学习软件)✈【学生】聆听要求、进行操作通过讲授,提问,讨论等教学方式,让学生了解大数据的处理流程课堂互动(15min)【教师】组织学生以小组为单位搜集Tableau、D3.js、GoogleChartAPI、ApacheECharts等软件的信息,然后讨论以下问题:这些软件的主要功能是什么?各自的优缺点是什么?搜索软件信息,小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过课堂互动,使学生熟悉数据可视化软件,为后面的学习打好基础课堂小结
(3min)【教师】简要总结本节课的要点本节课学习了大数据的概念和主要特征,了解大数据的发展现状与趋势,了解我国的大数据发展战略,理解大数据的处理流程和关键技术。希望大家在课下多复习,巩固所学知识【学生】总结回顾知识点总结知识点,巩固学生对大数据技术相关知识的印象作业布置
(2min)【教师】布置课后作业请根据课堂知识,完成本章节课后相关习题【学生】完成课后任务通过课后作业复习巩固学到的知识教学反思本节课在教学中,采用个别学习,小组合作、作业展示等多种课堂教学组织形式,这些形式就为学生创造提供了合作交流的空间,同时教师给了学生的自主学习提供充足的时间,让他们有一个宽松、和谐的学习环境。学生才是学习的主人,教师的一个重要任务就是为学生提供学生合作交流的空间与时间,这是学生自己学习最重要的学习资源环境
课题大数据概述(二)课时2课时(90min)教学目标知识技能目标:(1)了解大数据平台架构的组成和大数据集群。(2)了解大数据的典型行业应用,以及大数据与其他新兴技术的关系。思政育人目标:感受我国在应对突发公共卫生事件时所表现出的制度优势、大国担当,以及大数据在监测分析、人员管理、医疗服务、产业复苏等方面发挥的巨大作用,厚植家国情怀,铸牢中华民族共同体意识。教学重难点教学重点:大数据平台架构的组成和大数据集群教学难点:大数据与其他新兴技术的关系教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学设计第1节课:→→传授新知(23min)→课堂讨论(15min)第2节课:→传授新知(20min)→小组活动(15min)→课堂小结(3min)→作业布置(2min)教学过程主要教学内容及步骤设计意图第一节课考勤
(2min)【教师】使用APP【学生】按照老师要求签到培养学生的组织纪律性,掌握学生的出勤情况问题导入
(5min)【教师】利用多媒体课件展示大数据的平台的界面,并和学生互动,询问学生对于大数据平台组成部分的了解大数据平台包括哪些组成部分?【学生】思考、举手回答通过问题导入的方法,引导学生主动思考,激发学生的学习兴趣传授新知
(18min)【教师】通过学生的回答引入要讲的知识,介绍大数据平台架构及各个部分的作用一、大数据的平台架构✈【教师】通过多媒体展示大数据平台架构图根据大数据从来源到应用,可以将大数据平台架构分为数据源层、数据采集层、数据存储层、数据处理层、数据分析层和数据应用层(详见教材)数据源主要是指各个行业中产生的多种多样的原始数据,如互联网用户数据、Web服务器系统日志数据、企业数据库数据等。具体来说,它包括以下几种类型。(详见教材)✈【教师】提出问题:我们已经知道了大数据平台架构,那么大数据平台架构各个部分都负责哪些功能呢?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结(1)数据源主要是指各个行业中产生的多种多样的原始数据(2)数据采集层利用一系列数据采集技术,主要实现对数据的ETL(抽取、转换和加载)操作。(3)数据存储:当大量的数据采集完成后,需要对数据进行存储。数据的存储分为持久化存储和非持久化存储。(4)大数据处理分为批处理计算、流计算、离线计算和实时计算等类型。(5)数据分析:使用R、Python等进行数据分析,也可以使用Mahout、SparkML根据算法模型、业务模型进行融合建模,挖掘有价值的信息,从而更好地为业务应用提供优质结果。(6)数据应用层是大数据技术应用的目标,通常提供查询、报表、数据可视化等功能。二、大数据集群✈【教师】提出以下问题:你知道什么是大数据集群吗?✈【学生】思考、举手回答大数据集群是由网络互相连接的多个独立服务器的集合。这些服务器由分布式并行结构组成并一起协同工作,运行共同的应用程序,从而实现高性能的计算等服务。✈【教师】提出任务阅读课本“助力科研”部分,说明在这其中大数据集群起到的作用✈【学生】聆听要求、进行操作✈【教师】提出以下问题:我们已经知道了大数据集群,那么请同学们自主阅读课本第24页了解大数据集群的优点✈【学生】思考、自主学习通常来说,大数据集群具有如下几个方面的优点。(1)高可用性(2)高可扩展性(3)高可管理性(4)高安全性(详见教材)✈【教师】利用多媒体讲解大数据集群的模式✈【学生】聆听、记录、理解大数据集群的模式主要有负载均衡模式和冗余模式两种。(1)负载均衡模式。负载均衡模式是指将集中的访问请求负载压力尽可能平均地分摊到集群中处理,即每个节点都可以承担一定的访问请求负载压力,并且可以实现访问请求在各节点之间的动态分配,以实现负载均衡。(2)冗余模式。冗余模式是指当集群中的任意一个节点失效时,该节点上的所有任务会自动转移到其他正常的节点上,并且此过程不影响整个集群的运行,不影响业务的提供。它包括全冗余备份、互为冗余备份和中央备份服务器3种形式。(详见教材)✈【教师】提出以下学习任务:阅读课本“知识库”部分,进一步了解大数据集群模式✈【学生】自主学习、理解【学生】聆听、记录、理解通过教师的讲解和演示,互动以及案例,使学生了解大数据的平台架构,大数据集群课堂讨论(15min)【教师】组织学生阅读“知识库”中的拓展知识点(详见教材),然后组织学生以小组为单位讨论以下问题:总结一下,大数据集群的两种模式即负载均衡模式和冗余模式各自有哪些优缺点?【学生】聆听、思考、小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过课堂讨论,加深学生对大数据集群模式的认识第二节课问题导入(5min)【教师】提出问题:你知道大数据主要应用于哪些行业吗?【学生】聆听、思考、举手回答通过问题导入,引导学生主动思考,激发学生的学习兴趣传授新知(20min)【教师】通过学生的回答引入新的知识,介绍大数据的行业应用一、互联网与电商行业大数据在互联网行业的典型应用,主要体现在搜索引擎、推荐系统和广告系统等方面。(1)搜索引擎。如何在海量数据中找到需要的信息,是搜索引擎的目标。通过大数据理论和技术,可进一步改进搜索引擎技术,帮助用户快速准确地检索信息。……(详见教材)✈【教师】提出以下问题:请大家举例说明大数据在互联网行业的三种应用方式✈【学生】思考、举手回答✈【教师】对学生的回答进行总结百度,抖音,快手等等APP都是利用大数据满足用户需求的电商数据直接反映用户的消费习惯,具有很高的应用价值。大数据在电商行业的应用,主要体现在精准营销、个性化服务和商品个性化推荐等方面,其典型的应用场景如下。(1)电商企业收集大量用户在电商网站或网络媒体上的注册信息、行为数据(用户在网站和移动App中的浏览/点击/发帖等行为)、交易数据、网络日志数据等。(2)对收集的数据进行分析和挖掘,得出不同用户的购买能力、行为特征、心理特征、兴趣爱好、家庭情况、喜欢的社交网络等数据。(3)根据分析结果做精准营销、精准推荐或提高用户的购物体验等。✈【教师】提出任务:阅读课本“拓展阅读”部分,结合自己的线上购物经历,对比同学之间搜索同一商品名称出现的界面,说一说大数据在电商中的典型应用✈【学生】聆听、思考、讨论、举手回答二、电信与交通行业✈【教师】展示“电信运营商”对于大数据的布局,协助讲解知识点电信运营商拥有丰富的数据资源。数据来源涉及移动通话和固定电话、无线上网、有线宽带接入等所有业务,也涵盖线上线下渠道在内的渠道经营相关信息,所服务的客户涉及个人客户、家庭客户和政企客户。……(详见教材)✈【教师】提出以下问题:我们经常用的导航软件都有哪些,原理是什么,它是如何判断交通拥堵的?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结常用的导航软件有百地图,高德地图等等,它利用大数据来规划路线以及判断交通拥堵状况。✈【教师】提出以下问题:通过导航软件的例子,大家思考一下大数据在交通行业的应用有哪些?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结使用大数据技术可以构建城市智慧交通,将车辆、行人、道路基础设施、公共服务场所都整合在智慧交通网络中,以提升资源运用的效率,优化城市管理和服务。通过对道路交通信息的实时挖掘,能有效缓解交通拥堵并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。……(详见教材)三、金融与教育行业✈【教师】展示“证券APP针对用户风险能力的调查问卷”,协助讲解知识点金融机构具有庞大的客户群体,企业级数据仓库存储了覆盖客户、账户、产品、交易等的大量结构化数据,以及海量的语音、图像、视频等非结构化数据。这些数据背后都蕴藏了诸如客户偏好、社会关系、消费习惯等丰富全面的信息资源,成为金融行业数据应用的重要基础。✈【学生】聆听、思考、理解✈【教师】提出以下问题举例说明大数据在教育行业的应用✈【学生】思考、举手回答✈【教师】对学生的回答进行总结大数据在教育行业的应用包括优化教学管理、学生管理、教学内容、教学手段、教学评价等。……(详见教材)四、健康医疗行业✈【教师】展示“健康医疗大数据应用图片”,协助讲解知识点大数据在健康医疗行业的应用,包括疾病预防、临床应用、远程医疗、医学研究、医院管理等。例如,利用大数据平台收集不同的病例、治疗方案和治疗效果,建立针对疾病特点的数据库。医生诊断病人时可以利用疾病数据库和相关工具分析病人的疾病特征、化验报告和检测报告,从而快速为病人确诊,并制定适合病人的治疗方案。……(详见教材)五、政务管理行业✈【教师】展示“智慧城市建设”相关文件和图片,协助讲解知识点在我国,政府部门掌握着全社会最大量、最核心的数据。有效地利用这些数据,可以让政府治理与决策更加精细化、科学化,可以帮助政府将与民众的沟通建立在科学的数据分析之上,优化公共服务流程,简化公共服务步骤,提升公共服务质量。……(详见教材)✈【教师】提出任务阅读课本“拓展阅读”部分,进一步了解大数据在政务管理方面的应用。✈【学生】聆听要求、进行操作六、大数据与其他新兴技术的关系✈【教师】提出问题阅读课本“大数据与其他新兴技术的关系”部分,总结大数据与其他新兴技术的关系。✈【学生】思考、举手回答✈【教师】对学生的回答进行总结近些年,以大数据、云计算、物联网和人工智能等技术为核心的新一代信息技术高速发展,在助力解决各行业现实需求、培育新业态、形成经济发展新动能方面发挥了重要作用。大数据、云计算、物联网和人工智能,代表了IT领域最新的技术发展趋势,它们彼此渗透、相互融合,既有区别又有联系。……(详见教材)【学生】聆听、记录、互动、理解通过讲授,提问,讨论等教学方式,让学生了解大数据的行业应用,大数据与其他新兴技术的关系实战演练(15min)【教师】演示使用PowerBI分析产品销售情况,并组织学生上机实操观看、理解、上机实操【教师】巡视指导,及时解决学生遇到的问题通过实战演练,使学生熟悉大数据分析软件课堂小结
(3min)【教师】简要总结本节课的要点本节课学习了大数据的架构和集群,了解大数据的行业应用,了解大数据与其他新兴技术的关系,以小组为单位进行了实战演练。希望大家在课下多复习,巩固所学知识【学生】总结回顾知识点总结知识点,巩固学生对大数据技术相关知识的印象作业布置
(2min)【教师】布置课后作业(1)使用PowerBI分析2021年下半年全国经济增长(2)请根据课堂知识,完成本章节课后相关习题。【学生】完成课后任务通过课后作业复习巩固学到的知识教学反思本节课效果不错。激发了学生的学习兴趣,引导学生个体不断探究。其中,教师主要是鼓励学生主动参与活动并获取积极的体验,主动提出解决问题的途径,教师成为学生学习的组织者、参与者、帮助者、引导者、促进者。学生主体性的展现需要自由,宽容则是自由的保障,没有宽容也就没有自由可言。而教师角色的转变是我们主动和积极营造宽容氛围的表现
课题大数据处理平台Hadoop(一)课时2课时(90min)教学目标知识技能目标:(1)了解Hadoop的概念、特性和发展历程。(2)熟悉Hadoop生态系统。(3)了解Hadoop的三种运行模式。思政育人目标:增强忧患意识、风险意识和责任意识,充分认识新形势下科技自立自强的紧迫性、必要性和重要意义,心怀“国之大者”,争做“国之大才”;脚踏实地,勇于创新,与时俱进,在实践中练就过硬本领、锤炼品德修为,立志为国家科技自立自强、加快解决“卡脖子”难题等做出贡献。教学重难点教学重点:Hadoop生态系统教学难点:Hadoop的三种运行模式教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学设计第1节课:→→传授新知(28min)→合作学习(10min)第2节课:→传授新知(20min)→课堂互动(15min)→课堂小结(3min)→作业布置(2min)教学过程主要教学内容及步骤设计意图第一节课考勤
(2min)【教师】使用APP【学生】按照老师要求签到培养学生的组织纪律性,掌握学生的出勤情况案例导入(5min)【教师】讲述“星环科技的创新与超越之路”案例,使学生充分认识新形势下科技自立自强的紧迫性、必要性和重要意义【学生】聆听、思考、充分认识新形势下科技自立自强的紧迫性、必要性和重要意义通过案例导入务,使学生充分认识新形势下科技自立自强的紧迫性、必要性和重要意义,激发学生的学习兴趣传授新知
(28min)【教师】通过学生的回答引入要讲的知识,介绍Hadoop的概念、特性,以及Hadoop生态系统一、什么是Hadoop✈【教师】通过多媒体展示Hadoop的概念,界面等相关知识Hadoop使用的开发语言是Java,主要运行于Linux平台。它是一个允许使用简单编程模型跨计算机集群分布式处理大型数据集的系统,通过它可以方便地管理分布式集群,将海量数据分布式地存储在集群中,并使用分布式并行程序来处理这些数据。(详见教材)✈【教师】提出以下问题:我们已经知道了Hadoop的概念,请同学们阅读课本自主学习HDFS和MapReduce分别是什么✈【学生】思考,举手回答✈【教师】对学生的回答进行提炼,总结HDFS(Hadoop分布式文件系统)是针对GFS的开源实现,其冗余存储的方式使得数据的安全性得到了保证。MapReduce是针对GoogleMapReduce的开源实现,它是一种海量数据集的分布式并行计算编程模型。(详见教材)✈【教师】提出以下问题:阅读课本Hadoop的特性的部分,说一说Hadoop的特性有哪些?✈【学生】思考、举手回答✈【教师】对学生的回答进行提炼,总结Hadoop是一个用于海量数据处理的分布式系统架构,允许使用简单的编程模型跨计算机集群处理大型分布式数据集。它主要有以下几个基本特性。(1)高可靠性。(2)高扩展性。(3)高效性。(4)高容错性。(5)高可用性。(6)低成本。(7)多平台运行。(8)支持多种编程语言。(9)数据本地化。(详见教材)✈【教师】提出以下学习任务:自主学习,阅读课本Hadoop的发展历程部分,按照时间线制作Hadoop的发展历程图,可选择电子版或手写制作,制作完成后,提交到APP。✈【学生】认真聆听要求,积极完成学习任务2002年,DougCutting等人创建了开源网络搜索引擎Nutch,该引擎包括了网页抓取、索引、查询等功能。2003年,Google公司发表了一篇关于分布式文件系统的GFS论文,论文名为“TheGoogleFileSystem”,该论文介绍了Google搜索引擎网页相关数据的存储架构,该架构可解决Nutch遇到的网页抓取和索引过程中产生的超大文件存储需求的问题。(详见教材)二、Hadoop生态系统✈【教师】展示Hadoop生态系统提出以下问题:通过观察图片同学们总结一下,Hadoop生态系统的组成部分有哪些?✈【学生】思考、举手回答Hadoop生态系统不断演变和完善,如今已成为一个庞大的体系。它不仅包括核心组件HDFS、MapReduce和YARN,还包括Hive、Pig、Mahout、HBase、Flume、Ambari、ZooKeeper、Sqoop、Kafka和Spark等。(详见教材)✈【教师】利用课件辅助详细讲解Hadoop生态系统各个部分(1)HDFS。HDFS是Hadoop的核心组成框架,在大数据开发中通过分布式计算对海量数据进行存储和管理。它基于流数据模式访问和处理超大文件的需求而开发,可以运行在廉价的商用服务器上。它所具有的高可靠性、高容错性、高吞吐率等特性,为海量数据提供了不怕故障的存储方法,进而为超大数据集的应用和处理带来了很多便利。(详见教材)【学生】聆听、记录、理解通过教师的讲解和演示,互动以及案例,使学生了解Hadoop的概念、特性、发展历程和生态系统合作学习(10min)教师】组织学生阅读“Hadoop生态系统”中关于生态系统各个部分的详细介绍及知识库内容(详见教材),然后组织学生以小组为单位讨论以下问题:(1)Hadoop生态系统各个部分的的作用(2)Hadoop生态系统各个部分的的地位【学生】聆听、思考、小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过课堂讨论,加深学生对Hadoop生态系统的认识第二节课复习导入(5min)【教师】展示上节课合作学习的优秀成果,简单回顾Hadoop生态系统的相关知识,我们已经知道Hadoop生态系统的相关知识,本节课继续学习Hadoop的运行模式等知识【学生】聆听、思考、回顾、理解通过复习旧知引入新知,引导学生主动思考,激发学生的学习兴趣传授新知(20min)【教师】介绍Hadoop运行模式的相关知识Hadoop的运行模式有3种,分别为单机模式、伪分布式模式和完全分布式模式。在实际应用中,通常采用完全分布式的Hadoop集群,以保证数据存储的完整性、可靠性和一致性。……(详见教材)一.单机模式✈【教师】提出以下问题:阅读课本单机模式部分内容,说一说单机模式是什么意思,及优缺点✈【学生】思考、举手回答✈【教师】对学生的回答进行总结单机模式又叫本地模式,即只在一台机器上安装Hadoop,其属于默认安装模式,无须进行其他配置就可以运行Hadoop。该模式主要用于MapReduce应用程序的调试,没有使用分布式文件系统HDFS,也不会加载进程。(详见教材)二、伪分布式模式✈【教师】提出以下学习任务:阅读课本伪分布式模式部分内容,思考什么是伪分布式模式,及它的优缺点✈【学生】自主学习、总结伪分布式模式同样是运行在一台机器上,其增加了代码调试功能,包括5个进程(NameNode、SecondaryNameNode、DataNode、ResourceManager和NodeManager),即在一台机器上模拟分布式,主要用于测试,这种模式对开发非常有用。(详见教材)三、完全分布式模式✈【教师】提出学习任务:阅读课本总结完全分布式模式的概念及优缺点和作用✈【学生】自主学习,总结完全分布式模式又叫集群模式,它由两台及两台以上的机器组成,是真正的分布式。此时,Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。其存储采用分布式文件系统HDFS。集群中的节点可以分成两大类角色:master和slave,由一个NameNode和若干DataNode组成。其中,NameNode作为主服务器,管理文件系统的命名空间和客户端对文件系统的访问;集群中的DataNode管理存储的数据。【学生】聆听、记录、操作、理解通过讲授,提问,讨论等教学方式,让学生了解Hadoop运行模式课堂互动(15min)【教师】组织学生以小组为单位讨论以下问题对比Hadoop的三种运行模式,总结他们的特点,应用,优缺点,形成表格【教师】与学生一起评价各组的讨论结果通过课堂互动,使学生熟悉搭建Hadoop的三种运行模式,为后面的学习打好基础课堂小结
(3min)【教师】简要总结本节课的要点本节课学习了Hadoop的概念和主要特征,了解了Hadoop的生态系统和运行模式。希望大家在课下多复习,巩固所学知识【学生】总结回顾知识点总结知识点,巩固学生对Hadoop相关知识的印象作业布置
(2min)【教师】布置课后作业请根据课堂知识,完成本章节课后相关习题。【学生】完成课后任务通过课后作业复习巩固学到的知识教学反思本节课在教学中,采用个别学习,小组合作、作业展示等多种课堂教学组织形式,这些形式就为学生创造提供了合作交流的空间,同时教师给了学生的自主学习提供充足的时间,让他们有一个宽松、和谐的学习环境。学生才是学习的主人,教师的一个重要任务就是为学生提供学生合作交流的空间与时间,这是学生自己学习最重要的学习资源环境。
课题大数据概述课时2课时(90min)教学目标知识技能目标:了解Hadoop的概念、特性和发展历程。熟悉Hadoop生态系统。了解Hadoop的三种运行模式。熟悉Hadoop的集群环境准备工作。能力目标:能够对集群节点进行基本环境配置。能够完成Hadoop的伪分布式安装。能够在Eclipse中搭建Hadoop开发环境。能够在Eclipse开发环境中对已有Hadoop集群进行HDFS文件管理。思政育人目标:增强忧患意识、风险意识和责任意识,充分认识新形势下科技自立自强的紧迫性、必要性和重要意义,心怀“国之大者”,争做“国之大才”。脚踏实地,勇于创新,与时俱进,在实践中练就过硬本领、锤炼品德修为,立志为国家科技自立自强、加快解决“卡脖子”难题等做出贡献。教学重难点教学重点:大数据的行业应用教学难点:大数据平台架构和集群教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学设计第1节课:→→→传授新知(18min)→课堂讨论(10min)第2节课:→传授新知(25min)→课堂互动(10min)→课堂小结(3min)→作业布置(2min)教学过程主要教学内容及步骤设计意图第一节课考勤
(2min)【教师】使用APP【学生】按照老师要求签到培养学生的组织纪律性,掌握学生的出勤情况新课预热
(10min)【教师】介绍本节课内容及学习目标,重难点【学生】聆听、互动【教师】利用多媒体课件展示大数据的平台的界面,并和学生互动,询问学生对于大数据平台组成部分的了解大数据技术是一系列技术的总称,它集合了数据采集与传输、数据存储、数据处理与分析、数据挖掘、数据可视化等技术,是一个庞大而复杂的技术体系。大数据平台架构和集群都是在此基础上实现的。【学生】聆听、记录、互动、理解通过老师自我介绍,让学生了解本节课的学习目标和学习内容问题导入(5min)【教师】提出以下问题:大数据平台包括哪些组成部分?【学生】思考、举手回答【教师】通过学生的回答引入要讲的知识通过问题导入的方法,引导学生主动思考,激发学生的学习兴趣传授新知
(18min)【教师】通过学生的回答引入要讲的知识,介绍大数据平台架构及各个部分的作用一、大数据的平台架构✈【教师】通过多媒体展示大数据平台架构图根据大数据从来源到应用,可以将大数据平台架构分为数据源层、数据采集层、数据存储层、数据处理层、数据分析层和数据应用层(详见教材)数据源主要是指各个行业中产生的多种多样的原始数据,如互联网用户数据、Web服务器系统日志数据、企业数据库数据等。具体来说,它包括以下几种类型。(详见教材)✈【教师】提出问题:我们已经知道了大数据平台架构,那么大数据平台架构各个部分都负责哪些功能呢?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结(1)数据源主要是指各个行业中产生的多种多样的原始数据(2)数据采集层利用一系列数据采集技术,主要实现对数据的ETL(抽取、转换和加载)操作。(3)数据存储:当大量的数据采集完成后,需要对数据进行存储。数据的存储分为持久化存储和非持久化存储。(4)大数据处理分为批处理计算、流计算、离线计算和实时计算等类型。(5)数据分析:使用R、Python等进行数据分析,也可以使用Mahout、SparkML根据算法模型、业务模型进行融合建模,挖掘有价值的信息,从而更好地为业务应用提供优质结果。(6)数据应用层是大数据技术应用的目标,通常提供查询、报表、数据可视化等功能。二、大数据集群✈【教师】提出以下问题:你知道什么是大数据集群吗?✈【学生】思考、举手回答大数据集群是由网络互相连接的多个独立服务器的集合。这些服务器由分布式并行结构组成并一起协同工作,运行共同的应用程序,从而实现高性能的计算等服务。✈【教师】提出任务阅读课本“助力科研”部分,说明在这其中大数据集群起到的作用✈【学生】聆听要求、进行操作✈【教师】提出以下问题:我们已经知道了大数据集群,那么请同学们自主阅读课本第24页了解大数据集群的优点✈【学生】思考、自主学习通常来说,大数据集群具有如下几个方面的优点。(1)高可用性(2)高可扩展性(3)高可管理性(4)高安全性(详见教材)✈【教师】利用多媒体讲解大数据集群的模式✈【学生】聆听、记录、理解大数据集群的模式主要有负载均衡模式和冗余模式两种。(详见教材)【学生】聆听、记录、理解通过教师的讲解和演示,互动以及案例,使学生了解大数据的平台架构,大数据集群课堂讨论(10min)【教师】组织学生阅读“知识库”中的拓展知识点(详见教材),然后组织学生以小组为单位讨论以下问题:总结大数据集群的两种模式即负载均衡模式和冗余模式各自的优缺点【学生】聆听、思考、小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过课堂讨论,加深学生对大数据集群模式的认识第二节课问题导入(5min)【教师】提出问题:你知道大数据主要应用于哪些行业吗?【学生】聆听、思考、举手回答通过问题导入,引导学生主动思考,激发学生的学习兴趣传授新知(20min)【教师】通过学生的回答引入新的知识,介绍大数据的行业应用一、互联网与电商行业大数据在互联网行业的典型应用,主要体现在搜索引擎、推荐系统和广告系统等方面。(1)搜索引擎。如何在海量数据中找到需要的信息,是搜索引擎的目标。通过大数据理论和技术,可进一步改进搜索引擎技术,帮助用户快速准确地检索信息。……(详见教材)✈【教师】提出以下问题:请大家举例说明大数据在互联网行业的三种应用方式✈【学生】思考、举手回答✈【教师】对学生的回答进行总结百度,抖音,快手等等APP都是利用大数据满足用户需求的电商数据直接反映用户的消费习惯,具有很高的应用价值。大数据在电商行业的应用,主要体现在精准营销、个性化服务和商品个性化推荐等方面,其典型的应用场景如下。(1)电商企业收集大量用户在电商网站或网络媒体上的注册信息、行为数据(用户在网站和移动App中的浏览/点击/发帖等行为)、交易数据、网络日志数据等。(2)对收集的数据进行分析和挖掘,得出不同用户的购买能力、行为特征、心理特征、兴趣爱好、家庭情况、喜欢的社交网络等数据。(3)根据分析结果做精准营销、精准推荐或提高用户的购物体验等。✈【教师】提出任务阅读课本“拓展阅读”部分,结合自己的线上购物经历,对比同学之间搜索同一商品名称出现的界面,说一说大数据在电商中的典型应用✈【学生】聆听要求、进行讨论,思考二电信与交通行业✈【教师】展示“电信运营商”对于大数据的布局,协助讲解知识点电信运营商拥有丰富的数据资源。数据来源涉及移动通话和固定电话、无线上网、有线宽带接入等所有业务,也涵盖线上线下渠道在内的渠道经营相关信息,所服务的客户涉及个人客户、家庭客户和政企客户。(详见教材)✈【教师】提出以下问题:我们经常用的导航软件都有哪些,原理是什么,它是如何判断交通拥堵的?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结常用的导航软件有百地图,高德地图等等,它利用大数据来规划路线以及判断交通拥堵状况。✈【教师】提出以下问题:通过导航软件的例子,大家思考一下大数据在交通行业的应用有哪些?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结使用大数据技术可以构建城市智慧交通,将车辆、行人、道路基础设施、公共服务场所都整合在智慧交通网络中,以提升资源运用的效率,优化城市管理和服务。通过对道路交通信息的实时挖掘,能有效缓解交通拥堵并快速响应突发状况,为城市交通的良性运转提供科学的决策依据。详见教材三、金融与教育行业✈【教师】展示“证券APP针对用户风险能力的调查问卷”,协助讲解知识点金融机构具有庞大的客户群体,企业级数据仓库存储了覆盖客户、账户、产品、交易等的大量结构化数据,以及海量的语音、图像、视频等非结构化数据。这些数据背后都蕴藏了诸如客户偏好、社会关系、消费习惯等丰富全面的信息资源,成为金融行业数据应用的重要基础。✈【学生】聆听、思考、理解✈【教师】提出以下问题举例说明大数据在教育行业的应用✈【学生】思考、举手回答✈【教师】对学生的回答进行总结大数据在教育行业的应用包括优化教学管理、学生管理、教学内容、教学手段、教学评价等。(详见教材)四。健康医疗行业✈【教师】展示“健康医疗大数据应用图片”,协助讲解知识点大数据在健康医疗行业的应用,包括疾病预防、临床应用、远程医疗、医学研究、医院管理等。例如,利用大数据平台收集不同的病例、治疗方案和治疗效果,建立针对疾病特点的数据库。医生诊断病人时可以利用疾病数据库和相关工具分析病人的疾病特征、化验报告和检测报告,从而快速为病人确诊,并制定适合病人的治疗方案。详见教材五政务管理行业✈【教师】展示“智慧城市建设”相关文件和图片,协助讲解知识点在我国,政府部门掌握着全社会最大量、最核心的数据。有效地利用这些数据,可以让政府治理与决策更加精细化、科学化,可以帮助政府将与民众的沟通建立在科学的数据分析之上,优化公共服务流程,简化公共服务步骤,提升公共服务质量。详见教材✈【教师】提出任务阅读课本“拓展阅读”部分,进一步了解大数据在政务管理方面的应用。✈【学生】聆听要求、进行操作六大数据与其他新兴技术的关系✈【教师】提出问题阅读课本“大数据与其他新兴技术的关系”部分,总结大数据与其他新兴技术的关系。✈【学生】思考、举手回答✈【教师】对学生的回答进行总结近些年,以大数据、云计算、物联网和人工智能等技术为核心的新一代信息技术高速发展,在助力解决各行业现实需求、培育新业态、形成经济发展新动能方面发挥了重要作用。大数据、云计算、物联网和人工智能,代表了IT领域最新的技术发展趋势,它们彼此渗透、相互融合,既有区别又有联系。(详见教材)【学生】聆听、记录、互动、理解通过讲授,提问,讨论等教学方式,让学生了解大数据的行业应用,大数据与其他新兴技术的关系小组活动(15min)【教师】组织学生以小组为单位完成实战演练——使用PowerBI分析产品销售情况根据课本提示完成学习任务,由组长汇报学习成果【教师】与学生一起评价各组的讨论结果通过课堂互动,使学生熟悉大数据分析软件课堂小结
(3min)【教师】简要总结本节课的要点本节课学习了大数据的架构和集群,了解大数据的行业应用,了解大数据与其他新兴技术的关系,以小组为单位进行了实战演练。希望大家在课下多复习,巩固所学知识【学生】总结回顾知识点总结知识点,巩固学生对大数据技术相关知识的印象作业布置
(2min)【教师】布置课后作业完成本章节课后相关习题。【学生】完成课后任务通过课后作业复习巩固学到的知识教学反思本节课学生接触了新的知识,学习兴趣较高。不过知识点较多,全部消化还是比较难。在教学中,教师要将学生作为教学的主体,时刻关注学生学习成绩、方法等各方面的变化,引导学生从被动学习转为自主学习和思考,从而提高学习的积极性和主动性
课题大数据处理平台Hadoop(二)课时2课时(90min)教学目标知识技能目标:(1) 熟悉Hadoop的集群环境准备工作。(2) 能够在Eclipse中搭建Hadoop开发环境。思政育人目标: 增强忧患意识、风险意识和责任意识,充分认识新形势下科技自立自强的紧迫性、必要性和重要意义,心怀“国之大者”,争做“国之大才”。教学重难点教学重点:Hadoop的集群环境准备工作教学难点:在Eclipse中搭建Hadoop开发环境教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学设计第1节课:→→传授新知(23min)→合作学习(15min)第2节课:→传授新知(20min)→实战演练(15min)→课堂小结(3min)→作业布置(2min)教学过程主要教学内容及步骤设计意图第一节课考勤
(2min)【教师】使用APP【学生】按照老师要求签到培养学生的组织纪律性,掌握学生的出勤情况问题导入(5min)【教师】提出问题:你知道什么是Hadoop集群吗?【学生】聆听、思考、举手回答通过问题导入的方法,引导学生主动思考,激发学生的学习兴趣传授新知
(28min)【教师】通过学生的回答引入要讲的知识,介绍Hadoop集群相关知识一、安装部署Hadoop集群Hadoop集群需要Linux环境的支持。为了方便教学,本书选择在Windows平台上通过虚拟机来安装Linux操作系统,而实际工作中通常会使用云平台或在物理机上搭建Linux服务器。这里,我们以Hadoop伪分布式安装为例进行介绍。✈【教师】按照课本步骤演示如何准备集群环境:首先请在VMwareWorkstation软件中创建一个虚拟机并安装好CentOS7,再使用root用户进行登录,并对虚拟机系统进行基本环境配置,包括以下操作。(1)修改主机名和设置固定IP(主机名:hadoop0;固定IP:00)。(2)关闭防火墙和新建安装目录。(3)安装和配置JDK。(4)配置主机IP映射(修改hosts文件,添加“00hadoop0”)。(5)配置SSH免密码登录本地节点(hadoop0)。(详细步骤见教材)✈【学生】根据教师演示,上机操作✈【教师】教室巡视,观察学生操作进度,并对学习有困难的学生进行一对一指导。✈【教师】提出任务以小组为单位,对比各自的操作成果,根据对比,补充和修改自己的集群环境✈【学生】聆听要求、进行操作二、安装Hadoop✈【教师】按照课本步骤演示如何安装Hadoop:准备好集群环境以后,就可以安装和配置Hadoop了,具体方法如下。(1)通过页面/dist/hadoop/core/hadoop-2.7.6/下载Hadoop安装包hadoop-2.7.6.tar.gz。(详细步骤见教材)✈【学生】根据教师演示,上机操作✈【教师】教室巡视,观察学生操作进度,并对学习有困难的学生进行一对一指导。✈【教师】提出任务以小组为单位,对比各自的操作成果,根据对比,补充和修改自己的集群环境✈【学生】聆听要求、进行操作【学生】聆听、记录、理解通过教师的讲解和演示,互动以及案例,使学生了解Hadoop的集群相关知识合作学习(15min)【教师】组织学生仔细阅读“提示”及“高手点拨”部分(详见教材),然后组织学生以小组为单位讨论以下问题:(1)修改主机名和设置固定IP的命令分别是什么,还可以用什么命令来代替(2)主机的子网掩码是什么(3)Xshell软件作用是什么(4)请同学们上机操作,完成以上三个问题【学生】聆听、思考、上机操作、小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过合作学习,加深学生对Hadoop集群环境的认识第二节课问题导入(5min)【教师】我们已经学习过如何安装部署Hadoop集群,那么想在Eclipse中搭建Hadoop开发环境,应该如何做呢?【学生】聆听、思考、举手回答通过问题导入,引导学生主动思考,激发学生的学习兴趣传授新知(20min)【教师】通过学生的回答引入新知,介绍在Eclipse中搭建Hadoop开发环境的步骤由于Hadoop开发是基于Java语言的,因此需要先安装和配置JDK,然后再在Eclipse开发工具中配置Hadoop开发环境。一、在Windows中安装和配置JDK✈【教师】按照课本步骤演示如何在Windows中安装和配置JDK:(1)下载适用于64位Windows系统平台的JDK安装文件jdk-8u211-windows-x64.exe。(2)双击运行jdk-8u211-windows-x64.exe,并根据提示完成安装。……(详见教材)✈【学生】根据教师演示,上机操作✈【教师】教室巡视,观察学生操作进度,并对学习有困难的学生进行一对一指导。二、在Windows中安装和配置Eclipse我们先在Windows中下载和启动Eclipse开发工具,然后为其安装和配置Maven插件及Hadoop插件,并在Eclipse开发环境中新建一个Hadoop集群连接,最后在搭建好的Hadoop开发环境中演示一个简单的单词统计程序。✈【教师】按照课本步骤演示如何在Windows中安装和配置JDK:1.下载和启动Eclipse开发工具(1)下载Eclipse安装包,将其解压后,双击运行其中的eclipse.exe文件,在弹出的对话框中设置好Eclipse的工作空间后,单击“Launch”按钮,即可出现Eclipse的欢迎界面。(2)单击欢迎界面右上角的“Workbench”按钮或关闭欢迎界面,将显示Eclipse的开发主界面(即工作台,它是开发程序的主要场所)。······(详见教材)2.为Eclipse安装和配置Maven插件(1)下载Maven插件apache-maven-3.6.1-bin.zip,然后将其解压到指定目录(2)参照前面介绍的方法,新建一个系统变量,变量名为“MAVEN_HOME”,变量值为“D:\Maven\apache-maven-3.6.1”。······(详见教材)3.为Eclipse安装和配置Hadoop插件(1)下载Hadoop插件hadoop-eclipse-plugin-2.6.0.jar,将其放到Eclipse安装目录下的“plugins”文件夹中,然后重新启动Eclipse。(2)将前面下载的Hadoop安装包hadoop-2.7.6.tar.gz解压到指定目录(如D:\hadoop-2.7.6),然后在“Preferences”对话框中将解压后的Hadoop文件配置到Eclipse中。······(详见教材)4.演示Hadoop自带的单词统计程序(1)在Windows系统中新建一个文本文件word.txt,其内容如下:ThatisadogThisisacat(2)在Eclipse开发主界面的“ProjectExplorer”窗口中,右击hadoop0集群下的无名称文件夹(HDFS文件系统根目录),从弹出的快捷菜单中选择“Createnewdirectory...”选项,打开“Createsubfolder”对话框,输入“input”,然后单击“OK”按钮。······(详见教材)【学生】聆听、记录、理解通过演示,一对一指导,讨论等教学方式,让学生了解在Eclipse中搭建Hadoop开发环境的步骤实战演练(15min)【教师】组织学生上机进行在Eclipse中搭建Hadoop开发环境的操作,然后以小组为单位对比实战演练的步骤和操作结果同组成员互相帮助、讨论,根据对比将自己的操作步骤补充和修改【教师】与学生一起讨论,帮助学生补充修改通过实战演练,使学生熟悉搭建Hadoop开发环境的操作,为后面的学习打好基础课堂小结
(3min)【教师】简要总结本节课的要点本节课学习了安装部署Hadoop集群,通过实践学习了在Eclipse中搭建Hadoop开发环境。希望大家在课下多复习,巩固所学知识【学生】总结回顾知识点总结知识点,巩固学生对Hadoop开发的认识相关知识的印象作业布置
(2min)【教师】布置课后作业(1)请根据所学知识,独立完成在Eclipse中搭建Hadoop开发环境的操作(2)完成本章节课后相关习题。【学生】完成课后任务通过课后作业复习巩固学到的知识教学反思这节课整体节奏较好,但学生主动提问较少。根据新课程的要求,教师由传统的知识传授者转变为学生学习的组织者;教师成为学生学习活动的引导者,而不再是主导者;教师应从“师道尊严”的架子中走出来,成为学生学习的参与者,师生合作学习,共同进步
课题数据采集与预处理(一)课时2课时(90min)教学目标知识技能目标:(1)了解数据的主要来源和常用的数据采集方法。(2)了解常用的日志采集系统和ETL工具。(3)了解分布式发布与订阅消息系统Kafka。(4)了解网络爬虫的概念、原理、分类及应用。思政育人目标:感受我国在运用大数据保障和改善民生方面的改革创新举措,如重要产品追溯体系建设、农业农村数据采集体系建设等,不断拓宽知识视野,提升专业能力和社会责任感,立志让大数据在强化民生服务、弥补民生短板上发挥更大作用。教学重难点教学重点:常用的日志采集系统和ETL工具。教学难点:使用网络爬虫工具对网络数据进行采集。教学方法案例分析法、问答法、讨论法、讲授法教学用具电脑、投影仪、多媒体课件、教材教学设计第1节课:→→传授新知(23min)→课堂讨论(10min)第2节课:→传授新知(20min)→合作学习(15min)→课堂小结(3min)→作业布置(2min)教学过程主要教学内容及步骤设计意图第一节课考勤
(2min)【教师】使用APP【学生】按照老师要求签到培养学生的组织纪律性,掌握学生的出勤情况案例导入(10min)【教师】讲述“公交驾驶员生命体征数据采集”案例,并提出以下问题:除了对公交驾驶员的生命体征进行数据采集外,你还知道哪些对社会有益的数据采集?【学生】聆听、思考、举手回答通过案例导入的方法,引导学生主动思考,激发学生的学习兴趣传授新知
(23min)【教师】通过学生的回答引入要讲的知识,介绍数据的的主要来源和常用的数据采集方式数据的主要来源✈【教师】通过多媒体展示数据的来源教学内容日常生活中方方面面的数据都是大数据的来源,可大致分为内部数据和外部数据。其中,内部数据来源于企业(或机构)的内部,由内部运作经营而产生;外部数据则来源于企业(或机构)的外部,如通过交换、购买等方式获取的数据等。(详见教材)✈【教师】提出以下问题:阅读“提示”部分,说一说生活中你知道的数据来源?✈【学生】思考、举手回答✈【教师】提炼、总结学生的回答大数据的来源极其广泛,随着物联网、互联网及移动通信网络的飞速发展,数据的格式和种类也在不断地变化和发展。具体来说,这些数据主要来自以下4个方面。(1)Web数据。Web数据的采集通常借助于网络爬虫来完成。网络爬虫是一种按照一定规则自动地抓取Web数据的程序或脚本。网络爬虫获取数据时,首先抓取互联网的网页,然后从抓取的网页中解析有用的结构化信息。也就是说,它可以将非结构化数据从网页中提取出来,存储为统一的本地数据文件,并以结构化的方式存储。网络爬虫支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。(详见教材)✈【教师】通过多媒体讲授数据源的分类根据获取的直接程度,数据源又可分为第一方数据、第二方数据和第三方数据。(1)第一方数据:指己方单位自己和消费者、用户、目标客户群交互产生的数据,具有高质量、高价值等特性,但易局限于既有顾客数据,如企业搜集的顾客交易数据、用户在App上的浏览行为数据等,拥有者可弹性地使用于分析研究、营销推广等。(详见教材)✈【学生】思考、举手回答✈【教师】提出以下学习任务:阅读“高手点拨”部分,和同学之间互相交流,说一说生活中除了书中提到的公开数据网站外,还有哪些公开数据网站?✈【学生】小组讨论、交流、分享常用的数据采集方法✈【教师】提出以下学习任务:阅读“常用的数据采集方法”部分,自主学习数据采集方法相关知识,将不懂的知识点重点标注,并提问✈【学生】阅读、学习、理解、标注、提问✈【教师】巡视、个别指导✈【教师】利用多媒体详细讲解数据采集方法:根据应用环境和采集对象的不同,可将常用的数据采集方法分为以下几种。1.网络数据采集网络数据采集是指通过网络爬虫或调用网站公开API等方式从网站上获取数据的过程。该方法可以将非结构化数据和半结构化数据从网页中提取出来,以结构化的方式统一存储为本地数据文件,支持图片、音频、视频等文件的采集,文件与正文可以自动关联。2.系统日志采集3.ETL工具采集4.分布式消息订阅分发
(详见教材)【学生】聆听、记录、理解通过教师的讲解和演示,互动以及案例,使学生了解数据的来源和数据的采集方法课堂讨论(10min)【教师】组织学生阅读“数字乡村”和“改善民生”中的案例(详见教材),然后组织学生以小组为单位讨论以下问题:从这两个案例中,你发现政务领域数据的来源是什么?数据是如何采集的?【学生】聆听、思考、小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过课堂讨论,加深学生对数据来源与数据采集的认识第二节课问题导入(5min)【教师】提出问题:互联网的数据杂乱无章,你知道如何高效收集网络数据吗?【学生】聆听、思考、举手回答通过问题导入,引导学生主动思考,激发学生的学习兴趣传授新知(20min)【教师】通过学生的回答引入新的知识,介绍网络爬虫技术什么是网络爬虫由于大数据超大规模的体量,以及众多用户的频繁操作访问,使得仅使用传统的数据采集方法难以满足业务需求,因此需要通过专门的采集方法对大数据进行采集。采集形式主要有网络数据采集(如提取网页中的图片、文本等)、系统日志采集(业务平台每天都会产生大量的日志数据)、数据库数据采集(如关系型数据库的接入)等,常用的工具有网络爬虫工具、Flume、Kafka、Sqoop等。……(详见教材)✈【教师】提出以下问题:根据网络爬虫基本原理流程图,请大家用自己的话说一说网络爬虫的工作流程呢?✈【学生】思考、举手回答✈【教师】对学生的回答进行总结(1)预先设定一个或若干初始网页的URL,将初始URL加入待爬取的URL列表。(2)从待爬取的URL列表中逐个读取URL,并将URL加入已爬取的URL列表中,然后下载网页。(3)解析已下载的网页,提取所需的数据和新的URL,并存储提取的数据。(4)将新的URL与已提取的URL列表进行比对,检查该网页是否已爬取,如果网页没有被爬取,则将新的URL放入待爬取URL列表的末尾,等待读取。(5)如此往复,直到待爬取URL列表为空或者满足设定的停止条件,最后达到遍历网页的目的。二、网络爬虫的分类和应用✈【教师】利用多媒体详细讲解网络爬虫的分类:网络爬虫按照系统结构和工作原理的不同,大致可以分为4类:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫和深层网络爬虫。(1)通用网络爬虫。通用网络爬虫又称全网爬虫,是根据网络爬虫的基本原理实现的,它所爬取的目标会从初始设定的URL扩充到全网。通用网络爬虫主要应用于门户网站、搜索引擎和大型网络服务提供商的数据采集。(详见教材)✈【教师】提出学习任务:阅读课本网络爬虫的应用部分,对应网络爬虫的分类,结合生活实际思考理解网络爬虫的应用范围✈【学生】自主学习,总结每个独立的搜索引擎都有自己的爬虫程序,爬虫程序每天连续地爬取相关网站,提取信息保存到搜索引擎中,如谷歌爬虫Googlebot、百度爬虫Baiduspider、必应爬虫Bingbot等。此外,有些搜索引擎对应不同的业务还有不同的爬虫,如百度图片爬虫Baiduspider-image、百度新闻爬虫Baiduspider-news等。搜索引擎在用户输入搜索信息后并不是直接搜索整个互联网,而是对预先建立好的索引数据库进行检索。通过讲授,提问,讨论等教学方式,让学生了解网络爬虫技术合作学习(15min)【教师】组织学生以小组为单位学习常用的网络爬虫工具及网络爬虫工具的工作流程,然后讨论以下问题:网络爬虫工具的主要功能是什么?常用网络爬虫工具的优缺点是什么?搜索软件信息,小组讨论,由小组代表上台发表讨论结果【教师】与学生一起评价各组的讨论结果通过合作学习,使学生熟悉网络爬虫工具课堂小结
(3min)【教师】简要总结本节课的要点本节课学习了数据的来源,数据采集工具,以及网络爬虫技术和常用的网络爬虫工具;希
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医师租赁合同范本
- 协议离婚阴阳合同
- 合作合同解约协议书
- 合同的土地赔偿协议
- 国内保理合同范本
- 综合复习与测试教学设计高中物理上海科教版选修2-1-沪教版2007
- 政治 (道德与法治)选择性必修3 逻辑与思维联想思维的含义与方法教学设计
- Unit 5 Lesson 29 教学设计 -冀教版八年级英语下册
- 2025年江苏扬州经济技术开发区扬子津街道办事处公益性岗位招聘真题
- 开封市祥符区集慧中学教师招聘笔试真题2025
- 2023风力发电机组延寿评估技术规范
- 2023江西出版集团招聘130人(共500题含答案解析)笔试必备资料历年高频考点试题摘选
- T-CWAN 0075-2023 焊接材料用原辅材料矿物粉采购技术条件
- 危险源辨识及隐患排查重点讲解
- 上海见证员试题
- 2023年贵阳市自然资源局事业单位招聘考试笔试题库及答案解析
- JJF 1066-2000测长机校准规范
- GB/T 4100-2015陶瓷砖
- GB/T 24922-2010隔爆型阀门电动装置技术条件
- 辉瑞辅酶Q10课件
- 2020年数学高考真题卷-新高考Ⅰ卷(山东卷)文数(含答案解析)
评论
0/150
提交评论