版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《大数据应用技术基础》教学设计课题大数据及特性课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能描述大数据及特性;2.能说出大数据对思维方式的变革;3.能说出大数据的典型应用4.能说出大数据的产业结构技能素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点大数据及特性教学难点大数据对思维方式的变革和大数据产业结构组成教学方法讲授法、讨论法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.你体验过的数据最大达到了什么程度?举例你经历中大数据对你的影响?2.试列举你所认识到的大数据有哪些特征?3.在哪些领域大数据及相关技术已经发挥促进作用?讨论思考分析目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识大数据(40分钟)1.大数据的概念讲述与板书:大数据是指数据规模大、数据类型多、变化速度快、价值密度低的一类数据集合。问题:大数据需要哪些硬件技术的发展支持?(1)硬件技术大容量存储器高性能处理器高速传输技术(2)信息技术革命数据由传统的纸质形式向电子化形式的转变互联网技术云计算、物联网和大数据为代表的新一代信息技术2.大数据的特性(1)数据量大(Volume),数据通常以PB计量太字节Terabyte(TB)1TB=1024GB拍字节Petabyte(PB)1PB=1024TB艾字节Exabyte(EB)1EB=1024PB泽字节Zettabyte(ZB)1ZB=1024EB尧字节Yottabyte(YB)1YB=1024ZB(2)类型多样(Variety),数据类型多样化,混合了结构化、半结构化和非结构化数据形式(3)处理速度快(Velocity),通常要达到秒级响应,因此大数据应用需要高速数据处理能力。(4)来源真实(Veracity),大数据来源于业务系统和感知系统,具有原生的真实性。(5)价值密度低(Value),大数据中有价值的数据不足10%,需要采用专门的技术从中提炼出有价值的信息。3.大数据生产方式(1)运营式阶段(2)用户自创式阶段(3)感知式阶段问题:列举你所知的具体数据产生方式。思考讨论勾划重点笔记笔记讨论完成活动二大数据对人类生活的影响(30分钟)1.大数据对人类的影响(1)知识生产方式的演变实验:控制研究对象,并观察其规律和运行机制理论:运用各种基础理论构建问题模型演绎结果计算:建立数学模型,运算得出结果数据:从数据中发现未知模式和有价值的信息(2)对思维方式的改变抽样分析向全面分析转变从追求分析的精确性向追求分析的效率转变从重视因果性向重视相关性转变问题:讨论三种典型数据处理方式的应用场景是什么?2.大数据产业的组成(1)IT基础设施层提供企业组织建设数据中心需要的软、硬件和服务。(2)数据源层产业链的数据提供者(3)数据存储层数据存储层由提供数据存储、管理服务的企业组成。(4)数据分析层指提供分布式计算、数据挖掘、统计分析等服务的企业或产品。(5)数据平台层提供数据分享平台、数据租售平台、数据分析平台等服务的企业或产品。6.数据应用层指运用大数据技术开展行业应用的企业或组织。问题列举大数据产业生态中各层的典型产品、应用和企业代表笔记阅读讨论笔记讨论分析阅读讨论作答展示评价(5分钟)1.大数据是。2.大数据特性有。3.大数据背景下,人的思维方式有方面的适应性变革。4.大数据产业有层组成。完成练习课堂小结(5分钟)(1)大数据及特性(2)大数据主要的计算模式及针对的应用(3)大数据产业组成个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展1.查阅资料了解大数据最新讯息。2.写一篇关于大数据应用的科普短文。《大数据应用技术基础》教学设计课题大数据技术课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出大数据应用的相关技术方向;2.能说出大数据环境下的计算模式和应用方向;3.能说出大数据与云计算和物联网的关系。技能能提供关于在不同应用要求下对大数据计算模式的选择。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点大数据技术栈构成教学难点大数据计算模式教学方法讲授法、讨论法教学环境软件环境:软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.请列举在生活经历中所体验到的数据处理技术。2.说出你所知道的大数据技术的实例。讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识大数据技术(20分钟)1.大数据技术是指大数据的采集、存储管理、处理分析与数据安全保护的相关技术,它能从巨量数据中,快速获取有价值的信息和知识。问题:请描述大数据技术中各环节的具体工作可能有哪些?有哪些要求?(1)数据采集(2)数据存储与管理(3)数据处理与分析(4)数据安全与隐私保护2.大数据计算模式(1)批处理(2)流计算(3)图计算问题:在社会各领域中,你认为三种计算模式在哪些具体的行业有需求。勾划重点讨论完成活动二认识大数据与云计算和物联网的关系(30分钟)1.云计算以虚拟化技术为基础,把数据中心的存储、算力和软件包装后,通过网络为用户提供可定义的、廉价的IT服务产品。它主要包括3种典型的服务:基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)云计算涉及的主要技术虚拟化分布式存储分布式计算2.物联网物联网是互联网的扩展,通过置入物中的各类传感器,把感知到的数据经传感网和射频网传入计算机网络,从而实现万物互联。板书物联网的传感器不间断地生产大量数据,是大数据的重要数据源。3.关系物联网是大数据的重要数据来源,云计算提供分布式处理基础平台,大数据技术处理结果反馈回物联网实现自适应控制。智慧农业、智慧交通管理。阅读笔记讨论分析笔记讨论作答展示评价(5分钟)1.大数据技术包括几个方面。2.大数据计算模式有。3.大数据、云计算和物联网有关系。完成练习课堂小结(5分钟)(1)大数据相关技术(2)大数据的计算模式(3)大数据与云计算和物联网的关系个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明三大类计算模式在社会生活中的应用。《大数据应用技术基础》教学设计课题大数据处理框架课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出大数据处理框架的组成和各组成的逻辑关系;2.能说出大数据处理平台的组成架构;3.能说出大数据处理平台各组件的功能。技能能提供关于在不同应用要求下对大数据计算模式的选择。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点大数据技术栈构成教学难点大数据计算模式教学方法讲授法、讨论法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.请描述在生活中数据处理的全流程经历哪些操作和环节?2.请列出你所知道的大数据技术相关工具。讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识大数据技术框架(30分钟)1.大数据技术框架观察说明:大数据技术框架涉及的各个层面,每一层的地位和作用是什么?2.各层面的作用(1)数据采集层数据采集层直接面向数据源,完成数据的采集、清洗和加载工作。(2)数据存储层数据存储层负责海量数据的存储。分布式文件系统和NoSQL数据库是大数据存储技术的主流,它们具有非常好的扩展性、容错性,支持多种数据模型,能保证结构化和非结构化数据的存储。(3)资源管理与服务协调层专门的资源管理协调模块来实现数据共享,提高资源利用率并降低运维成本。4.数据计算层数据计算层需要提供实时、批处理和交互数据计算引擎以满足不同应用的数据处理要求。5.数据分析层数据分析层为用户应用程序提供API、数据查询语言,方便用户分析数据。6.数据可视化层运用图形学和图像处理技术将数据转换为图形或图像,以生动直观的方式展示数据分析结果,发现数据价值。观察勾划重点讨论完成笔记活动二认识大数据处理平台的架构(30分钟)1.大数据处理平台的架构观察说出:大数据处理平台架构的组成2.大数据处理平台各组件的功能要求:满足基于数据规模大、数据类型多、数据存取速度快的基本处理需求,能支持大数据的采集、存储、处理和分析,并能满足企业应用对于可用性、可靠性、可扩展性、容错性和安全性的基本要求。问题:大数据处理平台框架各组成部分有何功能?(1)服务器及集群:算力,存储,分布式(2)虚拟技术:高效利用硬件和高效管理(3)存储框架:分布、可靠存储(4)计算框架:基本计算(5)网络通信:高速数据传输(6)访问框架:透明访问(7)协同框架:在不同应用间协调数据的访问(8)商业智能:分析、可视化应用观察讨论笔记讨论作答笔记展示评价(5分钟)1.大数据技术框架几个层面。2.大数据处理平台框架由部分组成。3.大数据处理平台框架中的服务器是指。完成练习课堂小结(5分钟)(1)大数据技术框架的组成;(2)大数据技术框架各层的任务;(3)大数据处理平台的组成架构;(4)大数据处理平台各组件的功能。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研本地大数据公司以了解其大数据平台是由哪些构件搭建的。《大数据应用技术基础》教学设计课题Hadoop大数据技术课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出Hadoop大数据技术框架的构成;2.能说出Hadoop大数据处理框架的逻辑层的作用;3.能说出各层主要组件的功能。技能能提供关于在不同应用要求下对Hadoop功能组件的选择。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点Hadoop大数据处理框架的组成教学难点各功能组件在整个系统中的角色和作用教学方法讲授法、讨论法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.请列举你听说过的大数据处理技术实现方案。2.传统数据库技术能满足大数据的存储和管理吗?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识Google大数据技术(20分钟)1.Google大数据技术框架观察描述各逻辑层的功能。2.各逻辑层功能1.数据存储层GFS是Google文件系统,它是一个具有良好容错性、扩展性和可用性的分布式文件系统,是整个大数据平台的基础。2.资源管理与服务协调层集群资源管理和调度。3.计算引擎层实现大数据的批处理计算、分布式图计算和实时计算。4.数据分析层数据查询、分析和应用接口服务。观看讨论笔记活动二认识Hadoop大数据技术(30分钟)1.Hadoop大数据技术框架观察:Hadoop大数据技术框架由如哪些逻辑功能层构成?2.各逻辑层的功能(1)数据采集层数据采集层由一些数据采集工具组成。(2)数据存储层数据存储层由分布式文件系统和分布式数据库组成。(3)资源管理与服务协调层资源管理与服务协调层由实现资源管理和服务协调的工具组成。(4)计算引擎层提供了满足多种需求的计算框架,主要有批处理、实时处理和交互式处理3种。(5)数据分析层为用户解决大数据问题提供了各种数据分析工具。3.主要组件的功能SqoopFlumeKafkaHDFSHBaseKuduYARNZookeeperMapReduceSparkStormHiveMahout观看讨论分析笔记讨论作答阅读讨论展示评价(5分钟)1.Google大数据框架由组成。2.Hadoop大数据框架由组成。3.在Hadoop中数据最终存储在中。完成练习课堂小结(5分钟)(1)Google大数据框架的逻辑功能层(2)Hadoop大数据框架的逻辑功能层(3)Hadoop大数据平台主要组件的功能个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题认识Hadoop课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出Hadoop系统生态圈的组成;2.能说出Hadoop版本的演进;3.能说出Hadoop不同发行版的特性。技能1.能选择Hadoop的部署模式;2.能准备Hadoop的部署环境;3.能执行Hadoop的部署操作。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点Hadoop技术生态圈组成教学难点Hadoop模式与部署教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.请列举你所了解到的Hadoop在大数据领域市场占有情况是如何的?2.你是否知道Hadoop是部署在什么操作系统平台上的?具有Linux系统的哪些知识和操作能力?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识Hadoop技术生态圈(20分钟)1.Hadoop技术生态圈观察框图示意:描述各组件的作用。2.组件功能HDFS:提供高可用的获取应用数据的分布式文件系统YARN:通用资源管理系统MapReduce:并行处理大数据集的编程框架Spark:基于内存计算的大数据并行计算框架Flink:面向流处理和批处理的分布式计算框架HBase:面向列的NoSQL数据库Hive:建立在Hadoop上的数据仓库基础构架Storm:一个实时、分布式、可靠的流式数据处理系统Mahout:提供可扩展的机器学习经典算法和数据挖掘库Oozie:用来管理Hadoop的调度与协调的系统Hue:与Hadoop交互的Web界面程序Ganglia:监控集群系统的性能状态ZooKeeper:用于分布式应用的高性能协调服务。Ambari:基于Web管理和监测Hadoop集群。Flume:流式日志采集系统。Sqoop:用于在关系数据库、数据仓库和Hadoop之间转移数据。Kafka:一种高吞吐量的分布式发布订阅消息系统。3.Hadoop版本(1)Hadoop1.0Hadoop1.0主要由分布式存储系统HDFS和分布式计算框架MapReduce两个系统组成的采用单主/从架构,即只有一个NameNode节点。Hadoop1.0存在单点故障、内存受限,缺乏隔离机制的缺陷,制约了集群扩展。(2)Hadoop2.0支持多个NameNode同时运行,解决了NameNode单点故障问题。增加了YARN框架,它把JobTracker资源分配和作业控制分开。进行资源管理和调度,任务管理和任务监控。(3)Hadoop3.0增加了一些性能上的优化和支持。使用ErasureCoding编码处理容错,极大地提高了存储空间的利用率具有更好的可扩展性,可以为每个群集扩展超过10000个节点。当NameNode启动失败时,它就会自动恢复,无须人工干预。4.Hadoop的发行版本(1)Cloudera公司的CDH(2)Hortonworks公司的HDP(3)MapR公司的HadoopMapRHadoop不依赖于Linux文件系统,也不依赖于HDFS。被认为是运行最快的Hadoop版本。观看讨论观察笔记观察笔记活动二部署Hadoop技术平台(30分钟)1.Hadoop的软件环境CentOS7JDK8Hadoop3.02.硬件环境至少3台高性能服务主机和千兆网络环境。一个作名称节点,另两个充当数据节点。3.安装环节(1)安装配置Linux系统(2)配置Linux环境配置CentOS网络配置用户ssh免密码登录系统安装Java环境(3)安装Hadoop(4)配置Hadoop部署模式Hadoop本地模式Hadoop本地模式没有启用HDFS分布式文件系统,直接使用本地存储,仅用于测试。Hadoop伪分布模式Hadoop伪分布模式是在单一节点上模拟分布式环境,它具有Hadoop的所有特性,可用于大数据应用开发与测试,但不能用于生产环境。修改配置文件/root/.bash_profilehdfs-site.xml:复制因子和权限core-site.xml:服务节点和端口,HDFS本地目录mapredsite.xml:依赖YARN和环境变量yarn-site.xml:配置YARN执行方式问:相关配置文件的作用?Hadoop全分布模式把第一个节点的配置复制到其它节点。修改配置文件workers设置从节点主机名。在第一节点对NameNode执行格式化hdfsnamenode–fomat在主节点启动Hadoop进入全分布模式start-all.sh观看讨论分析笔记讨论作答讨论展示评价(5分钟)1.比较Hadoop三个版本的运作特性。2.Hadoop有3个发行版本。3.Hadoop有3种部署模式,它们分别适用场景是。4.Hadoop需要软件平台的支持。完成练习课堂小结(5分钟)1.Hadoop系统生态圈的组成;2.Hadoop版本的演进;3.Hadoop的部署模式;4.Hadoop的部署环节。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题HDFS文件系统及使用课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出HDFS文件系统的组成结构;2.能描述HDFS文件系统数据存储过程;3.能说出HDFS文件系统的存储特性。技能1.能在HDFS中管理文件目录;2.能在HDFS中管理文件;3.能在HDFS和本地文件系统中传输文件。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点HDFS的组成结构教学难点HDFS的存储过程教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.请列举所知道的文件系统以及它的功能?2.请描述你使用网盘的情况,它与本地文件系统存储有哪些不同?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识HDFS文件系统的组成(20分钟)1.HDFS文件系统的组成HDFS的全称是HadoopDistributedFileSystem,是基于Java开发的分布式文件系统。可部署在廉价服务器集群中。集群:是由多个计算机节点通过网络连接,在软件的管理下构成一个协同工作的大系统。可用于存储或计算。观察框图示意:描述各组件的作用。HDFS由一个主节点(NameNode节点)和多个从节点(DataNode节点)组成。2.组件功能NameNode:负责管理HDFS分布式文件系统中的命名空间和客户对文件的访问。DataNode:负责处理客户的文件读写请求,在NameNode的统一调度下完成文件的创建、读写、删除、复制等操作,并定期向NameNode发送所存储的块列表数据。问:两种节点是什么关系?只有一个NameNode节点的HDFS系统有什么问题?笔记观看观看讨论笔记讨论活动二HDFS的工作过程(30分钟)1.文件存储策略文件分块存储,块大小128MB。文件块同时执行读写操作,提高文件的读写效率;文件块存储到不同节点上,突破单节点容量限制;同一文件块同时存储到不同的节点上,提高系统的容错性和可用性2.NameNode的作用维护两个重要的数据文件FsImage和EditLog。FsImage存储整个HDFS中的文件目录和文件的文件名、文件各块在DataNode中的地址等基础数据;EditLog记录客户对文件执行的创建、读写、删除等操作3.工作过程(1)NameNode启动时将把FsImage的内容加载到内存中,然后执行EditLog中的操作,更新FsImage,进入安全模式,只读不写;(2)创建一个新的FsImage文件和一个空的EditLog文件,所有更新操作都将写入EditLog中,而不是直接写入FsImage;(3)第二NameNode请求停止使用EditLog,SecondaryNameNode把EditLog和FsImage下载到本地,执行EditLog与FsImage的合并,此时在NameNode中的更新操作将临时记录到EditLog.new文件中;(4)新FsImage发送给NameNode,并用EditLog.new替换掉原EditLog,减小了EditLog的大。(5)存取操作继续…问:第二NameNode的作用?4.HDFS的工作特性数据冗余存储高容错性机制观看讨论分析笔记讨论作答讨论活动三使用HDFS文系统(30分钟)1.启动HDFS服务在主节点上执行start-all.sh2.目录操作hdfsdfs-mkdir/temphdfsdfs-rmdir/tmp3.文件操作hdfsdfs-cp/data/sn.txt/tmphdfsdfs–copyFromLocal./mdata/notababy.txt/tmp笔记展示评价(5分钟)1.HDFS文件系统由组成。2.描述HDFS文件系统的工作过程。3.HDFS文件系统的特征有。4.展秀在HDFS中文件目录操作。完成练习课堂小结(5分钟)1.HDFS文件系统的组成结构;2.HDFS文件系统数据存储过程;3.HDFS文件系统的存储特性;4.HDFS文件系统的基础应用。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题认识ZooKeeper服务架构课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出ZooKeeper服务功能;2.能描述ZooKeeper服务架构组成;3.能描述ZooKeeper的数据存储方式。技能1.能规划ZooKeeper服务节点和角色;2.能评价ZooKeeper数据及存储特性;素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点ZooKeeper服务架构组成教学难点ZooKeeper的数据存储类型及作用教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.试设想在Hadoop系统中部署了多种服务都需要依据实际应用环境进行配置管理是什么景象?2.你请思考在一个指挥系统怎样才能保证一致性和不间断性?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识ZooKeeper服务架构组成(20分钟)1.ZooKeeper服务架构观察框图示意:描述各组件的作用。由奇数个ZooKeeper服务节点主/从结构,Leader/Follower问:为什么节点数必须是奇数?Leader节点的作用是什么?2.节点的服务功能(1)可靠存储服务的关键数据(2)自动实现Master/Master之间的切换观看讨论笔记活动二ZooKeeper的数据存储(30分钟)1.ZooKeeper的数据存储观察存储结构图,描述其存储形式。在内存中维护了一个类似文件系统的树型数据存储结构。该树型结构上的节点znode(文件夹或目录)存储相关的数据和下一级子znode的信息。znode中的数据被客户原子性读取或写入。2.ZooKeeper的数据节点类型及作用持久znode临时znode持久顺序znode临时顺序znode观看讨论分析笔记讨论作答讨论展示评价(5分钟)1.ZooKeeper服务体系架构由组成。2.ZooKeeper的数据存储采用方式。3.ZooKeeper的数据有四种形式,它们的特点分别是。完成练习课堂小结(5分钟)1.ZooKeeper服务功能;2.ZooKeeper服务架构组成;3.ZooKeeper的数据存储方式;4.ZooKeeper的数据节点类型。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题认识ZooKeeper工作机制课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能描述ZooKeeper的Watcher机制;2.能描述ZooKeeper的分布式锁机制;3.能描述ZooKeeper的Leader选择机制。技能1.能评价ZooKeeper三种机制实现的管理特性;2.能从故障现象确定机制运作问题。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点ZooKeeper的工作机制教学难点ZooKeeper的工作机制运行过程教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.人工管理方式下,在主控服务发生故障时,是如何切换主控服务的?2.在结构化SQL数据库操作中,为保证数据一致性,会采用锁机制,在分布式环境中又该如何实现呢?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识Watcher机制(20分钟)1.Watcher机制观察框图示意:描述机制的运作过程。问:Watcher是什么?Wathcer机制实现了哪些功能?2.运作过程(1)client向ZooKeeper服务器注册Watcher,也即在znode中登记Wather相关信息(如地址),同时登记在本地管理器中;(2)ZooKeeper通知客户,客户端则从Watcher管理器中取出相应的Watcher执行;观看讨论笔记活动二认识分布式锁机制(30分钟)1.分布式锁机制问:为什么需要锁机制获得数据锁的客户可以访问数据。分布式锁可以在分布环境中保证数据一致性。2.实现过程(1)客户连接到ZooKeeper服务器,并在相应数据的锁节点下创建一个临时顺序节点;(2)然后查询该并判断自己创建的节点是否是该锁节点下序号最小的节点,如果是,则获得锁,否则监听排在自己前一位的子节点的删除事件;若所监听的子节点被删除,则获得数据锁;(3)执行数据访问业务代码,然后删除自创节点,释放锁。思考讨论画流程图活动三认识Leader选择机制(10分钟)1.Leader问:什么是Leader?Leader是master/slave模式服务群集中的主控服务器,是集群中为客户实际提供服务。2.选择Leader(1)一组参与Leader竞争的服务器同时在ZooKeeper创建指定的znode,谁先创建成功谁就成为Leader;(2)其它服务器向该znode注册Watcher(3)当前Leader失效时,则重新发起Leader竞选。思考解说展示评价(5分钟)Watcher机制的功能有。分布式锁的作用是。3.Leader机制的作用是。完成练习课堂小结(5分钟)1.ZooKeeper的Watcher机制;2.ZooKeeper的分布式锁机制;3.ZooKeeper的Leader选择机制。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题认识YARN服务组成架构课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出YARN服务提供的功能;2.能说出YARN服务的特性;3.能说出YARN服务的组成架构。技能1.能评价YARN服务的性能因素;2.能判断YARN服务故障点。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点YARN服务组成架构教学难点YARN服务各组件功能教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.想一想如果操作系统没有文件系统服务,我们如何存储与访问数据?2.大数据应用程序直接访问底层和通过一个中间服务层访问数据它有各有什么特点?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识YARN服务组成架构(20分钟)1.YARN服务组成架构观察框图示意:描述各组件的作用。问:YARN服务的主要功能是什么?它有哪些主要组件?ResourceManager、NodeManager、Container、ApplicationMaster和Task。2.YARN服务的主要功能提供Hadoop环境中的资源管理和调度服务。并能计算框架如Spark、Flink等提供资源的统一管理与调度服务。3.服务特性提高了系统中资源的利用率,提升的灵活性和扩展性。观看讨论笔记活动二认识YARN服务组件的功能(30分钟)1.ResourceManager是YARN服务集群中的主节点,负责各NodeManager节点资源的统一管理和调度。可部署多个ResourceManager节点,在ZooKeeper的协调下选择leader节点实际实施资源管理与调度。2.NodeManager系统中每个节点上的资源和任务管理器。它将定时向活动ResourceManager报告本节点资源使用情况和各Container的运行状态,并接收和处理来自ApplicationMaster的Container启动/停止等请求。NodeManager不监控任务的执行,只监视Container的资源使用情况。3.Container是ResourceManager分配资源的基本单位。一个NodeManager可管理着多个Container,它们相互隔离。4.ApplicationMasterHadoop上的应用程序都有一个ApplicationMaster(应用程序主管),负责应用程序的管理。负责重启失败的Task。5.Task是应用程序分解而成的可具体执行任务。笔记展示评价(5分钟)1.YARN的功能是。2.YARN的服务节点有两种。3.YARN的服务的特性有。完成练习课堂小结(5分钟)1.能说出YARN服务提供的功能;2.能说出YARN服务的特性;3.能说出YARN服务的组成架构。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题认识YARN服务的工作流程课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出应用程序申请资源的过程;2.能说出YARN服务分配资源的过程;3.能说出管理任务的过程。技能1.能找出申请资源失败的原因;2.能评价一个YARN服务的服务质量。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点YARN服务的工作过程教学难点一个应用程序运行的全过程管理教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.思考在SQL数据库管理系统中,我们查询一个数据表时,DBMS做了什么?2.在Windows系统中,一个程序执行无响应时,有哪些处理方法?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识YARN服务工作流程(20分钟)1.YARN服务工作流程观察框图示意:描述工作流程的环节。问:对照图描述一个应用是如何在Hadoop集群中运行起来的。2.Hadoop应用程序的启动(1)用户使用客户端程序向资源管理器提交应用程序;(2)资源管理器为应用程序主管分配资源容器;(3)应用程序主管向资源管理器申请应用程序的运行的容器资源;(4)节点管理器启动容器中的应用程序任务。观看讨论思考笔记活动二认识YARN服务监控流程(30分钟)1.ResourceManager资源管理器由应用程序管理器和资源调度器组成。应用程序管理器与应用主管通信来监视应用程序的运行状态。资源调度器与节点管理器通信来实时监测节点资源的使用情况。资源管理器管理应用的整个生命周期。用户可通过资源管理器了解应用程序当前的运行进度和状态。2.NodeManager节点管理器按资源管理器的分派为应用任务运行准备容器资源并启动任务运行。监视本节点上各容器运行状态和节点资源使用情况,定时报告给资源管理器。根据应用主管的要求启动或停止任务。笔记展示评价(5分钟)1.一个应用运行需要经个关键步骤。2.资源管理器是通过正确有效分配资源。3.节点管理器根据的命令来启停任务。完成练习课堂小结(5分钟)1.能说出应用程序申请资源的过程;2.能说出YARN服务分配资源的过程;3.能说出管理任务的过程。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题NoSQL数据库课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出SQL数据库中数据的特点;2.能区别SQL和NoSQL数据库的特性;3.能描述典型NoSQL数据库的数据存储方式。技能1.能图示NoSQL数据库的数据存储方式;2.能评价NoSQL数据库的数据存储方式;3.能确定不同型NoSQL数据库的应用领域。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点NoSQL数据库的典型数据存储方式教学难点文档存储与图存储的特性与应用教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.依据关系型数据库的经验,在传统行业生产或活动产生的数据有哪些特点?2.观察并讨论在互联网上购物、社交平台上产生的数据又会有哪些不一样的特性?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识NoSQL数据库(20分钟)1.关系型数据库中数据的特性观察框图示意:说出关系中数据的特点。数据结构严谨预先明确定义,所有数据记录的数据很整齐而密集。数据来组织的实际业务活动,具有很高的数据价值。SQL数据库是传统生产、商业等领域中许多业务问题合适的解决方案。2.NoSQL数据特性互联催生Web应用产生的数据:类型异、数量大、不整齐。要求分布式存储和并行处理。问:你能列出多少所知的数据形态?传统SQL数据库失去了优劣,促使管理此类数据的管理系统出现,这就是NoSQL数据库。问:SQL数据库技术要被淘汰吗?SQL语言在数据操纵和管理的优势推广到NoSQL数据库管理中,SQL和NoSQL共同构建现代信息管理系统。观看讨论笔记讨论思考交流讨论活动二认识NoSQL典型数据存储模式(30分钟)1.键值存储键—值对是由一个简单字符串(键)和与之绑定的数据(值)组成。键值存储不用为值指定一个特定的数据类型,可以存储任意类型的数据,值统一以BLOB(二进制字节数组)进行存储。键值存储是单纯的存储引擎,键和值都是字节数组,只负责存取而不关心其的含义。键值存储没有确定的结构,所以不能建索引和进行搜索。问:键值存储系统中的数据语义由谁来处理?产品:Redis2.列簇存储列簇存储通过把若干相关的列组合到一个列簇中,并以列簇为数据读写的基本单位进行集中存储。列簇存储的逻辑结构被设计成一张庞大的数据表,可以容纳数十亿行和数百万列。问:(1)列簇存储数据表与传统的关系表有何不同点?(2)如何在列簇存储数据表中定位数据值?列簇存储实际是一种键值存储系统。与关系表不同的是,它是一个稀疏表。列簇存储所有数据存储在一个大表中,没有了SQL数据库中的表连接操作。列簇存储数据可以按列簇为单位分布存储到不同的计算节点上,查询处理可在不同节点并行执行。列簇存储数据具有良好的可扩展性和高可用性。产品:HBase3.文档存储文档存储的基本单位是文档,它是键—值对的有序集。文档的键和值没有固定的类型和大小,不需要关系数据库预定义的数据模式。一组文档组成集合,集合可视为关系数据库中的表。文档存储也具有良好的可扩展性和高可用性。产品:MongoDB4.图存储图存储是包含一系列对象节点及其关系的数据集,它描绘了一组对象的关系图。节点、关系及其属性组成的一个三元组。问:节点、关系、属性分别是什么?图存储能高效支持分析对象之间的复杂关系。产品:Neo4j笔记讨论笔记讨论作答笔记观看讨论展示评价(5分钟)1.比较SQL数据库与NoSQL数据的存储模式。2.NoSQL有典型的存储模式。3.SQL数据库会不会被淘汰?完成练习课堂小结(5分钟)1.能说出SQL数据库中数据的特点;2.能区别SQL和NoSQL数据库的特性;3.能描述典型NoSQL数据库的数据存储方式。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题认识Hbase数据模型课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说明HBase的数据模型的组成结构;2.能描述HBase的数据表结构;3.能描述HBase的物理存储模式。技能1.能评价HBase的数据表的特性;2.能设计HBase的数据表的结构;素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点HBase的逻辑数据模式教学难点HBase数据模式的设计教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.回想在关系数据库中数据模型所发挥的作用?2.讨论数据模式设计的优劣对后续数据管理和使用有何影响?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识HBase逻辑数据模型(30分钟)1.HBase逻辑数据模型观察框图示意:描述逻辑数据模型的组成。数据以表的形式来组织的,与SQL数据库不同的是表中的数据不是按行存储,而是按列簇存储的。HBase的第一级列(列簇)可以分为数量不限的次级列(列限定符)组成,行与列相交共同限定存储值的单元格。2.HBase数据表结构(1)行数据表的行由行键和若干列组成。行键类似SQL数据表中的主键,在表中是唯一。(2)列簇列簇是对列的分组,由一个或若干个列组成。(3)列限定符列限定符其实就是列簇包含列的列名(字段名),用来限定列簇中的数据,一般格式为“列簇:列名”。4)单元格单元格是数据表中行和列共同定位的数据值。单元格的数据包含值和时间戳。数据示例:("11096","base_info","phno","t5","02389674539")HBase是一个稀疏、分布、持久、多维、排序的Map。观看笔记笔记活动二HBase的物理存储模式(30分钟)1.HBase的物理存储观察存储结构图,描述其物理存储形式。数据是按列簇存储,同列簇的数据存储在一起。问:按列簇存储的方式有什么优点?2.HBase的物理存储优势HBase的每个行都是离散的,分别存储到不同的列簇中,不同的列簇可以分散存储到集群的不同节点上。支持并行处理,可有效提高应用程序性能。使用命名空间来对表进行逻辑分组,命名空间的作用类似于关系数据库中的database,可对不同的用户实现数据隔离。观看讨论分析讨论展示评价(5分钟)1.HBase的数据结构是。2.HBase数据表中定位一个数据使用的键由要素组成。3.HBase数据的物理存储模式优点有。完成练习课堂小结(5分钟)1.能说明HBase的数据模型的组成结构;2.能描述HBase的数据表结构;3.能描述HBase的物理存储模式。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题使用Hbase数据库课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出HBase数据库服务架构组成;2.能描述HBase数据库服务组件的功能;3.能描述HBase数据存取的流程。技能1.能使用HBase的系统工具创建数据库和数据表;2.能访问HBase数据表的数据;素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点HBase数据库服务组件的功能教学难点管理与使用HBase数据库教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.试回忆MySQL数据库服务模式,用户是通过什么方式去使用数据服务?2.在MySQL数据库有哪些措施可以确保数据的完整性?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识HBase服务架构组成(20分钟)1.HBase服务架构观察框图示意:描述各组件的作用。HBase服务采用主/从架构,由一个主节点HMaster和多个从节点HRegionServer组成。2.服务组件的功能(1)HMasterHMaster是HBase体系架构中的主节点。管理HRegionServer节点,监控其工作状态;管理并维护HBase的命令空间和表的元数据;响应客户请求,为客户提供数据表的操作接口管理客户对HBase的访问权限。(2)HRegionServerHRegionServer节点具体执行数据的读写操作的组件。可以管理1000个HRegion。问:用户执行数据查询、插入、更新、删除等所有操作,是否经HMaster转发?(3)HRegionHBase使用行键自动把数据表水平切割成若干HRegion,每个HRegion由表中的多行数据组成,HRegion的默认大小是1GB。(4)Store一个HRegion可包含一个或多个Store,一个Store可存储表的一个列簇的数据。Store中包含一个MemStore和若干个HFile数据文件(5)WALWAL是用来生成日志的算法,对应的日志文件是HLog。用于数据操作的回滚。(6)BlockCacheBlockCache是数据读缓冲区,用于提高读取数据的效率。观看讨论笔记讨论笔记活动二使用HBase数据服务(30分钟)1.启动并连接到HBase命令行:hbaseshell演示操作:2.创建数据表以字符串形式提供表名和列簇名。create′emp_tbl′,′base_info′,′etc_info问:说出命令中表名和列簇名。3.显示HBase中的表list4.显示数据表的结构信息describe′emp_tbl′5.输入数据put′emp_tbl′,′62301′,′base_info:name′,′Nicola′问:输入数据时如何指定列名?列名可以按需增加吗?同一行的每个列必须填充数据吗?6.显示数据scan′emp_tbl观看讨论分析交流笔记讨论作答展示评价(5分钟)1.hbase服务体系架构采用模式,主节点是的主要作用是,从节点的作用是。2.hbase数据库在底层使用来存储数据。3.hbase提供了操作数据表的命令。完成练习课堂小结(5分钟)1.能说出HBase数据库服务架构组成;2.能描述HBase数据库服务组件的功能;3.能描述HBase数据存取的流程。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题Hive的体系架构课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出Hive服务的功能;2.能描述Hive服务架构组成;3.能描述Hive服务各组件的作用。技能1.能判定Hive服务的业务应用场景;2.能评价Hive服务在数据分析中的优势;3.能使用Hive开展数据处理素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点Hive服务架构组成教学难点Hive服务的数据处理教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.通过咨询分享在Hadoop平台中如何分析处理其中的数据的?2.能不能像在关系型数据中那样的方式来处理NoSQL数据中的数据?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识Hive服务架构(20分钟)1.Hive的体系架构Hive是一个数据分析引擎,它让用户可以使用类SQL命令来分析HDFS系统中存储的数据。观察框图示意:描述各组件的作用。Hive提供HQL查询语言,用户以类SQL语言操纵分析数据,用户提交的HQL命令转换为MapReduce任务。2.服务组件功能(1)Hive的用户接口命令行用户接口Beeline命令行用户接口、JDBC/ODBCAPI接口Web用户接口。(2)HiveServer2为远程客户端提供执行Hive查询的服务组件,支持多个客户端并发请求。(3)HiveDriver它是一个语言编译器,其将HQL语言写成的数据分析与处理的命令转换成MapReduce任务。(4)MetaStoreServer是元数据存储服务组件。由关系型数据库服务充当。观看讨论笔记笔记活动二Hive服务的数据处理(30分钟)1.Hive支持的数据类型(1)基本数据类型整型:tinyint,smallint,int,bigint浮点型:float,double定点型:decimal(m,p),numeric(m,p)字符型:char,varchar,string日期时间型:date,timestamp二进制型:binary布尔型:boolean问:试比较其与MySQL的数据类型(2)复合数据类型数组:arraybase_colorsarray<'red','green','blue'>base_colors[0]映射:mapbooksmap<'string','double'>booksmap<'Hive','59.7'>结构:structmphstruct<brand:string,type:string,price:decimal(7,2)>mph<'vivo','note2',2176.99>mph.price2.Hive的数据运算 算术:+-*/%div&|~关系:<><=>==isnullisnotnulllikein逻辑:notandor3.Hive的系统函数的数来可以提高数据分析的效率,内置函数分为数值类型函数、日期类型函数、字符串类型函数、集合函数、条件函数数值类型函数:rand()日期类型函数:current_date()字符串类型函数:length()条件函数:if()杂项函数:cast()hash()问:为每运算符和函数设计一个数据运算式,并上机验证。观看讨论分析笔记讨论作答讨论笔记实训展示评价(5分钟)1.Hive服务体系架构由组成。2.Hive使用来分析处理数据。3.比较Hive与MySQL的数据处理方式有何不同?完成练习课堂小结(5分钟)1.Hive服务的功能;2.Hive服务架构组成;3.Hive服务各组件的作用;4.Hive服务的数据类型与运算。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题Hive的数据模型课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出Hive数据模型及作用;2.能比较Hive数据模型与SQL数据模型;3.能描述Hive数据表的用途;4.能描述Hive的数据文件技能1.能选择需要的Hive数据表类型;2.能说明Hive数据文件的优劣。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点Hive数据模型教学难点Hive数据文件特性教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.交流介绍数据模型在数据管理及应用中的地位和作用?2.请你思考数据和数据模型的关系?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识Hive的数据模型(20分钟)1.Hive的数据模型Hive的数据模型相当于SQL数据库的逻辑数据模型用于描述Hive表的结构。Hive表也是由逻辑行、列组成的,但与数据是分享的,数据存储在HDFS文件系统中。2.Hive的数据表(1)内部表由Hive管理的表,也称为管理表。内部表与数据紧密相关。对应HDFS系统中的一个目录。内部表一般用于处理仅需临时存储的数据。(2)外部表外部表的数据不由Hive管理,它们可以存储在HDFS中的任何目录中。当删除外部表时,只是删除了外部表的定义,而不会把数据从HDFS系统中删除。类似SQL数据库中的外模式。(3)分区表在Hive中可以根据某一列(字段)的值将表分成若干子表(对应目录),这样的子表就是分区表。静态分区表和动态分区表。分区表可提高查询效率。(4)桶表桶是一种特殊的分区(对应数据文件),表或分区中的数据在Hash函数控制下进一步分成桶。问:比较分区与桶表。(5)视图视图又称为虚表,在视图中查询的数据要从相关的基数据表中来。视图可以跨多个表建立。视图的主要用途是简化复杂查询任务。笔记讨论笔记讨论活动二Hive数据文件(30分钟)问:为什么要采用多种组织结构的数据文件?1.行式存储文件(1)文本文件Hive数据表的默认格式,采用行存方式。不支持块压缩,读性能低。问:什么是序列化和反序列化?(2)序列化文件序列化文件用来存储二进制形式键-值对而设计的一种平面文件。(3)Avro文件是Hadoop平台上基于行存储格式的数据文件,被广泛用作序列化。采用JSON描述数据,具有语言中立性。支持二进制序列化、文件分割、块压缩,可以便捷、高效地处理大量数据。2.列式存储文件(1)ORC文件ORC文件提供了一种高效的数据存储方式,它把数据按行分块,每块按照列存储。具有行存储和列存储的优势,可压缩。(2)Parquet文件面向分析型业务的列式存储格式。以二进制方式存储,文件中包括数据和元数据。问:怎样选择Hive使用的数据文件格式?Hive表的数据存储格式一般选择ORC或Parquet,而对数据模式变动频繁的应用建议选用Avro。Hive的默认数据文件格式为文本文件讨论分析笔记讨论交流笔记讨论作答讨论展示评价(5分钟)1.Hive表格式有。2.Hive数据文件格式有。3.Hive默认数据文件是格式,从数据分析效能来看应选择格式的数据文件。完成练习课堂小结(5分钟)1.Hive数据模型及作用;2.Hive数据表的用途;3.Hive的数据文件。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题Sqoop服务框架与迁移工具课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能描述Sqoop服务架构组成;2.能说出Sqoop服务工具及作用技能1.能判别Sqoop服务的应用场景;2.能为应用选择恰当的Sqoop数据迁移工具。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点Sqoop服务架构组成教学难点ZooKeeper的数据型及作迁移工具及作用教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.结构化SQL数据库存储有巨量的业务数据,由于SQL数据本身性能瓶颈不利于进行数据分析,可有什么好的解决方法?2.数据分析生成的高价值数据体量?变得很小还适宜存储到大数据平台吗?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一认识Sqoop服务架构组成(20分钟)1.Sqoop服务架构观察框图示意:描述各组件的作用。数据从SQL数据库迁移到Hadoop,经过分析处理后存入Hive表中的数据,又通过Sqoop然后导出到SQL数据库以便使用。问:Task转换器的作用是什么?数据可以哪些平台之间转换?数据导入和数据导出分别指的是什么之间的数据迁移?2.数据迁移过程(1)客户使用Sqoop的工具发出的命令(2)Task转换器翻译成相应的MapReduce程序(3)在YARN上执行相应MapReduce任务实现在SQL数据库与Hadoop系统之间传输数据。观看讨论笔记活动二Sqoop服务数据迁移工具(30分钟)1.数据导入数据导入是指从SQL数据表中把数据迁移到HDFS系统的操作。sqoopimport<导入参数>(1)指定目标数据文件格式--as-textfile:文本文件(默认)--as-avrodatafile:Avro数据文件--as-sequencefile:sequence文件(2)指定SQL数据表--table<表名>:数据的源表名(3)指定查询语句--query<SQL命令>:SQL查询语句(3)指定查询条件--where<条件表达式>:查询条件一个SQL数据表对应多个HDFS数据文件。2.数据导出数据导出是指将数据从HDFS系统迁移到SQL数据表的过程。sqoopexport<导入参数>(1)指定导出文件的HDFS目录路径--export-dir<路径>:HDFS源路径(2)设定目的表名--table<表名>:表名(3)设置并行执行的MAP任务数--num-mappers<n>:Map任务数(4)设置数据插入时的更新方式--update-mode<方式>:当有不匹配行时,updateonly(仅更新),allowinsert(允许插入)观看讨论分析笔记讨论作答讨论展示评价(5分钟)1.Sqoop服务的核心是。2.Sqoop数据导入过程是。3.Sqoop数据导出过程是。完成练习课堂小结(5分钟)1.Sqoop服务架构组成;2.Sqoop服务工具及作用;3.Sqoop服务数据导入过程;4.Sqoop服务数据导出过程。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题在SQL数据库与HDFS间迁移数据课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能说出Sqoop迁移数据的基本操作流程;2.能描述数据导入生成的数据文件与记录的关系;3.能描述数据导出时的合并规则。技能1.能实施数据导入操作;2.能实施数据导出操作。素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点数据的导入与导出操作教学难点为数据导入导出使用恰当的参数教学方法讲授法、讨论法、演示法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.交流在MySQL数据库中导出数据表进行的操作经验。其中可进行哪些控制操作?2.为什么需要在不同平台之间迁移数据?请列举你所知道的原因?讨论交流目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一导入数据(30分钟)1.连接到MySQL服务器并显示其中的数据库sqooplist-databases--connetcjdbc:mysql:/bds001:3306>--usernameroot-P连接通过MySQL数据库的JDBC驱动程序2.导入数据把数据表bk_base_info中的数据导入到HDFS的/sqoop/data目录中。sqoopimport\>"-Dorg.apache.sqoop.splitter.allow_text_splitter=true"\>--connetcjdbc:mysql:/bds001:3306\>--usernameroot-P\>--tablebk_base_info\>--target-dir/sqoop/data问:命令中各参数担当的任务是什么?3.查看导入生成的数据文件数据文件保存在/sqoop/data目录中。hdfsdfs-ls/sqoop/data4.查看数据文件中的数据hdfsdfs-cat/sqoop/data/part-m-00001问:你在数据文件中看见了什么?这说明了什么?SQL表中的一条记录生成一个HDFS的文件。笔记讨论讨论交流活动二导出数据(30分钟)1.新建MySQL数据表在MySQL服务器上新建一个空数据表bk_info,其与bk_base_info有相同的结构。createtablebk_info(ISBNchar(13)notnull,…);演示操作新建数据表。2.执行数据导出sqoopexport\>--connetcjdbc:mysql:/bds001:3306\>--usernameroot-P\>--tablebk_info\>--export-dir/sqoop/data/part-m-00001其间要求输入MySQL登录账号的密码。3.查看导出结果登录MySQL,执行:select*frombk_infoSqoop在执行数据迁移时,将转换成Map任务来执行数据的导入和导出操作。观看笔记展示评价(5分钟)1.执行导入导出时都要SQL数据库。2.导入时一个表生成个数据文件。3.使用命令可以获得sqoop工具的帮助。完成练习课堂小结(5分钟)1.Sqoop迁移数据的基本操作流程;2.数据导入生成的数据文件与记录的关系;3.数据导入与导出。个别与集体结合回顾学习的内容课后作业教师备课时填写或课后自行针对性命题知识技能拓展调研说明Hadoop技术在大数据领域中的应用情况。《大数据应用技术基础》教学设计课题选择大数据处理方法课型理论班级教师课时2教学分析教材分析教师备课时填写学情分析教师备课时填写教学目标知识1.能描述大数据处理数据的流程;2.能说出大数据处理数据的几种方式;3.能说出大数据的几种离线处理工具及其特点;4.能说出大数据的几种在线处理工具及特点。技能能根据数据的具体情况选择具体的数据处理方式素养1.培养关注行业前沿技术发展的意识;2.培养大数据应用意识。教学重点大数据离线及在线处理工具及特点教学难点能根据数据的具体情况选择具体的数据处理方式教学方法讲授法、讨论法教学环境软件环境:CentOS7操作系统硬件环境:多媒体教室或软件实训室,计算机教学资源:PPT、微课视频教学反思教师课后填写教学过程教学环节教师活动学生活动新课导入(5分钟)1.你能列举出生活中使用大数据的案例吗?2.你知道大数据分析有哪两种分析方式吗?3.你知道有哪些工具可能对大数据进行离线处理吗?你知道有哪些工具可能对大数据进行离线处理吗?5.你知道对大数据处理有哪些流程吗?讨论思考分析目标展示(5分钟)PPT展示本课题要完成的目标并适当解说观看了解新课教学(60分钟)活动一大数据处理流程(30分钟)一、大数据处理流程1.列举生活中的大数据处理案例问题1:请列举生活中的大数据处理案例?这些案例带来了哪些便捷?问题2:处理的数据从何而来?你有过处理大量数据的经历吗?问题3:你处理大数据时用到了哪些工具呢?问题4:你处理大数据时,从获取数据到得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年残疾人辅助器具适配服务规范考核题
- 2026年新员工实验室安全考试题库
- 2026年林业局油茶产业岗面试木本油料题
- 2026年农村独居老人家庭防火宣传常识测试
- 2026年工业节能监察办法知识试题
- 2026年经济学原理及经济政策分析题
- 2026年新闻值班室岗位面试题库
- 2026年社会调查方法与社会问题研究题集
- 2025福建同安区财政国资直属党委资产管理有限公司招聘1人笔试历年参考题库附带答案详解
- 2025甘肃兰州顺丰速运有限公司招聘40人笔试历年参考题库附带答案详解
- APQC跨行业流程分类框架 (8.0 版)( 中文版-2026年4月)
- 2026年记者招聘无领导小组讨论题目
- 高考英语阅读理解真题专项突破训练试题含参考答案5篇
- 2026春季四川成都环境投资集团有限公司下属成都市兴蓉环境股份有限公司校园招聘47人笔试备考题库及答案解析
- 药品耗材采购审批制度
- 22.1 函数 课件(内嵌视频) 2025-2026学年人教版数学八年级下册
- 2025年中南大学湘雅三医院国家妇产区域医疗中心(建设)生殖医学中心胚胎实验室技术员招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解
- GB/T 18570.9-2025涂覆涂料前钢材表面处理表面清洁度的评定试验第9部分:水溶性盐的现场电导率测定法
- 深度解析(2026)《NBT 10790-2021水处理设备技术条件》
- (2026)药房药店医保自查自纠整改报告(2篇)
- 云南民族大学附属高级中学2026届高三联考卷(四)化学+答案
评论
0/150
提交评论