版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Hadoop大数据开发基础(第3版)(微课版)》教学大纲课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分课程的性质随着时代的发展,大数据已经成为一个耳熟能详的词汇。与此同时,针对大数据处理的新技术也在不断的开发和运用中,逐渐成为数据处理挖掘行业广泛使用的主流技术之一。Hadoop分布式集群系统架构,具有高可用性、高容错性和高扩展性等优点,由于它提供了一个开放式的平台,用户可以在不了解底层实现细节的情形下,开发适合自身应用的分布式程序。经过多年的发展,目前Hadoop生态系统已经成长为一个全栈式的大数据技术生态圈,包括了Hive、HBase、Spark等一系列组件,成为应用最广泛、最具有代表性的大数据技术之一。因此,学习Hadoop相关技术是从事大数据行业工作所必不可少的一步。为了满足企业的大数据人才需求,帮助学者掌握相关技术知识解决实际的业务需求,特开设Hadoop大数据开发基础课程。课程的任务通过本课程的学习,使学生掌握Hadoop、Hive和HBase集群的安装配置,能够根据具体需求编写MapReduce程序解决实际业务问题,使用Hive、HBase进行数据存储、查询与分析,同时在各项目章节的学习过程中详细拆解并学习电影网站用户影评分析案例,将理论与实践相结合,为将来从事数据分析挖掘研究、工作奠定基础。课程学时分配序号教学内容理论学时实验学时其它1项目1分析电影网站用户影评需求及环境搭建462项目2存储电影网站用户影评分析数据333项目3统计电影网站用户影评数据554项目4多维度分析电影网站用户影评695项目5基于Hive实现电影网站用户影评分析566项目6基于HBase实现存储电影网站用户影评分析结果57总计2836教学内容及学时安排理论教学序号章节名称主要内容教学目标学时1分析电影网站用户影评需求及环境搭建什么是Hadoop了解Hadoop的特点了解Hadoop核心组件了解Hadoop生态系统了解Hadoop应用场景创建Linux虚拟机设置固定IP地址远程连接虚拟机配置本地YUM源及安装常用软件在Linux下安装Java修改配置文件克隆虚拟机配置SSH免密码登录配置时间同步服务启动和关闭Hadoop集群监控Hadoop集群了解电影网站用户影评数据字段分析影评统计需求了解Hadoop框架及其特点了解Hadoop核心组件了解Hadoop生态系统了解Hadoop应用场景掌握虚拟机的安装及配置方法掌握Linux中JDK的安装方法掌握Hadoop完全分布式集群环境的搭建过程掌握Hadoop集群的监控方法42存储电影网站用户影评分析数据了解Hadoop安全模式查看、解除和开启Hadoop安全模式查询集群的存储系统信息查询集群的计算资源信息了解HDFSHDFS的基本操作了解Hadoop官方的示例程序包提交MapReduce任务给集群运行查询MapReduce任务中断MapReduce任务上传用户影评数据至HDFS了解Hadoop安全模式掌握查看、解除与开启Hadoop安全模式的操作方法掌握查看Hadoop集群的存储系统信息和计算资源信息的方法了解HDFS掌握HDFS的基本操作掌握提交MapReduce任务的基本操作掌握多个MapReduce任务的管理方法33统计电影网站用户影评数据在Windows下安装Java下载、安装并启动IntelliJIDEA创建MapReduce工程配置MapReduce环境了解MapReduce实现词频统计的执行流程读懂官方提供的WordCount源码分析思路与处理逻辑编写核心模块代码打包程序并提交MapReduce任务给集群运行创建并配置工程项目统计所有电影的评分次数统计不同性别的用户对电影的评分掌握在Windows下安装Java和IntelliJIDEA的方法掌握在IntelliJIDEA中创建MapReduce工程和配置MapReduce环境的方法熟悉MapReduce的工作原理及执行流程了解Hadoop官方示例中的WordCount源码了解MapReduce编程的基本思路熟悉map()方法与reduce()方法的处理逻辑掌握编写基础的MapReduce程序处理简单任务的方法54多维度分析电影网站用户影评设置MapReduce输入格式设置MapReduce输出格式筛选日志文件并生成序列化文件使用FileSystemAPI管理文件夹使用FileSystemAPI操作文件使用FileSystemAPI读/写数据使用HadoopJavaAPI读取序列化文件自定义键值类型初步探索Combiner浅析Partitioner自定义计数器传递参数使用Hadoop辅助类ToolRunner自动打包并提交MapReduce程序统计评分次数最多的10部电影并分析统计不同性别的用户评分最高的10部电影并分析计算指定电影的各年龄段用户的平均评分并分析统计影评库中各种电影类型中评分最高的5部电影并分析掌握MapReduce输入和输出格式的设置方法掌握HadoopJavaAPI的使用方法掌握自定义键值类型的方法了解Combiner的工作原理掌握Combiner、Partitioner和自定义计数器的使用方法熟悉MapReduce参数传递流程掌握使用IntelliJIDEA自动打包并提交MapReduce程序的方法65基于Hive实现电影网站用户影评分析什么是Hive了解Hive与传统数据库的对比了解Hive系统架构了解Hive数据模型了解Hive执行流程设置内嵌模式设置直连数据库模式设置远程模式了解Hive数据定义语言的基本语法创建表的基本操作修改表的基本操作了解Hive数据操作语言的基本语法向数据表中装载文件查询数据插入数据删除数据创建电影用户影评数据表分析电影用户影评数据表了解Hive的概念及Hive与传统数据库的对比了解Hive系统架构、数据模型和执行流程熟悉3种Hive的安装模式及相关配置过程掌握Hive中数据库与表的创建、修改方法掌握Hive表中数据增删查改的操作方法56基于HBase实现存储电影网站用户影评分析结果什么是HBase了解HBase系统架构了解HBase数据模型了解HBase读/写流程了解并安装ZooKeeper安装及配置HBase集群修改与删除表查询表数据创建Java项目实现表的创建向表中插入数据存储评分次数最多的10部电影的数据存储电影ID为2858的电影各年龄段用户的平均评分的数据存储影评库中各种类型电影中评分最高的5部电影的数据了解分布式数据库HBase熟悉HBase的系统架构、数据模型和读/写流程了解ZooKeeper的概念、集群角色及选举机制掌握ZooKeeper的安装和部署方法掌握HBase的安装和部署方法掌握HBase常用的Shell命令掌握HBaseJavaAPI的使用方法5学时合计28实验教学序号实验项目名称实验要求学时1安装及配置虚拟机创建Linux虚拟机设置固定IP地址远程连接虚拟机配置本地YUM源及安装常用软件32搭建Hadoop完全分布式集群在Linux下安装Java修改配置文件克隆虚拟机配置SSH免密码登录配置时间同步服务启动和关闭Hadoop集群监控Hadoop集群33Hadoop基础操作查看、解除和开启Hadoop安全模式查询集群的存储系统信息查询集群的计算资源信息HDFS的基本操作提交MapReduce任务给集群运行查询MapReduce任务中断MapReduce任务上传用户影评数据至HDFS34MapReduce入门编程在Windows下安装Java下载、安装并启动IntelliJIDEA创建MapReduce工程配置MapReduce环境编写核心模块代码打包程序并提交MapReduce任务给集群运行35统计电影网站用户影评数据创建并配置工程项目统计所有电影的评分次数统计不同性别的用户对电影的评分26MapReduce进阶编程筛选日志文件并生成序列化文件使用FileSystemAPI管理文件夹使用FileSystemAPI操作文件使用FileSystemAPI读/写数据使用HadoopJavaAPI读取序列化文件自定义键值类型初步探索Combiner浅析Partitioner自定义计数器传递参数使用Hadoop辅助类ToolRunner自动打包并提交MapReduce程序67多维度分析电影网站用户影评统计评分次数最多的10部电影并分析统计不同性别的用户评分最高的10部电影并分析计算指定电影的各年龄段用户的平均评分并分析统计影评库中各种电影类型中评分最高的5部电影并分析38安装与配置Hive设置内嵌模式设置直连数据库模式设置远程模式29Hive的基础操作创建表的基本操作修改表的基本操作向数据表中装载文件查询数据插入数据删除数据210基于Hive实现电影网站用户影评分析创建电影用户影评数据表分析电影用户影评数据表211安装与配置HBase了解并安装ZooKeeper安装及配置HBase集群212HBase的基础操作修改与删除表查询表数据创建Java项目实现表的创建向表中插入数据213基于HBase实现存储电影网站用户影评分析结果存储评分次数最多的10部电影的数据存储不同性别的用户评分最高的10部电影及评分信息的数据存储电影ID为2858的电影各年龄段用户的平均评分的数据存储影评库中各种类型电影中评分最高的5部电影的数据3学时合计36考核方式突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业(10%)+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、组件安装流程、开发环境搭建流程、MapReduce编程、Hive与HBase的数据存储与查询操作、案例分析实现流程等部分,题型可采用判断题、选择、简答、应用题等方式。教材与参考资料教材张军,张良均.Hadoop大数据开发基础(第3版)(微课版)[M].北京:人民邮电出版社.2025.参考资料[1] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.
学院课程教学进度计划表(20~20学年第二学期) 课程名称Hadoop大数据开发基础 授课学时64 参与教学教师 授课班级/人数 专业(教研室) 填表时间教务处编印年月打造基于产教融合的就业育人综合服务平台打造基于产教融合的就业育人综合服务平台泰迪智能科技官网:/联系方式:4006840020泰迪智能科技官网:/联系方式:4006840020课程教学目的通过本课程的学习,使学生掌握Hadoop、Hive和HBase集群的安装配置,能够根据具体需求编写MapReduce程序解决实际业务问题,使用Hive、HBase进行数据存储、查询与分析,同时在各项目章节的学习过程中详细拆解并学习电影网站用户影评分析案例,将理论与实践相结合,为将来从事数据分析挖掘研究、工作奠定基础。教学方法及手段本课程将采用理论与实践相结合的教学方法。在理论上,按照解决实际任务的工作流程路线,通过任务引入,紧扣任务需求逐步展开介绍相关的理论知识点。在实践上,充分地利用现有的硬件资源,发挥学生主观能动性,指导学生搭建Hadoop、Hive、HBase分布式集群,掌握MapReduce编程与运行实现,并使用Hive、HBase进行数据存储、查询与分析,着重于学生解决问题时思路的启发与解决方案制定。同时结合电影网站用户影评分析案例实战,引导学生将所学知识与企业需求相结合,将知识活学活用。要求学生自己动手分析实例,学习基本理论和方法,结合已有的知识,适当组织一些讨论,充分调动学生的主观能动性,以达到本课程的教学目的。课程考核方法突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业(10%)+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、组件安装流程、开发环境搭建流程、MapReduce编程、Hive与HBase的数据存储与查询操作、案例分析实现流程等部分,题型可采用判断题、选择、简答、应用题等方式。
《Hadoop大数据开发基础》教学日历周次学时授课内容作业要求备注14项目1分析电影网站用户影评需求及环境搭建(1)项目1实训1,操作题24项目1分析电影网站用户影评需求及环境搭建(2)项目1实训2,操作题34项目1分析电影网站用户影评需求及环境搭建(3)项目2存储电影网站用户影评分析数据(1)项目1选择题项目2选择题,实训44项目2存储电影网站用户影评分析数据(2)项目2操作题,技能题54项目3统计电影网站用户影评数据(1)项目3选择题,操作题64项目3统计电影网站用户影评数据(2)项目3实训74项目3统计电影网站用户影评数据(3)项目4多维度分析电影网站用户影评(1)项目3技能题项目4选择题84项目4多维度分析电影网站用户影评(2)项目4选择题94项目4多维度分析电影网站用户影评(3)项目4操作题104项目4多维度分析电影网站用户影评(4)项目4实训114项目4多维度分析电影网站用户影评(5)项目5基于Hive实现电影网站用户影评分析(1)项目4技能题项目5选择题124项目5基于Hive实现电影网站用户影评分析(2)项目5实训134项目5基于Hive实现电影网站用户影评分析(3)项目5操作题,技能题144项目6基于HBase实现存储电影网站用户影评分析结果(1)项目6选择题154项目6基于HBase实现存储电影网站用户影评分析结果(2)项目6实训164项目6基于HBase实现存储电影网站用户影评分析结果(3)项目6操作题,技能题注:教材:张军,张良均.Hadoop大数据开发基础(第3版)(微课版)[M].北京:人民邮电出版社.2025.
项目1分析电影网站用户影评需求及环境搭建教案课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分本项目学时:10学时材料清单《Hadoop大数据开发基础(第3版)(微课版)》教材。项目1配套PPT、数据和代码文件。环境搭建部分相关安装包。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标在大数据时代,常规的数据分析工具处理数据的效率低,无法满足需求。分布式存储计算框架的出现,为大数据处理、分析提供了有效的解决方案。本项目将根据目前的大数据技术相关行业的需求现状引出Hadoop的概念和特点,并进一步介绍Hadoop的核心组件、生态系统与应用场景。紧接着详细阐述安装及配置虚拟机、搭建完全分布式Hadoop集群的操作步骤并进行实操演示,帮助学员在自己的个人计算机上部署好电影网站用户影评分析所需的大数据环境,最终再介绍电影网站用户影评信息数据的构成,明确了影评统计、分析的需求,为后续的影评统计、分析奠定基础。基本要求了解Hadoop框架及其特点。了解Hadoop核心组件。了解Hadoop生态系统。了解Hadoop应用场景。掌握虚拟机的安装及配置方法。掌握Linux中JDK的安装方法。掌握Hadoop完全分布式集群环境的搭建过程。掌握Hadoop集群的监控方法。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。多大规模的数据才算大数据?常见的数据分析工具有哪些?常见的操作系统有哪些?常见的Linux操作系统有哪些?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。搭建完全分布式Hadoop集群的流程是什么?搭建Hadoop集群时涉及到的配置文件有哪些?各配置文件分别都有什么作用?搭建Hadoop集群时是否必须配置系统环境变量?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。安装完虚拟机之后配置本地YUM源有何作用?配置各节点间的免密登录服务时除了使用NTP工具之外还可以使用哪些工具?Hadoop生态系统中除了Hadoop之外还有哪些工具可以用于大数据存储和分析?主要知识点、重点与难点主要知识点Hadoop的简介。安装及配置虚拟机的操作步骤。搭建完全分布式Hadoop集群的操作步骤。电影网站用户影评需求分析。重点安装及配置虚拟机的操作步骤。搭建完全分布式Hadoop集群的操作步骤。难点配置虚拟机时本地YUM源的配置方法。搭建Hadoop集群时配置文件的说明与修改内容。搭建Hadoop集群时在各节点之间配置免密登录与时间同步服务的操作步骤。教学过程设计理论教学过程什么是Hadoop?了解Hadoop的特点。了解Hadoop核心组件。了解Hadoop生态系统。了解Hadoop应用场景。创建Linux虚拟机。设置固定IP地址。远程连接虚拟机。配置本地YUM源及安装常用软件。在Linux下安装Java。修改配置文件。克隆虚拟机。配置SSH免密码登录。配置时间同步服务。启动和关闭Hadoop集群。监控Hadoop集群。了解电影网站用户影评数据字段。分析影评统计需求。实验教学过程创建Linux虚拟机。设置固定IP地址。远程连接虚拟机。配置本地YUM源及安装常用软件。在Linux下安装Java。修改配置文件。克隆虚拟机。配置SSH免密码登录。配置时间同步服务。启动和关闭Hadoop集群。监控Hadoop集群。教材与参考资料教材张军,张良均.Hadoop大数据开发基础(第3版)(微课版)[M].北京:人民邮电出版社.2025.参考资料[1] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.
项目2存储电影网站用户影评分析数据教案课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分本项目学时:6学时材料清单《Hadoop大数据开发基础(第3版)(微课版)》教材。项目2配套PPT、数据和代码文件。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标在进行数据统计分析之前,数据的存储是一步必要的操作。本项目将围绕“存储电影网站用户影评分析数据”这一需求,先介绍Hadoop安全模式的概念,以及Hadoop安全模式的查看、解除和开启方法。随后再结合实际任务,讲解Hadoop集群的存储系统信息与计算资源信息的查询方法。紧接着重点介绍HDFS的基本操作,并通过使用Hadoop官方的示例程序包,演示提交与管理MapReduce任务的操作步骤,使学员能够更好地理解Hadoop中的核心组件。最终基于HDFS的基本操作,实现上传用户影评数据至HDFS,为后续通过MapReduce编程实现用户影评分析奠定数据基础。基本要求了解Hadoop框架及其特点。了解Hadoop安全模式。掌握查看、解除与开启Hadoop安全模式的操作方法。掌握查看Hadoop集群的存储系统信息和计算资源信息的方法。了解HDFS。掌握HDFS的基本操作。掌握提交MapReduce任务的基本操作。掌握多个MapReduce任务的管理方法。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。本地计算机文件系统、Linux虚拟机文件系统、HDFS文件系统有何区别?在Linux终端中都有哪些关于文件操作的命令?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。Hadoop中常用的WebUI端口主要有哪些?常用的HDFSShell命令有哪些?提交MapReduce任务到集群运行的语法格式是什么?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。Hadoop集群在什么情况下可能会处于安全模式?除了在终端通过HDFSShell命令上传文件之外,是否还有其他方法可以将文件上传至HDFS?主要知识点、重点与难点主要知识点认识Hadoop安全模式。查看Hadoop集群的基本信息。HDFS的基本操作。运行MapReduce任务。管理多个MapReduce任务。上传用户影评数据至HDFS。重点理解Hadoop安全模式。掌握HDFS的基本操作。掌握运行并查询MapReduce任务的方法。难点HDFS的基本操作。提交MapReduce任务给集群运行的命令说明。教学过程设计理论教学过程了解Hadoop安全模式。查看、解除和开启Hadoop安全模式。查询集群的存储系统信息。查询集群的计算资源信息。了解HDFS。HDFS的基本操作。了解Hadoop官方的示例程序包。提交MapReduce任务给集群运行。查询MapReduce任务。中断MapReduce任务。上传用户影评数据至HDFS。实验教学过程查看、解除和开启Hadoop安全模式。查询集群的存储系统信息。查询集群的计算资源信息。HDFS的基本操作。提交MapReduce任务给集群运行。查询MapReduce任务。中断MapReduce任务。上传用户影评数据至HDFS。教材与参考资料教材张军,张良均.Hadoop大数据开发基础(第3版)(微课版)[M].北京:人民邮电出版社.2025.参考资料[1] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.
项目3统计电影网站用户影评数据教案课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分本项目学时:10学时材料清单《Hadoop大数据开发基础(第3版)(微课版)》教材。项目3配套PPT、数据和代码文件。Windows操作系统下的IDEA与Java安装包。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标本项目开始将正式对电影网站用户影评数据进行统计分析,首先从搭建开发环境开始,详细介绍在Windows下安装Java和IDEA开发工具,以及在IDEA中创建MapReduce工程并添加对应依赖的过程。紧接着通过对Hadoop官方示例源码的解读,帮助学员深入了解MapReduce的工作原理与执行流程,随后以网站用户登录次数排序任务为例,分析MapReduce编程的基本思路和处理逻辑,实现核心代码的编写。最后基于MapReduce编程,实现对影评数据中所有电影评分次数的统计,并分析不同性别的用户对电影评分的差异。基本要求掌握在Windows下安装Java和IntelliJIDEA的方法。掌握在IntelliJIDEA中创建MapReduce工程和配置MapReduce环境的方法。熟悉MapReduce的工作原理及执行流程。了解Hadoop官方示例中的WordCount源码。了解MapReduce编程的基本思路。熟悉map()方法与reduce()方法的处理逻辑。掌握编写基础的MapReduce程序处理简单任务的方法。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。常用的编程语言及对应的开发工具都有哪些?Java和Python分别都有哪些优缺点?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。IDEA中导入Jar包的方式有哪些?MapReduce程序中具体的作业执行流程是什么样的?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。MapReduce程序中Combiner阶段与Reducer阶段有什么区别?MapReduce程序中是否可以不设置Reducer阶段?IDEA中编写的MapReduce程序是否可以直接在IDEA中运行?主要知识点、重点与难点主要知识点在IntelliJIDEA中搭建MapReduce开发环境。通过WordCount源码理解MapReduce编程。对网站用户登录次数数据根据登录次数进行升序排序。统计电影网站用户影评数据中所有电影的评分次数。统计电影网站用户影评数据中不同性别的用户对电影的评分。重点在IntelliJIDEA中创建并配置MapReduce工程。了解MapReduce实现词频统计的执行流程。使用MapReduce处理不同问题时的分析思路与处理逻辑。统计电影网站用户影评数据。在IDEA打包MapReduce程序并提交至虚拟机Hadoop集群运行的步骤。难点使用MapReduce处理不同问题时的分析思路与处理逻辑。MapReduce程序的编写。教学过程设计理论教学过程在Windows下安装Java。下载、安装并启动IntelliJIDEA。创建MapReduce工程。配置MapReduce环境。了解MapReduce实现词频统计的执行流程。读懂官方提供的WordCount源码。分析思路与处理逻辑。编写核心模块代码。打包程序并提交MapReduce任务给集群运行。创建并配置工程项目。统计所有电影的评分次数。统计不同性别的用户对电影的评分。实验教学过程在Windows下安装Java。下载、安装并启动IntelliJIDEA。创建MapReduce工程。配置MapReduce环境。编写核心模块代码。打包程序并提交MapReduce任务给集群运行。创建并配置工程项目。统计所有电影的评分次数。统计不同性别的用户对电影的评分。教材与参考资料教材张军,张良均.Hadoop大数据开发基础(第3版)(微课版)[M].北京:人民邮电出版社.2025.参考资料[1] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.
项目4多维度分析电影网站用户影评教案课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分本项目学时:15学时材料清单《Hadoop大数据开发基础(第3版)(微课版)》教材。项目4配套PPT、数据和代码文件。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标本项目将继续对电影网站用户影评数据进行多维度的深入统计分析,先详细讲解MapReduce编程的进阶知识,依次介绍MapReduce的输入输出格式、HadoopJavaAPI、自定义键值类型、Combiner、Partitioner、自定义计数器以及在IntelliJIDEA中直接提交并运行MapReduce程序等。最后基于MapReduce编程的进阶知识,实现从评分次数、性别、年龄段、电影类型这4个方面,多维度分析用户的观影偏好。基本要求掌握MapReduce输入和输出格式的设置方法。掌握HadoopJavaAPI的使用方法。掌握自定义键值类型的方法。了解Combiner的工作原理。掌握Combiner、Partitioner和自定义计数器的使用方法。熟悉MapReduce参数传递流程。掌握使用IntelliJIDEA自动打包并提交MapReduce程序的方法。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。Hadoop中的文件格式和数据类型都有哪些?MapReduce程序中数据的输入格式和输出格式是什么?MapReduce程序的优化应从哪些角度考虑?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。自定义键类型与自定义值类型需要注意什么?MapReduce程序中Combiner阶段与Reducer阶段有什么区别?MapReduce程序中的Partitioner具体是如何进行分区的?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。使用MapReduce程序处理机器学习的问题有何缺点?当直接在IDEA中运行编写的MapReduce程序时,若想指定程序运行的资源应如何设置?主要知识点、重点与难点主要知识点设置MapReduce输入输出格式。使用HadoopJavaAPI实现文件操作。优化MapReduce统计程序。在IntelliJIDEA中打包并提交MapReduce程序。统计用户影评数据中评分次数最多的10部电影并分析。统计用户影评数据中不同性别的用户评分最高的10部电影并分析。计算用户影评数据中指定电影的各年龄段用户的平均评分并分析。统计用户影评数据中各种电影类型中评分最高的5部电影并分析。重点使用HadoopJavaAPI实现文件操作。自定义MapReduce程序的输入和输出键值对类型。MapReduce程序中Combiner、Partitioner、计数器的使用。使用Hadoop辅助类ToolRunner自动打包并提交MapReduce程序。多维度分析电影网站用户影评数据。难点使用HadoopJavaAPI实现文件操作。自定义MapReduce程序的输入和输出键值对类型。MapReduce程序中Combiner、Partitioner、计数器的使用。使用Hadoop辅助类ToolRunner自动打包并提交MapReduce程序。多维度分析电影网站用户影评数据。教学过程设计理论教学过程设置MapReduce输入格式。设置MapReduce输出格式。筛选日志文件并生成序列化文件。使用FileSystemAPI管理文件夹。使用FileSystemAPI操作文件。使用FileSystemAPI读/写数据。使用HadoopJavaAPI读取序列化文件。自定义键值类型。初步探索Combiner。浅析Partitioner。自定义计数器。传递参数。使用Hadoop辅助类ToolRunner。自动打包并提交MapReduce程序。统计评分次数最多的10部电影并分析。统计不同性别的用户评分最高的10部电影并分析。计算指定电影的各年龄段用户的平均评分并分析。统计影评库中各种电影类型中评分最高的5部电影并分析。实验教学过程筛选日志文件并生成序列化文件。使用FileSystemAPI管理文件夹。使用FileSystemAPI操作文件。使用FileSystemAPI读/写数据。使用HadoopJavaAPI读取序列化文件。自定义键值类型。初步探索Combiner。浅析Partitioner。自定义计数器。传递参数。使用Hadoop辅助类ToolRunner。自动打包并提交MapReduce程序。统计评分次数最多的10部电影并分析。统计不同性别的用户评分最高的10部电影并分析。计算指定电影的各年龄段用户的平均评分并分析。统计影评库中各种电影类型中评分最高的5部电影并分析。教材与参考资料教材张军,张良均.Hadoop大数据开发基础(第3版)(微课版)[M].北京:人民邮电出版社.2025.参考资料[1] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.
项目5基于Hive实现电影网站用户影评分析教案课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分本项目学时:11学时材料清单《Hadoop大数据开发基础(第3版)(微课版)》教材。项目5配套PPT、数据和代码文件。MySQL连接驱动包、MySQL安装包和Hive安装包。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标本项目先从Hive与传统数据库的对比出发,首先介绍Hive的基本概念,让学员了解Hive及其系统架构、数据模型和执行流程;紧接着随之讲解并演示Hive的3种安装方式及相关配置过程,让学员熟悉Hive的安装步骤;之后再详细阐述Hive的数据操作,包括数据定义语言(DDL)和数据操作语言(DML),帮助学员掌握HQL的相关操作方法;最后基于电影网站用户影评分析案例,详细介绍如何使用Hive解决具体的实际问题,实现电影用户影评数据表的创建与分析。基本要求了解Hive的概念及Hive与传统数据库的对比。了解Hive系统架构、数据模型和执行流程。熟悉3种Hive的安装模式及相关配置过程。掌握Hive中数据库与表的创建、修改方法。掌握Hive表中数据增删查改的操作方法。问题引导性提问引导性提问需要教师根据教材内容和学生实际水平,提出问题,启发引导学生去解决问题,提问,从而达到理解、掌握知识,发展各种能力和提高思想觉悟的目的。常见的传统数据库工具有哪些?Hadoop生态系统中除了HDFS还有哪些工具可以用于存储数据?探究性问题探究性问题需要教师深入钻研教材的基础上精心设计,提问的角度或者在引导性提问的基础上,从重点、难点问题切入,进行插入式提问。或者是对引导式提问中尚未涉及但在课文中又是重要的问题加以设问。Hive中的数据模型与传统关系型数据库中的数据模型有何异同?在不同模式的Hive下进入Hive交互界面前需要做什么准备?拓展性问题拓展性问题需要教师深刻理解教材的意义,学生的学习动态后,根据学生学习层次,提出切实可行的关乎实际的可操作问题。亦可以提供拓展资料供学生研习探讨,完成拓展性问题。在部署Hive时使用外部的MySQL数据库作为Hive的元数据存储介质比直接使用Hive自带的Derby数据库有何好处?Hive中的内部表、外部表、分区表和桶表分别适用于哪些场景?主要知识点、重点与难点主要知识点认识Hive数据仓库。Hive的安装模式的安装步骤。Hive表的创建与修改。Hive表中数据的增删查改。创建电影用户影评数据表。分析电影用户影评数据表。重点Hive与传统数据库的对比。Hive直连数据库模式和远程模式的配置步骤。Hive中数据定义语言(DDL)和数据操作语言(DML)的使用方法。使用Hive分析电影网站用户影评数据。难点Hive直连数据库模式和远程模式的配置步骤。Hive中数据定义语言(DDL)和数据操作语言(DML)的使用方法。使用Hive分析电影网站用户影评数据。教学过程设计理论教学过程什么是Hive?了解Hive与传统数据库的对比。了解Hive系统架构。了解Hive数据模型。了解Hive执行流程。设置内嵌模式。设置直连数据库模式。设置远程模式。了解Hive数据定义语言的基本语法。创建表的基本操作。修改表的基本操作。了解Hive数据操作语言的基本语法。向数据表中装载文件。查询数据。插入数据。删除数据。创建电影用户影评数据表。分析电影用户影评数据表。实验教学过程设置内嵌模式。设置直连数据库模式。设置远程模式。创建表的基本操作。修改表的基本操作。向数据表中装载文件。查询数据。插入数据。删除数据。创建电影用户影评数据表。分析电影用户影评数据表。教材与参考资料教材张军,张良均.Hadoop大数据开发基础(第3版)(微课版)[M].北京:人民邮电出版社.2025.参考资料[1] 张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版社.2021.[2] 王哲,张良均.Hadoop与大数据挖掘(第2版)[M].北京:机械工业出版社.2022.
项目6基于HBase实现存储电影网站用户影评分析结果教案课程名称:Hadoop大数据开发基础课程类别:必修适用专业:大数据技术类相关专业总学时:64学时(其中理论28学时,实验36学时)总学分:4.0学分本项目学时:12学时材料清单《Hadoop大数据开发基础(第3版)(微课版)》教材。项目6配套PPT、数据和代码文件。ZooKeeper安装包和HBase安装包。引导性提问。探究性问题。拓展性问题。教学目标与基本要求教学目标本项目从HB
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026-2030中国无机溴衍生物行业运营规划及未来投资价值评估研究报告
- 2026-2030中国水路运输市场前景趋势分析及投资机遇可行性研究报告
- 护理心理健康课件
- 2026-2030中国金属镝市场深度调查与投资前景规划研究研究报告
- 2026-2030纯净水零售行业市场发展分析及前景趋势与投资研究报告
- 2026-2030中国艾灸市场经营模式及重点企业发展研究报告
- 2026-2030中国轨道交通电源系统市场行情监测及需求规模预测研究报告
- 2026-2030中国智慧火电运维行业发展趋势预判及市场前景预测报告
- 2026-2030中国精炼铜行业产销形势及投资效益预测报告
- 2026-2030中国铁路电气设备行业供需趋势及投资风险研究报告
- 施工现场质量培训课件
- 中国农业大学《电子电路基础》2023-2024学年第一学期期末试卷
- 一例PICC穿刺点感染的个案分析与护理
- DG-TG08-12-2024 普通中小学建设标准
- 知识点2、化学式和化合价-2022年浙江省中考科学一轮复习化学部分
- 水平定向钻施工方案(专家论证)
- ERCP诊治指南2021版解读
- 部编版2024年三年级语文下册《课内阅读》专项复习题及答案
- 2024年医院依法执业培训课件
- 自考08257《舆论学》备考试题库(含答案)
- 新能源技术对环境保护的影响及作用
评论
0/150
提交评论