




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《Hadoop大数据开发基础(第2
版)》教学大纲
课程名称:Hadoop大数据开发基础
课程类别:必修
适用专业:大数据技术类相关专业
总学时:64学时(其中理论28学时,实验36学时)
总学分:4.0学分
一、课程的性质
随着时代的发展,大数据已经成为一个耳熟能详的词汇。与此同时,针对大数据处理的新
技术也在不断的开发和运用中,逐渐成为数据处理挖掘行业广泛使用的主流技术之一。Hadoop
分布式集群系统架构,具有高可用性、高容错性和高扩展性等优点,由于它提供了一个开放式
的平台,用户可以在不了解底层实现细节的情形下,开发适合自身应用的分布式程序。经过多
年的发展,目前Hadoop已经成长为一个全栈式的大数据技术生态圈,包括了Hive、HBase、
Spark等一系列组件,成为应用最广泛、最具有代表性的大数据技术之一。因此,学习Hadoop
技术是从事大数据行业工作所必不可少的一步。为了满足企业的大数据人才需求,帮助学者掌
握相关技术知识解决实际的业务需求,特开设Hadoop大数据开发基础课程。
二、课程的任务
通过本课程的学习,使学生掌握Hadoop、Hive和HBase集群的安装配置,能够根据具体
需求编写MapReduce程序解决实际业务问题,使用Hive、HBase进行数据存储、查询余分析,
最后详细拆解并学习电影网站用户影评分析案例,将理论与实践相结合,为将来从事数据分析
挖掘研究、工作奠定基础。
三、课程学时分配
序号教学内容理论学时实验学时其它
1第1章Hadoop介绍20
2第2章Hadoop集群的搭建及配置26
3第3章Hadoop基础操作33
4第4章MapReduce入门编程44
5第5章MapReduce进阶编程57
6第6章Hive数据仓库45
7第7章HBase分布式数据库45
第8章项目案例:电影网站用户影
846
评分析
总计2836
四、教学内容及学时安排
1.理论教学
序
章节名称主要内容教学目标学时
号
1.什么是Hadoop1.了解Hadoop框架及其
2.了解Hadoop的发展历史发展历史、特点。
3.了解Hadoop的特点2.了解Hadoop核心组
4.了解分布式文件系统一一HDFS件。
1Hadoop介绍2
5.了解分布式计算框架---M叩Reduce3.了解Hadoop生态系
6,了解集群资源管理器——YARN统。
7.了解Hadoop生态系统4.了解Hadoop应用场
8.了解Hadoop应用场景景。
1.创建Linux虚拟机
2.设置固定IP地址
1.掌握虚拟机的安装及
3.远程连接虚拟机
配置方法。
4.配置本地YUM源及安装常用软件
2.掌握在Linux下JDK
Hadoop集群5.在Linux下安装Java
的安装方法。
2的搭建及配6.修改配置文件2
3.掌握Hadoop完全分布
置7.克隆虚拟机
式集群环境的搭建过程。
8.配置SSH免密码登录
4.掌握Hadoop集群的监
9.配置时间同步服务
控方法。
10.启动和关闭Hadoop集群
11.监控Hadoop集群
1.了解Hadoop安全模
式。
2.掌握查看、解除与开启
1.了解Hadoop安全模式Hadoop安全模式的操
2.查看、解除与开启Hadoop安全模式作。
3.查询集群的存储系统信息3.掌握查看Hadoop集群
4.查询集群的计算资源信息存储系统和计算资源信
Hadoop基础5.了解HDFS息的方法。
33
操作6.HDFS的基本操作4.了解HDFS分布式文
7.了解Hadoop官方的示例程序包件系统。
8.提交MapReduce任务给集群运行5.掌握HDFS的基本操
9,查询MapReduce任务作。
10.中断MapReduce任务6.掌握提交MapReduce
任务的基本操作。
7.掌握多个MapReduce
任务的管理方法。
1.掌握在Windows下安
装Java和IntelliJIDEA
1.在Windows下安装Java
的方法。
2,下载与安装IntelliJIDEA
2.掌握在IntelliJIDEA中
3.创建MapReduce工程
创建MapReduce工程和
4.配置MapReduce环境
配置MapReduce环境的
5.了解MtipReduce工作原理及核心组
方法。
成
3.熟悉MapReduce的工
6.了解MapReduce实现词频统计的执
作原理及执行流程。
MapReduce行流程
44.了解Hadoop官方示例4
入门编程7.读懂官方提供的WordCount源码
中的WordCount源码。
8.分析思路与处理逻辑
5.了解MapReduce编程
9.编写核心模块代码
的基本思路。
10.统计网站每日的访问次数
6.熟悉map()方法与
11.分析思路与处理逻辑
reduce()方法的处理逻
12.编写核心模块代码
辑。
13.将网站每日访问次数根据访问次数
7.掌握编写基础的
进行升序排序
M叩Reduce程序处理简
单任务的方法。
1.设置MapReduce输入格式
2.设置MapReduce输出格式1.掌握MapReduce输入
3.筛选日志文件并生成序列化文件和输出格式的设置方法。
4.使用FileSystemAPI管理文件夹2.掌握HadoopJavaAPI
5.使用FileSystemAPI操作文件的使用方法。
6.使用FileSystemAPI读/写数据3.掌握自定义键值类型
7.使用HadoopJavaAPI读取序列化文的方法。
件4.了解Combiner的工作
MapReduce8.自定义键值类型原理。
55
进阶编程9.初步探索Combiner5.掌握Combiner、
10.浅析PartitionerPartitioner和自定义计数
11.自定义计数器器的使用方法。
12.优化日志文件统计程序6,熟悉MapReduce参数
13.传递参数传递流程。
14.使用Hadoop辅助类ToolRunner7.掌握使用IntelliJIDEA
15.自动打包并提交MapReduce任务自动打包并提交
16.在IntelliJIDEA中打包并提交MapReduce任务的方法。
MapReduce程序
1.什么是Hive
2.了解Hive与传统数据库的对比
3.了解Hive系统架构
4.了解Hive数据模型1.了解Hive的概念及
5.了解Hive执行流程Hive与传统数据库的对
6.设置内嵌模式比。
7.设置直连数据库模式2.了解Hive系统架构、
8.设置远程模式数据模型和执行流程。
Hive数据仓9.了解Hive数据定义语言的基本语法3.熟悉3种访问Hive的
64
库10.创建表基本操作方式及配置过程。
11.修改表基本操作4.掌握Hive中数据库与
12.了解Hive数据操作语言的基本语法表的创建、修改操作方
13.向数据表中装载文件法。
14.查询数据5.掌握Hive表数据增删
15.插入数据查改的操作方法。
16.删除表中数据
17.分析基本思路
18.掉话率Top20基站统计
1.了解分布式数据库
HBaseo
1.什么是HBase
2.熟悉HBase的系统架
2.了解HBase系统架构
构、数据模型和读/写流
3.了解HBase数据模型
程。
4.了解HBase读/写流程
3.了解ZooKeeper的概
5.了解并安装ZooKeeper
念、集群角色及选举机
6.安装及配置HBase集群
HBase分布制。
77.修改与删除表4
式数据库4.掌握ZooKeeper集群
8.查询表数据
的安装部署方法。
9.创建Java项目
5.掌握HBase的安装部
10.实现表的创建
署方法。
11.向表中插入数据
6.掌握HBase常用的
12.设计表并分析查询需求
Shell命令。
13.查询分析通话记录数据
7.掌握HBaseJavaAPI
的使用方法。
1.了解数据字段
2.统计分析需求描述1.掌握根据业务场景设
3.创建并配置工程项目计map()方法和reduce()
4.计算评分次数最多的10部电影及评方法的计算逻辑。
项目案例:电分次数并分析2.掌握编写MapReduce
8影网站用户5.计算不同性别评分最高的10部电影程序解决常见的数据处4
影评分析及评分并分析理问题。
6.计算指定电影各年龄段的平均影评3.掌握编写MapReduce
并分析程序实现电影网站用户
7.计算影评库中各种类型电影中评分影评分析的方法。
最高的5部电影并分析
学时合计28
2.实验教学
序号实验项目名称实验要求学时
1.创建Linux虚拟机
安装及配置虚2.设置固定IP地址
13
拟机3.远程连接虚拟机
4.配置本地YUM源及安装常用软件
1.在Linux下安装Java
2.修改配置文件
3.克隆虚拟机
搭建Hadoop完
24.配置SSH免密码登录3
全分布式集群
5.配置时间同步服务
6.启动和关闭Hadoop集群
7.监控Hadoop集群
1.查看、解除与开启Hadoop安全模式
2.查询集群的存储系统信息
3.查询集群的计算资源信息
Hadoop基础操
34.HDFS的基本操作3
作
5.提交MapReduce任务给集群运行
6.查询MapReduce任务
8.中断MapReduce任务
1.在Windows下安装Java
2.下载与安装IntelliJIDEA
3.创建MapReduce工程
MapReduce入4.配置MapReduce环境
44
门编程5.编写核心模块代码
6.统计网站每日的访问次数
7.编写核心模块代码
8.将网站每日访问次数根据访问次数进行升序排序
1.筛选日志文件并生成序列化文件
2.使用FileSystemAPI管理文件夹
3.使用FileSystemAPI操作文件
4.使用FileSystemAPI读/写数据
5.使用HadoopJavaAPI读取序列化文件
6.自定义键值类型
MapReduce进7.初步探索Combiner
57
阶编程8.浅析Partitioner
9.自定义计数器
10.优化日志文件统计程序
11.传递参数
12.使用Hadoop辅助类ToolRunner
13.自动打包并提交MapReduce任务
14.在IntelliJIDEA中打包并提交MapReduce程序
1.设置内嵌模式
安装与配置
62.设置直连数据库模式2
Hive
3.设置远程模式
1.创建表基本操作
2.修改表基本操作
3.向数据表中装载文件
Hive的基础操
74.查询数据3
作
5.插入数据
6.删除表中数据
7.掉话率Top20基站统计
安装与配置1.了解并安装ZooKeeper
82
HBase集群2.安装及配置HBase集群
1.修改与删除表
2.查询表数据
HBase的基础操3.创建Java项目
93
作4.实现表的创建
5.向表中插入数据
6.查询分析通话记录数据
1.了解数据字段
2.统计分析需求描述
3.创建并配置工程项目
项目案例:电影
4.计算评分次数最多的10部电影及评分次数并分析
10网站用户影评6
5.计算不同性别评分最高的10部电影及评分并分析
分析
6.计算指定电影各年龄段的平均影评并分析
7.计算影评库中各种类型电影中评分最高的5部电影并
分析
学时合计36
五、考核方式
突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业(10%)
+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包括基本概念、
组件安装流程、开发环境搭建流程、MapReduce编程、Hive与HBase的数据存储与查询操作、
案例分析实现流程等部分,题型可采用选择题、判断题、简答题、应用题等方式。
六、教材与参考资料
1.教材
张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:人民邮电出版
社.2021.
2.参考资料
[1|余明辉,张良均.Hadoop大数据开发基础[M].北京:人民邮电出版社.2018.
[2]张良均,樊哲,位文超,刘名军.Hadoop与大数据挖掘[M].北京:机械工业出版
社.2015.
[3]张良均,樊哲,赵云龙,李成华.Hadoop大数据分析与挖掘实战[MJ.北京:机械工
业出版社.2015.
学院
课程教学进度计划表
(20~20学年第二学期)
课程名称Hadoop大数据开发基础
授课学时64
主讲(责任)教师
参与教学教师
授课班级/人数
专业(教研室)
填表时间
(教研室)主任
教务处编印
年月
打造数据智能职业教育领军企业
七、课程教学目的
通过本课程的学习,使学生掌握Hadoop、Hive和HBase集群的安装配置,能够根据具
体需求编写MapReduce程序解决实际业务问题,使用Hive、HBase进行数据存储、查询余
分析,最后详细拆解并学习电影网站用户影评分析案例,将理论与实践相结合,为将来从事
数据分析挖掘研究、工作奠定基础。
八、教学方法及手段
本课程将采用理论与实践相结合的教学方法。在理论上,按照解决实际任务的工作流程
路线,通过任务引入,紧扣任务需求逐步展开介绍相关的理论知识点。在实践上,充分地利
用现有的硬件资源,发挥学生主观能动性,指导学生搭建Hadoop、Hive、HBase分布式集
群,掌握MapReduce编程与运行实现,并使用Hive、HBase进行数据存储、查询与分析,
着重于学生解决问题时思路的启发与解决方案制定。最后结合一个案例实战,引导学生将所
学知识与企业需求相结合,将知识活学活用。
要求学生自己动手分析实例,学习基本理论和方法,结合已有的知识,适当组织一些讨
论,充分调动学生的主观能动性,以达到本课程的教学目的。
九、课程考核方法
突出学生解决实际问题的能力,加强过程性考核。课程考核的成绩构成=平时作业
(10%)+课堂参与(20%)+期末考核(70%),期末考试建议采用开卷形式,试题应包
括基本概念、组件安装流程、开发环境搭建流程、MapReduce编程、Hive与HBase的数据
存储与查询操作、案例分析实现流程等部分,题型可采用选择题、判断题、简答题、应用题
等方式。
打造数据智能职业教育领军企业
打造数据智能职业教育领军企业
《Hadoop大数据开发基础》教学日历
周次学时授课内容作业要求备注
第1章Hadoop介绍第1章课后习
14
第2章Hadoop集群的搭建及配置(1)题
第2章课后习
24第2章Hadoop集群的搭建及配置(2)
题
第2章Hadoop集群的搭建及配置(3)
34第2章实训
第3章Hadoop基础操作(1)
第3章课后习
44第3章Hadoop基础操作(2)题
第3章实训
第4章课后习
54第4章MapReduce入门编程(1)
题
64第4章MapReduce入门编程(2)第4章实训
第5章课后习
74第5章MapReduce进阶编程(1)
题
84第5章MapReduce进阶编程(2)第5章实训1
84第5章MapReduce进阶编程(3)第5章实训2
第6章课后习
1()4第6章Hive数据仓库(1)
题
114第6章Hive数据仓库(2)第6章实训1
第6章Hive数据仓库(3)
124第6章实训2
第7章HBase分布式数据库(1)
第7章课后习
134第7章HBase分布式数据库(2)
题
第7章HBase分布式数据库(3)
144第7章实训
第8章项目案例:电影网站用户影评分析(1)
154第8章项目案例:电影网站用户影评分析(2)
164第8章项目案例:电影网站用户影评分析(3)
注:教材:张军,张良均.Hadoop大数据开发基础(第2版)(微课版)[M].北京:
人民邮电出版社.2021.
打造数据智能职业教育领军企业
打造数据智能职业教育领军企业
第一部分Hadoop大数据开发基础(第2
版)(微课版)■习题答案
第一章
一、选择题
1、B
2、B
3、C
4、B
5、A
第二章
一、选择题
1、D
2、B
3、B
4、C
5、A
6、A
7、D
8、A
9、A
10、A
第二早
一、选择题
1、D
2、B
3、C
4、A
5、D
打造数据智能职业教育领军企业
打造数据智能职业教育领军企业
6、D
7、A
8、B
第四章
一、选择题
1、D
2、C
3、D
4、A
5^A
6、B
7、D
8、C
9、D
10、B
第五章
一、选择题
1、D
2、A
3、B
4、A
5、D
6、C
7、D
8、D
9、A
10、D
第六章
1、选择题
1、C
打造数据智能职业教育领军企业
打造数据智能职业教育领军企业
2、C
3、D
4、C
5、A
6、C
7、A
8、A
9、B
10、A
第七章
1、选择题
1、A
2、C
3、B
4、C
5、C
6、A
7、D
8、D
9、C
10、D
打造数据智能职业敕11领军企业
打造数据智能职业教育领军企业
Hadoop大数据期末测试题
01单选题
1、下面哪个程序负责HDFS数据存储?
a)NameNode
b)Jobtracker
c)Datanode
d)secondaryNameNode
e)tasktracker
答案Cdatanode
2、HDfS中的block默认保存几份?
a)3份
b)2份
c)1份
d)不确定
答案A默认3份
3、Hadoop作者?
a)MartinFowler
b)KentBeck
c)Dougcutting
答案CDougcutting
打造数据智能职业教育领军企业
打造数据智能职业教育领军企业
4、下列哪个程序通常与NameNode在一个节点启动?
a)SecondaryNameNode
b)DataNodeb)DataNode
c)TaskTracker
d)Jobtracker
答案:D
此题分析:
hadoop的集群是基于master/slave模式,namenode和
jobtracker属于master,datanode和tasktracker属于slave,
master只有一个,而slave有多个SecondaryNameNode内存需求
和NameNode在一个数量级上,所以通常secondary,NameNode
(运行在单独的物理机器上)和NameNode运行在不同的机器上。
JobTracker和TaskTracker,JobTracker对应于NameNode,
TaskTracker对应于DataNode,DataNode和NameNode是针对数
据存放来而言的,JobTracker和TaskTracker是对于MapReduce
执行而言的,mapreduce中几个主要概念,mapreduce整体上可以
分为这么几条执行线索:obclient,JobTracker与TaskTracker。
JobClient会在用户端通过JobClient类将应用已经配置参数打包
成jar文件存储到hdfs,并把路径提交到Jobtracker,然后由
JobTracker创建每一个Task(即MapTask和ReduceTask)并将
它们分发到各个TaskTracker服务中去执行。JobTracker是一个
打造数据智能职业教育领军企业
打造数据智能职业教育领军企业
master服务,软件启动之后JobTracker接收Job,负责调度Job的
每一个子任务task运行于TaskTracker上,并监控它们,如果发现
有失败的task就重新运行它。一般情况应该把JobTracker部署在单
独的机器上。TaskTracker是运行在多个节点上的slaver服务。
TaskTracker主动与JobTracker通信,接收作业,并负责直接执行
每一个任务。TaskTracker都需要运行在HDFS的DataNode上。
5、下列哪项通常是集群的最主要瓶颈:
a)CPU
b)网络
c)磁盘10
d)内存
答案:C磁盘
此题解析:
首先集群的目的是为了节省成本,用廉价的pc机,取代小型机
及大型机。小型机和大型机有什么特点?
1.cpu处理能力强
2.内存够大。所以集群的瓶颈不可能是a和d
3.网络是一种稀缺资源,但是并不是瓶颈。
打造数据智能职业教育领军企业
打造数据智能职业教育领军企业
4.由于大数据面临海量数据,读写数据都需要i。,然后还要冗余
数据,hadoop
一般备3份数据,所以10就会打折扣。
6、HDFS默认BlockSize
a)32MB
b)64MB
c)128MB
答案:B
7、关于SecondaryNameNode哪项是正确的?
a)它是NameNode的热备
b)它对内存没有要求
c)它的目的是帮助NameNode合并编辑日志,减少NameNode
启动时间
d)SecondaryNameNode应与NameNode部署到一个节点。
答案:C
02多选题
1、下列哪项可以作为集群的管理?
a)Puppet
b)Pdsh
打造数据智能职业教育领军企业
打造数据智能职业教育领军企业
c)ClouderaManager
d)Zookeeper
答案:ABD
2、配置机架感知的下面哪项正确:
a)如果一个机架出问题,不会影响数据读写
b)写入数据的时候会写到不同机架的DataNode中
c)MapReduce会根据机架获取离自己比较近的网络数据
答案:ABC
3、Client端上传文件的时候下列哪项正确?
a)数据经过NameNode传递给DataNode
b)Client端将文件切分为Block,依次上传
c)Client只上传数据到一台DataNode,然后由NameNode负责
Block复制工作答案:B
此题分析:
lient向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况,返回给Client它
所管理部分DataNode的信息。Client将文件划分为多个Block,根
据DataNode的地址信息,按顺序写入到每一个DataNode块中。
4、下列哪个是Hadoop运行的模式:
打造数据智能职业教育领军企业
打造数据智能职业教育领军企业
a)单机版
b)伪分布式
c)分布式
答案:ABC
5、Cloudera提供哪几种安装CDH的方法?
a)Clouderamanager
b)Tarball
c)Yum
d)Rpm
答案:ABCD
03判断题
1、Ganglia不仅可以进行监控,也可以进行告警。
正确
此题分析:此题的目的是考Ganglia的了解。严格意义上来讲是
正确。ganglia作为一款最常用的Unux环境中的监控软件,它擅长
的的是从节点中按照用户的需求以较低的代价采集数据。但是ganglia
在预警以及发生事件后通知用户上并不擅长。最新的ganglia已经有
了部分这方面的功能。但是更擅长做警告的还有Nagios。Nagios,就
是一款精于预警、通知的软件。通过将Ganglia和Nagios组合起
打造数据智能职业教育领军企业
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 有关实习协议范本-实习合同模板-实习合同5篇
- 建筑工程支付担保协议书3篇
- 道路毕业设计答辩
- 健康促进县课件
- T/ZHCA 012-2021化妆品美白功效测试斑马鱼胚胎黑色素抑制功效测试方法
- 2025贵州财经职业学院辅导员考试试题及答案
- 2025濮阳医学高等专科学校辅导员考试试题及答案
- 2025甘肃民族师范学院辅导员考试试题及答案
- 循环结构程序设计总结
- 预防疾病教育教案
- 林权继承协议书范本
- 2024年四川省巴中市中考文科综合试卷(含答案解析)
- 2024年吉林长春市中考地理试卷真题(含答案解析)
- 学校食堂人员工资发放方案范文
- 2023-2024学年人教版八年级下册数学 期末复习试题
- 专题03 陕西省(A卷)-2022-2023年各地中考英语听力真题合集(含听力原文及MP3)
- MOOC 营销管理-电子科技大学 中国大学慕课答案
- 《城市综合管廊技术状况评定标准》
- 2024年黔东南州能源投资有限公司招聘笔试参考题库附带答案详解
- 2024年度-白内障课件PPT
- 中国急性胰腺炎诊治指南解读张志强
评论
0/150
提交评论