




已阅读5页,还剩34页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章Hadoop入门,课程地位,2/39,本课目标,学完本门课程后,你能够,了解云计算与大数据的概念,会运行、使用、维护Hadoop,能够在Hadoop上开发分布式计算程序,能够运用Hadoop解决大数据中的简单问题,3/39,课程结构图,4/39,课程项目展示,贯穿案例:音乐排行榜项目案例:天气查询系统,5/39,辅助学习资料推荐,教员备课时根据课程情况在此添加内容,可以是青鸟云课堂推荐资料、也可以是教员积累的的资料,如帮助手册、经典书籍等,此页PPT可选,如果不需要提供辅助学习资料,则可以删除此页。,6/39,课前,浏览预习作业,带着问题读学生用书,并记录疑问即使看不懂也要坚持看完提前将下一章的示例自己动手做一遍,记下问题,课上,认真听讲,做好笔记完成上机练习或项目案例,课后,及时总结,完成学生用书和学习平台布置的作业多模仿,多练习多浏览技术论坛、博客,获取他人的开发经验,学习方法,7/39,预习检查,什么是大数据?常见的大数据处理系统有哪些?Hadoop的核心是什么?简述Hadoop运行环境的安装步骤简述Hadoop开发环境的安装步骤,集中测试,8/39,本章任务,安装Hadoop运行环境安装Hadoop开发环境,9/39,本章目标,了解云计算与大数据了解Hadoop体系结构能够安装Hadoop运行环境熟悉Hadoop开发环境,10/39,为什么学习大数据,应用案例谷歌的云计算平台成功预测了世界杯16强比赛每场比赛的胜利者沃尔玛(零售连锁超市)啤酒与尿不湿百度高考2014年预测押中了全国18套作文考题中的12套其他应用,推荐引擎情感分析风险建模欺诈检测营销活动分析,客户流失分析社交图谱分析用户体验分析网络监控产品设计,11/39,什么是大数据,大数据定义是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合大数据特点体量巨大数据类型多样,以非结构化数据为主价值密度低产生和要求处理速度快大数据处理系统Hadoop、Spark、Stom等,12/39,大数据应该怎么学习,大数据就业方向大数据系统研发工程师大数据应用开发工程师大数据可视化工程师大数据分析师目标:大数据应用开发选择以Hadoop作为解决方案要求掌握Hadoop前置技能Java编程基础Linux基本操作以分布式方式求解问题,13/39,为什么首先学习Hadoop,Hadoop的优势低成本高扩展性高效性高容错性多家厂商支持或者采用Hadoop,14/39,Hadoop简介3-1,DougCutting来自于Yahoo的工程师读了Google相关论文后建立的分布式计算平台“Hadoop”是以他儿子的玩具大象命名Hadoop可以做什么分布式存储(HDFS)分布式计算(MapReduce)更方便的存储数据(HBase).,15/39,Hadoop简介3-2,更加完整的Hadoop生态圈,16/39,存储管理,基本数据的处理,随机数据读写、实时访问,Hadoop简介3-3,Hadoop发行版本,17/39,准备Hadoop运行环境2-1,所需软件包VMWareWorkstation12CentOS6.5(64位)jdk-7u67-linux-x64.rpmhadoop-2.6.0.tar.gz在Linux中配置Hadoop运行环境创建用户安装JDK(/usr/java/jdk7)配置SSH免密码登录客户端主机(拥有自己的私钥、请求方)服务端主机(拥有别人的公钥、应答方),18/39,配置SSH免密码登录要求准备三台实验机(node1、node2、node3)实现node1免密码登录至node1、node2、node3步骤在客户端主机中生成公/私钥对ssh-keygen-trsa将客户端主机中的公钥分发给服务端主机ssh-copy-id服务端主机地址在客户端主机上免密码登录至服务端ssh服务端主机地址,准备Hadoop运行环境2-2,19/39,Hadoop完全分布式安装9-1,Hadoop的三种运行方式单机模式、伪分布式、完全分布式完全分布式实验环境完全分布式安装步骤安装Hadoop配置Hadoop:七个XML文件,20/39,Hadoop完全分布式安装9-2,安装Hadoop解压hadoop-2.6.0.tar.gz到用户HOME目录cdtar-zxvfhadoop-2.6.0.tar.gz重命名mvhadoop-2.6.0hadoop配置环境变量:/etc/profileexportHADOOP_HOME=/home/hduser/hadoopexportPATH=$HADOOP_HOME/bin:$PATH,提示,21/39,Hadoop完全分布式安装9-3,Hadoop目录结构bin:执行文件目录etc:Hadoop配置文件都在此目录include:包含C语言接口开发所需头文件lib:包含C语言接口开发所需链接库文件libexec:运行sbin目录中的脚本会调用该目录下的脚本logs:日志目录,在运行过Hadoop后会生成该目录sbin:仅超级用户能够执行的脚本,包括启动和停止dfs、yarn等share:包括doc和hadoop两个目录doc目录包含大量的Hadoop帮助文档hadoop目录包含了运行Hadoop所需的所有jar文件,在开发中用到的jar文件也可在该目录找到,22/39,Hadoop完全分布式安装9-4,Hadoop配置配置文件一:hadoop-env.sh指定JDK路径:exportJAVA_HOME=/usr/java/jdk1.7.0_67配置文件二:yarn-env.sh配置YARN框架以执行MapReduce程序指定JDK路径:exportJAVA_HOME=/usr/java/jdk1.7.0_67配置文件三:slaves选择node2、node3作为从节点,提示,23/39,Hadoop完全分布式安装9-5,Hadoop配置配置文件四:core-site.xmlHadoop的全局配置,示例,fs.defaultFShdfs:/node1:9000hadoop.tmp.dirfile:/home/hduser/hadoop/tmp,24/39,Hadoop完全分布式安装9-6,Hadoop配置配置文件五:hdfs-site.xmlHadoop分布式文件系统HDFS的配置,示例,node.secondary.http-addressnode1:50090.dirfile:/home/hduser/hadoop/dfs/namedfs.datanode.data.dirfile:/home/hduser/hadoop/dfs/datadfs.replication2dfs.webhdfs.enabledtrue,25/39,Hadoop完全分布式安装9-7,Hadoop配置配置文件六:mapred-site.xml,示例,yarnmapreduce.jobhistory.addressnode1:10020mapreduce.jobhistory.webapp.addressnode1:19888,该属性指定使用YARN框架运行MapReduce程序,26/39,Hadoop完全分布式安装9-8,Hadoop配置配置文件七:yarn-site.xml如果在mapred-site.xml配置了使用YARN框架,那么YARN框架使用此文件中的配置配置如下基本属性以指定相关服务地址yarn.resourcemanager.addressyarn.resourcemanager.scheduler.addressyarn.resourcemanager.resource-tracker.addressyarn.resourcemanager.admin.addressyarn.resourcemanager.webapp.address最后将前面七个配置文件从node1复制到node2和node3scp-r/home/hduser/hadoop/etc/hadoop/hdusernode2:/home/hduser/hadoop/etc/scp-r/home/hduser/hadoop/etc/hadoop/hdusernode3:/home/hduser/hadoop/etc/,27/39,Hadoop完全分布式安装9-9,验证Hadoop的安装、配置格式化NameNode关闭各实验机的系统防火墙并重启启动HDFS启动YARN查看Hadoop集群运行状态,28/39,bin/hdfsnamenode-format,sbin/start-dfs.sh,sbin/start-yarn.sh,jpsbin/hdfsdfsadmin-report,第一个MapReduce程序,WordCount单词统计使用MapReduce框架编写实现了对多个文本中单词计数的功能位于hadoop-mapreduce-examples-2.6.0.jar运行MapReduce程序的命令运行WordCount,hadoopjarxxx.jarxxx.MainClassNameinputPathoutputPath,hadoopjar/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jarwordcount/input2/output2/wordcount1,29/39,示例,小结,Hadoop完整的安装过程准备Hadoop运行环境并划分主机角色创建虚拟Linux主机、创建用户、安装JDK、配置SSH登录、修改hostname和hosts文件安装Hadoop解压到合适的目录修改/etc/profile,配置Hadoop环境变量HADOOP_HOME配置Hadoop:hadoop/etc/hadoop目录中的文件hadoop-env.sh、yarn-env.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml同步所有节点的Hadoop配置验证安装格式化注意正确配置防火墙启动HDFS、YARN,30/39,学员操作安装Hadoop,需求说明完成Hadoop完全分布式安装准备三台Hadoop运行环境安装Hadoop配置Hadoop七个XML文件同步三台实验机的Hadoop配置验证安装并运行WordCount程序,练习,提示,31/39,常见问题及解决办法代码规范问题调试技巧,共性问题集中讲解,32/39,安装Hadoop开发环境,所需软件包eclipse-java-kepler-SR2-linux-gtk-x86_64.tar.gzhadoop-eclipse-plugin-2.6.0.jar安装步骤在node1节点机上解压eclipse至合适目录如:/home/hduser/eclipse将hadoop-eclipse-plugin-2.6.0.jar移到Eclipse插件目录/home/hduser/eclipse/plugins配置hadoop-eclipse-plugin,33/39,学员操作安装Hadoop开发环境,需求说明完成Eclipse在Linux下的安装完成HadoopEclipse插件的安装找到Hadoop提供的源码WordCount.java,在Eclipse创建WordCount并成功运行WordCount源码位于hadoop/share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar,练习,提示,34/39,常见问题及解决办法代码规范问题调试技巧,共性问题集中讲解,35/39,总结,大数据Hadoop,Hadoop入门,体量巨大数据类型多样价值密度低产生和要求处理速度快,原则特点,一切都被记录、一切都被数字化(存储)从数字里寻找需求、寻找知识、发掘价值(计算),体系结构的核心运行环境(Linux+Java)Hadoop的完全分布式安装开发环境,HDFS(解决存储问题)MapReduce(解决计算问题),EclipseHadoopEclipse插件,hadoop-env.shyarn-env.shslavescore-site.xmlhdfs-site.xmlmapred-s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自动控制原理课程设计8
- 设备培训方案 (一)
- 峨边彝族自治县教学质量检测八年级生物试题
- 贝克痣的心理影响评估工具开发
- Unit 10 Lesson 7 Reading for Writing 课件 2024-2025学年仁爱科普版英语七年级下册
- 建筑施工特种作业-建筑架子工(普通脚手架)真题库-7
- 日语考级教材题目及答案
- 2023-2024学年湖南省郴州市高二下学期期末教学质量监测数学试题(解析版)
- 2023-2024学年福建省宁德市高二下学期期末质量检测数学试题(解析版)
- (高清版)DB32∕T 4799-2024 地震预警信息发布
- 系统商用密码应用方案v5-2024(新模版)
- 核磁共振(NMR)讲课
- 基于单片机的彩灯控制器设计
- 2024至2030年中国医疗信息化市场潜力与投资前景分析报告
- 四川省成都市成华区2023-2024学年七年级下学期期末生物试题(原卷版)
- 走进黄帝内经文化殿堂智慧树知到答案2024年上海中医药大学
- 配电房预试验服务和维保方案
- 东南亚文化智慧树知到期末考试答案章节答案2024年天津外国语大学
- 安徽省阜阳市太和县2023-2024学年八年级下学期期末英语试题
- 个体诊所备案承诺书模板
- QCT1164-2022汽车用天然气滤清器
评论
0/150
提交评论