基于Hadoop生态系统的大数据解决方案TP01_第1页
基于Hadoop生态系统的大数据解决方案TP01_第2页
基于Hadoop生态系统的大数据解决方案TP01_第3页
基于Hadoop生态系统的大数据解决方案TP01_第4页
基于Hadoop生态系统的大数据解决方案TP01_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章Hadoop入门课程地位2/39本课目标学完本门课程后,你能够了解云计算与大数据的概念会运行、使用、维护Hadoop能够在Hadoop上开发分布式计算程序能够运用Hadoop解决大数据中的简单问题3/39课程结构图4/39课程项目展示贯穿案例:音乐排行榜项目案例:天气查询系统演示课程项目5/39辅助学习资料推荐教员备课时根据课程情况在此添加内容,可以是青鸟云课堂推荐资料、也可以是教员积累的的资料,如帮助手册、经典书籍等此页PPT可选,如果不需要提供辅助学习资料,则可以删除此页。6/39课前浏览预习作业,带着问题读学生用书,并记录疑问即使看不懂也要坚持看完提前将下一章的示例自己动手做一遍,记下问题课上认真听讲,做好笔记完成上机练习或项目案例课后及时总结,完成学生用书和学习平台布置的作业多模仿,多练习多浏览技术论坛、博客,获取他人的开发经验学习方法7/39预习检查什么是大数据?常见的大数据处理系统有哪些?Hadoop的核心是什么?简述Hadoop运行环境的安装步骤简述Hadoop开发环境的安装步骤集中测试8/39本章任务安装Hadoop运行环境安装Hadoop开发环境9/39本章目标了解云计算与大数据了解Hadoop体系结构能够安装Hadoop运行环境熟悉Hadoop开发环境10/39为什么学习大数据应用案例谷歌的云计算平台成功预测了世界杯16强比赛每场比赛的胜利者沃尔玛(零售连锁超市)啤酒与尿不湿百度高考2014年预测押中了全国18套作文考题中的12套其他应用推荐引擎情感分析风险建模欺诈检测营销活动分析客户流失分析社交图谱分析用户体验分析网络监控产品设计11/39什么是大数据大数据定义是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合大数据特点体量巨大数据类型多样,以非结构化数据为主价值密度低产生和要求处理速度快大数据处理系统Hadoop、Spark、Stom等12/39大数据应该怎么学习大数据就业方向大数据系统研发工程师大数据应用开发工程师大数据可视化工程师大数据分析师目标:大数据应用开发选择以Hadoop作为解决方案要求掌握Hadoop前置技能Java编程基础Linux基本操作以分布式方式求解问题13/39为什么首先学习HadoopHadoop的优势低成本高扩展性高效性高容错性多家厂商支持或者采用Hadoop14/39Hadoop简介3-1DougCutting来自于Yahoo的工程师读了Google相关论文后建立的分布式计算平台“Hadoop”是以他儿子的玩具大象命名Hadoop可以做什么分布式存储(HDFS)分布式计算(MapReduce)更方便的存储数据(HBase)...15/39Hadoop简介3-2更加完整的Hadoop生态圈16/39存储管理基本数据的处理随机数据读写、实时访问Hadoop简介3-3Hadoop发行版本ApacheHadoop大版本说明第二代Hadoop2.x.x下一代Hadoop,由0.23.x演化而来0.23.x下一代Hadoop,重构MapReduce框架并称为YARN第一代Hadoop1.0.x稳定版,由0.20.x演化而来0.22.x非稳定版0.21.x非稳定版0.20.x经典版本,加入新的JavaMapReduceAPI,最后演化成1.0.x17/39准备Hadoop运行环境2-1所需软件包VMWareWorkstation12CentOS6.5(64位)jdk-7u67-linux-x64.rpmhadoop-2.6.0.tar.gz在Linux中配置Hadoop运行环境创建用户安装JDK(/usr/java/jdk7)配置SSH免密码登录客户端主机(拥有自己的私钥、请求方)服务端主机(拥有别人的公钥、应答方)18/39配置SSH免密码登录要求准备三台实验机(node1、node2、node3)实现node1免密码登录至node1、node2、node3步骤在客户端主机中生成公/私钥对

ssh-keygen-trsa将客户端主机中的公钥分发给服务端主机

ssh-copy-id

服务端主机地址在客户端主机上免密码登录至服务端

ssh服务端主机地址

准备Hadoop运行环境2-2演示1:准备三台实验机并配置SSH登录19/39Hadoop完全分布式安装9-1Hadoop的三种运行方式单机模式、伪分布式、完全分布式完全分布式实验环境完全分布式安装步骤安装Hadoop配置Hadoop:七个XML文件主机名IP地址所分配的角色node130Master(NameNode,JobTracker)node231Slave(DataNode,TaskTracker)node332Slave(DataNode,TaskTracker)20/39Hadoop完全分布式安装9-2安装Hadoop解压hadoop-2.6.0.tar.gz到用户HOME目录cd~tar-zxvfhadoop-2.6.0.tar.gz重命名mvhadoop-2.6.0hadoop配置环境变量:/etc/profileexportHADOOP_HOME=/home/hduser/hadoopexportPATH=$HADOOP_HOME/bin:$PATH提示每台实验机都需要重复上述安装操作!21/39演示2:安装HadoopHadoop完全分布式安装9-3Hadoop目录结构bin:执行文件目录etc:Hadoop配置文件都在此目录include:包含C语言接口开发所需头文件lib:包含C语言接口开发所需链接库文件libexec:运行sbin目录中的脚本会调用该目录下的脚本logs:日志目录,在运行过Hadoop后会生成该目录sbin:仅超级用户能够执行的脚本,包括启动和停止dfs、yarn等share:包括doc和hadoop两个目录doc目录包含大量的Hadoop帮助文档hadoop目录包含了运行Hadoop所需的所有jar文件,在开发中用到的jar文件也可在该目录找到22/39Hadoop完全分布式安装9-4Hadoop配置配置文件一:hadoop-env.sh指定JDK路径:

exportJAVA_HOME=/usr/java/jdk1.7.0_67配置文件二:yarn-env.sh配置YARN框架以执行MapReduce程序指定JDK路径:

exportJAVA_HOME=/usr/java/jdk1.7.0_67配置文件三:slaves选择node2、node3作为从节点提示所有配置文件首先在node1上配置,然后复制到其他节点!23/39演示3:Hadoop配置(一)、(二)、(三)Hadoop完全分布式安装9-5Hadoop配置配置文件四:

core-site.xmlHadoop的全局配置示例<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://node1:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>file:/home/hduser/hadoop/tmp</value> </property></configuration>24/39演示4:Hadoop配置(四)Hadoop完全分布式安装9-6Hadoop配置配置文件五:hdfs-site.xml

Hadoop分布式文件系统HDFS的配置示例属性说明node.secondary.http-addressSecondaryNameNode服务器HTTP地址和端口.dirNameNode存储名字空间及汇报日志的位置dfs.datanode.data.dirDataNode存放数据块的目录列表dfs.replication冗余备份数量,一份数据可设置多个拷贝dfs.webhdfs.enabled在NameNode和DataNode中启用WebHDFS<configuration> <property> <name>node.secondary.http-address</name> <value>node1:50090</value> </property> <property> <name>.dir</name> <value>file:/home/hduser/hadoop/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/home/hduser/hadoop/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> <property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property></configuration>25/39演示5:Hadoop配置(五)Hadoop完全分布式安装9-7Hadoop配置配置文件六:mapred-site.xml示例<configuration> <property> <name></name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>node1:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>node1:19888</value> </property></configuration>该属性指定使用YARN框架运行MapReduce程序26/39演示6:Hadoop配置(六)Hadoop完全分布式安装9-8Hadoop配置配置文件七:yarn-site.xml如果在mapred-site.xml配置了使用YARN框架,那么YARN框架使用此文件中的配置配置如下基本属性以指定相关服务地址yarn.resourcemanager.addressyarn.resourcemanager.scheduler.addressyarn.resourcemanager.resource-tracker.addressyarn.resourcemanager.admin.addressyarn.resourcemanager.webapp.address最后将前面七个配置文件从node1复制到node2和node3scp-r/home/hduser/hadoop/etc/hadoop/hduser@node2:/home/hduser/hadoop/etc/scp-r/home/hduser/hadoop/etc/hadoop/hduser@node3:/home/hduser/hadoop/etc/27/39演示7:Hadoop配置(七)Hadoop完全分布式安装9-9验证Hadoop的安装、配置格式化NameNode关闭各实验机的系统防火墙并重启启动HDFS启动YARN查看Hadoop集群运行状态演示8:验证Hadoop完全分布式安装28/39bin/hdfsnamenode-formatsbin/start-dfs.shsbin/start-yarn.shjpsbin/hdfsdfsadmin-report第一个MapReduce程序WordCount单词统计使用MapReduce框架编写实现了对多个文本中单词计数的功能位于hadoop-mapreduce-examples-2.6.0.jar运行MapReduce程序的命令运行WordCounthadoopjarxxx.jarxxx.MainClassNameinputPathoutputPathhadoopjar~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jarwordcount/input2//output2/wordcount1演示9:运行第一个MapReduce程序29/39示例小结Hadoop完整的安装过程准备Hadoop运行环境并划分主机角色创建虚拟Linux主机、创建用户、安装JDK、配置SSH登录、修改hostname和hosts文件安装Hadoop解压到合适的目录修改/etc/profile,配置Hadoop环境变量HADOOP_HOME配置Hadoop:hadoop/etc/hadoop目录中的文件hadoop-env.sh、yarn-env.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml同步所有节点的Hadoop配置验证安装格式化注意正确配置防火墙启动HDFS、YARN30/39学员操作——安装Hadoop需求说明完成Hadoop完全分布式安装准备三台Hadoop运行环境安装Hadoop配置Hadoop七个XML文件同步三台实验机的Hadoop配置验证安装并运行WordCount程序练习提示完成时间:50分钟31/39常见问题及解决办法代码规范问题调试技巧共性问题集中讲解共性问题集中讲解32/39安装Hadoop开发环境所需软件包eclipse-java-kepler-SR2-linux-gtk-x86_64.tar.gzhadoop-eclipse-plugin-2.6.0.jar安装步骤在node1节点机上解压eclipse至合适目录如:/home/hduser/eclipse将hadoop-eclipse-plugin-2.6.0.jar移到Eclipse插件目录/home/hduser/eclipse/plugins配置hadoop-eclipse-plugin演示10:安装Hadoop开发环境演示11:创建MapReduce程序33/39学员操作——安装Hadoop开发环境需求说明完成Eclipse在Linux下的安装完成HadoopEclipse插件的安装找到Hadoop提供的源码WordCount.java,在Eclipse创建WordCount并成功运行WordCount源码位于hadoop/share/ha

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论