使用Ambari快速部署Hadoop大数据环境_第1页
使用Ambari快速部署Hadoop大数据环境_第2页
使用Ambari快速部署Hadoop大数据环境_第3页
使用Ambari快速部署Hadoop大数据环境_第4页
使用Ambari快速部署Hadoop大数据环境_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、作者: 杨鑫奇前言做大数据相关的后端开发工作一年多来, 随着 hadoop社区的不断发展 , 也在不断尝试新的东西, 本文着重来讲解下 ambari, 这个新的 apache的项目 , 旨在让大家能够方便快速的配置和部署hadoop生态圈相关的组件的环境, 并提供维护和监控的功能. 作为新手 , 我讲讲我自己的学习经历, 刚刚开始学习的时候 , 当然最简单的 google 下 hadoop , 然后下载相关的包 , 在自己的虚拟机 (centos 6.3) 上安装一个单机的hadoop版本用来做测试 , 写几个测试类 ,然后做下 crud 测试之类的 , 跑跑 map/reduce的测试 ,

2、当然这个时候对于hadoop还不是很了解 , 不断的看别人的文章 , 了解下整体的架构 , 自己所做的就是修改conf 下的几个配置文件 , 让 hadoop能够正常的跑起来 , 这个时候几种在修改配置上, 这个阶段之后 , 又用到了 hbase,这个 hadoop生态圈的另外一个产品 , 当然还是修改配置 , 然后 start-all.sh , start-hbase.sh 把服务起起来 , 然后就是修改自己的程序 , 做测试 , 随着用 hbase 学了下 zookeeper 和 hive 等, 接着过了这个操作阶段了之后, 开始研究 hadoop2.0看了 董的博客的相关文章 , 还有

3、csdn 上很多大牛的文章了之后, 算是对 hadoop的生态圈整体有一些了解, 介于自己在公司所承担的开发所涉及到相关的技术仅仅就这些. 但是作为一个爱好探索的人 , 是否想多了解下呢 , 它的性能怎么样 ? 它是具体如何运作的? 看大公司的那些ppt,人家( 淘宝等大公司 ) 动不动就是几十个 , 几百个 , 乃至几千个节点 , 人家是如何管理的 , 性能是怎么样的 ?看着 ppt里面的那些性能测试的曲线, 你是否也能够详细的了解, 并且对自己的项目进行性能调优呢? 我貌似找到答案了 , 那就是 ambari , 由 hortonworks 开发的一个 hadoop相关的项目 , 具体可以

4、上官方去了解 . 了解 hadoop生态圈现在我们经常看到的一些关键字有: hdfs,mapreduce,hbase,hive,zookeeper,pig,sqoop,oozie,ganglia,nagios,cdh3,cdh4,flume,scribe,fluented,httpfs等等, 其实应该还有更多 ,hadoop 生态圈现在发展算是相当繁荣了, 而在这些繁荣的背后又是谁在推动的呢? 读过 hadoop历史的朋友可能知道,hadoop 最早是始于 yahoo,但是现在主要是由 hortonworks 和 cloudera 这2家公司在维护者 , 大部分的 commiter 都属于这

5、2家公司 , 所以现在市面上看到的主要有2个版本 ,cdh系列, 和社区版 , 我最早用的是社区版本, 后来换到 cdh3, 现在又换回社区版 , 因为有 ambari. 当然, 用什么和不用什么 , 只要自己的技术到家, 还是都能修改的跑的正常的.这里就不多说了 . 讲了这么多废话了 , 开始讲 ambari 安装吧 . 开始部署首先了解下 ambari, 项目地址在 : /ambari/安装文档在 : /ambari/1.2.2/installing-hadoop-using-ambar

6、i/content/index.htmlhortonworks 的人写的一篇介绍安装的文章我翻译了下: http:/ , 安装文档必须认真看 , 结合自己当前所使用的系统版本, 配置不同的源 , 而且安装过程中需要的时间相对比较长, 所以需要认真的做好安装文档的每个步骤. 这里我就说我遇到的一些问题. 以下说说我自己的安装过程. 机器准备 : 我的测试环境采用 9 台 hp 的烂机器 , 分别是 cloud100 - cloud108 , cloud108做为管理节点. ambari 安装的环境路径 : 各台机器的安装目录: /usr/lib/hadoop /usr/lib/hbase /us

7、r/lib/zookeeper /usr/lib/hcatalog /usr/lib/hive log 路径, 这里需要看出错信息都可以在目录下找到相关的日志/var/log/hadoop /var/log/hbase 配置文件的路径/etc/hadoop /etc/hbase /etc/hive hdfs 的存储路径/hadoop/hdfs 安装过程需要注意的点: 1, 安装的时候 , 需要做好每台机器的ssh 免密码登陆 , 这个之前的文章http:/ 中提到了 , 做好之后 , 从管理节点到各个集群节点之间, 都能使用这个登陆 . 2, 如果你的机器之前安装过 hadoop 的相关服务

8、, 特别是 hbase 里面配置了 hbase_home 的环境变量, 需要 unset 掉, 这个环境变量会影响, 因为我之前把这些路径放到 /etc/profile 里面导致影响了 hbase,因为 ambari 安装的路径和你之前安装的可能不一样. 3, 在服务选择页面的时候, namenode 和 snamenode 需要布置在一起 , 我之前尝试做 ha 而把他们分开, 但是 snamenode 一直起不来 , 导致整个启动失败 , 接下来时间需要花在ha上. 4. jobtrakcer 不和 namenode 在一起也会导致启动不起来 . 5. datanode的节点不能少于 bl

9、ock replication 中数, 基本都是需要 = 3. 6. confirm hosts 的时候 , 需要注意里面的 warning 信息, 把相关的 warning 都处理掉 , 有一些warning 会导致安装出错 . 7. 记住安装中所新建的用户, 接下来需要用到这些用户. 8. hive和 hbase master 部署在同一个节点 , 这里当然你也可以分开. 设置好后就开始安装了. 9. 如果安装失败的情况下, 如何重新安装 . 首先, 先删除掉系统已经安装的文件相关的目录, sh file_cp.sh cmd rm -rf /usr/lib/hadoop & rm

10、-rf /usr/lib/hbase & rm -rf /usr/lib/zookeeper sh file_cp.sh cmd rm -rf /etc/hadoop & rm -rf /etc/hbase & rm -rf /hadoop & rm -rf /var/log/hadoop sh file_cp.sh cmd rm -rf /etc/ganglia & rm -rf /etc/hcatalog & rm -rf /etc/hive & rm -rf /etc/nagios & rm -rf /etc/sqoop &

11、amp; rm -rf /var/log/hbase & rm -rf /var/log/nagios & rm -rf /var/log/hive & rm -rf /var/log/zookeeper & rm -rf /var/run/hadoop & rm -rf /var/run/hbase & rm -rf /var/run/zookeeper 再在 yum remove 掉安装的相关的包 . sh file_cp.sh cmd yum -y remove ambari-log4j hadoop hadoop-lzo hbase hi

12、ve libconfuse nagios sqoop zookeeper 我这里使用到了自己写的shell, 方便在多台机器之间执行命令: https:/ 注意时间的同步 , 时间问题会导致regionserver起不来11. iptables 需要关闭 , 有的时候可能机器会重新启动, 所以不单单需要 service stop 也需要chkconfig 关闭掉 . 最后安装完成后 , 登陆地址查看下服务的情况: http:/管理节点 ip:8080 , 比如我这里的 : 08:8080/ 登陆之后 , 需要设置之前在安装 ambari-server时候输入的

13、账号和密码, 进入查看 ganglia的监控查看 nagios 的监控测试安装完成后 , 看着这些都正常了 , 是否需要自己验证一下呢? 不过基本跑了冒烟测试后, 正常的话 , 基本还是正常的 , 但是我们自己也得来操作下吧. 验证 hdfs 验证 map/reduce 验证 hbase 验证 hive 总结到这里 , 相关的 hadoop 及 hbase 及 hive 的相关配置就都配置完成了, 接下来需要做一些压力测试.还有其他方面的测试, 对于 ambari 带的是 hortonworks 打包的 rpm版本的 hadoop 相关的源码 , 所以这里可能会和其他的版本有一些不同, 但是作为开发环境来说, 暂时还是没有很多大的影响的, 但是现在还没有在生产上使用, 所以也不管说如何的稳定, 接下来我会在开发项目的过程中, 将所遇到的bug给列出来 . 总体来说 ambari 还是很值得使用的 , 毕竟能够减少很多不必要的配置时间, 而且相对在单机环境下 , 在集群环境下更能贴近生产做一些相关的性能测试和调优测试等等, 而且配置的ganglia和 nagios 的监控也能够发布的让我

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论