版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
目录结构主流架构选用技术Hadoop版本选型方案选用的技术与其他工具的对比大数据相关的技术选型版本确定市场上的hadoop发行版厂商资料具体操作一、主流架构选用技术:采集层:flume;sqoop存储层:包括文件存储层和数据存储层文件:采用hdfs存储数据:采用hbase,redis等模型层:离线处理:mr/yarn;实时流式处理sparkstreaming(比storm的优势)分析层:hive管理层:zookeeper(调度;ha)选用Flume的好处:纯Java开发,框架分明,易于开发,可以直接写hdfs且支持对text和sequence压缩选用Spark的好处:基于内存,适合需要多次迭代计算的算法,在迭代处理计算方面比Hadoop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题安全操作认证,授权,审计,数据保护准备,管理,监控Storage:HDFSAmbariResource:YARNZookeeperAccess:HiveOoziePipeline:FalconCluster:KnoxHue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化大数据相关的技术选型版本确定:
操作系统:CentOS6.X各个技术版本:(最新,最稳定,bug少)Hadoop版本:hadoop-2.6.4.tar.gz此版本是一个相对最新且比较稳定的版本,基数版本可能不稳定,最好选用偶数版本Zookeeper版本:zookeeper-3.4.8.tar.gz此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。Flume版本:apache-flume-1.6.0-bin.tar.gzKafka版本:kafka_2.11-.tgz/082/documentation.htmlSpark版本:spark-1.6.0-bin-hadoop2.6.tgz此版本能支持Hadoop2.6.x以上的版本且相对稳定版Sqoop版本:sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gzHive版本:apache-hive-1.2.1-bin.tar.gzHbase版本:hbase-1.1.3-bin.tar.gzMahout版本:apache-mahout-distribution-0.11.0.tar.gz五、市场上的hadoop发行版厂商资料:版本:除了社区的ApacheHadoop外,Cloudera,Hortonworks,MapR,EMC,IBM,Intel,华为等都提供了自己的商业版本。版本内容特点网址ClouderaCDH包括HDFS、YARN、HBase、MapReduce、—Impala)。CDH完全开源,比ApacheHadoop在兼容性,安全性,稳定性上有所增强;ClouderaManager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个hadoop集群,并对集群的节点及服务进行实时监控。标价为每年每个节点4000美元。/documentation/archive/cdh/4-x/4-7-1/CDH4-Installation-Guide/cdh4ig_topic_11_4.htmlHortonworksHDP包括HDFS、YARN、HBase、MapReduce、Hive、Pig、HCatalog、Zookeeper、Oozie、Mahout、Hue、Ambari、Tez和Hive的实时版(Stinger)以及其他开源工具。集成和测试封装;安装方便;管理和监控服务;数据集成服务;元数据服务;高可用性;每10个节点每年为12500美元。拥有大量的Hadoop专家,对Hadoop的发展起到了重要作用,拥有广泛的合作伙伴支持,专供Hadoop;对专有代码的依赖低于Cloudera/MapR包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他开源工具。还包括直接NFS访问、快照和用于“高可用性”的镜像,有版权的HBase实现(与ApacheAPI完全兼容),以及MapR管理控制台。1.构建一个HDFS的私有替代品,这个替代品比当前的开源版本快三倍,自带快照功能,而且支持无NameNode单点故障(SPOF),并且在API上和开源版兼容,所以可以考虑将其作为替代方案。不再需要单独的NameNode机器,元数据分散在集群中,也类似数据默认存储三份。2.也不再需要用网络附加存储(NAS)来协助NameNode做元数据备份,提高了机器使用率。3.还有个重要的特点是可以使用nfs直接访问hdfs,提供了与旧有应用的兼容性。镜像功能也很适合做数据备份,而且支持跨数据中心的镜像,快照功能对于数据的恢复作用明显。4.每年每个节点4000美元。5.在性能方面具备优势。/EMC包括HDFS、MapReduce、Hive、Pig、HBase、Zookeeper、Sqoop、Flume和其他开源工具。兼容SQL;完全兼容ODBC/JDBC;交互式查询;数据管理;深度分析/zh-cn/index.htm?fromGlobalSelectorIBM基础版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和一些其他开源工具,以及IBM安装程序和数据访问工具的基础版本。企业版增加了复杂的作业管理工具、与主要数据源相互集成的数据访问层和BigSheets(类似于电子表格的界面,用于在集群中操作数据)在平台管理,安全认证,作业调度算法,与DB2及netezza的集成上做了增强。兼容性好,同时运行多种Hadoop版本的程序,IBM的服务。/us-en/IntelApacheHadoopIntel分发版主要是强调其能提供全面的软硬件解决方案设计,针对硬件具有更好的性能优化,以及提供集群管理工具和安装工具简化了Hadoop的安装和配置,能够提供项目规划到实施各阶段专业的咨询服务,实际中采购Intel版本貌似动力不足。性能好,最先进入中国市场。/华为FunsionlnsightHadoop基于ApacheHadoop,构建NameNode、JobTracker、HiveServer的HA功能,进程故障后系统自动Failover,无需人工干预,这个也是对Hadoop的小修补,远不如MapR解决的彻底。/cn/当为公司/部门选取特定发行版时,需要考虑如下因素:技术细节——应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。易于部署——应该有可用的工具包来管理部署、版本更新、补丁等。易于维护——涉及集群管理、多中心支持、灾难恢复支持等。成本——包括实现某个特定版本所需要的费用、计费模式和许可证。企业应用集成支持——包括对Hadoop应用与企业的其他应用进行集成的支持。选用Cloudera的方案:Cloudera:最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。优点:基于Apache协议,100%开源。版本管理清晰。比如Cloudera,CDH1,CDH2,CDH3,CDH4等,后面加上补丁版本,如CDH4.1.0patchlevel923.142,表示在原生态ApacheHadoop0.20.2基础上添加了1065个patch。比ApacheHadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。版本更新快。通常情况,比如CDH每个季度会有一个update,每一年会有一个release。基于稳定版本ApacheHadoop,并应用了最新Bug修复或Feature的patch提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。
缺点:涉及到厂商锁定的问题。(可以通过技术解决)六、具体操作:Hadoop2.6HA搭建至少四台机器:hadoop1,hadoop2,hadoop3,hadoop4NNDNZKZKFCJNRMNM(任务管理)Hadoop1YYYHadoop2YYYYYYYHadoop3YYYYHadoop4YYYcore-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://zhjy</value></property><property><name>ha.zookeeper.quorum</name><value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value></property><property><name>hadoop.tmp.dir</name><value>/opt/hadoop</value></property></configuration>hdfs-site.xml<configuration><property><name>services</name><value>zhjy</value></property><property><name>nodes.zhjy</name><value>nn1,nn2</value></property><property><name>node.rpc-address.zhjy.nn1</name><value>hadoop1:8020</value></property><property><name>node.rpc-address.zhjy.nn2</name><value>hadoop2:8020</value></property><property><name>node.http-address.zhjy.nn1</name><value>hadoop1:50070</value></property><property><name>node.http-address.zhjy.nn2</name><value>hadoop2:50070</value></property><property><name>node.shared.edits.dir</name><value>qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/zhjy</value></property><property><name>vider.zhjy</name><value>node.ha.ConfiguredFailoverProxyProvider</value></property><property><name>dfs.ha.fencing.methods</name><value>sshfence</value></property><property><name>dfs.ha.fencing.ssh.private-key-files</name><value>/root/.ssh/id_dsa</value></property><property><name>dfs.journalnode.edits.dir</name><value>/opt/hadoop/data</value></property><property><name>dfs.ha.automatic-failover.enabled</name><value>true</value></property></configuration>准备zookeeper三台zookeeper:hadoop1,hadoop2,hadoop3编辑zoo.cfg配置文件修改dataDir=/opt/zookeeperserver.1=hadoop1:2888:3888server.2=hadoop2:2888:3888server.3=hadoop3:2888:3888在dataDir目录中创建一个myid的文件,文件内容为1,2,3配置hadoop中的slaves启动三个zooke
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026学年设计教学骗局
- 32.综合与实践教学设计-2025-2026学年小学数学四年级下册浙教版
- 2026年地质调查员矿产技能竞赛题目及答案
- 事前审计监督制度
- 人民银行选人用人报告制度
- 企业内部审计与管理制度
- 企业社会责任审计制度
- 供暖绩效考核制度
- 保洁公司法律风控制度
- 2.3 感应电动势的大小-法拉第电磁感应定律教学设计高中物理沪教版2019选择性必修第二册-沪教版2019
- 取水许可管理办法变更申请书(空表)
- 2024中国中信金融资产管理股份有限公司广西分公司招聘笔试冲刺题(带答案解析)
- 2024年新改版青岛版(六三制)四年级下册科学全册知识点
- 鱼类性别控制技术研究进展专题培训课件
- 旧桥拆除专项施工方案
- 小学生古诗词大赛备考题库(300题)
- 化学预氧化简介
- GB/T 9978.2-2019建筑构件耐火试验方法第2部分:耐火试验试件受火作用均匀性的测量指南
- GB/T 17711-1999钇钡铜氧(123相)超导薄膜临界温度Tc的直流电阻试验方法
- 建设项目办理用地预审与选址意见书技术方案
- 研究生学术道德与学术规范课件
评论
0/150
提交评论