



下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、.目录结构一、主流架构选用技术二、 Hadoop版本选型方案三、选用的技术与其他工具的对比四、大数据相关的技术选型版本确定五、市场上的 hadoop发行版厂商资料六、具体操作专业资料.一、主流架构选用技术:采集层: flume ;sqoop存储层:包括文件存储层和数据存储层文件:采用 hdfs 存储数据:采用 hbase , redis 等模型层:离线处理: mr/yarn; 实时流式处理 spark streaming(比 storm的优势 )分析层: hive管理层: zookeeper(调度; ha )专业资料.二、 Hadoop版本选型方案:Hadoop提供的经典方案:HDP (Had
2、oop Data Platform)管理一体化数据接入FlumeScriptSQLNosqlStreamSearchIn-MemoryOthersSqoopPigHiveHbaseStormSolrSparkYARN-Ready AppsNFS专业资料.-WebHDFSYARNFalcon-HDFS-数据管理专业资料.三、选用的技术与其他工具的对比:选用 sqoop的好处:开源,抽取的数据可以直接传至hive ,可操作性和可视性高专业资料.选用 Flume的好处:纯Java 开发,框架分明,易于开发,可以直接写hdfs 且支持对text和 sequence压缩专业资料.选用 Spark 的好处
3、:基于存,适合需要多次迭代计算的算法,在迭代处理计算方面比 Hadoop快 100 倍以上, Spark 采用一个统一的技术堆栈解决了云计算大数据的所有核心问题安全操作认证,授权,审计,数据保护准备,管理,监控Storage : HDFSAmbariResource :YARNZookeeperAccess : HiveOoziePipeline:FalconCluster:Knox专业资料.Hue 的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化四、大数据相关的技术选型版本确定:操作系统: CentOS6.X各个技术版本:(最新,最稳定,bug 少)Hadoop版本:此版本
4、是一个相对最新且比较稳定的版本,基数版本可能不稳定,最好选用偶数版本Zookeeper版本:此版本修复了此前的9 个问题,最明显的是在关闭zookeeper时会产生的一个停顿问题。Flume版本: 专业资料.Kafka 版本:Spark 版本:此版本能支持以上的版本且相对稳定版Sqoop版本: Hive 版本:Hbase 版本:Mahout版本: 五、市场上的hadoop发行版厂商资料:版本: 除了社区的ApacheHadoop外, Cloudera, Hortonworks,专业资料.MapR, EMC , IBM, Intel, 华为等都提供了自己的商业版本。版本容特点网址CDH包括HDF
5、S、ClouderaYARN、HBase、MapReduce、Hive 、Pig 、 Zookeeper、Oozie 、Mahout、Hue和其他开源工具( 包括实时查询引擎Impala) 。CDH完 全 开 源 , 比ApacheHadoop在兼容性,安全性,稳定性 上 有 所 增 强 ; ClouderaManager是集群的软件分发及管理监控平台,可以在几个小时部署好一个 hadoop集群,并对集群的节点及服务进行实时监控。标价为每年每个节点 4000 美元。.cloudera./documentation/archive/cdh/4-x/4-7-1/CDH4-Installation-
6、Guide/cdh4ig_topic_11_4.htmlHortonworksMapRHDP 包 括 HDFS 、http:/horYARN集成和测试封装;安装方便;管理、 HBase 、MapReduce 、Hive 、tonworks./Pig 、和监控服务;数据集成服务;元数HCatalog 、Zookeeper 、 Oozie 、Mahout据服务;高可用性;每 10 个节点每、 Hue 、Ambari、Tez 和 Hive美元。拥 有大量的年为 12500的实时版(Stinger)以及其他开源工具。Hadoop专家,对 Hadoop的发展起到了重要作用,拥有广泛的合作伙伴支持,专供H
7、adoop ;对专有代码的依赖低于Cloudera包括 HDFS 、HBase 、1. 构建一个HDFS 的私有替代品,https:/.mMapReduce、Hive 、专业资料.Mahout、Oozie 、Pig 、这个替代品比当前的开源版本快三apr./ZooKeeper、Hue和其他开源工具。 还包括直接 NFS 访问、快照和用于 “高可用性” 的镜像,有的HBase 实现(与 Apache API 完全兼容 ),以及MapR管理控制台。倍,自带快照功能,而且支持无NameNode单点故障(SPOF) ,并且在API 上和开源版兼容,所以可以考虑将其作为替代方案。不再需要单独的NameN
8、ode机器,元数据分散在集群中,也类似数据默认存储三份。2. 也不再需要用网络附加存储(NAS)来协助NameNode做元数据备份,提高了机器使用率。3. 还有个重要的特点是可以使用nfs 直接访问 hdfs ,提供了与旧有应用的兼容性。镜像功能也很适合做数据备份,而且支持跨数据中心的镜像,快照功能对于数据的恢复作用明显。4. 每年每个节点 4000 美元。5. 在性能方面具备优势。包括HDFS、EMC兼容 SQL ;完全兼容 ODBC/JDBC ; .emc./zh-/MapReduce 、Hive 、Pig、HBase、交互式查询;数据管理;深度分析index.htmZookeeper、S
9、qoop 、Flume和其他开源工?fromGlob具。专业资料.alSelector基础版包括HDFS 、IBMHBase、MapReduce、Hive 、Mahout、Oozie 、Pig 、ZooKeeper、Hue和一些其他开源工具, 以及 IBM安装程序和数据访问工具的基础版本。企业版增加了复杂的作业管理工具、 与主要数据源相互集成的数据访问层和BigSheets(类似 于电子表格的界面, 用于在集群中操作数据)在 平台管理,安全认证,作业调度算法,与 DB2 及 netezza的集成上做了增强。兼容性好,同时运行多种 Hadoop版本的程序,IBM 的服务。.ibm./us-en/
10、Intel华为Apache Hadoop主要是强调其能提供全面的软硬http:/ark.Intel 分发版件解决方案设计, 针对硬件具有intel./更好的性能优化,以及 提供集群管理工具和安装工具简化了Hadoop的安装和配置,能够提供项目规划到实施各阶段专业的咨询服务,实际中采购Intel版本貌似动力不足。性能好,最先进入中国市场。Funsionlnsight基 于 ApacheHadoop , 构 建 .huawei./HadoopNameNode、JobTracker 、HiveServer的 HA 功能,进程故专业资料.障后系统自动Failover,无需人工干预,这个也是对Hadoo
11、p的小修补,远不如MapR解决的彻底。当为公司 / 部门选取特定发行版时,需要考虑如下因素:技术细节 应该包括 Hadoop版本、包含的组件、 涉及所有权的功能组件等。易于部署 应该有可用的工具包来管理部署、版本更新、补丁等。易于维护 涉及集群管理、多中心支持、灾难恢复支持等。成本 包括实现某个特定版本所需要的费用、计费模式和许可证。企业应用集成支持 包括对 Hadoop应用与企业的其他应用进行集成的支持。选用 Cloudera的方案:Cloudera :最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和监控工具。 Cloudera开发并贡献了可实时处理大数据的Impala 项目。优
12、点:1. 基于 Apache 协议, 100% 开源。2. 版本管理清晰。比如 Cloudera ,CDH1 , CDH2 , CDH3 , CDH4 等,后面加上补丁版本,如,表示在原生态基础上添加了1065 个 patch 。专业资料.3. 比 Apache Hadoop 在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。4. 版本更新快。通常情况,比如 CDH 每个季度会有一个 update ,每一年会有一个 release 。5.基于稳定版本Apache Hadoop,并应用了最新Bug 修复或 Feature的 pat
13、ch6. 提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时部署好集群。7. 运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单,有效。缺点:1. 涉及到厂商锁定的问题。(可以通过技术解决)六、具体操作:Hadoop2.6 HA搭建至少四台机器:hadoop1,hadoop2, hadoop3, hadoop4NNDNZKZKFCJNRMNM (任务管理)Hadoop1YYY专业资料.Hadoop2YYYYYYYHadoop3YYYYHadoop4YYY1. core-site.xml <configuration>
14、 <property><name>fs.defaultFS</name><value>hdfs:/zhjy</value></property><property><value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value></property><property><value>/opt/hadoop</value></property></configuration>2
15、. hdfs-site.xml <configuration>专业资料.<property><name>services</name><value>zhjy</value></property><property><value>nn1,nn2</value></property><property><value>hadoop1:8020</value></property><property&g
16、t;<value>hadoop2:8020</value></property><property><value>hadoop1:50070</value></property><property>专业资料.<value>hadoop2:50070</value></property><property><value>qjournal:/hadoop2:8485;hadoop3:8485;hadoop4:8485/zhjy</valu
17、e></property><property>Provider</value></property><property><value>sshfence</value></property><property><value>/root/.ssh/id_dsa</value></property>专业资料.<property><value>/opt/hadoop/data</value></property&
18、gt;<property><value>true</value></property></configuration>3. 准备 zookeepera)三台 zookeeper: hadoop1,hadoop2, hadoop3b) 编辑 zoo.cfg 配置文件i. 修改 dataDir=/opt/zookeeperii. server.1=hadoop1:2888:3888server.2=hadoop2:2888:3888server.3=hadoop3:2888:3888c)在 dataDir目录中创建一个myid的文件,文件容为1 , 2 , 34. 配置 hadoop 中的 slaves5. 启动三个 zookeeper :./zkServer.sh start6. 启动三个 JournalNode : ./hadoop-daem
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 行政法学实践中的应用与试题及答案
- 历史人物对现代管理的启发试题及答案
- 行政管理专业文化概论试题及答案
- 护理职业发展策略试题及答案
- 突破行政法学考试的困境试题及答案
- 2025年药师药品使用技巧试题及答案
- 2025年执业药师案例分析试题及答案
- 2025年药师考试常见药物知识试题及答案
- 2025年语文考试复习手册试题及答案
- 2025年卫生资格考试快速复习技巧试题及答案
- GB/T 11032-2020交流无间隙金属氧化物避雷器
- 液化石油气安全标签
- T-CEEMA 004-2022 煤电机组辅机及系统节能、供热和灵活性改造技术导则
- 水车租赁合同范本(3篇)
- 医学康复治疗技术作业治疗课件
- 空港新城特勤消防站施工组织设计
- 餐具消毒记录表
- 2022山东历史高考答题卡word版
- 空军发展历程课件
- 试生产安全条件检查
- 小学英语自然拼读课件
评论
0/150
提交评论