大数据项目技术选型初稿

上传人：q*** IP属地：湖北上传时间：2022-06-25 格式：DOCX 页数：16 大小：706.32KB 积分：28 举报 版权申诉

已阅读5页，还剩11页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、目录结构1、主流架构选用技术2、 Hadoop版本选型方案3、选用的技术与其他工具的对比4、大数据相关的技术选型版本确定5、市场上的hadoop发行版厂商资料6、具体操作一、主流架构选用技术：采集层：flume；sqoop存储层：包括文件存储层和数据存储层文件：采用hdfs存储数据：采用hbase，redis等模型层：离线处理：mr/yarn;实时流式处理spark streaming(比storm的优势)分析层：hive管理层：zookeeper（调度；ha）2、 Hadoop版本选型方案：Hadoop提供的经典方案：HDP（Hadoop Data Platform）管理一体化数

2、据接入Flume Script SQL Nosql Stream Search In-Memory OthersSqoop Pig Hive Hbase Storm Solr Spark YARN-Ready AppsNFS -WebHDFS YARNFalcon - HDFS - 数据管理三、选用的技术与其他工具的对比：选用sqoop的好处：开源，抽取的数据可以直接传至hive，可操作性和可视性高选用Flume的好处：纯Java开发，框架分明，易于开发，可以直接写hdfs且支持对text和sequence压缩选用Spark的好处：基于内存，适合需要多次迭代计算的算法，在迭代处理计算方面比Ha

3、doop快100倍以上，Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题安全操作认证，授权，审计，数据保护准备，管理，监控Storage：HDFS AmbariResource：YARN ZookeeperAccess：Hive OoziePipeline:FalconCluster:KnoxHue的好处：多应用平台，便捷的操作流程；自动补全；查询结果表格化图像化4、大数据相关的技术选型版本确定：操作系统：CentOS6.X各个技术版本：（最新，最稳定，bug少）Hadoop版本：hadoop-2.6.4.tar.gz此版本是一个相对最新且比较稳定的版本，基数版本可能不稳

4、定，最好选用偶数版本Zookeeper版本：zookeeper-3.4.8.tar.gz此版本修复了此前的9个问题，最明显的是在关闭zookeeper时会产生的一个停顿问题。Flume 版本：apache-flume-1.6.0-bin.tar.gzKafka版本：kafka_2.11-.tgz/082/documentation.htmlSpark版本：spark-1.6.0-bin-hadoop2.6.tgz此版本能支持Hadoop2.6.x以上的版本且相对稳定版Sqoop版本：sqoop-1.4.6.bin_hadoop-2.0.

5、4-alpha.tar.gzHive版本：apache-hive-1.2.1-bin.tar.gzHbase版本：hbase-1.1.3-bin.tar.gzMahout版本：apache-mahout-distribution-0.11.0.tar.gz五、市场上的hadoop发行版厂商资料：版本：除了社区的 Apache Hadoop 外， Cloudera ， Hortonworks ， MapR ， EMC ， IBM ， Intel ，华为等都提供了自己的商业版本。版本内容特点网址ClouderaCDH包括HDFS、YARN、HBase、MapReduce、Hive、Pig、

6、Zookeeper、Oozie、Mahout、Hue和其他开源工具(包括实时查询引擎Impala)。CDH完全开源，比 Apache Hadoop 在兼容性，安全性，稳定性上有所增强；Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个hadoop集群，并对集群的节点及服务进行实时监控。标价为每年每个节点4000美元。HortonworksHDP包括HDFS、YARN、HBase、MapReduce、Hive、Pig、HCatalog、Zookeeper、Oozie、Mahout、Hue、Ambari、Tez和Hive的实时版(Stinger)以及其他开源

7、工具。集成和测试封装；安装方便；管理和监控服务；数据集成服务；元数据服务；高可用性；每10个节点每年为12500美元。拥有大量的Hadoop专家，对Hadoop的发展起到了重要作用，拥有广泛的合作伙伴支持，专供Hadoop；对专有代码的依赖低于ClouderaMapR包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和其他开源工具。还包括直接NFS访问、快照和用于“高可用性”的镜像，有版权的HBase实现(与Apache API完全兼容)，以及MapR管理控制台。1.构建一个 HDFS 的私有替代品，这个替代品比当前的开源版本快

8、三倍，自带快照功能，而且支持无 NameNode 单点故障 (SPOF) ，并且在 API 上和开源版兼容，所以可以考虑将其作为替代方案。不再需要单独的 NameNode 机器，元数据分散在集群中，也类似数据默认存储三份。2.也不再需要用网络附加存储 (NAS) 来协助 NameNode 做元数据备份，提高了机器使用率。3.还有个重要的特点是可以使用 nfs 直接访问 hdfs ，提供了与旧有应用的兼容性。镜像功能也很适合做数据备份，而且支持跨数据中心的镜像，快照功能对于数据的恢复作用明显。4.每年每个节点4000美元。5.在性能方面具备优势。EMC包括HDFS、MapReduce、Hive、

9、Pig、HBase、Zookeeper、Sqoop、Flume和其他开源工具。兼容SQL；完全兼容ODBC/JDBC；交互式查询；数据管理；深度分析IBM基础版包括HDFS、HBase、MapReduce、Hive、Mahout、Oozie、Pig、ZooKeeper、Hue和一些其他开源工具，以及IBM安装程序和数据访问工具的基础版本。企业版增加了复杂的作业管理工具、与主要数据源相互集成的数据访问层和BigSheets(类似于电子表格的界面，用于在集群中操作数据)在平台管理，安全认证，作业调度算法，与 DB2 及 netezza 的集成上做了增强。兼容性好，同时运行多种Hadoop版本的

10、程序，IBM的服务。IntelApache Hadoop Intel 分发版主要是强调其能提供全面的软硬件解决方案设计，针对硬件具有更好的性能优化，以及提供集群管理工具和安装工具简化了 Hadoop 的安装和配置，能够提供项目规划到实施各阶段专业的咨询服务，实际中采购 Intel 版本貌似动力不足。性能好，最先进入中国市场。华为Funsionlnsight Hadoop基于 Apache Hadoop ，构建 NameNode 、 JobTracker 、 HiveServer 的 HA 功能，进程故障后系统自动 Failover ，无需人工干预，这个也是对 Hadoop 的小修

11、补，远不如 MapR 解决的彻底。当为公司/部门选取特定发行版时，需要考虑如下因素：技术细节应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。易于部署应该有可用的工具包来管理部署、版本更新、补丁等。易于维护涉及集群管理、多中心支持、灾难恢复支持等。成本包括实现某个特定版本所需要的费用、计费模式和许可证。企业应用集成支持包括对Hadoop应用与企业的其他应用进行集成的支持。选用Cloudera的方案：Cloudera：最成型的发行版本，拥有最多的部署案例。提供强大的部署、管理和监控工具。Cloudera开发并贡献了可实时处理大数据的Impala项目。优点：1. 基于Apache协议，

12、100%开源。2. 版本管理清晰。比如Cloudera，CDH1，CDH2，CDH3，CDH4等，后面加上补丁版本，如CDH4.1.0 patch level 923.142，表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch。3. 比Apache Hadoop在兼容性、安全性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证，有众多部署实例，大量的运行到各种生产环境。4. 版本更新快。通常情况，比如CDH每个季度会有一个update，每一年会有一个release。5. 基于稳定版本Apache Hadoop，并应用了最新Bug修复或Feature的pa

13、tch6. 提供了部署、安装、配置工具，大大提高了集群部署的效率，可以在几个小时内部署好集群。7. 运维简单。提供了管理、监控、诊断、配置修改的工具，管理配置方便，定位问题快速、准确，使运维工作简单，有效。缺点：1. 涉及到厂商锁定的问题。（可以通过技术解决）六、具体操作：Hadoop2.6 HA搭建至少四台机器：hadoop1，hadoop2，hadoop3，hadoop4NNDNZKZKFCJNRMNM（任务管理）Hadoop1YYYHadoop2YYYYYYYHadoop3YYYYHadoop4YYY1. core-site.xml fs.defaultFS hdfs:/zhjy ha.

14、zookeeper.quorum hadoop1:2181,hadoop2:2181,hadoop3:2181 hadoop.tmp.dir /opt/hadoop2. hdfs-site.xml services zhjy nodes.zhjy nn1,nn2 node.rpc-address.zhjy.nn1 hadoop1:8020 node.rpc-address.zhjy.nn2 hadoop2:8020 node.http-address.zhjy.nn1 hadoop1:50070 dfs.na

15、menode.http-address.zhjy.nn2 hadoop2:50070 node.shared.edits.dir qjournal:/hadoop2:8485;hadoop3:8485;hadoop4:8485/zhjy vider.zhjy node.ha.ConfiguredFailoverProxyProvider dfs.ha.fencing.methods sshfence dfs.ha.fencing.ssh.private-

16、key-files /root/.ssh/id_dsa dfs.journalnode.edits.dir /opt/hadoop/data dfs.ha.automatic-failover.enabled true3. 准备zookeepera) 三台zookeeper：hadoop1，hadoop2，hadoop3b) 编辑zoo.cfg配置文件i. 修改dataDir=/opt/zookeeperii. server.1=hadoop1:2888:3888server.2=hadoop2:2888:3888server.3=hadoop3:2888:3888c) 在dataDir目录中创建一个myid的文件，文件内容为1，2，34. 配置hadoop中的slaves5. 启动三个zookeeper：./zkServer.sh start6. 启动三个JournalNode：./hadoop-daemon.sh sta

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据项目技术选型初稿

文档简介

温馨提示

最新文档

评论

大数据项目技术选型初稿

文档简介

温馨提示

最新文档

评论

相关文档