红腾redoop大数据平台解决方案白皮书

上传人：环*** IP属地：北京上传时间：2022-02-02 格式：DOCX 页数：26 大小：1.46MB 积分：8.4 举报 版权申诉

已阅读5页，还剩21页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、红腾-Redoop 大数据平台场景规划前言近年来,大数据技术逐渐成为企业在互联网下发展的重点。对于运营商来说,利用大数据共享平台可将"数据金山"充分利用、分析,并提取高价值,最终提高企业经营效益和市场竞争能力。本文通过对大数据平台现状及未来价值进行分析,提出了多种应用思路,为将来更实现精品应用提供参考。文中列出了大数据平台体系架构（Level 1），并对其做了详细的互联网架构，引入成熟开源框架，基于 x86 平台构建分布式计算与，借鉴平台，在保障系统可靠性（High-Availability）和可水平扩展(Scale-Out)基础上，同时大幅降低系统总拥有成本（TCO）。简

2、单了技术架构设计-SQL on Hadoop 企业级数据仓库，商业智能解决方案，企业现有平台+Redoop，SQL-on-Hadoop 数据仓库-可视化，技术架构的设计，以及总体方案的概述。文中了 Hadoop 集群硬件系统拓扑以及多机架-网络拓扑图，基于预期业务参数，数据量级，估算集群规模，Datanode 节点总共 12 块盘，其中 10 块盘每块 3T 容量；Linux 系统 os 安装在做了 raid1 的 2 块 1T 磁盘。接下来本文中了大数据平台硬件配置估算和建议，异构集群-硬件配置，目前集群规划中都有多重计算模型共生，比如：磁盘计算模型，内存计算模型，分布式 nosql 数据库

3、共生。根据业务场景，对硬件配置也有很大差别；如下：对实时响应即席场景，多种计算模型混搭。客户机-硬件配置，规划，服务器配置，红象 CRH 大数据平台-解决方案。Hadoop 大数据平台在当今的 IT 业界是非常热门的话题，如果你关注它们的应用场景，大多数情况是做 OLAP 智能分析以及数据挖掘。鲜有类似于传统型数据库擅长的 OLTP 事务处理场景。和大家一个在大数据平台上应用场景案例。文中了四个案例，智慧交通案例（实时流计算），分析了数据处理流程；Redoop-Databank 可视化，传感器质量（NoSQL），某市中心的数据检索以及航天系统海量数据。最后提出了大数据平台应用场景实现方式以及

4、大数据平台应用场景资源汇总。红腾系统技术红腾-Redoop 大数据平台场景规划目录红腾Redoop 大数据平台解决方案白皮书错误!未定义书签。前言2一、传统架构跳起互联网舞步，投入“大象”怀抱41、Redoop特色52、Redoop CRH 3.553、操作系统版本74、Redoop 平台架构75、栈8二、红象大数据总体架构(数据银行+数据高铁)91、大数据平台体系架构（Level 1）92、技术架构设计-流计算场景离线分析混合(需求驱动)103、技术架构设计-SQL on Hadoop 企业级数据仓库124、商业智能解决方案，企业现有平台Redoop135、SQL-on-Hadoop 数据

5、仓库可视化136、技术架构设计-机器学习147、ELK+Hadoop 海量数据搜索架构148、SQL on Hadoop for Kylin OLAP分析架构159、总体方案概述16三、网络规划171、Hadoop 集群硬件系统拓扑182、多机架网络拓扑图18四、底层规划180、主机内置磁盘规划181、Linux 目录规划202、Linux 主机名规划21红腾系统技术红腾-Redoop 大数据平台场景规划3、hdfs 目录规划214、计算框架临时目录21四、基于预期业务参数，数据量级，估算集群规模21五、大数据平台硬件配置估算及建议221、异构集群-硬件配置222、客户机-硬件配置233、服务

6、器配置234、红象 CRH 大数据平台优势24六、案例. 241、案例一：智慧交通案例（实时流计算）242、案例二：Redoop - Databank 可视化传感器质量管控（NOSQL）253、案例三：XX 市中心（海量数据检索）254、案例四：航天系统（海量数据4800TB 容量）26七、大数据平台应用场景实现方式26八、大数据平台应用场景资源汇总27一、传统架构跳起互联网舞步，投入“大象”怀抱红腾系统技术基于传统数据架构完全基于开源的大数据架构采购成本高难以运维且服务成本高技术无法掌握，可用性，扩张性完全依赖服务商评估具备有限扩展能力，但是扩张成本高业务支撑能力有限，依赖供应商支持采购

7、成本低技术完全可控，可运维技术完全掌握，可自行制定容量管理等方案，无需依赖第具备无限扩张能力，扩张成本低，时效高可完全按需支撑业务发展需要弹性扩展，无限扩容，计算能力无限扩展。商业化硬件计算机解决方案基于封闭技术体系的操作系统，虚拟化技术以 HP/为代表低端硬件资源组成的集群基于完全开放 x86 硬件服务器基于开源技术的操作系统，虚拟化技术红腾-Redoop 大数据平台场景规划1、Redoop特色集成的·在一个完整的、封装Apache Hadoop 系统上快速启动并运行安全的·处理并敏感数据，支持多租户可扩展及可延伸·支持多种应用，与企业共同增长高可获得性

8、83;轻松运行关键性任务应用及工作负载兼容的·扩展并利用现有的基础架构投资开放的· 受益于快速创新，无专有厂商锁定· 全面的 API2、Redoop CRH 3.5企业 Hadoop 标准，100%开源Redoop Hadoop版 (CRH) 是 100% 的开源平台版本。它了 Apache Hadoop，旨在满足企业级的需求。得到广泛部署的 Hadoop版本，CRH 目前在各种生产环境中运行，覆盖银行、电信、媒体、零售、等行业中最大的机构。最大的集群是在航天领域近 200台的规模，运行 2 年没有发生事故。CRH 由 Apache Hadoop 和十几个领先的开

9、源项目组成，它将和计算融同一个可扩展的系统，提供了以往传统解决方案在时间或成本上不能解决的大数据运营所需的灵活性与经红腾系统技术商业化数据库解决方案提供复杂的事物管理，数据高可用技术以 Oracle,mpp 为代表商业化数据解决方案提供高性能，高可用的数据技术以 EMC 为代表基于开源的以Hadoop 为的分布式架构系统不依赖任何技术，完全采用服务器本地完全基于 Hadoop 的分析性数据仓库技术完全基于开源，可扩展，海量，多类型数据统一平台分析基于开源的操作系统，虚拟化技术红腾-Redoop 大数据平台场景规划济性。CRH 帮助用户实现数据运营化，带动业务朝普适分析发展，从而实现：·

10、;··在同一组系统资源内，统一和计算以任何格式数据，没有苛刻的模式要求将多种多样的分析性框架带入一个简单的数据池批次处理，分析型 SQL, 互动式搜索，机器学习，流处理，以及多种第应用程序···并行就地处理数据，具备线性扩展能力实时将数据传输给用户和应用与现有的数据管理和分析工具进行集成作为 Redoop 企业版的一个关键组成部分和一个企业数据平台架构，CRH 代表了 Hadoop的元素可扩展与分布式计算以及必要的企业能力，比如安全性、高可用性以及与最广泛的软硬件解决方案的集成。对于想要寻找一个的、经过验证的开源大数据管理解决方案，不

11、愿被专有供应商锁定的企业来说，CRH 是理想的选择。它是一个独特的解决方案，企业在使用 Hadoop 于生产环境中的同时，还能获得来自开源社区的持续创新力。图表 1：Redoop 企业版包含了企业级的 100% 开源的Hadoop版、系统和数据管理，以及对一个强大的数据管理平台的全面支持。“数据对我们的企业来说，CRH 是我们分析系统的。”最先进的 Hadoop版，随时可部署CRH 是国内最完整的、经过测试的、最受欢迎的适于企业的 Apache Hadoop版本。所有的封装和集成工作都已经完成，整套解决方案都已通过测试，并有完整文档。从此 Hadoop部署无需东揣西测，CRH 提供了迈向大数据

12、解决真正业务问题的之路。红腾系统技术红腾-Redoop 大数据平台场景规划3、操作系统版本$cat /etc/-releaseEnterprise Linux Server release 6.5(Sago)4、Redoop 平台架构通过八大类接口实现大数据平台能力和计算能力的开放。红腾系统技术版本Linux 版本CRH 3.5 6.5Hadoop 2.7.16.3红腾-Redoop 大数据平台场景规划·Flexibility -任何类型的数据，丰富的技术框架：批处理，交互式 SQL，文本搜索，机器学习和统计计算！Security 敏感数据，避免数据泄露，SQL 模块权限·

13、;····！Scalabilit 无限扩张能力，当您遇到计算和瓶颈可以通过增加节点来扩展集群能力！High availability 高可靠，节点宕机影响任何在线业务正常运行！Compatibility 兼容性，非常方便的和你现有资源集成，利用现有基础设施！RedHdoop Databank 自动化安装集群，可视化操作集群，非常方便小白式入门，管理集群资产，等强劲功能！5、栈红腾系统技术Table 1. Components Supported by TLSComponentRolePortVersionAmbari ManagerAmbari Serv

14、er80802.2.0Ambari AgentAmbari Agent80102.2.0FlumeFlume agent90991.1.2HBaseMaster600101.1.2HDFSNameNode500702.7.1HDFSSecondary NameNode504952.7.1DatabankDatabank Server99991.0YARNResourceManager80882.7.1YARNJobHistory Server198902.7.1JDK1.7.0_67 or 1.7.0_75Apache HiveHiveserver2/Hivemetastore10000/90

15、831.2.1Kerberos1.10.3红腾-Redoop 大数据平台场景规划集群组件:5.1. HDFS 模块为分布式文件系统，海量数据！5.2. Hive 主要通过 SQLhdfs 里面的数据！Hadoop 中数据仓库概念！5.3. Databank，用于可视化 hdfs 文件系统，以及些 SQL 预览数据库,服务器状态等！5.4. Spark 和 hive 一起配合，提升 SQL 分析 HDFS 数据高效！高效数据！5.5. kettle，工作流调度系统，可以调度各种 Hadoop 作业，支持 SQL,SHELL,JAVA 调度！5.6. Kerberos，保证集群数据仓库 hive,

16、impala权限，目前能做到基于库的权限!5.7. Yarn，集群资源统一分配，管理框架，为各种应用程序统一分配 cpu,mem,为实现多租户资源分配等！5.8. zookeeper，动物园管理员，主要负责协调系统中各个框架协调工作，统一配置文件！二、红象大数据总体架构(数据银行+数据高铁)通过八大类接口实现大数据平台能力和计算能力的开放。下面主要redoop 架构设计内容，最后会有几个典型案例来说明架构相关实现。1、大数据平台体系架构（Level 1）(1). 基于 MR 模型，通过 MapReduce 模型开发 JAVA 应用程序！红腾系统技术Apache ZooKeeperzkServ

17、er21813.4.6Apache Saprksaprk history server180801.5.2Ambari MetricsMetrics Collector/MetricsMonitors0.1.0红腾-Redoop 大数据平台场景规划(2). 基于 MR 封装的高级工具，如通过 Hive,Pig 工具编写脚本！(3). 基于 RDD 内存模型，如 JAVA,Scala,R 等 API 开发的应用程序!(4). 基于 RDD 内存模型，高度封装，可视化R，SparkSQL 易于使用的工具！2、技术架构设计-流计算场景离线分析混合(需求驱动)2.1 初步架构借鉴互联网架构，引入成熟开

18、源框架，基于 x86 平台构建分布式计算与平台，在保障系统可靠性（High-Availability）和可水平扩展(Scale-Out)基础上，同时大幅降低系统总拥有成本（TCO）。1、实时流计算系统实时看大屏2、近似实时数据到 HDFS,离线处理系统定时分析建模技术选型及亮点1. 采用 Kafka 消息队列框架，实现与，30120s 响应；2. 采用近似实时的 flume 框架对接 Kafka、实现位置实时入库 Hadoop 集群，周期性数据。3. 在 1 个集群上承载批处理和流处理，基于 hadoop 资源管理可最大效率利用资源，实现消峰填谷，实现异构集群架构。4. 在 Hadoop 基础

19、上，引入 Spark、Storm 计算框架，通过 Hive，mllib ，storm 实现海量数据算和离线历史数据的统计分析；引入 Redis 内存数据库，结合 Storm，实现的实时动态感知用户变化以及用户统计行为数据，通过推进系统，LDA 等模型，深度挖掘用户价值。5. 提供 Open API(/ODBC/RestAPI)，制定计算与资源共享与开放标准，结合红红腾系统技术红腾-Redoop 大数据平台场景规划富架构和运维经验，基于 Open API 构建 OCI API，为后续数据资产运营奠定基础。6，基于echarts 的开源框架展现。7，支持弹性扩展架构，可有效保护现有投资；同时，积极

20、的引入 nosql 数据库 hbase，利用分布式数据库优势实现数据快速适用场景：，为未来技术替换缩减投资奠定基础。1、流计算实时看大屏，20000 tupe/s, (每个 tuple 大小为 1000 字节)！延迟毫秒级！2、storm 系统本省的处理延迟为毫秒级3、在集群中横向扩展可以增加系统的处理能力，实测结果为 1.6 倍4、Storm 中大量的使用了线程，即使单条处理流水线的系统，也有十几个线程在同时运行，所以几乎所有的 16 个 CPU 都在运行状态，load average 约为 3.55、 Jvm GC情况下对系统性能影响有限，但是内存紧张时，GC 会成为系统性能的瓶颈6、

21、使用外部处理程序性能下降明显，所以在高性能要求下，尽量使用 storm 内建的处理模式2.2 进阶架构(1). 安全支付通过流计算，实现安全检测系统！(2). 架构变迁，唯一的变化 strom->sparkstrea，其余部分和初步架构相似！(3). 相比初级架构，增加了一些新型分析框架，impala,spark,search 模块！(4). 变迁后优势，更强的吞吐量，小批量流式处理海量数据！(5). 增加 sparkstrea模块，让离线处理更加高效！红腾系统技术红腾-Redoop 大数据平台场景规划适用场景：1、高吞吐率，图流合璧处理海量数据！2、 Strea+mllib 结合，流

22、式训练模型！3、编程灵活，支持 saprksql,strea,mllib,graphx 结合做应用，统一的流水线优化！4、 Spark Strea是将流式计算分解成一系列短小的批处理作业！场景确定，运行有 3-5s 中延迟的业务！5、实时性：对于实时性的讨论，会牵涉到流式处理框架的应用场景。SparkStrea将流式计算分解成多个 Spark Job，对于每一段数据的处理都会经过Spark DAG 图分解，以及 Spark 的任务集的调度过程。对于目前版本的 SparkStrea而言，其最小的 Batch Size 的选取在 0.52 秒钟之间（Storm 目前最小的延迟是 100ms 左

23、右），所以 Spark Strea能够满足除对实时性要求非常高（如高频实时）之外的所有流式准算场景。6、扩展性与吞吐量：Spark 目前在 EC2 上已能够线性扩展到 100 个节点（每个节点 4Core），可以以数秒的延迟处理 6GB/s 的数据量（60M records/s），其吞吐量也比流行的 Storm 高 25 倍，图 4 是Berkeley 利用 WordCount 和Grep 两个用例所做的测试，在 Grep 这个测试中，Spark Strea中的每个节点的吞吐量是 670k records/s，而 Storm 是 115k records/s。3、技术架构设计-SQL on

24、Hadoop 企业级数据仓库1、基于内存计算模型秒级响应方案2、基于 MapReduce 计算模型离线分析方案红腾系统技术红腾-Redoop 大数据平台场景规划图 1 SQL on Hadoop && SQL on NOSQL4、商业智能解决方案，企业现有平台Redoop5、SQL-on-Hadoop 数据仓库可视化红腾系统技术红腾-Redoop 大数据平台场景规划6、技术架构设计-机器学习红象 CRH 平台提供了主流的机器学习库支持！拖拽式的可视化界面databank!7、ELK+Hadoop 海量数据搜索架构ELK Stack 是 Elasticsearch、据检索和分析场

25、合，三者通常是配合共用。、Kibana 三个开源的组合。在实时数ElasticSearch 已经可以与 YARN、Hadoop、Hive、Pig、Spark、Flume 等大数据技术框架整合起来使用，尤其是在添加数据的时候，可以使用分布式任务来添加索引数据，尤其是在数据平台上，很多数据在 Hive 中，使用 Hive 操作 ElasticSearch 中的数据，将极大的方便开发。红腾系统技术红腾-Redoop 大数据平台场景规划ELK Stack 具有如下几个优点：1. 处理方式灵活。Elasticsearch 是实时全文索引，不需要像storm 那样预先编程才能使用；2. 配置简易上手。El

26、asticsearch 全部采用目前业界最通用的配置语法设计；JSON 接口，是 Ruby DSL 设计，都是3. 检索性能高效。虽然每次都是算，但是优秀的设计和实现基本可以达到全天数据的秒级响应；4. 集群线性扩展。不管是 Elasticsearch 集群还是集群都是可以线性扩展的；5. 前端操作炫丽。Kibana 界面上，只需要点击鼠标，就可以完成搜索、聚合功能，生成炫丽的仪表板。ELKStack+Hadoop 可以让数据可靠性和处理性能提升数倍，理由大数据的优势在一些搜索百亿数据场景发挥重要作用。为数据分析提供强大的后端和可视化的能力。8、SQLonHadoopforKylinOLAP分

27、析架构红腾系统技术红腾-Redoop 大数据平台场景规划Apache Kylin 旨在减少 Hadoop 在 10 亿及百亿规模以上数据级别的情况下的延迟，目前底层数据基于 HBase，具有较强的可伸缩性。可以支持主流 bi 报表可视化工具。度分析数据，为数据分析实效性提供强的保证。9、总体方案概述采用新建大数据集群，无缝对接现有业务系统，逐步替代分析性场景的业务系统数据仓库！（1）、Hadoop 计算集群基础架构X86 服务器，100 个计算节点红腾系统技术红腾-Redoop 大数据平台场景规划弹性，总的空间约 3600TB(1 台服务器 12 块盘，一块盘 3T,离线总量。不考虑 raid

28、/分区因素损失)；基于万兆的计算网络； Hadoop 计算集群管理平台（2）、基于红腾 CRH 的高性能计算集群管理平台，新建大数据集群环境进行高效率的统一管理；（3）、大容量数据平台平台 3600TB新建的数据库注意：如果数据量比较小，为了保证集群的性，最低要求 3 台 datanode。三、网络规划网络建议，使用万兆交换机，可以让分布式架构更加高效的发挥系统性能。这里的配置在后面异构集群硬件配置有详细。红腾系统技术红腾-Redoop 大数据平台场景规划1、Hadoop 集群硬件系统拓扑2、多机架网络拓扑图四、底层规划1、主机内置磁盘规划HA 主节点：红腾系统技术红腾-Redoop 大

29、数据平台场景规划Slave 节点：底层数据规划，这个模块比较重要，由于前期建设规划不合理，导致数据目录规划混乱，导致很多数据目录很深，在hdfs空间的时候，造成了不小的麻烦，所以重新规划了目录分布！底层操作系统默认 raid5.浪潮服务器.后修改为系统盘 raid1(两块盘做 radi1),总共 11 块盘一台机器。其余盘做 JBOD！lv,vg 名称规范：mount -loop /dev/mapper/vg_dfs01-lv_data01/data01mount -loop /dev/mapper/vg_dfs02-lv_data02/data02红腾系统技术红腾-Redoop 大数据平台场

30、景规划.略.2、Linux 目录规划Linux 系统分区方案说明：在很多业务服务器数量多且复杂的运维场景，会有专门的系统安装工程师，由于这些基础系统安装工程师无法确定服务器的业务需求，因此，会根据公司的要求只分出：/boot200M内存*2Swap/（列如： 100G）然后剩余的分区保留不分，fdisk(不适合大于 2t 的分区)，parted(适合大于 2T 的分区)这样后续使用的服务器的不同业务的运维部门就可以根据具体的业务在规划后面的分区，这样的也是值得推荐的分区思路！上面的/data1.10目录，表示，如果有 10 块硬盘，挂载点为 10 个目录，取名/data1, /data2,/d

31、ata3, / data.这些目录都用来hdfs 数据的数据目录！有关根目录/ ，主要是/var，/home，/tmp，/opt 等！红腾系统技术目录大小Linux 版本/boot500M6.5swap内存大小*126.5/100G6.5/data1.10Hdfs 数据6.5红腾-Redoop 大数据平台场景规划3、Linux 主机名规划4、hdfs 目录规划以上就是 hdfs 规划，后续增加应用和其他数据在逐步增加规范，每个目录可以分给不同部门，实现多租户，所能使用硬件资源和资源的限制！5、算框架临时目录由于数据量越来越大，检索数据太大，导致无法所有数据放入内存，很多中间结果数据会写到磁盘，

32、目前规划总的 20%做为计算磁盘空间！如果低于 20%，计算的时候会导致磁盘空间不足的情况，或者很多任务出现警告和运行缓慢等情况！五、基于预期业务参数，数据量级，估算集群规模Datanode 节点总共 12 块盘，其中 10 块盘每块 3T 容量；Linux 系统 os 安装在做了 raid1 的2 块 1T 磁盘注意：1 块盘3T 理论大小应为=3096G实际大小 3000G，而我们实际计3*1024G红腾系统技术周期数据增量/ 天数据格式Datanode 节点总存储HDFS 总Total linux os主机数量N30 天3Tgz346T324TN*2*1T10*Datanode+2*

33、Namenode=1260 天3Tgz690T648TN*2*1T21*Datanode+2*Namenode=2390 天3Tgz860T810TN*2*1T27*Datanode+2*Namenode=29目录含义Linux 版本/data/external外部抽取数据源路径6.5/user/hive/waouse各种内部表库地址6.5/test测试数据目录6.5/一些默认自动生成的目录6.5/appsApp 运行所需 jar 包6.5目录Linux 版本bigdata-server011006.5红腾-Redoop 大数据平台场景规划算时使用的是 1024.例如：计算公式，30 天，每天

34、 3T 数据增量：HDFS 总=3T*3*30+（3T*3*30*20%）；HDFS 总=324TDatanode 数 n=324T/3T*10=10 台;2 台Namenode,1 台客户机,总共 10+2+1=13 台六、大数据平台硬件配置估算及建议1、异构集群-硬件配置目前集群规划中都有多重计算模型共生，比如：磁盘计算模型，内存计算模型，分布式 nosql数据库共生。根据业务场景，对硬件配置也有很大差别；如下：对实时响应即席多种计算模型混搭。场景，说明：群硬件规划1、两个主节点2、集群中主机实际上不需要很大，而是需要强大的 cpu 和内存！多种硬件配置，在做计算的时候无法完全发挥主机

35、性能，Hadoop 集群中要求硬件配置一致性，好消息是 Hadoop 社区已经在基于 YARN 资源管理器增加新的调度算法解决此问题！红腾系统技术集群角色CPU内存硬盘Raid网卡2台NameNode2 颗8P8处理器（3.8GHz）512GBDDR3-1600MHz内存，可扩展至 512GB1T SAS 硬盘*2；500G SSD 硬盘*2八通道高性能 SAS RAID卡 (1G 缓存)* 12 个千兆网口，双口万兆网卡100台DataNode1 颗8P8处理器（3.8GHz）128GB-256G DDR4-2133MH内存3T SATA 硬盘*10；500G SSD 硬盘*2JBOD 安

36、装，无 RAID2 个千兆网口，双口万兆网卡小规模硬件推荐：4-10 个节点中等规模硬件配置推荐：20+个节点大规模硬件配置推荐：100 节点以上处理器 CPU1 颗 8P8 处理器（3.8GHz）（3.8GHz）2 颗 8P8 处理器（3.8GHz）2 颗 8P8 处理器（3.8GHz）内存64G 或者以上内存，DDR3L，RRECC64G 或者以上内存，DDR3L，RRECC64G 或者以上内存，DDR3L，RRECC系统盘2*500G SSD2*500G SSD2*500G SSD磁盘接口SAS 6GB/sSAS 6GB/sSAS 6GB/s磁盘12 个 2T 或者 6T 7200RP

37、M SATA 硬盘12 个 2T 或者 6T 7200RPM SATA 硬盘12 个 2T 或者 6T 7200RPM SATA 硬盘Raid1G 缓存支持 RAIDO，1,51G 缓存支持 RAIDO，1,51G 缓存支持 RAIDO，1,5网络10Gb 以太网和若干兆以太网10Gb 以太网和若干兆以太网10Gb 以太网和若干兆以太网电源1+1 冗余电源1+1 冗余电源1+1 冗余电源红腾-Redoop 大数据平台场景规划在最新的 hadoop 2.6.0 版本中，YARN 引入了一种新的调度策略：基于的调度机制。该机制的主要引入动机是更好地让 YARN 运行在异构集群中，进而更好地管理和调

38、度混合类型的应用程序。为多租户提供了一些资源分配解决方案，某些任务只能运行在某些有关 Hadoop 多租户实现，请参考红象其他大数据解决方案文件！节点。Linux os 系统：1、 Linux 系统所在磁盘制作Raid1,需要损失一块盘，比如：12 快盘，2 块盘做raid1 安装 linux os，则 hdfs 使用 10 块盘！注意：1 块盘3T 理论大小应为=3096G实际大小 3000G，而我们实际3*1024G计算时使用的是 1024.2、客户机-硬件配置3、服务器配置红腾系统技术集群角色CPU内存硬盘Raid网卡客户机（ GateWay Node2 颗 8P8 处理器（3.8GHz）64GBD

人人文库> 全部分类> 应用文书

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

红腾redoop大数据平台解决方案白皮书

文档简介

温馨提示

最新文档

评论

红腾redoop大数据平台解决方案白皮书

文档简介

温馨提示

最新文档

评论

相关文档