




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
百亿级实时大数据分析项目,为什么不用Hadoop?百亿数量级的大数据项目,软硬件总体预算只有30万左右,需求是进行复杂分析查询,性能要求多数分析请求达到秒级响应。遇到这样的项目需求,预算不多的情况,似乎只能考虑基于Hadoop来实施。 理论上Hadoop撑住百亿数量级没问题,但想要秒级响应各种查询分析就不行了。我们先大概分析一下Hadoop的优缺点。HadoopHadoop目前几乎是大数据的代名词,很多企业都基于Hadoop搭建自己的大数据业务。以下是Hadoop的主要优点:1. Hadoop集群的扩展性是其一大特点,Hadoop可以扩展至数千个节点,对数据持续增长,数据量特别巨大的需求很合适。2. Hadoop的成本是其另一大优势,由于Hadoop是开源项目,而且不仅从软件上节约成本,硬件上的要求也不高。目前去IOE潮流风行,低成本的Hadoop也是一大推手。3. Hadoop生态群活跃,其周边开源项目丰富,HBase, Hive,Impala等等基础开源项目众多。那么Hadoop的不足有哪些呢?Hadoop不适合做实时分析系统。1. 从通讯层的技术上来说有如下原因:l 任务分配Server不会将信息Push到计算Node,而是让计算Node通过心跳去Pull任务。l 基于框架的通用性,MapReduce代码也会在HDFS中传送,在各计算Node展开,再通过启动新JVM进程装载并运行。l 类似的JVM进程启停有5、6次之多。l Reduce Task只能在全部Map Task完成之后才能启动。2. 缺乏专业的支持服务因为是开源项目,缺少专业的商业支持服务,公司需要储备专业Hadoop知识的专家来保证系统的正常运转。3. Hadoop可以支持百亿的数据量,但很难应对秒级响应的需求即使是数亿的数据量,Hadoop也只适合做分钟级别的离线分析系统。而百亿级别数据量,又需要秒级响应的案例,需要什么系统支持呢?下面介绍下大数据实时分析工具Yonghong Z-Suite。Yonghong Z-Suite除了提供优秀的前端BI工具之外,Yonghong Z-Suite让用户可以选购分布式数据集市来支持实时大数据分析。对于这种百亿级的大数据案例,Yonghong Z-Suite有哪些技术可以保证大数据的实时响应呢?下面大致从技术上介绍下:1. 库内计算(In-Database Computing)Z-Suite支持各种常见的汇总,还支持几乎全部的专业统计函数。得益于库内计算技术,Z-Suite数据分析引擎将找寻出最优化的计算方案,继而把所有开销较大的、昂贵的计算都移动到数据存储的地方直接计算,称之为库内计算(In-Database)。这一技术大大减少了数据移动,降低了通讯负担,保证了高性能数据分析。2. 并行计算(MPP Computing)Z-Suite是基于MPP架构的商业智能平台,她能够把计算分布到多个计算节点,再在指定节点将计算结果汇总输出。Z-Suite能够充分利用各种计算和存储资源,不管是服务器还是普通的PC,她对网络条件也没有严苛的要求。作为横向扩展的大数据平台,Z-Suite能够充分发挥各个节点的计算能力,轻松实现针对TB/PB级数据分析的秒级响应。3. 列存储 (Column-Based)Z-Suite是列存储的。基于列存储的数据集市,不读取无关数据,能降低读写开销,同时提高I/O 的效率,从而大大提高查询性能。另外,列存储能够更好地压缩数据,一般压缩比在5 -10倍之间,这样一来,数据占有空间降低到传统存储的1/5到1/10 。良好的数据压缩技术,节省了存储设备和内存的开销,却大大了提升计算性能。4. 内存计算得益于列存储技术和并行计算技术,Z-Suite能够大大压缩数据,并同时利用多个节点的计算能力和内存容量。一般地,内存访问速度比磁盘访问速度要快几百倍甚至上千倍。通过内存计算,CPU直接从内存而非磁盘上读取数据并对数据进行计算。内存计算是对传统数据处理方式的一种加速,是实现大数据分析的关键应用技术。通过结合多种Yonghong自有的专利技术,在几个节点下,Yonghong Z-Suite就能担负起几十亿,乃至上百亿数据量的实时分析和展现。Yonghong Z-Suite相对Hadoop有哪些不足呢?Hadoop能支撑PB级大数据,数千节点的大规模集群。对于Yonghong Z-Suite这种实时大数据分析系统,一般支撑TBPB级的大数据,节点数一般不超过100。以下分享一个Yonghong Z-Suite的真实案例:中国移动省分公司数据流量与监控系统2013年5月,Yonghong收到一个电话线索,客户需要支持几十亿数据量的实时查询与分析,包括数据抓取和存储,让我们先出报价。在实时大数据分析领域,Yonghong的产品和服务是很有竞争力的。不过,当客户拿到我们的报价后,还是觉得比他们的预算贵一些,决定自己招聘Hadoop团队,实施该系统半个月后,客户打来第二个电话,明确表示Hadoop未能满足需求,决定接受我们的报价,并愿意预付一半的费用。客户要求我们不仅出产品,还要负责实施于是乎,开工!项目价值CMNET网间流量分析与监控系统(简称流控系统),是中国移动省分公司的一个项目。项目要求能基于时间、地区、运营商、业务、App、IP分组、域名等维度对全省的上网流量进行实时分析和报告。这些分析报告能给客户带来如下好处:1. 实现对接入链路和基站的全程监控。例如,一旦来自某链路或基站的流量很低,可及时对链路和基站进行检修,这将大大降低故障率。2. 由于具备了对链路和基站进行全程监控的能力,客户可以对链路和基站的带宽进行动态调整,基于需求进行合理的资源配置。3. 覆盖全省的全量数据,能提供基于业务/地域/App/行业/域名等维度的数据分析报告,具备100%的可信度和极高的商业价值。 数据流向上网数据从硬件设备中抓取出来,形成压缩的日志文件存储在服务器上,服务器每五分钟生成新的日志文件。该服务器提供FTP访问。Yonghong承担的流控系统,将通过FTP每五分钟访问一次日志文件服务器,将新生成的压缩日志文件抽取出来。这是一个典型的、增量更新的ETL过程,如下:1. Extract: 定期抽取的日志文件并解压缩。2. Transform: 解析出上网信息,同MySQL的维度表进行关联,生成包括业务/地域/App/行业/域名等维度的宽表。3. Load: 将数据装载入Yonghong 分布式集市。初期验证(POC)中国移动的日志数据分G类和A类,各取几块样本日志文件,验证数据流向的可行性以及性能。我们很快完成了ETL的整个过程,宽表数据被成功地装载入Yonghong 分布式集市。性能上,我们按照用户提出的每天数据量5000万条增量,计算出支持100天50亿数据量的分布式集群所需的磁盘空间、内存总量、和CPU总量。由于客户一再强调预算有限,于是配置了6台低配PC server:1cpu x 4core,32G内存,1T硬盘。我们模拟了常用的用户场景,整个系统的响应能力基本满足需求。系统架构如下:系统架构图正式实施中国移动省分公司的上网数据在内网,一般不提供外网连接,需要严格申请之后才能在一定时间内提供外网连接。因而,我们先把整个系统的ETL工作开发完成之后,才正式申请了外网连接进行数据装载。从开始进行上网数据的ETL工作,我们就发现数据量与预期严重不符。预期的上网数据是每天不超过5000万条,但实际上每天的上网数据在6亿条以上,100天保存的数据量将会达到惊人的六百亿条。6台低配PC server有点小马拉大车的感觉,完全达不到“海量数据、实时分析”的设计目标。我们赶紧联系客户,确定上网数据每天6亿条以上,而不是之前预估的每天5000万条左右。怎么办?系统重构经过与客户的详细沟通和理性分析,大家一致决定进行系统重构。上网数据的日志文件是5分钟粒度的。我们将上网数据按照分析需求分为两类:1. 细节数据:保留三天的细节数据(5分钟粒度),共约20亿条。这样,由于保留了细节数据,客户可以对近三天的上网数据进行任意的探索式BI分析。2. 汇总数据:在认真研究了流控系统的分析报告需求之后,我们将五分钟的细节数据汇总为两小时的汇总数据。这样数据量可以降到约为原来的1/10,100天的数据总量大约60亿条。重构之后的数据流如下:数据流图后期,我们陆续进行了一些系统调优,包括JVM调优、存储调优、计算调优等等。客户打开一个Dashboard的响应时间基本控制在秒级,最极端的分析报告也能在一分钟之内生成。基本实现了“海量数据、实时分析”:1. 系统定期推送日报、周报和月报。2. 系统支持探索式BI分析。多数分析请求达到了秒级响应。案例总
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 粤教版高中信息技术选修2教学设计-5.2 动画的制作-
- 换铺长轨施工方案
- 贵州垃圾分类房施工方案
- 桥墩坡面防护施工方案
- 园林木桩围栏施工方案
- 2025年航空《民航基础知识教程》试题及答案
- 干钻成孔专项施工方案
- 镀锌钢管景观亭施工方案
- 大型别墅装潢施工方案
- 校园应急安全教育基地
- 呼吸道合胞病毒护理查房
- 铭记历史缅怀先烈-珍爱和平开创未来
- 2023-2024学年广东省深圳市红岭中学高一上学期第一次段考化学试题及答案
- 项目施工单位与当地政府及村民的协调措施
- 2024澳大利亚技术移民与留学服务协议
- 名著阅读《童年》导读课课件
- 《无人机测绘技术(微课版)》全套教学课件
- 国有企业战略使命评价制度
- 合规风险管理制度
- 2024年四川省成都市中考作文“赢”与“迎”写作指导
- GB/T 21220-2024软磁金属材料
评论
0/150
提交评论