版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
附件.申报书模板中国移动计划建设最佳实践案例申报书案例名称:基于Spark核心架构的大数据平台技术研究和实践申报单位:中国移动通信集团公司年月日
专业类别:(请勾选)管理类技术类工程建设类√关键字:大数据、Spark、数据透明访问、资源管理、多租户应用时间:2015年联系人:联系电话:电子邮箱:案例总体概述
(不超过300字,包含案例意义、方案简介、应用效果、推广意义等内容)“基于Spark为核心的大数据平台技术研究和实践”方案是湖北移动在2015年度与集团联合的重点攻关项目,主要目的是为了降低成本,消除技术之间的限制和壁垒,获得企业级的IT自由度,更好的挖掘隐藏在大数据中的价值。此方案的成功落地真正全面的打造了一个基于spark技术的大数据中心处理平台。此平台目前接入1100余个数据源接口,建设940余个数据模型,开发运维2000个程序,服务11个合作伙伴开发团队,服务20余个专业应用系统。目前取得的应用效果主要体现在:1、根据我省TCO核算,数据中心整体减少了50%约硬件,后期扩容采购模式更加灵活,扩容软硬件标准统一符合集团采购范围。2、将流量运营租户模型计算从Hive迁移至Spark计算,减少了该租户计算资源占用30%,生产效率提升4倍。3、实现SparkSQL的数据透明互访后,将流量运营租户的总计2.5PB数据存储需求减少为1.6PB,共减少存储需求935TB,节省23%存储硬件投资大数据平台基于目前的建设现状,后期集群本身需不断完善,包括调整集群分布方式将原有集群调整为数据生产集群和数据服务集群,两个集群针对性分工。解决数据生产加工和数据服务相互抢占集群资源,同时大数据平台建立一套面向多租户、开放式的大数据能力平台。未来在安全方面,向平台安全、数据安全、应用安全考虑。一、案例意义(不超过3000字,可用附件)湖北公司在2013年部署了首个基于Hadoop技术的大数据应用—流量经营分析系统。主要功能是:使用Hive(MR1计算框架)对每日高达10TB的GN口信令数据进行数据仓库ETL工作,完成了用户终端应用、网站内容、终端类型、上网位置、用户偏好等数据的挖掘分析工作,使用Esper对MC口信令数据进行流处理实时计算,为对用户进行精准营销活动提供有效数据支撑。使用HBase高效快速的为客服人员提供用户详细上网情况信息,以对客户明细级投诉内容及时释疑,提升客户满意度。在使用过程中发现基于目前的架构及组件的技术上存在查询速度慢、访问数据路径复杂等问题具体是:Hadoop版本相对较老,无法进行动态资源分配和管控,给生产调度任务优化带来较大维护困难。Hive与HBase共享计算资源无法隔离,Hive在进行日汇总计算和月汇总计算时占用CPU资源时间过长,导致HBase生产容易超时。Esper流处理架构冗余度高,独立于YARN之外无法进行资源动态扩展,无法实现多租户管理,导致硬件投资增加。基于这些使用过程存在的问题,迫切需要在构建数据中心平台对原有的技术架构进行升级,因此提出此次“基于Spark为核心的大数据平台技术研究和实践”。解决目前大数据平台存在的不足,提出以下目标:实现基于spark的大数据处理平台技术架构;构建基于SparkSQL的透明数据访问层,降低数据ETL的代价,解决访问数据路径复杂问题;多种手段全方位提高Spark计算速度,解决速度慢的问题;基于Docker实现YARN之上的容器技术,使得更多的大数据外围软件工具能够运行与YARN之上,真正全面的打造一个基于spark技术All-in-One的大数据中心处理平台,解决查询速度、硬件投资多等问题经过对以上问题的解决,湖北移动在企业级大数据中心,整合B域、O域、M域的数据形成标准化、开放式、集中化的数据中心平台。并深入研究Hadoop及Spark等生态圈软件的底层技术,构建以Spark为核心的统一数据存取、处理、分析、实时计算的大数据平台,并创新性的提出的技术解决方案,对在不同存储系统中的数据,提供基于SparkSQL的透明访问层以降低开发成本、对Spark进行多种技术创新提升了平台整体计算效率、以YARN+Docker为核心建立针对多租户的应用资源管理以提高整个数据中心资源的利用率等。建立了一种低成本、高性能的大数据中心建设模式。对比传统解决方案,在创新性关键技术实施后,大幅度的提升了大数据平台的计算效率,具备了PB级数据高性能、低时延的处理能力,具体效果如下所述。通过SparkSQL替换原有Hive作为标准统一SQL接口,使用提速后的Spark的RDD内存计算方式取代传统的MR运算,有效的提高了即席查询效率。前后运算速度对比如下:软件名称数量级(单位:秒)100万1000万1亿10亿100亿HIVE71.369285.95889.063任务超时中断任务超时中断Spark2.8326.52625.575389.1113687提升率(%)2520%4381%348%通过SparkStreaming替换原有Esper作为流处理计算引擎,有效的及时消息处理时延。前后处理时延对比如下:软件系统处理流程时延整体时延预处理复杂处理数据输出Esper1分钟2秒20秒1分22秒SparkStreaming不需要1秒5秒28秒同时根据集团公司统计,湖北移动目前是中国移动内部hadoop节点数量最多、聚合数据量最大、进驻租户最多的省级私有云,总体管理的数据已达3.5PB,应用租户达到17个。同时湖北公司的大数据建设模式成果《湖北移动创“1+2+N”(1“集中基础平台”+2“IT资源管理体系”“数据资产管理体系”+N“多样化服务形态”)大数据资产管理模式》在2015年8月人民邮电报首发,并被在中国通信网C114、网易、中国信息产业网等互联网媒体转载,该信息在集团公司《中国移动每日舆情摘要》中被头条刊载,成果得到行业以及社会高度认可和关注。同时集团公司沙跃家副总裁在2015年半年工作会中,单独对湖北公司的数据治理与可持续变现的案例进行了表扬。二、案例方案(不超过800字)为实现本期建设的四个目标,以下提出了具体的解决方案1.1基于spark的大数据处理平台湖北移动在2015年度不断深入研究大数据开源技术,重点攻关YARN和Spark等多项技术难点,在大数据开源技术领域首次实现了All-in-One的技术架构该技术架构实现All-in-One的核心方法如下:采用Spark和sparkstreaming进行统一的数据存取、批量处理、即席查询、实时分析、流计算的一体化处理,在大数据中心物理设备层面不再区分设备节点类型与服务类型,全部纳入YARN进行动态资源管理。以SparkRDD内存计算技术为核心提供统一的数据存取处理及分析平台继续引入Spark生态圈组件完善目前大数据处理平台的数据处理方案。首创引入YARN+Docker技术,做到了在YARN管理的资源之上应用容器,1.2基于SparkSQL实现多种异构数据源间的透明访问在业界通用的大数据架构中,由于集中复制导致大量的重复数据,造成存储和网络带宽资源的浪费,我省采用“透明访问”有效的解决这一问题。在数据中心实现各计算框架下的数据透明交互,节省存储开销,减少硬件投资,同时保证了大数据平台访问的可操作性。“透明访问”的技术架构如下图所示:透明数据访问是基于SparkSQL的DataFrame框架来实现的,通过Spark1.2版本发布的ExternaldatasourceAPI组件,SparkSQL可以将不同的外部数据源抽象成一个关系表格,支持了多种如JSON、Avro、CSV、Parquet、ORC等数据格式,将上述系统中的文件映射到透明数据访问层中,获得了更多的结构信息,将查询中的各种信息下推至数据源处,从而充分利用数据源自身的优化能力来完成列剪枝、过滤条件下推等优化并最终转换为RDDDAG在Spark引擎上执行。1.3多种手段全方位提高Spark计算速度1)首创引入PCI-e接口的SSD卡,实现Spark物理加速2)首创采用动态代价分析算法,加速Spark多表分析性能根据相关表的大小,记录条数,数据分布情况,数据倾斜情况以及抽样数据计算情况,综合考虑智能选取最优的执行计划,较好的解决了数据倾斜问题,加速了数据处理性能3)在Spark中创新Broadcast算法,提升Spark查询性能优化SparkSQL表关联的执行效率,为每台机器上缓存一个只读变量,通过广播变量将一个大数据量输入数据的副本分配给每个节点,从而使SQL表关联的执行效率大幅提高。如ETL平台中即位查询1000万级数据源,效率平均提升30倍左右。4)创新Spark动态分区算法,提升Spark数据入库性能原版的SparkSQL在导入数据时只能通过静态分区的语法进行向Spark表中导入数据,这种方法需要人工预先对数据进行分区,耗时耗力。湖北移动创新改进Spark源码,实现SparkSQL支持动态分区,自动判断文件中的分区值,然后根据分区值创建或者找到对应的目录,把数据写到这个目录的文件里,提高大批量数据导入效率67%。1.4基于YARN的Docker服务容器化实现湖北移动大数据中心应用率先采用YARN+Docker的资源控制技术,将Hadoop生态圈组件如Spark、Hbase等和非生态圈中间件如Tomcat、Kafka、Redis、Mysql等软件实现YARN的统一资源调度和分配。该方式不仅有效的提高资源的使用效率,同时基于YARN实现资源的自动容灾和在线动态扩缩容。在YARN上面使用Docker实现资源完全隔离的能力,这样实施后大数据的多个租户如需要使用相同组件,即可不用上多套同样组件(由YARN统一调配)又可实现隔离(由Docker提供),这样计算资源综合减少了约30%左右。三、应用效果(不超过800字)基于Spark为核心的大数据平台技术研究和实践落地完成后,完成了此次提出的四个建设目标,累计接入1100余个数据源接口,建设940余个数据模型,开发运维2000个程序,。目前取得的效果主要体现在:1、,实现spark的All-in-One大数据处理平台,使得数据可以统一存取、批量处理、即席查询、实时分析、流计算的一体化处理,硬件层面不再区分设备节点类型与服务类型,全部纳入YARN进行动态资源管理,根据我省TCO核算,数据中心整体减少了50%以上的硬件,为业界流行的Hadoop+MPP系统建设方案的50%,后期扩容采购模式更加灵活,扩容软硬件标准统一符合集团采购范围,成本价格廉价且有更多的厂家选型。2、实现SparkSQL的数据透明互访后,将流量运营租户的总计2.5PB数据存储需求减少为1.6PB,共减少存储需求935TB,节省23%存储硬件投资。数据透明访问降低了维护和管理上的难度,应用开发和业务分析更敏捷更实时,实施后可节约三分之一的开发周期,减少20%的运维和开发成本。3.通过种多手段全方位提高Spark计算速度有效的提高了即席查询效率。前后运算速度对比如下:软件名称数量级(单位:秒)100万1000万1亿10亿100亿HIVE71.369285.95889.063任务超时中断任务超时中断Spark2.8326.52625.575389.1113687提升率(%)2520%4381%348%4、将流量运营租户模型计算从Hive迁移至Spark计算,减少了该租户计算资源占用30%,生产效率提升4倍。5、我省数据中心集群规模进入全国第一梯队:我省目前大数据集群规模约630台,处于全国第一梯队;预计2016年底,大数据中心规模在1200台左右。数据中心数据资产模型已经建设1205个。目前已经有22个系统/项目进行了入驻;我省经分云化已经完成70%的业务迁移和上线。6、社会效益《湖北移动创“1+2+N”大数据资产管理模式》在2015年8月人民邮电报首发,被在中国通信网C114、网易、中国信息产业网等互联网媒体转载。四、推广建议(不超过800字)作为全集团规模和能力处于第一梯队前列的大数据中心平台,本实践案例已经服务于内部PCC、TOOLBAR、电子渠道、实体渠道等各类实时营销推荐场景,服务于旅游、交通、征信、位置服务等外部应用,在系统稳定性、处理效率、资源调度共享和集约方面积累了丰富的经验,对中国移动其他正在紧锣密鼓建设的大数据中心建设有着很好的借鉴作用。下一步,将致力于平台的进一步完善1、在大数据平台建设方面:基础平台建设一个中心两个集群前期大数据平台数据生产加工和对外服务都是在一个集群完成,共用平台资源,数据加工过程和对外服务会争抢资源,给生产服务和对外应用服务带来数据质量和应用及时性无法保证等问题,湖北推出一个企业级数据中心,两个Hadoop集群(生产集群和服务集群)的“one-two”架构,有效解决了数据质量和对外服务及时性等问题。统一可视化运维平台预计2016年底,湖北公司大规模服务器集群达到120
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 陕西西安科技大学附属中学2026年初三第二学期年级质量调研考试物理试题试卷含解析
- 2026年大学大一(康复治疗学)康复心理学基础阶段测试题及答案
- 2026年大学大一(机械设计制造及其自动化)机械设计基础阶段测试题及答案
- 2025年前台防疫知识卷
- 护理带教中的多学科合作
- 2025年前台电话接听能力训练
- 604 GLD1500皮带式给煤机
- 护理职业安全与持续改进
- 护理安全转运转运安全管理
- 护理安全与安全保障
- 2025年上海中烟机械技术中心限责任公司招聘高频重点提升(共500题)附带答案详解
- 铁路劳动安全 课件 第三章 防洪抢险
- 2024年度卫星导航设备融资租赁合同
- 医院品管圈(QCC)活动成果报告书-基于QFD 润心服务改善 ICU 患者及家属就医体验
- 基于PLC的物料分拣系统设计
- JTG-T 3392-2022高速公路改扩建交通组织设计规范
- DL-T5191-2004风力发电场项目建设工程验收规程
- DZ∕T 0130-2006 地质矿产实验室测试质量管理规范(正式版)
- 摩托车和轻便摩托车耐久性试验方法
- AQ 2047-2012 水泥工厂筒型储运库人工清库安全规程
- JJG 693-2011可燃气体检测报警器
评论
0/150
提交评论