




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
辽宁移动大数据平台方案-交流稿5/19/2020,天云简介,天云公司致力于云计算产品研发、云系统构建、云系统解决方案、大数据解决方案的提供。天云公司专注云计算领域,引入国内外的云计算的顶尖人才。总部设在北京云基地,在中国(包括香港、台湾)16个省市设有分支机构,在北京,西安以及美国硅谷拥有自己的研发中心,共有核心研发人员:255名,首席云专家:5名。云基地担任云计算事业的先锋角色:云计算知识产权创新联盟理事单位院士专家工作站科技企业孵化器博士后工作站天云公司客户主要集中于运营商、政府、能源、制造业等行业天云公司运营团队:由具有国际化背景和本地化经验的优秀人才构成,核心成员均为从美国硅谷回国创业人员,曾分别服务于各大国际知名电信和网络运营商及跨国IT企业。,公司大事记,2010年4月,天云联合趋势科技,在中国移动通信研究院,成功搭建中国移动IaaSPoC平台第一期,实现与大云虚拟化平台对接,为中国移动IaaS业务的商业化运营奠定了基础2010年9月,天云携手趋势、友友天宇,与国网信息通信有限公司一起,创立了中国电力行业第一个“云计算仿真实验室”,共同为智能电网大规模数据处理进行预研和验证,这也是中国第一个产业云;2010年9月,中国科学院与云基地天云公司签署在云计算和移动互联网领域战略合作;2010年12月,天云公司与台湾电信龙头中华电信签署合作备忘录(MOU),双方将致力于两岸云计算服务,云计算解决方案及ICT(信息技术与通信技术)智能产品解决方案展开全面合作。2011年12月,天云公司成功的完成了上海浦东软件园“汇智在线,IT服务云”项目,正式向园区企业提供云计算服务。2012年02月,天云公司中标首信电子商务云项目,以建设北京市级电子政务云平台互联网云,面向电子政务应用系统提供IAAS、PAAS、SAAS各级服务,以推动北京市电子政务向更高层次跃进。2012年05月,天云公司荣获中国通信行业云计算优秀解决方案奖、中国绿色IT服务与外包创新贡献奖。2012年-2013年,天云公司中标北京电视台、黑龙江移动业支云(二期、三期)、广东移动VDC云二期建设、上海移动大数据共享平台、中国联通沃云、浙江移动存储管理平台等一系列云平台、大数据项目。2013年11月,天云软件荣获“2013年最佳云计算平台解决方案奖”,CEO张福波博士荣获“2013年中国行业信息化领军人物奖”,天云案例运营商行业云应用落地案例,黑龙江移动私有云项目黑龙江移动支撑云项目,中国联通沃云-中国联通一级公众服务云项目中国联通云计算战略咨询项目中国电信中小企业云项目北京移动云应用技术服务项目,中国移动南方基地云网管咨询项目中国移动南方基地经分Hadoop云项目广东移动VDC一期云平台项目广东移动VDC二期云平台项目广东移动SaaS咨询项目,山东电信云平台项目,上海移动数据平台项目,浙江移动统一存储云平台管理项目,重庆移动GPRS话单查询项目,行业案例涉及:深圳国家动漫基地云平台项目中国光大银行历史数据查询项目北京电视台云平台项目上海浦东软件园项目北京市电子政务云平台项目,目录,资源池规划与落地点探讨,大数据平台顶层架构设计,附件:案例介绍,移动运营商面临的挑战,环境变化,能力提升,支撑业务规模发展和创新突破架构优化,支撑企业集中化与一体化、专业化的运营与服务数据共享,支撑企业科学决策和精确管理,新的要求,移动互联网迅速发展,企业电子商务化,云计算、大数据等新技术兴起,跨行业产业链变革,业务目标,存量经营流量经营集客经营终端销售,管理目标,质量InsertintoHDFS_dataselect*fromRDBMS_data;,目前天云平台集成的数据互通工具,双中心规划形成大数据数据备份,浑南数据中心,江北数据中心,在分布式文件存储层,采取DistCP方式:DistCP方式可以将一个分布式文件系统(集群)里的某个目录拷贝到另一个分布式文件系统(集群)。DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。在分布式非关系型数据库层,采取HbaseReplication方式,大数据平台建设讨论,工作界面划分?大数据平台维护人员如何设置?接口维护?,天云大数据平台亮点,一句话定位:天云数据平台=“传统”+“现代”数据平台集大成者。传统=传统数据仓库/RDBMS,是基于传统基于结构化数据处理的关系型数据(仓)库,以ScaleUp为特点现代=基于关系代数理论的MPP+Hadoop技术,以分布式处理为基础,以Scaleout为特点,可处理海量数据适用场景:运营商跨域数据融合,智慧城市,智慧省份解决方案,公安,医疗等。放眼未来,更好支撑运营商互联网转型,更好的支撑数据黄金资源时代的到来。,目录,附件:案例介绍,大数据平台顶层架构设计,资源池规划与落地点探讨,数据中心平台选型依据,平台的选型首先要进行规模评估,确定数据中心的容量;其次要进行需求评估,主要包括线性扩展、成本、稳定性、性能、运维等评估,据此选取合适的存储平台技术;最后,依据规模、需求评估,导出容量评估,确定建设方式,机房选址、服务器、存储、网络等物理资源规划。,规模评估思路,数据量(T),账单类数据,指标类数据,投诉类数据,原始数据,首先针对汕头移动目前数据现状进行梳理,并进行标签分类,比如账单类数据、指标类数据、投诉类数据、原始数据等,如下图中的横坐标表示;其次针对梳理出来的数据类型,进行数据量统计,获取每种类型的数据量;再次,针对数据种类,依据数据增长趋势,进行数据量增长预测,确定数据中心平台未来一段时间内所需的规模。,示例,需求评估、容量评估思路,依据规模、需求评估,导出所需物理资源数量,确定建设方式,机房选址、服务器、存储、网络等物理资源规划;依据关系型数据库(以Oracle为例)容量情况,MPP分布式数据库容量情况(GreenPlum为例),分布式Hadoop系统容量情况,推出所需的服务器、存储、网络等物理资源数量;依据物理资源数量,导出所需的机房资源,包括机房面积、承重、电力、空调、维护人员等。,示例,共享平台Hadoop资源池服务器选型建议,如果执行MapReduce,特别是在压缩文件上执行,其对CPU的消耗较高,CPU成为了瓶颈;而在运行Hbase的时候,更多的内存会缓存更多的数据,提高查询吞吐率并缩短响应时间。,内存的选择:通常情况下,Hadoop处理任务每个CPU逻辑核(指超线程下,一般一个核对应两个逻辑核)对应2G内存即可。CPU的选择:实测表明:Hadoop处理性能与CPU性能密切相关,任务运行时间与SPEC值基本成反比关系,因此应该选择性能较高的CPU。服务器类型:一般的Hadoop项目选择2U的机架式服务器,试点中有公司选择了多节点服务器(2U四节点),也应用得比较好。,服务器配置列表,存储计算机器配置如下:,管理节点服务器,共享平台Hadoop组网建议,主要关注点:节点与机架交换机使用L2连接。机架交换机与核心交换机使用L3连接。机架内部通讯延迟低于跨机架时延(Hadoop默认策略)。交换机oversubscription(入出率)比率建议2.5:1(不能高于交换机最高值)。核心交换机与Rack数相关,Rack数量与核心交换机数量和端口数成正比,但交换机不应太多,会降低机架上传带宽。机架交换机方式的机柜交换机的上行链路会成为瓶颈,交换机数量多,设备管理复杂性增加。在核心交换机端口紧张情况下,可以从机架交换机接入外部网关,提供集群外部访问能力。,共享平台MPP软硬件选型建议,当前构建在X86平台上的新型MPP数据库产品众多,Garnter每年会发布一版数据仓库魔力象限可以供参考。在大陆地区可以获得技术支持的MPP产品及其特性如下,不同架构的数据仓库各有优缺点。比如带主控节点(Master)的数据库会存在单点故障,但各节点分工明确;无主控节点的数据库不存在单点故障,但可能某各节点承担的任务不平均。行存储装载数据快、压缩率低、查询速度稍慢;列存储装载数据慢、压缩率高、查询速度快,但部分产品的列存储方式无法支持更新、删除数据。所以建议在引入MPP数据库前各公司应该根据预期的应用场景编写测试案例,用去隐私的实际数据作为测试数据,对可选的MPP产品进行评估,然后确定最适合自身场景的产品。,其数据节点一般按照如下要求来配置:CPU核数、内存(G)和磁盘个数的配比:一般情况下为1:8:1或1:8:2。同等情况下磁盘个数越多性能越高,但磁盘总个数受机架式服务器的空间限制,一般为12(3.5寸)到16个(2.5寸),少部分非集采服务器更多。磁盘:为了获得高可靠、高读写带宽和高IOPS,应选用SAS接口的企业级硬盘,转数一万及以上。RAID卡:虽然MPP数据库大多通过副本的机制来保证某个节点故障情况下的高可用,但是代价高:大部分数据库故障情况下当前应用需要中断,少部分数据库还需要重启来应对故障;且故障情况下理论的效率要下降50%而不是按故障节点比例下降。所以在选择硬件平台的时候要有限选择高可靠的硬件,比如电源,更比如RAID卡。一般将通过RAID卡的PCI-E接口连接到主机上,通过RAID10或RAID5来保证单个磁盘出错不会触发节点故障。这点也与Hadoop明显区分出来。,MPP组网建议,MPP数据库中运算的特点是多节点并发计算,其间可能会出现节点间的装载、数据重分布、复制或数据广播(如非分区键关联等操作),最后各节点运算结果数据汇总,所以节点间互连网络的速度(包括带宽和时延)会直接影响到计算效率的高低,这就使得MPP数据库的架构会对内部互连网络有较高的要求。因此MPP数据库内部交换网络需要保证点到点的万兆以太网带宽,MPP数据库对网络的要求也与Hadoop有较大差别。因此每台机器至少需要配置两个网口(当然配备两个的大多数原因是为了保证高可用,而不是绑定在一起负荷分担),推荐使用IB网卡(但是这种情况下,要注意PCI-E的版本应3.0以上才能和网卡速度匹配)或万兆网卡和交换机以保证内部数据高速传输。用于数据加载的ETL服务器也应处于内部网络内以保证大数据量的加载性能。为了实现点对点的万兆速度保障,在超过一个机柜的情况下,一般还需要通过核心交换机来实现FLATTREE方式的一比一收敛,参见之前Hadoop的组网章节。,目录,附件:案例介绍,大数据平台顶层架构设计,资源池规划与落地点探讨,案例1-中国移动南方基地经分Hadoop云系统,系统架构:,案例2-重庆移动GPRS话单查询项目,系统架构:,案例3-中国光大银行历史数据查询项目,系统架构:,案例4
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 辽宁叉车考试题及答案
- 铝厂晋升面试题及答案
- 报关实务考试题及答案
- 2025年甘肃省兰州石化职业技术大学教师选聘考试笔试试题(含答案)
- 2025年大庆市属国有企业招聘考试笔试试题(含答案)
- 从业人员法律法规培训试卷(附答案)
- 2024年院感知识竞赛备考试题库50题几答案(含各题型)
- 无菌技术理论知识考核试题及答案
- Ⅲ类射线装置辐射工作人员考试题(附答案)
- 2025年政府采购基本法律法规考试题库与答案
- (完整版)韩国商法
- 去骨瓣减压术的护理
- 慈善机构的财务管理
- 《武汉大学分析化学》课件
- 医学影像学与辅助检查
- 电力工程竣工验收报告
- 双J管健康宣教
- 如何提高美术课堂教学的有效性
- 水电站新ppt课件 第一章 水轮机的类型构造及工作原理
- 护理查对制度课件
- 市政工程占道施工方案
评论
0/150
提交评论