大数据趋势分析及中兴通讯解决方案V1.0X.pptx_第1页
大数据趋势分析及中兴通讯解决方案V1.0X.pptx_第2页
大数据趋势分析及中兴通讯解决方案V1.0X.pptx_第3页
大数据趋势分析及中兴通讯解决方案V1.0X.pptx_第4页
大数据趋势分析及中兴通讯解决方案V1.0X.pptx_第5页
已阅读5页,还剩50页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据发展趋势分析及中兴goldendata解决方案,中兴通讯.云计算&it经营部,2014年2月,目录,大数据时代的机遇和挑战大数据关键技术发展趋势中兴通讯大数据解决方案介绍案例介绍,大数据是端-管-云发展的产物,2011-2016全球移动数据量(单位:eb/月),201120122013201420152016,29%cagr2011-2016,流量激增:2011-2016年,全球移动数据流量将激增18倍,达到10.8eb/月;全球ip宽带数据流量将达到110.28eb/月(1eb=1,024pb=1,048,576tb)数据膨胀:未来10年全球数据量将以40+%的速度增长,2020年全球数据量将达到35zb(千万亿兆比特1zb=1,024eb)注:到2012年为止,人类生产的所有印刷材料的数据量是200pb,全人类历史上说过的所有话的数据量大约是5eb。,3,大数据的4v特征,大数据概念的提出,通过三个方面的扩展延伸带来了思维的变革,并对生活、工作产生深远影响数据是源头和动力,数据源的变化带来数据应用的变化,数据量大,volume海量,结构化、非结构化、半结构化数据,variety多样性,数据实时、快速处理,velocity快速,能挖掘出高价值,value价值,理解1:从局部或样本数据,向全体数据的扩展,理解2:从结果数据,向过程数据的扩展,理解3:从静态存储数据,向动态流处理数据的扩展,大数据“4v”特征,对大数据特征的理解,4,电信行业大数据应用需求和特点,大数据时代,数据已经成为运营商的核心战略资产,电信运营商真实记录了人的社会化生活信息,运营商同时拥有用户的真实社会信息和流经管道的互联网虚拟社会信息,这是电信运营商同互联网厂商相比的优势所在。,上海某运营商每分钟8万条位置更新信息(徐家汇商圈)每小时近300万次移动电话呼叫每天70-100tb数据及30亿次点击的互联网访问量,6,大数据时代电信行业面临的主要挑战,异构海量数据,存储成本高数据模型不一,共享困难数据质量不一,干扰数据多,如何有效管理数据资产?,如何有效挖掘数据价值?,如何做好数据经营?,数据处理实时性要求高数据挖掘智能性不足数据可视化手段匮乏,缺乏完善的数据开放访问机制内部不能清晰确定各类数据价值外部难以将需求转化为分析需求,电信行业海量数据还未形成有效的信息资产,7,目录,大数据时代的机遇和挑战大数据关键技术发展趋势大数据关键技术发展趋势数据分析与应用技术发展趋势中兴通讯大数据解决方案介绍案例介绍,大数据关键技术发展趋势,趋势1:计算单元向不同的专业化应用发展趋势2:存储设备向低功耗、高性能和一体化方向发展趋势3:大数据分析推动计算和存储能力趋向融合,存储及数据管理,趋势1:实现高效存储成为存储技术主要研究方向趋势2:云存储系统从向多应用服务方向发展趋势3:关系数据库和分布式数据管理方式逐步走向融合,数据隐私与安全,趋势:数据给数据安全和隐私保护带来更加严峻挑战,趋势1:计算模块向不同的专业化应用发展,专业加速计算模块,视频编解码图像识别图像搜索在线加解密,基础设施,存储与管理,隐私安全,趋势2:存储设备向低功耗、高性能方向发展,面向海量存储的低功耗存储服务器,面向海量访问的高性能存储服务器,arm存储服务器,ssd存储服务器,低功耗、高性能成为存储设备形态发展方向,趋势3:计算、存储、网络能力趋向融合,将计算在离它操作的数据最近的地方执行,降低网络阻塞的影响,提高系统数据的吞吐量,任务执行更加高效,移动计算比移动数据更划算!,移动数据,移动计算,带宽消耗,1.计算分配,数据存储节点,3.循环计算,计算控制节点,计算节点,传统分布式系统,大数据一体机,计算节点,数据存储节点,2.移动数据到计算,趋势1:实现高效存储成为存储技术主要研究方向,13,自动精简配置:解决传统存储分配问题,达到按需分配,提高存储的使用率自动分层存储技术:对存储资源进行分层,保证热点数据在性能最好的设备上存取重复数据删除技术:减少数据重复存储,提高系统使用率数据压缩:对存储数据进行压缩,提高存储资源利用率,自动精简配置,重复数据删除,自动分层存储,数据压缩,自动精简配置可以按应用需要自动扩展逻辑卷大小;客户可以根据业务发展,动态采购物理设备,优化存储投入,存储优化,自动分层存储可以根据数据活动状况将数据转移到不同的存储介质热点数据存储在高速的ssd设备中,提高存储效率和存储投入,重复数据删除技术着眼于删除重复出现的数据块重复数据删除更适合于备份应用或者nas应用的场景,数据压缩技术通过对数据重新编码来降低其冗余度数据压缩更适用于一些结构化的数据应用,利用存储优化技术减少数据存储空间、提升吞吐i/o,基础设施,存储与管理,隐私安全,趋势2:云存储系统朝多应用服务方向发展,通过专业化的管理策略满足不同应用的需求通过清晰的应用边界保证服务质量通过弹性扩展,实现资源利用的最优化,新型存储体系架构,传统存储,海量存储,应用a,应用b,应用c,存储资源池管理,独立存储,独立存储,独立存储,应用a,应用b,应用c,独立运维,独立运维,独立运维,应用a,应用b,应用c,存储资源管理(完全通用的管理策略),专业化管理策略1,专业化管理策略2,专业化管理策略3,数据融合存储,通过折中方式实现性能优化,不能实现所有应用的性能最优化无应用边界的存储资源共享,导致服务质量无法保证扩展能力有限,不能为应用提供足够的资源,趋势3:rdbms和分布式数据管理方式融合,各司其职,组合方案,取长补短,相互融合,rdbms,劣势:多类型数据表示扩展性简单分析,关系模型事务处理查询优化,优势:简单模型非过程sql语言丰富工具,劣势:关系模型支持sql的支持分析和调试工具,优势:高扩展性高可靠部署成本低处理方式灵活,生产系统,rdbms,分析系统,etl(sqoop),大数据清洗,olap,asterdatagreenplum,rdbms,rcfilehadoopdb,趋势:数据安全和隐私保护成为更严峻挑战,16,数据,用户,法律法规,技术,个体数据、匿名数据、群体数据具有不同的隐私保护级别对外服务的隐私风险远远高于内部服务,需要有效手段规避,让用户有选择的自由,同意或不同意提供数据不同用户对隐私敏感度不同,可以区别对待,数据匿名技术实现敏感信息的匿名化,保护隐私nosql、hadoop需要加强数据安全保护安全框架和审计有利于保护数据不被泄露,关注法律法规的逐步完善,根据变化调整策略关注西欧、北美等隐私保护严格区域的进展,借鉴经验,基础设施,存储与管理,隐私安全,目录,大数据时代的机遇和挑战大数据关键技术发展趋势大数据关键技术发展趋势数据分析与应用技术发展趋势中兴通讯大数据解决方案介绍案例介绍,数据分析与应用技术发展趋势,趋势1:实时数据分析需求推动实时计算框架发展趋势2:大数据分析平台提出多分布式计算框架融合需求,数据分析技术,业务应用技术,趋势1:对自然语言理解的需求推动语义web技术发展趋势2:跨媒体的数据融合业务推动多维多模态信息融合与处理趋势3:大数据可视化成为快速理解大数据的最佳途径,趋势1:个性化、社交化、智能化的业务趋势趋势2:人机交互的需求推动智能问答发展和应用,趋势1:业务对数据分析实时性要求提升,数据的价值随着时间的流逝而降低,实时流计算平台:广告点击、topkcep:用户行为分析、市场预测,金融交易、风控对海量交易实时性用户体验的个性化和实时性社交网站用户数据的实时统计和分析点击付费广告位与计费有关的反作弊业务的实时处理实时搜索、个人实时信息服务等等,计算框架,数据分析,业务应用,趋势2:分布式框架同计算资源解耦,不同应用场景需要使用不同的云计算框架,计算资源,计算资源调度管理,bsp框架,dag框架,业务引擎,m/r框架,mpi框架,平台为不同场景提供不同的分布式框架,yarn/mesos/等开源项目推动了分布式框架同计算资源的解耦,趋势1:利用语义技术解决自然语言理解,云计算和云存储基础架构,大规模语义知识网络,异构媒体语义计算与链接,语义查询与知识服务应用,语义网络动态更新与知识融合,异构知识资源的语义网络构建,软硬件计算基础,知识服务,知识资源抽取与语义网络构建技术,自然语言处理,图数据管理,图结构的大规模语义数据管理平台,语义网络数据质量控制,计算框架,数据分析,业务应用,趋势2:大数据推动多维多模态信息融合与处理,多维度和多模态数据与信息的处理,趋势3:大数据可视化成为快速理解大数据的最佳方式,饼图,gis应用,趋势1:业务发展趋势更加个性化、社交化、智能化,人,基于多维度用户建模和知识挖掘共同满足个性化需求,基于多维度用户建模在不同场景满足用户个性化需求,在不同场景下提供基于知识体系的信息扩展,综合满足用户需求,内容,场景,sns数据,短信数据,微博数据,浏览日志,lbs数据,userprofile,计算框架,数据分析,业务应用,趋势2:智能问答交互将成为下一代人机接口,谁控制了入口,谁就控制了互联网,目录,大数据时代的机遇和挑战大数据关键技术发展趋势中兴通讯大数据平台介绍系统架构及特点对hadoop的优化改进中移大数据测试情况案例介绍,goldendata大数据分布式处理平台架构,大数据挖掘,dmp精分,实时流处理,数据源,zdh,应用,数据源,结构化数据,管理部分,元数据管理,系统管理,安全管理,流数据,非结构化数据,半结构化数据,静态数据,etl,分布式中间件,hdfs/zxdfs,hbase,oozie,mapreduce,用户行为分析组件,olap,客流分析组件,挖掘工具,流量统计工具,位置业务,垃圾短信分析,客服中心,无线网络优化,日志留存与分析系统,精准营销,用户画像推荐,qsp搜索,企业搜索,金融业务,hive,统一开放服务接口,udas查询,iptv,应用商店,舆情分析,大数据平台,dhss,yarn,完善的大数据处理平台及工具,hadoop基础上的zte优化版本,丰富的应用开发、维护工具,一体化数据管控平台,分布式olap-zxdap,分布式挖掘算法库-zxdmp,分布式搜索引擎-zxqsp,丰富多样的数据展现-zxumap,并行数据分析与挖掘工具,sql、webservice标准接口,数据导入导出工具,集群的批量安装、维护,mr作业的图形化开发工具,提供灵活的端到端数据处理方案,数据库和数据仓库,静态数据分析,分析结果,关系型数据源,非关系型数据源,分析结果,数据分析建模,结构化数据,流式数据,非结构化数据,关系或非关系数据源,实时结果,cep实时数据分析,目录,大数据时代的机遇和挑战大数据关键技术发展趋势中兴通讯大数据平台介绍系统架构及特点对hadoop的优化改进中移大数据测试情况案例介绍,开源hadoop系统存在的性能问题,优化前的任务调度流程,心跳机制导致基于短作业任务调度性能低下,优化前的通信机制任务调度流程,中兴通讯hadoop系统性能优化解决方案,通信机制调度流程优化,优化,任务调度流程优化,去除相应的心跳周期,改用“即时通信”机制,对worldcount,grep和terasort等mapreduce等标准算法性能提升达到30%以上。,hadoopmr性能优化结果-典型算法,优化前优化后,wordcountgrepsort,处理时间缩短、系统处理更平稳,hadoopmr性能优化结果-性能线性扩展,glodendatahadoop,集群性能随节点数增加呈线性增加,standardhadoop,hadoopmrslot分配性能问题及优化方案,问题:开源版静态配置的slot调度策略,导致性能低下解决方案:采用资源环境感知动态调度技术,收集和分析hadoop系统slot资源分配信息,实现动态分配、调整slot资源,hadoopmr性能优化结果-slot动态分配,动态slot调度性能优化结果,整体性能提升15%以上,hadoopmr性能优化结果-slot动态分配,优化前:集群负载波动较大,因而利用率并不高,优化后:集群负载波动范围缩小,利用率提高,最终计算时间缩短,hadoopmr作业问题及优化方案,组混搭作业测试结果,问题:不同的作业,会具有不同的资源消耗特征,如:cpu技术密集型、i/o密集型、内存密集型等解决方案:实时检测资源消耗特征,根据不同的特征对不同的作业进行均衡混搭分配,达到整个集群均衡的作业和任务分配调度,hadoopmr性能优化结果-作业开销动态调配,优化前资源利用不均,优化后资源利用趋于均衡,对hdfs元数据存储的改进,namenode1,namenode2,zxdhss-mem分布式内存库,采用中兴自研内存数据库替代mysql后,双机切换时间由数分钟降低到数秒,goldendatahbase功能增强高速即时分析,研发hiveoverhbase,实现了基于hbase的高效率复杂查询和统计汇总功能实现了基于hbase内数据的hiveql前端功能,性能提升数十倍,提供异构数据的etl导入/导出工具,1、支持流计算、文本文件、关系数据库、hdfs、hbase等,以满足结构化、非结构化数据处理的需求2、数据转换的过程界面化配置3、数据转换的过程显性化监控,goldendata产品其他功能优化,a,d,b,c,功能优化,性能统计、告警调优提供mr、hdfs、hive、hbase等子系统的性能统计及告警功能,hbase多列族副本设定不同的副本个数,做到精细化的管理表的每个列族,hdfs支持ftp功能支持ftp直接传文件到hdfs,硬盘插拔调优热插拔硬盘过程中,hadoop可以持续写新的数据.,goldendata算法优化,reduce任务调优reduce任务的slot数调优reduce任务启动调度调优,数据存取调优block大小调优读取缓存大小调优hdfs多硬盘配置,jvm虚拟机调优jvm虚拟机的复用调优jvm虚拟机内存调优,hbase/hive调优hbase预分区hbase调整scan缓存设置hive导入导出压缩hive并行执行,map相关调优map任务并行运行个数调优map输出数据的最大缓存调优,目录,大数据时代的机遇和挑战大数据关键技术发展趋势中兴通讯大数据平台介绍系统架构及特点对hadoop的优化改进的总结中移大数据测试情况案例介绍,中国移动大数据平台测试环境,测试环境:18台测试机部署日志详单软件,其中2台作为管理节点节点,另外16台作为存储节点和计算节点。其中性能和可扩展性需要用全部18台节点,其他项只使用其中10台进行测试。,测试机配置:管理节点/元数据节点的配置:双路六核cpu、64gb内存、4块sata硬盘、万兆以太网卡;数据/计算节点的配置:双路六核cpu、48gb内存,12块sata硬盘、万兆以太网卡;万兆交换机:24口万兆交换机。,万兆以太网交换机,.,.,.,管理节点1,管理节点2,计算/存储节点16,计算/存储节点1,计算/存储节点2,测试网络拓扑图,中国移动大数据平台主要工具,测试工具2、nosql的performanceevaluation,测试工具1、hibench,hibenchbenchmarksuite,开源的hadoop性能测试软件,用于测试nosql存储引擎的性能。,测试方法:,性能测试采用hibench模拟产生不同的负载,记录测试时间,并计算出相关的性能指标。功能测试、可管理性测试、可靠性测试直接采用手工操作加脚本的方式进行验证。可扩展性测试分为动态可扩展和性能可扩展。动态可扩展直接手工操作加脚本的方式进行验证,性能可扩展分别测试在不同节点规模下的性能,并确定线性加速比,中国移动大数据平台主要测试项目,功能测试,可管理性测试,可靠性测试,性能测试,可扩展性测试,包括结构化/非结构化数据存储引擎功能、并行计算引擎功能、数据统计、排序等,包括安装部署、日志管理、性能检测、故障管理、网关告警等,包括数据、存储节点故障测试、单磁盘故障测试、并行计算可靠性测试等,包括数据读写性能、并行计算性能、结构化引擎性能测试等,包括性能扩展、动态扩展测试等,结论:本次中移测试,必选项我们全部通过,可选项的测试性能绝大多数指标均优于其他厂商。,目录,大数据时代的机遇和挑战大数据关键技术发展趋势中兴通讯大数据解决方案介绍案例介绍,案例1:中国移动北方信息港日志详单大数据项目,中兴通讯11月底中标该项目,共130个处理节点,存储物理容量为3p,有效容量1p。,案例2:o2daas服务,o2做了什么?1、收集o2手机用户一段时期内的位置信息2、通过分析海量的位置信息,得出各类价值用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论