




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术研究网络部·网管支撑处2012年12月大数据技术研究网络部·网管支撑处目录-2-一、大数据的背景与定义二、大数据的关键技术三、网管领域应用展望目录-2-一、大数据的背景与定义二、大数据的关键数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段-3-194619511956196119701974197919912001200320082011第一台计算机ENIAC面世磁带+卡片人工管理磁盘被发明,进入文件管理时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBME.F.Dodd提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据大数据发展背景全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送290万封电子邮件每天有2.88万小时视频上传到YoutubeFacebook每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月,EMCWorld2011大会主题“云计算相遇大数据”,EMC除了一直倡导的云计算外,还抛出"大数据"(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布"大数据"相关研究报告,予以积极跟进2011年10月,Gartner认为2012年十大战略技术将包括"大数据"2011年11月底,IDC将"大数据"放入2012年信息通信产业十大预测之一-4-IDC全球数据量预测(1ZB
=1百万PB=10亿TB)Google网站Bigdata关键词搜索及新闻引用量大数据发展背景全球信息化发展已步入大数据时代-4-大数据的定义IDC对大数据的定义大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构解读大数据定义业务目标:在1E(成本可接受-economically)
的条件下从大数据中提取数据的价值(Value)技术要求:满足3V(快速-Velocity、
大体量-Volumes、多类别-Variety)的特征技术方案:未提及,可能是新兴技术与传统技术的混搭-5-大数据的定义IDC对大数据的定义-5-IT行业大数据相关动向和举措-6-大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈现百花齐放局面,并在互联网应用领域崭露头角商业解决方案HP2011年推出vertica数据库
Oracle2011年推出noSQL数据库EMC2010年收购GreenplumTeradata2011年收购Asterdata,并推出SQL-MapreduceIBM2010年收购NetezzaSAP2011年收购Sybase开源解决方案开源组织Apache在2008年将Hadoop列为顶级项目
2010年HBase自Hadoop上诞生
开源组织GNU2010年发布Mongodb
Vmware2010年提供开源产品RedisTwitter2011年提供开源产品Storm商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧重,目前尚无统一的行业技术标准或技术领域细分规则互联网企业IT实力强且海量数据处理需求最为迫切,是大数据发起者、倡导者、开发者和最终使用者,大数据应用场景十分清晰Google研发Bigtable并自行使用Yahoo发起Hadoop/Hbase开源并自用,FACEBOOK、百度、淘宝等均使用Twitter开发Storm自用并提供开源传统企业IT能力有限,数据处理工作主要依赖于系统集成商,重点在应用实现,IT技术路线上以跟随成熟技术(含开源技术)为主目前还是以数据库、数据仓库技术为主,对大数据技术仍处于认知或小范围摸索实验阶段,应用场景仍在分析梳理中互联网企业传统企业IT行业大数据相关动向和举措-6-大数据正成为IT目录-7-一、大数据的背景与定义二、大数据的关键技术三、网管领域应用展望目录-7-一、大数据的背景与定义二、大数据的关键相关概念与相关技术概览数据结构:结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)-8-相关概念与相关技术概览数据结构:结构化数据与非结构化数据-数据的结构—结构化、非结构化、半结构化数据-9-对比项结构化数据非结构化数据半非结构化数据定义有数据结构描述信息的数据不方便用固定结构来表现的数据介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系先有结构、再有数据只有数据,没有结构先有数据,再有结构示例各类表格图形、图像、音频、视频信息HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者数据的结构—结构化、非结构化、半结构化数据-9-对数据库数据模型—关系型数据库与非关系型数据库在大数据技术中"非关系型"数据库技术是必不可少的,但关系数据库也是不可或缺的-10-对比项关系型数据库非关系型数据库定义创建在关系模型基础上,借助于集合代数等数学概念和方法来处理数据库中的数据关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成没有标准定义包括:表存储数据库、键值存储数据库、面向文档的数据库等接口语言SQL(StructuredQueryLanguage,结构化查询语言),对数据库中的数据进行查询、操作和管理无统一标准包括:各自定义的API、类SQL、MR等典型案例Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等新型的MPPRDB(Greenplum)也属于关系型数据库Hbase、MongoDB、Redis数据库数据模型—关系型数据库与非关系型数据库在大数据技术中"数据处理特性—OLTP与OLAP-11-比较项联机事务处理OLTP(On-LineTransactionProcessing)联机分析处理OLAP(On-LineAnalyticalProcessing)基本类型业务操作型业务分析型数据特性对一条记录数据会多次修改,支持大量并发用户添加和修改数据数据写入后基本不再修改,能较好地支持大量并发用户进行大数据量查询技术特性确保数据的一致性确保事务的完整性数据读写实时性高支持多维数据以及对多维数据的复杂分析大数据量数据量GB-TB级TB-PB级典型示例银行业务系统/数据库各类决策分析系统/数据库OLTP以业务操作型为主,OLAP以业务分析性为主,两者对技术的要求很难兼顾数据处理特性—OLTP与OLAP-11-比较项联机数据一致性:强一致性与最终一致性-12-强一致性和最终一致性都是指客户端向数据库系统写入数据后,数据库系统能够提供的数据一致性的表现对比项强一致性(即时一致性)最终一致性弱一致性场景定义假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作数据一致性表现A写入数据到存储系统后,存储系统能够保证后续任何时刻发起读操作的B、C可以读到A写入的数据A写入数据到存储系统后,经过一定时间,或者在某个特定操作后,B、C最终会读到A写入的数据A写入数据到存储系统后,存储系统不能够保证后续发起读操作的B、C可以读到A写入的数据示例OLTP需要强一致性OLAP需最终一致性绝大多数应用不能够容忍弱一致性数据一致性:强一致性与最终一致性-12-强一致性和数据存储方式—行式存储与列式存储-13-传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从行存储模式向列存储模式的转变行存储用户生日聊天记录日均在线时长用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7列存储用户11981-10-3用户21990-5-15用户1Xxxxyyyy..用户2Mmnnn..用户12用户23.7行存储列存储存储一行中各列一起存放,单行集中存储一行中各列独立存放,单列集中存储索引效率海量数据索引既占用大量空间,且索引效率会随着数据增长越来越低基于列自动索引,海量数据查询效率高,不产生额外存储空间效率同一行不同列数据类型不同,压缩效率低空值列依然占据空间列同数据类型,压缩效率高空值不占空间I/O查某列必须读出整行,I/O负荷高、速度慢只需读出某列数据,I/O低速度快结构表结构改变影响很大可随时动态增加列适用场景数据写入后需要修改和删除,基于行的反复查询,多用于OLTP数据库批量数据一次写入和基于少量列的反复查询,多用于OLAP数据库样例数据表数据存储方式—行式存储与列式存储-13-传统关系型数据库存储与处理架构—SMP与MPP在数据量急剧膨胀的背景下,数据库处理要求超出了单机或SMP架构能力范围,最高配置小型机也无法满足,所以在大数据技术中,MPP架构(计算分布+存储分布)架构成为主流-14-计算分布,存储集中DBServ共享磁盘DBServDBServDBServ网络SAN/FC计算集中,存储集中DBServ磁盘计算分布,存储分布DBServDBServDBServDBServ高速通信网络磁盘磁盘磁盘磁盘Master如:Oracle传统
单机数据库如:OracleRAC小型机+共享盘阵如:Greenplum、HbaseX86+本地硬盘传统单机数据库SMP架构数据库MPP架构数据库对称多处理,SymmetricalMulti-Processing有两台以上的服务器,各主机之间共享总线结构,共享数据存储磁盘节点数有限制,主要通过提高节点配置来提高整体处理能力,扩展能力有限对共享磁盘的访问可能成为瓶颈SMP大规模并行处理,MassivelyParallelProcessing多个松耦合处理单元组成,数据存在本机磁盘上通过增加服务器数量提高系统处理能力,理论上可无限扩展,目技术可实现上千个节点互联对软件体系要求较高,需要通过软件层来调度和平衡各个节点的负载和并行处理过程MPP数据库存储与处理架构—SMP与MPP在数据量急剧膨胀的背景下数据存储架构:传统分布式文件与新型分布式文件-15-传统分布式文件系统也可以适应海量数据增长,但是由于数据计算与存储是分离的,随数据量的增长,网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略,可有效应对海量数据增长X86PC集群数据存储:磁盘阵列数据存储与计算合一数据计算:
数据服务器数据靠网络传输本机硬盘本机硬盘本机硬盘本机硬盘计算模式拥有成本盘阵负责存储,数据服务器负责计算,彼此靠网络连接,计算效率受网络带宽影响PC机自行负责存储和计算,数据与计算绑定,不受网络带宽影响专用设备价格昂贵,维护费用高通用PC,价格低廉,维护方便存储模式磁盘阵列存储由每台PC机自带硬盘组成容错模式不能容忍盘阵设备出问题,靠RAID容错个别硬盘故障容许PC节点故障,通过多个文件副本保证数据完整性数据存储与计算分离数据存储架构:传统分布式文件与新型分布式文件-15-新型分布式文件系统—HadoopHDFS-16-HadoopHDFS是新型分布式文件系统的典型代表,提供高可靠、高扩展、高吞吐能力的海量文件数据存储元数据节点Namenode文件名,文件块,文件块所在数据节点,…文件元数据123数据节点Datanode数据节点Datanode数据节点Datanode数据节点Datanode先读取文件元数据,知道文件在哪后读取各个文件块管理文件分布存储优点支持任意超大文件存储;硬件节点可不断扩展,低成本存储对上层应用屏蔽分布式部署结构,提供统一的文件系统访问接口,感觉就是一个大硬盘;应用无需知道文件具体存放位置,使用简单;文件分块存储(1块缺省64MB),不同块可分布在不同机器节点上,通过元数据记录文件块位置;应用顺序读取各个块系统设计为高容错性,允许廉价PC故障;每块文件数据在不同机器节点上保存3份;这种备份的另一个好处是可方便不同应用就近读取,提高访问效率缺点适合大数据文件保存和分析,不适合小文件,由于分布存储需要从不同节点读取数据,效率反而没有集中存储高;一次写入多次读取,不支持文件修改是最基础的大数据技术,基于文件系统层面提供文件访问能力,不如数据库技术强大,但也是海量数据库技术的底层依托文件系统接口完全不同于传统文件系统,应用需要重新开发上层应用YahooAmazon
Ebay淘宝
百度
中国移动飞信中国移动大云行业应用技术特点新型分布式文件系统—HadoopHDFS-16-基于并行计算的分布式数据处理技术(MapReduce)-17-TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)中间结果中间结果中间结果输出数据输出数据JobTracker用户程序(JobClient)提交作业任务调度任务调度状态监控状态监控123MapReduce技术特性自动并行化:系统自动进行作业并行化处理自动可靠处理:系统自动处理节点/任务的故障检测和恢复灵活扩展:节点可以灵活加入和退出,系统自动感知节点状态并进行处理高性能:计算任务将被调度至数据所在的节点,减少网络开销,提升执行性能MapReduceMapReduce是解决海量数据处理的并行编程环境基于并行计算的分布式数据处理技术(MapReduce)-1各类新兴数据库面向文档的数据库—MongoDB基于内存的键值存储数据库—Redis分布式MPP架构/列存储数据库—HBase分布式MPP架构/支持列存/关系型数据库—Greenplum-18-各类新兴数据库面向文档的数据库—MongoDB-18-面向文档的数据库—技术原理-19-传统数据库只适合存储结构化数据,对于海量非结构化、半结构化数据则显得无能为力;面向文档数据库技术则填补了这一空白传统做法面向文档数据库关系数据库视频/图像/音频文件复杂数据放在关系数据库,低价值大文件放在文件系统,彼此分离存储和访问数据库的记录就是文档,涵盖各种数据类型,数据统一管理和访问数据库可分布式部署,对外提供统一视图数据库二维表行数据库集合
文档技术特点分布式存储所有数据保存在文件中文件中所有数据基于结构化描述语言组织,支持各种数据类型,包括大型对象(视频/音频等)支持多种类似SQL的数据检索方式适用场景网站数据存储大尺寸低价值数据多类型混杂的数据存储面向文档的数据库—技术原理-19-传统数据库只适合面向文档的数据库—MongoDB-20-MongoDB是面向文档数据库典型代表,视觉中国网站采用MongoDB替换原有关系数据库mysql,实现对各类数据的统一管理和应用DB在数据处理量上升一倍的情况下,硬件资源利用率反而下降20%数据读取速度,从400ms减少为60ms,效率提升6倍数据文件,从200G降到了70个G结构化数据与非结构化图片数据实现一体化处理Schema自由,大大提升开发效率实现动态集群,添加新机器无需中断业务应用效果关系数据库用户信息表MongoDB用户信息文档用户ID用户名…地址地址地址个人站点个人站点个人站点创意图片创意图片创意图片用户信息分多表存储表关联查询图片文件另外存储,自行处理用户数据集中在一个文档中数据与图片文件一体化存储用户数据内容任意扩展创意图片面向文档的数据库—MongoDB-20-Mongo基于内存的键值存储数据库—技术原理-21-由于传统关系型数据库主要采用二维表硬盘存储方式,难以满足海量数据高速大并发读写的需要,基于键值的分布式存储技术应运而生并得到广泛应用关系数据库WEB应用服务器磁盘阵列关系数据库互联网用户键值存储数据库WEB应用服务器互联网用户X86集群存储介质数据结构获取方式硬盘,读写速度慢内存,读写速度快二维表,不支持复杂数据结构键值,值类型支持复杂数据结构SQL,支持复杂查询应用程序编程接口API,不支持复杂查询技术特点以内存为主要存储区域,读写速度最快,硬盘用于周期性备份键值(KEY-VALUE)结构,基于KEY实现分区存储,从而支持分布式部署,提高并发访问能力VALUE支持链、集合等复杂数据结构,便于程序直接使用,减少处理环节适合海量数据实时大批量简单读写存储模式磁盘阵列集中存储支持X86分布式部署KEY1VALUE1KEY2VALUE2KEY-nVALUE-n数据在内存中存储和处理基于内存的键值存储数据库—技术原理-21-由于传统基于内存的键值存储数据库—Redis-22-键值存储技术的典型产品是Redis,由Vmware公司研发并提供开源,国内最大的应用是新浪微博,有200多台物理机运行RedisRedis服务器内存Redis服务器内存Redis服务器内存Redis服务器内存读取应用服务器写入写入写入写入新浪微博需要为千万级用户实时快速计算并刷新关注、粉丝、微博的计数,并对用户及时通知新消息等,采用Redis使所有操作都在多台机器的内存中并发进行,读写效率提升至少15倍以上基于内存的键值存储数据库—Redis-22-键值存分布式MPP架构/列存储数据库—HBase-23-HadoopHBase是分布式MPP架构、列式存储数据库的典型代表数据节点数据节点数据节点Hadoop分布式文件系统HBase分布式数据库海量数据表(例:用户行为分析)数据分区,并发读写,根据数据量增长自动横向扩展分区用户名A-D用户名E-H用户名W-Z表分区表分区表分区数据物理存储位置透明,采取主备方式确保可靠存储,可动态增加数据节点机器大数据量PB级分布式并发处理效率高易扩展、动态伸缩适用于廉价设备集群适合基于列的读操作,不适合基于行的写操作不适合关系模型数据组织模式Hbase特点YahooAmazonFacebookEbay淘宝百度中国移动飞信行业应用X86PC服务器X86PC服务器X86PC服务器分布式MPP架构/列存储数据库—HBase-23-分布式MPP架构/支持列存/关系型数据库—Greenplum-24-EMC公司的商业产品GreenPlum是一个基于分布式文件存储、MPP分布式处理架构的数据库,同时支持行存与列存,并且仍然保持了关系数据模型外部数据源并行装载或导出Segment节点执行查询计划及数据库存储管理网络互联Master节点生成查询计划并派发汇总执行结果SQL语句巨人网络征途游戏后台采用GreenPlum作为用户行为分析手段,比原有系统完整应用提高80倍效率,单笔查询提高120倍主要客户包括:NASDAQ、FOX、巨人网络、阿里巴巴、中信银行、淘宝等分布式MPP架构/支持列存/关系型数据库—Greenplum分布式MPP数据仓库代表产品特性比较-25-产品名称应用场景接口方式扩展能力X86平台LinuxGreenplumOLAP/OLTP标准SQL最大支持达万个节点支持支持TeradataOLAP标准SQL(SQL-92)可达4096节点,最大数据量超过100PB支持支持netezzaOLAP标准SQL1~10台一体机,可管理PB级数据量,新一代产品会更高不支持,仅支持专有一体机硬件支持infobrightOLAP标准SQL具备较强并行扩展能力支持支持ExadataOLAP/OLTP标准SQL支持多机扩展满足大数据量管理需求支持,但性能劣于专有一体机硬件支持分布式MPP数据仓库代表产品特性比较-25-产品名大数据方案与应用案例Hadoop项目群Hadoop+MPPRDB混搭架构信令监测系统数据存储架构优化方案飞信系统好友智能推荐方案BOSS系统WAP话单清洗/转换/汇总/分析-26-大数据方案与应用案例Hadoop项目群-26-Hadoop项目发展历程2002年:Nutch项目启动,用于互联网网页的抓取和搜索2003年:Google披露GFS,2004则实现了NutchDistributedFilesytem(NDFS)2004年:GoogleMapReduce发布,2005年则实现了NutchMapReduce并移植到NDFS上2006年2月:Hadoop成为一个独立的项目,同时DougCutting加入Yahoo!2008年1月:Hadoop成为Apache的顶级项目2008年4月:Hadoop集群在Sortbenchmark中获得第一名(910台服务器,排序1TB数据,209秒)-27-Hadoop起源于DougCutting的ApacheNutch项目,是Apache资助的一个顶级开源项目,Hadoop不仅仅是一个产品,更是一套生态系统Hadoop项目发展历程2002年:Nutch项目启动,用于Hadoop项目组成-28-;Hadoop核心子项目HDFS:是一个分布式文件系统HBase:是一个基于HDFS、列存储数据库,提供海量数据存储能力MapReduce:是一个编程环境,提供并行处理框架,用于对HBase和HDFS的访问Hive:提供类似SQL的查询语言,通过MapReduce完成计算,实现对HBase的访问Hadoop项目组成-28-;Hadoop核心子项案例:“Hadoop+MPPRDB”混搭架构在Hadoop+MPPRDB架构中Hadoop负责非结构化数据或简单结构数据的存储和处理Hadoop同时负责原始数据的抽取、转换、加载和轻度汇总等计算任务MPPRDB负责深度分析、复杂查询以及多变的自助分析应用等混搭架构的代表厂商有HP的Vertica产品EMC的产品等-29-混搭架构对结构化数据复杂处理会更有优势,同时也能获得很好的性价比案例:“Hadoop+MPPRDB”混搭架构在Hado案例:信令监测系统数据存储架构优化方案-30-世纪鼎利公司江苏Mc口信令监测系统数据存储架构方案采集数据存储原始采集数据以二进制文件格式存储,保存7天。存储软件为我司自开发的分布式存储软件DataComb。信令解码处理信令解码、CDR合成、IF1和IF2等几个处理模块需要高性能计算,计算模块自动分配到x86集群中,通过DBus(我司自开发的数据总线)进行自动负载均衡CDR数据存储CDR保存60天,存储于分布式数据库中(hbase,开源的第三方软件),并通过MDP(我司自开发的分布式处理软件)实现快速查询。应用预处理通过分布式数据挖掘软件(hive,开源的第三方软件),对CDR进行数据挖掘,产生各种KPI和专题应用数据。应用环境采用关系型数据库软件(SybaseIQ,商业软件)对KPI和专题数据进行存储和高速查询。通过Web应用容器(WebSphere,商业软件)发布B/S应用;采用.Net开发C/S应用,主要用于网络优化中。与传统信令监测数据存储方案相比,核心变化是将数据量最大、数据结构相对单一的CDR数据从传统数据库迁移到分布式数据库中,从而实现全部应用部署在X86主机群上案例:信令监测系统数据存储架构优化方案-30-世纪案例:中国移动飞信系统—业务场景-31-中国移动飞信系统面临海量用户行为数据深度挖掘需求,迫切需要新手段好友智能推荐基于用户行为分析进行用户好友推荐同好友但是彼此不是好友同IP但是彼此不是好友同群组但是彼此不是好友同校但彼此不是好友相互通话但彼此不是好友……?数据处理要求需要对存在关联的两两用户数据进行分析管理,飞信活跃用户数已达到8000万以上,有关系的用户两两组合的数量级至少在10亿条以上,且随着用户基数增长而呈指数级增长,需要海量数据处理能力用户上线后,系统需要快速提取智能推荐建议发给用户,需要在海量数据中快速查询检索数据的能力好友圈子有重叠彼此还不是好友案例:中国移动飞信系统—业务场景-31-中国移动飞案例:中国移动飞信系统—技术方案-32-采用Hadoop平台进行海量数据存储和深度挖掘,取得初步成效飞信用户行为日志WAP业务记录BOSS话单……MAP/REDUCE分布式计算智能推荐上层界面基于API/HIVE快速查询用户推荐信息好友表:ROWKEY:用户A,用户BCOLUMN:二人共有朋友清单,二人彼此推荐指数和推荐时所关联朋友的推荐指数其他表:同IP\同校\相互通话\同群组好友表分为200个区,被7个regionserver管理,按照用户UID分段目前共部署30个节点,服务器HPDL385,48G内存
、2C16核、各节点自带10TB硬盘共300TB,支持横向扩展,后续将扩容到80个节点好友表已累计24.6亿条数据系统每天处理新增数据、每周、月、季度做全量数据分析上层应用查询第一次访问效率0.2s,第二次及以后0.05s以内硬件不是一步到位,中间做过一次在线动态扩容,方便高效软件也不是一步到位,边做边增加应用内容,表模式支持动态变化分布式存储,入库很快,400MB/s吞吐能力总体拥有成本低,包括硬件、软件和数据库维护优化服务应用效果大数据表案例:中国移动飞信系统—技术方案-32-采用Had案例:BOSS系统WAP话单清洗/转换/汇总/分析-33-硬件环境:
12节点集群,1台主机作namenode和jobtracker,11台主机作datanode和tasktracker采用Hadoop平台对WAP实时话单进行清洗转换、汇总和分析数据入库:每天800G日志,45亿条记录,并行入库时间1小时(处理能力200-300MB/s)URL解析:4-6小时(20万条/s)网页抓取(后期稳定运行阶段):时间待定(100Mb独占带宽,400个网页/s)网页分类:4-6小时(5万条/s)URL标签匹配:12-15小时(8万条/s)汇总:6台PCServer,输入27亿G,输出8亿G,用时20分钟应用效果案例:BOSS系统WAP话单清洗/转换/汇总/分析-33目录-34-一、大数据的背景与定义二、大数据的关键技术三、网管领域应用展望目录-34-一、大数据的背景与定义二、大数据的关大数据领域“去小型机化”趋势明显-35-大数据领域去小型机化趋势已十分明显,“X86+本地硬盘”方案替代“小型机+盘阵”已经相对成熟,在可靠性上毫不逊色,在可扩展性、性能和价格上有绝对优势,网管系统也要积极跟进“去小型机化”趋势小型机+盘阵集中存储,集中计算,数据远离计算,计算时需进行传输数据,性能较差X86+本地硬盘分散存储,并行计算,数据靠近计算,性能好处理性能小型机+盘阵具有很强的可靠性,是许多关键性业务采用此方案的原因X86+本地硬盘大数据技术设计之初就将软硬件故障作为常态进行考虑如Hadoop系统可以容忍单个磁盘出错以及整机出错可靠性小型机+盘阵主要是纵向扩展,即提高主机配置,是有限的X86+本地硬盘横向扩展简单,成本低可扩展性大数据领域“去小型机化”趋势明显-35-大数据领域网管数据存储与处理方式迁移建议-36-网管数据类别数据特点技术方案资源数据工单数据数据量少事务性强数据关系复杂采用传统OLTP数据库告警数据(短期,不含历史数据)数据量少事务性弱,实时性高数据关系简单采用传统OLTP数据库统计数据数据量大事务性弱数据关系复杂采用MPPOLAPRDB数据库明细数据(如MR,CDR,路测等)数据量巨大事务性弱数据关系简单采用Hadoop平台知识数据数据量大,非结构化数据事务性弱数据关系简单采用Hadoop平台、搜索技术从数据量大小、是否结构化数据、事务性强弱、实时性高低、数据关系是否复杂等因素考虑,确定网管各类数据的存储与处理迁移方案网管数据存储与处理方式迁移建议-36-网管数据类别数据访问技术难度增高-37-传统数据库数据库服务器MPPRDB数据库数据库服务器集中访问分布存储内部高速通信网络应用系统/用户应用系统/用户MapReduce应用系统/用户集中存储ShareDisk标准SQL/SQL扩展标准SQL/SQL扩展API为主/类SQL为辅Result1开发程序2部署程序3并行执行4程序返回结果内部高速通信网络传统数据库与MPPRDB数据提供的SQL非常强大,不仅实现数据的增删改查,还能够对数据进行各种关联和统计,而目前大量非传统数据库没有统一标准的访问接口,对数据的关联和统计功能需要应用程序自己实现数据访问技术难度增高-37-传统数据库数据库服务器网管开发合作模式发生变化-38-大数据技术是业界大势所趋,其在网管领域的应用,将对合作伙伴的技术要求提到一个前所未有的新高度,网管厂商不仅要深入钻研和不断满足移动网络管理的业务需求,也要跟踪并熟练应用大数据最新技术,并确保系统的长期稳定发展对比项传统数据库技术大数据技术第三方平台厂家作用中等,产品相对成熟,日常服务系统集成商可独立完成不确定,采用开源产品将无需第三方平台厂家支持,更多靠系统集成商自己;采用商用产品则技术更为复杂,依赖性将进一步增高,预计一定时期内服务依赖于厂家技术选型风险低,业界成熟产品,统一于SQL语言高,目前大数据技术并非一个,而是各有特点,彼此提供的API不兼容,替代成本非常高学习难度低,关系数据库发展30余年在软件队伍中已成为基本技能要求高,大数据技术尚处于发展初期,技术种类繁多,尚未在软件行业中普及(互联网企业相对接触多一些)研发难度中等,主要是在围绕应用需求的性能优化高,由于普遍采用分布式计算技术,提高了架构设计难度和测试优化难度实施难度低,设备集中数量少便于部署和维护优化高,设备数量多,部署和维护难度大,且随数据量增大,节点间负载均衡要求高网管开发合作模式发生变化-38-大数据技术是业界大谢谢!谢谢!大数据技术研究网络部·网管支撑处2012年12月大数据技术研究网络部·网管支撑处目录-41-一、大数据的背景与定义二、大数据的关键技术三、网管领域应用展望目录-2-一、大数据的背景与定义二、大数据的关键数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使该领域进入了一个新的发展阶段-42-194619511956196119701974197919912001200320082011第一台计算机ENIAC面世磁带+卡片人工管理磁盘被发明,进入文件管理时代网络型SQLE-RGE公司发明第一个网络模型数据库,但仅限于GE自己的主机1960年代,IT系统规模和复杂度变大,数据与应用分离的需求开始产生,数据库技术开始萌芽并蓬勃发展,并在1990年后逐步统一到以关系型数据库为主导IBME.F.Dodd提出关系模型SQL语言被发明关系型数据库ORACLE发布第一个商用SQL关系数据库,后续快速发展数据仓库数据仓库开始涌现,关系数据库开始全面普及且平台无关,进入成熟期2001年后,互联网迅速发展,数据量成倍递增,量变引起质变,开始对数据管理技术提出全新的要求1946年,电脑诞生,数据与应用紧密捆绑在文件中,彼此不分Hadoop成为Apache顶级项目,重点支持海量数据分布式管理和分布式计算GFS谷歌发表论文介绍分布式计算数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据大数据发展背景全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送290万封电子邮件每天有2.88万小时视频上传到YoutubeFacebook每日评论达32亿条,每天上传照片近3亿张,每月处理数据总量约130万TB2011年全球产生数据量1.8ZB,预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月,EMCWorld2011大会主题“云计算相遇大数据”,EMC除了一直倡导的云计算外,还抛出"大数据"(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布"大数据"相关研究报告,予以积极跟进2011年10月,Gartner认为2012年十大战略技术将包括"大数据"2011年11月底,IDC将"大数据"放入2012年信息通信产业十大预测之一-43-IDC全球数据量预测(1ZB
=1百万PB=10亿TB)Google网站Bigdata关键词搜索及新闻引用量大数据发展背景全球信息化发展已步入大数据时代-4-大数据的定义IDC对大数据的定义大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构解读大数据定义业务目标:在1E(成本可接受-economically)
的条件下从大数据中提取数据的价值(Value)技术要求:满足3V(快速-Velocity、
大体量-Volumes、多类别-Variety)的特征技术方案:未提及,可能是新兴技术与传统技术的混搭-44-大数据的定义IDC对大数据的定义-5-IT行业大数据相关动向和举措-45-大数据正成为IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈现百花齐放局面,并在互联网应用领域崭露头角商业解决方案HP2011年推出vertica数据库
Oracle2011年推出noSQL数据库EMC2010年收购GreenplumTeradata2011年收购Asterdata,并推出SQL-MapreduceIBM2010年收购NetezzaSAP2011年收购Sybase开源解决方案开源组织Apache在2008年将Hadoop列为顶级项目
2010年HBase自Hadoop上诞生
开源组织GNU2010年发布Mongodb
Vmware2010年提供开源产品RedisTwitter2011年提供开源产品Storm商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧重,目前尚无统一的行业技术标准或技术领域细分规则互联网企业IT实力强且海量数据处理需求最为迫切,是大数据发起者、倡导者、开发者和最终使用者,大数据应用场景十分清晰Google研发Bigtable并自行使用Yahoo发起Hadoop/Hbase开源并自用,FACEBOOK、百度、淘宝等均使用Twitter开发Storm自用并提供开源传统企业IT能力有限,数据处理工作主要依赖于系统集成商,重点在应用实现,IT技术路线上以跟随成熟技术(含开源技术)为主目前还是以数据库、数据仓库技术为主,对大数据技术仍处于认知或小范围摸索实验阶段,应用场景仍在分析梳理中互联网企业传统企业IT行业大数据相关动向和举措-6-大数据正成为IT目录-46-一、大数据的背景与定义二、大数据的关键技术三、网管领域应用展望目录-7-一、大数据的背景与定义二、大数据的关键相关概念与相关技术概览数据结构:结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)-47-相关概念与相关技术概览数据结构:结构化数据与非结构化数据-数据的结构—结构化、非结构化、半结构化数据-48-对比项结构化数据非结构化数据半非结构化数据定义有数据结构描述信息的数据不方便用固定结构来表现的数据介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系先有结构、再有数据只有数据,没有结构先有数据,再有结构示例各类表格图形、图像、音频、视频信息HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者数据的结构—结构化、非结构化、半结构化数据-9-对数据库数据模型—关系型数据库与非关系型数据库在大数据技术中"非关系型"数据库技术是必不可少的,但关系数据库也是不可或缺的-49-对比项关系型数据库非关系型数据库定义创建在关系模型基础上,借助于集合代数等数学概念和方法来处理数据库中的数据关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成没有标准定义包括:表存储数据库、键值存储数据库、面向文档的数据库等接口语言SQL(StructuredQueryLanguage,结构化查询语言),对数据库中的数据进行查询、操作和管理无统一标准包括:各自定义的API、类SQL、MR等典型案例Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等新型的MPPRDB(Greenplum)也属于关系型数据库Hbase、MongoDB、Redis数据库数据模型—关系型数据库与非关系型数据库在大数据技术中"数据处理特性—OLTP与OLAP-50-比较项联机事务处理OLTP(On-LineTransactionProcessing)联机分析处理OLAP(On-LineAnalyticalProcessing)基本类型业务操作型业务分析型数据特性对一条记录数据会多次修改,支持大量并发用户添加和修改数据数据写入后基本不再修改,能较好地支持大量并发用户进行大数据量查询技术特性确保数据的一致性确保事务的完整性数据读写实时性高支持多维数据以及对多维数据的复杂分析大数据量数据量GB-TB级TB-PB级典型示例银行业务系统/数据库各类决策分析系统/数据库OLTP以业务操作型为主,OLAP以业务分析性为主,两者对技术的要求很难兼顾数据处理特性—OLTP与OLAP-11-比较项联机数据一致性:强一致性与最终一致性-51-强一致性和最终一致性都是指客户端向数据库系统写入数据后,数据库系统能够提供的数据一致性的表现对比项强一致性(即时一致性)最终一致性弱一致性场景定义假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作数据一致性表现A写入数据到存储系统后,存储系统能够保证后续任何时刻发起读操作的B、C可以读到A写入的数据A写入数据到存储系统后,经过一定时间,或者在某个特定操作后,B、C最终会读到A写入的数据A写入数据到存储系统后,存储系统不能够保证后续发起读操作的B、C可以读到A写入的数据示例OLTP需要强一致性OLAP需最终一致性绝大多数应用不能够容忍弱一致性数据一致性:强一致性与最终一致性-12-强一致性和数据存储方式—行式存储与列式存储-52-传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从行存储模式向列存储模式的转变行存储用户生日聊天记录日均在线时长用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7列存储用户11981-10-3用户21990-5-15用户1Xxxxyyyy..用户2Mmnnn..用户12用户23.7行存储列存储存储一行中各列一起存放,单行集中存储一行中各列独立存放,单列集中存储索引效率海量数据索引既占用大量空间,且索引效率会随着数据增长越来越低基于列自动索引,海量数据查询效率高,不产生额外存储空间效率同一行不同列数据类型不同,压缩效率低空值列依然占据空间列同数据类型,压缩效率高空值不占空间I/O查某列必须读出整行,I/O负荷高、速度慢只需读出某列数据,I/O低速度快结构表结构改变影响很大可随时动态增加列适用场景数据写入后需要修改和删除,基于行的反复查询,多用于OLTP数据库批量数据一次写入和基于少量列的反复查询,多用于OLAP数据库样例数据表数据存储方式—行式存储与列式存储-13-传统关系型数据库存储与处理架构—SMP与MPP在数据量急剧膨胀的背景下,数据库处理要求超出了单机或SMP架构能力范围,最高配置小型机也无法满足,所以在大数据技术中,MPP架构(计算分布+存储分布)架构成为主流-53-计算分布,存储集中DBServ共享磁盘DBServDBServDBServ网络SAN/FC计算集中,存储集中DBServ磁盘计算分布,存储分布DBServDBServDBServDBServ高速通信网络磁盘磁盘磁盘磁盘Master如:Oracle传统
单机数据库如:OracleRAC小型机+共享盘阵如:Greenplum、HbaseX86+本地硬盘传统单机数据库SMP架构数据库MPP架构数据库对称多处理,SymmetricalMulti-Processing有两台以上的服务器,各主机之间共享总线结构,共享数据存储磁盘节点数有限制,主要通过提高节点配置来提高整体处理能力,扩展能力有限对共享磁盘的访问可能成为瓶颈SMP大规模并行处理,MassivelyParallelProcessing多个松耦合处理单元组成,数据存在本机磁盘上通过增加服务器数量提高系统处理能力,理论上可无限扩展,目技术可实现上千个节点互联对软件体系要求较高,需要通过软件层来调度和平衡各个节点的负载和并行处理过程MPP数据库存储与处理架构—SMP与MPP在数据量急剧膨胀的背景下数据存储架构:传统分布式文件与新型分布式文件-54-传统分布式文件系统也可以适应海量数据增长,但是由于数据计算与存储是分离的,随数据量的增长,网络带宽形成瓶颈。新型分布式文件系统采用数据计算与存储绑定的新策略,可有效应对海量数据增长X86PC集群数据存储:磁盘阵列数据存储与计算合一数据计算:
数据服务器数据靠网络传输本机硬盘本机硬盘本机硬盘本机硬盘计算模式拥有成本盘阵负责存储,数据服务器负责计算,彼此靠网络连接,计算效率受网络带宽影响PC机自行负责存储和计算,数据与计算绑定,不受网络带宽影响专用设备价格昂贵,维护费用高通用PC,价格低廉,维护方便存储模式磁盘阵列存储由每台PC机自带硬盘组成容错模式不能容忍盘阵设备出问题,靠RAID容错个别硬盘故障容许PC节点故障,通过多个文件副本保证数据完整性数据存储与计算分离数据存储架构:传统分布式文件与新型分布式文件-15-新型分布式文件系统—HadoopHDFS-55-HadoopHDFS是新型分布式文件系统的典型代表,提供高可靠、高扩展、高吞吐能力的海量文件数据存储元数据节点Namenode文件名,文件块,文件块所在数据节点,…文件元数据123数据节点Datanode数据节点Datanode数据节点Datanode数据节点Datanode先读取文件元数据,知道文件在哪后读取各个文件块管理文件分布存储优点支持任意超大文件存储;硬件节点可不断扩展,低成本存储对上层应用屏蔽分布式部署结构,提供统一的文件系统访问接口,感觉就是一个大硬盘;应用无需知道文件具体存放位置,使用简单;文件分块存储(1块缺省64MB),不同块可分布在不同机器节点上,通过元数据记录文件块位置;应用顺序读取各个块系统设计为高容错性,允许廉价PC故障;每块文件数据在不同机器节点上保存3份;这种备份的另一个好处是可方便不同应用就近读取,提高访问效率缺点适合大数据文件保存和分析,不适合小文件,由于分布存储需要从不同节点读取数据,效率反而没有集中存储高;一次写入多次读取,不支持文件修改是最基础的大数据技术,基于文件系统层面提供文件访问能力,不如数据库技术强大,但也是海量数据库技术的底层依托文件系统接口完全不同于传统文件系统,应用需要重新开发上层应用YahooAmazon
Ebay淘宝
百度
中国移动飞信中国移动大云行业应用技术特点新型分布式文件系统—HadoopHDFS-16-基于并行计算的分布式数据处理技术(MapReduce)-56-TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)中间结果中间结果中间结果输出数据输出数据JobTracker用户程序(JobClient)提交作业任务调度任务调度状态监控状态监控123MapReduce技术特性自动并行化:系统自动进行作业并行化处理自动可靠处理:系统自动处理节点/任务的故障检测和恢复灵活扩展:节点可以灵活加入和退出,系统自动感知节点状态并进行处理高性能:计算任务将被调度至数据所在的节点,减少网络开销,提升执行性能MapReduceMapReduce是解决海量数据处理的并行编程环境基于并行计算的分布式数据处理技术(MapReduce)-1各类新兴数据库面向文档的数据库—MongoDB基于内存的键值存储数据库—Redis分布式MPP架构/列存储数据库—HBase分布式MPP架构/支持列存/关系型数据库—Greenplum-57-各类新兴数据库面向文档的数据库—MongoDB-18-面向文档的数据库—技术原理-58-传统数据库只适合存储结构化数据,对于海量非结构化、半结构化数据则显得无能为力;面向文档数据库技术则填补了这一空白传统做法面向文档数据库关系数据库视频/图像/音频文件复杂数据放在关系数据库,低价值大文件放在文件系统,彼此分离存储和访问数据库的记录就是文档,涵盖各种数据类型,数据统一管理和访问数据库可分布式部署,对外提供统一视图数据库二维表行数据库集合
文档技术特点分布式存储所有数据保存在文件中文件中所有数据基于结构化描述语言组织,支持各种数据类型,包括大型对象(视频/音频等)支持多种类似SQL的数据检索方式适用场景网站数据存储大尺寸低价值数据多类型混杂的数据存储面向文档的数据库—技术原理-19-传统数据库只适合面向文档的数据库—MongoDB-59-MongoDB是面向文档数据库典型代表,视觉中国网站采用MongoDB替换原有关系数据库mysql,实现对各类数据的统一管理和应用DB在数据处理量上升一倍的情况下,硬件资源利用率反而下降20%数据读取速度,从400ms减少为60ms,效率提升6倍数据文件,从200G降到了70个G结构化数据与非结构化图片数据实现一体化处理Schema自由,大大提升开发效率实现动态集群,添加新机器无需中断业务应用效果关系数据库用户信息表MongoDB用户信息文档用户ID用户名…地址地址地址个人站点个人站点个人站点创意图片创意图片创意图片用户信息分多表存储表关联查询图片文件另外存储,自行处理用户数据集中在一个文档中数据与图片文件一体化存储用户数据内容任意扩展创意图片面向文档的数据库—MongoDB-20-Mongo基于内存的键值存储数据库—技术原理-60-由于传统关系型数据库主要采用二维表硬盘存储方式,难以满足海量数据高速大并发读写的需要,基于键值的分布式存储技术应运而生并得到广泛应用关系数据库WEB应用服务器磁盘阵列关系数据库互联网用户键值存储数据库WEB应用服务器互联网用户X86集群存储介质数据结构获取方式硬盘,读写速度慢内存,读写速度快二维表,不支持复杂数据结构键值,值类型支持复杂数据结构SQL,支持复杂查询应用程序编程接口API,不支持复杂查询技术特点以内存为主要存储区域,读写速度最快,硬盘用于周期性备份键值(KEY-VALUE)结构,基于KEY实现分区存储,从而支持分布式部署,提高并发访问能力VALUE支持链、集合等复杂数据结构,便于程序直接使用,减少处理环节适合海量数据实时大批量简单读写存储模式磁盘阵列集中存储支持X86分布式部署KEY1VALUE1KEY2VALUE2KEY-nVALUE-n数据在内存中存储和处理基于内存的键值存储数据库—技术原理-21-由于传统基于内存的键值存储数据库—Redis-61-键值存储技术的典型产品是Redis,由Vmware公司研发并提供开源,国内最大的应用是新浪微博,有200多台物理机运行RedisRedis服务器内存Redis服务器内存Redis服务器内存Redis服务器内存读取应用服务器写入写入写入写入新浪微博需要为千万级用户实时快速计算并刷新关注、粉丝、微博的计数,并对用户及时通知新消息等,采用Redis使所有操作都在多台机器的内存中并发进行,读写效率提升至少15倍以上基于内存的键值存储数据库—Redis-22-键值存分布式MPP架构/列存储数据库—HBase-62-HadoopHBase是分布式MPP架构、列式存储数据库的典型代表数据节点数据节点数据节点Hadoop分布式文件系统HBase分布式数据库海量数据表(例:用户行为分析)数据分区,并发读写,根据数据量增长自动横向扩展分区用户名A-D用户名E-H用户名W-Z表分区表分区表分区数据物理存储位置透明,采取主备方式确保可靠存储,可动态增加数据节点机器大数据量PB级分布式并发处理效率高易扩展、动态伸缩适用于廉价设备集群适合基于列的读操作,不适合基于行的写操作不适合关系模型数据组织模式Hbase特点YahooAmazonFacebookEbay淘宝百度中国移动飞信行业应用X86PC服务器X86PC服务器X86PC服务器分布式MPP架构/列存储数据库—HBase-23-分布式MPP架构/支持列存/关系型数据库—Greenplum-63-EMC公司的商业产品GreenPlum是一个基于分布式文件存储、MPP分布式处理架构的数据库,同时支持行存与列存,并且仍然保持了关系数据模型外部数据源并行装载或导出Segment节点执行查询计划及数据库存储管理网络互联Master节点生成查询计划并派发汇总执行结果SQL语句巨人网络征途游戏后台采用GreenPlum作为用户行为分析手段,比原有系统完整应用提高80倍效率,单笔查询提高120倍主要客户包括:NASDAQ、FOX、巨人网络、阿里巴巴、中信银行、淘宝等分布式MPP架构/支持列存/关系型数据库—Greenplum分布式MPP数据仓库代表产品特性比较-64-产品名称应用场景接口方式扩展能力X86平台LinuxGreenplumOLAP/OLTP标准SQL最大支持达万个节点支持支持TeradataOLAP标准SQL(SQL-92)可达4096节点,最大数据量超过100PB支持支持netezzaOLAP标准SQL1~10台一体机,可管理PB级数据量,新一代产品会更高不支持,仅支持专有一体机硬件支持infobrightOLAP标准SQL具备较强并行扩展能力支持支持ExadataOLAP/OLTP标准SQL支持多机扩展满足大数据量管理需求支持,但性能劣于专有一体机硬件支持分布式MPP数据仓库代表产品特性比较-25-产品名大数据方案与应用案例Hadoop项目群Hadoop+MPPRDB混搭架构信令监测系统数据存储架构优化方案飞信系统好友智能推荐方案BOSS系统WAP话单清洗/转换/汇总/分析-65-大数据方案与应用案例Hadoop项目群-26-Hadoop项目发展历程2002年:Nutch项目启动,用于互联网网页的抓取和搜索2003年:Google披露GFS,2004则实现了NutchDistributedFilesytem(NDFS)2004年:GoogleMapReduce发布,2005年则实现了NutchMapReduce并移植到NDFS上2006年2月:Hadoop成为一个独立的项目,同时DougCutting加入Yahoo!2008年1月:Hadoop成为Apache的顶级项目2008年4月:Hadoop集群在Sortbenchmark中获得第一名(910台服务器,排序1TB数据,209秒)-66-Hadoop起源于DougCutting的ApacheNutch项目,是Apache资助的一个顶级开源项目,Hadoop不仅仅是一个产品,更是一套生态系统Hadoop项目发展历程2002年:Nutch项目启动,用于Hadoop项目组成-67-;Hadoop核心子项目HDFS:是一个分布式文件系统HBase:是一个基于HDFS、列存储数据库,提供海量数据存储能力MapReduce:是一个编程环境,提供并行处理框架,用于对HBase和HDFS的访问Hive:提供类似SQL的查询语言,通过MapReduce完成计算,实现对HBase的访问Hadoop项目组成-28-;Hadoop核心子项案例:“Hadoop+MPPRDB”混搭架构在Hadoop+MPPRDB架构中Hadoop负责非结构化数据或简单结构数据的存储和处理Hadoop同时负责原始数据的抽取、转换、加载和轻度汇总等计算任务MPPRDB负责深度分析、复杂查询以及多变的自助分析应用等混搭架构的代表厂商有HP的Vertica产品EMC的产品等-68-混搭架构对结构化数据复杂处理会更有优势,同时也能获得很好的性价比案例:“Hadoop+MPPRDB”混搭架构在Hado案例:信令监测系统数据存储架构优化方案-69-世纪鼎利公司江苏Mc口信令监测系统数据存储架构方案采集数据存储原始采集数据以二进制文件格式存储,保存7天。存储软件为我司自开发的分布式存储软件DataCom
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年学法普法知识试题库与答案
- 心境障碍患者的护理试题及答案
- 2025年注射相关感染预防与控制培训考核试题(含答案)
- 2025年四川国家公务员行测考试真题及答案
- 2025客户个人信息保护专题培训试题及答案
- 标准眉型技法课件
- (2024)食品安全练习题库及答案
- 查看课件时间
- 柜面业务无纸化培训课件
- 染色打样实训课件
- CJ/T 3085-1999城镇燃气术语
- 停产报告管理制度
- DB31/T 636.2-2015会议经营与服务规范第2部分:会议场所服务机构
- 云南二级建造师b证试题及答案
- 电解铝公司工程项目投资估算
- 钣金工考试试题及答案
- 2025护士招聘笔试题目及答案
- 沟通与策略式家庭治疗
- 合同质保期更改补充协议
- GB/T 45381-2025动梁式龙门电火花成形机床精度检验
- 防腐涂层新技术及其应用前景
评论
0/150
提交评论