网络新技术之大数据_第1页
网络新技术之大数据_第2页
网络新技术之大数据_第3页
网络新技术之大数据_第4页
网络新技术之大数据_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络新技术之大数据5.大数据技术5.1大数据的定义5.2大数据的技术特征5.3大数据的典型应用5.4大数据的发展趋势一组数据3亿用户,每天上亿条微博.2015年全球移动终端产生的数据量6300PBFacebook每天要存储大约100TB的用户数据;NASA美国宇航局每天要处理约24TB的数据微信国内用户4亿,国外用户突破7千万,每天产生数据百度每天处理数据量100PBGBTBPBEBZB大数据时代的爆炸增长想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB

(拍字节)

=2^50字节1EB

(艾字节)

=2^60字节1ZB(泽字节)=2^70字节大数据概念和特征什么是大数据(Bigdata)?维基百科的定义:大数据指难以用常用的软件工具在可容忍时间内抓取、管理以及处理的数据集(一般单个数据集大小在10T左右)。大数据之所以在最近走红,主要归结于互联网、移动设备、物联网和云计算等快速崛起,全球数据量大大提升。“大数据”是继云计算、物联网之后IT产业又一次颠覆性的技术变革2006年左右,数据量已足够大,但是当时大数据不红,why?为什么叫大数据:一是数量大YB:2的80次方,ZB的1000倍ZB:2的70次方,EB的1000倍EB:2的60次方,PB的1000倍PB:2的50次方,TB的1000倍TB:2的40次方,GB的1000倍GB:2的30次方,MB的1000倍绝大部分应用在这两个数量级二是类型多结构特征:结构化、半结构化、非结构化拥有特征:私有、共有、公开形态特征:语音、文本、数值、图像、视频为什么叫大数据:二是类型多三是更接近把握信息资源的本质大数据真正开始把信息变成资源有的文章将大数据看作石油,大数据研究与自然资源利用发现、开采、提炼存在一定的相似之处研究大数据,首先要研究各种有用的信息在何处,就是找矿其次是把满足特定需求的信息收集过来,就是开矿第三是把收集的信息按应用需求进行结构化处理,就是提炼,如同石油必须经过炼化才能变成消费用的汽油、柴油或作为原料用的聚乙烯、聚丙烯第四是将这样的信息与具体的应用结合,使之发挥作用,这就是基于大数据的应用系统,或称之为围绕应用的大数据管理系统,如同汽油通过加油站加到消费者的汽车内,石化原料变成衣服、设备或其部件。大数据的各部分组成大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商;现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统;终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系;展现方式:大型控制中心、移动终端在多样性、体量、速度三大特征的指引下,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。大数据据与传传统数数据库库11采集环节存储环节分析环节应用环节传统数据分析大数据分析扩展到传感、互联网、交易等多来源多类型数据来源单一,以内部结构化数据为主主要是面向结构化数据和事务处理的关系型数据库扩展到面向非结构化数据和分析处理的非关系型数据库依赖高性能计算机,主要利用统计和机器学习算法需用分布式并行计算,Scaleout

能力,以机器学习算法为主局限在金融、保险、零售、电信等少数领域,以决策支撑为主有望渗透到政府、医疗、交通等各个领域,嵌入到业务流程中来源广,3V非结构化和面向分析为主分布式并行架构结合机器学习算法更广的领域,更深入的嵌入业务流大数据系统的特点大数据资源大数据工具大数据理念大数据据与其其他新新兴技技术的的关系系大数据据、物物联网网、云云计算算、移移动通通信等等都是是近年年涌现现出来来的新新兴概概念,,彼此此之间间不是是孤立立的,,而是是存在在着内内部联联系。。大数据据带来来的思思维方方式的的变化化处理的的对象象往往往是全全部数数据,,而不不是部部分数数据的的采样样采样的的不合合理会会导致致预测测结果果的偏偏差,,在大大数据据时代代,依依靠强强大的的数据据处理理能力力,应应该去去处理理全部部的数数据。。不再执执迷于于精确确性精确的的、规规范化化的、、可以以被传传统数数据库库处理理的数数据只只占全全部数数据的的5%,必须须接受受不精精确性性才能能处理理另外外95%的数据据。错误的的数据据是客客观存存在的的,竭竭力避避免它它就失失去了了应有有的客客观性性和公公平性性。大数据的的简单单算法法比小小数据据的复复杂算算法更更有效效。更加关关注相相关性性,而而不是是因果果性预测依依靠的的是相相关性性。很多情情况下下知道道“是是什么么”即即可,,不必必知道道“为为什么么”。。大数据据的价价值链链数据数据的的掌控控者,,拥有有或者者可以以收集集大量量数据据的公公司。。海量量的数数据就就是财财富,,可以以考虑虑自己己分析析或者者卖数数据给给其他他公司司。技术技术供供应商商或者者分析析公司司。掌掌握了了从海海量数数据中中分析析出有有用信信息的的技能能或者者工具具,但但本身身不一一定拥拥有数数据。。思维有创新新思维维的人人或者者公司司。他他们对对大数数据敏敏感,,有怎怎样挖挖掘数数据的的新价价值的的独特特想法法。@2013北京泽泽佳公公司版版权所所有Copyright©2013ZejiaConsultingCorporation第15页大数据据基础础架构构要求求可预测测的低低延迟迟高事务参参数灵活的的数据据结构构获取组织分析决策高吞吐量量就地准备所有数据据源和结结构深度分析析敏捷开发发高度可伸伸缩性实时流数据运营影响响5.大数据技技术5.1大数据的的定义5.2大数据的的技术特特征5.3大数据的的典型应应用5.4大数据的的发展趋趋势大数据的的技术特特征数据结构::结构构化数据据与非结结构化数数据数据库数数据模型型:关系系型数据据库与非非关系型型数据库库数据处理理特性::OLTP与OLAP数据一致致性:强强一致性性与最终终一致性数据存储方方式:行行式存储储与列式式存储数据库存存储与处处理架构构:SMP与MPP数据存储储架构::传统分分布式文文件与新新型分布布式文件件数据处理架架构:基基于并行行计算的的分布式式数据处处理技术(MapReduce)-17-数据的结构构—结构化、非结构化、半结结构化数数据-18-对比项结构化数据非结构化数据半非结构化数据定义有数据结构描述信息的数据不方便用固定结构来表现的数据介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系先有结构、再有数据只有数据,没有结构先有数据,再有结构示例各类表格图形、图像、音频、视频信息HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数数据和非非结构化化数据都都是客观观存在,,大数据技术需要涵涵盖两者者数据库数数据模型型—关系型数数据库与与非关系型数据据库在大数据据技术中"非关系型"数据库技术术是必不不可少的,但关系数据据库也是是不可或或缺的-19-对比项关系型数据库非关系型数据库定义创建在关系模型基础上,借助于集合代数等数学概念和方法来处理数据库中的数据关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成没有标准定义包括:表存储数据库、键值存储数据库、面向文档的数据库等接口语言SQL(StructuredQueryLanguage,结构化查询语言),对数据库中的数据进行查询、操作和管理无统一标准包括:各自定义的API、类SQL、MR等典型案例Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等新型的MPPRDB(Greenplum)也属于关系型数据库Hbase、MongoDB、Redis数据处理理特性—OLTP与OLAP-20-比较项联机事务处理OLTP(On-LineTransactionProcessing)联机分析处理OLAP(On-LineAnalyticalProcessing)基本类型业务操作型业务分析型数据特性对一条记录数据会多次修改,支持大量并发用户添加和修改数据数据写入后基本不再修改,能较好地支持大量并发用户进行大数据量查询技术特性确保数据的一致性确保事务的完整性数据读写实时性高支持多维数据以及对多维数据的复杂分析大数据量数据量GB-TB级TB-PB级典型示例银行业务系统/数据库各类决策分析系统/数据库OLTP以业务操操作型为为主,OLAP以业务分分析性为为主,两两者对技技术的要要求很难难兼顾数据一致致性:强强一致性性与最终终一致性性-21-强一致性性和最终终一致性性都是指指客户端端向数据库库系统写入数数据后,数据库库系统能够提提供的数数据一致致性的表表现对比项强一致性(即时一致性)最终一致性弱一致性场景定义假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作数据一致性表现A写入数据到存储系统后,存储系统能够保证后续任何时刻发起读操作的B、C可以读到A写入的数据A写入数据到存储系统后,经过一定时间,或者在某个特定操作后,B、C最终会读到A写入的数据A写入数据到存储系统后,存储系统不能够保证后续发起读操作的B、C可以读到A写入的数据示例OLTP需要强一致性OLAP需最终一致性绝大多数应用不能够容忍弱一致性数据存储储方式—行式存储储与列式存储-22-传统关系系型数据据库主要要采用行行存储模模式,海海量数据据的高效效存储和和访问要要求引发发了从行行存储模模式向列列存储模模式的转转变行存储用户生日聊天记录日均在线时长用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7列存储用户11981-10-3用户21990-5-15用户1Xxxxyyyy..用户2Mmnnn..用户12用户23.7行存储列存储存储一行中各列一起存放,单行集中存储一行中各列独立存放,单列集中存储索引效率海量数据索引既占用大量空间,且索引效率会随着数据增长越来越低基于列自动索引,海量数据查询效率高,不产生额外存储空间效率同一行不同列数据类型不同,压缩效率低空值列依然占据空间列同数据类型,压缩效率高空值不占空间I/O查某列必须读出整行,I/O负荷高、速度慢只需读出某列数据,I/O低速度快结构表结构改变影响很大可随时动态增加列适用场景数据写入后需要修改和删除,基于行的反复查询,多用于OLTP数据库批量数据一次写入和基于少量列的反复查询,多用于OLAP数据库样例数据据表数据库存存储与处处理架构构—SMP与MPP在数据量量急剧膨膨胀的背景下,数据库库处理要要求超出了单机或或SMP架构能力力范围,,最高配配置小型机也无法满足,所以在大大数据技技术中,MPP架构(计算分布+存储分布)架构构成为主流-23-计算分布,存储集中DBServ共享磁盘DBServDBServDBServ网络SAN/FC计算集中,存储集中DBServ磁盘计算分布,存储分布DBServDBServDBServDBServ高速通信网网络磁盘磁盘磁盘磁盘Master如:Oracle传统单机数据据库如:OracleRAC小型机+共享盘阵阵如:Greenplum、HbaseX86+本地硬盘盘传统单机机数据库库SMP架构数据据库MPP架构数据据库对称多处处理,SymmetricalMulti-Processing有两台以以上的服服务器,,各主机机之间共享总线结结构,共共享数据据存储磁磁盘节点数有有限制,主要通过提高节节点配置置来提高高整体处处理能力力,扩展展能力有有限对共享磁磁盘的访访问可能能成为瓶瓶颈SMP大规模并并行处理,MassivelyParallelProcessing多个松耦合处理单元组组成,数据据存在本本机磁盘盘上通过增加加服务器数量量提高系系统处理理能力,,理论上可无限限扩展,目技术可实现现上千个个节点互互联对软件体体系要求求较高,,需要通通过软件件层来调调度和平平衡各个个节点的的负载和和并行处处理过程MPP数据存储储架构::传统分分布式文文件与新新型分布布式文件-24-传统分布布式文件件系统也可以适应海海量数据据增长,,但是由由于数据据计算与与存储是是分离的的,随数数据量的增长,网络络带宽形形成瓶颈。新型分布式式文件系系统采用用数据计计算与存存储绑定定的新策策略,可可有效应应对海量量数据增增长X86PC集群数据存储:磁盘盘阵列数据存储储与计算算合一数据计算:数据服务务器数据靠网网络传输输本机硬盘本机硬盘本机硬盘本机硬盘计算模式拥有成本盘阵负责存储储,数据服务务器负责计算算,彼此靠网网络连接,计计算效率受网网络带宽影响响PC机自行负责存存储和计算,,数据与计算算绑定,不受受网络带宽影影响专用设备价格格昂贵,维护护费用高通用PC,价格低廉,,维护方便存储模式磁盘阵列存储储由每台PC机自带硬盘组组成容错模式不能容忍盘阵阵设备出问题题,靠RAID容错个别硬盘盘故障容许PC节点故障,通通过多个文件件副本保证数数据完整性数据存储与计计算分离新型分布式文件件系统—HadoopHDFS-25-HadoopHDFS是新型分布式式文件系统的的典型代表,,提供高可靠靠、高扩展、、高吞吐能力力的海量文件件数据存储元数据节点Namenode文件名,文件件块,文件块块所在数据节节点,…文件元数据123数据节点Datanode数据节点Datanode数据节点Datanode数据节点Datanode先读取文件元数据,知道道文件在哪后读取各个文文件块管理文件分布布存储优点支持任意超大大文件存储;;硬件节点可可不断扩展,,低成本存储储对上层应用屏屏蔽分布式部部署结构,提提供统一的文文件系统访问问接口,感觉觉就是一个大大硬盘;应用用无需知道文文件具体存放放位置,使用用简单;文件分块存储储(1块缺省64MB),不同块可分分布在不同机机器节点上,,通过元数据据记录文件块块位置;应用用顺序读取各各个块系统设计为高高容错性,允允许廉价PC故障;每块文文件数据在不不同机器节点点上保存3份;这种备份份的另一个好好处是可方便便不同应用就就近读取,提提高访问效率率缺点适合大数据文文件保存和分分析,不适合小文件件,由于分布存存储需要从不不同节点读取取数据,效率率反而没有集集中存储高;;一次写入多多次读取,不支持文件修修改是最基础的大大数据技术,,基于文件系系统层面提供供文件访问能能力,不如数数据库技术强强大,但也是是海量数据库库技术的底层层依托文件系统接口口完全不同于于传统文件系系统,应用需需要重新开发发上层应用YahooAmazonFacebookEbay淘宝百度中国移动飞信信中国移移动大云行业应用技术特点基于并行计算算的分布式数数据处理技术(MapReduce)-26-TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)中间结果中间结果中间结果输出数据输出数据JobTracker用户程序(JobClient)提交作业任务调度任务调度状态监控状态监控123MapReduce技术特性自动并行化:系统自动动进行作业业并行化处处理自动可靠处处理:系统自动动处理节点点/任务的故障障检测和恢恢复灵活扩展:节点可以以灵活加入入和退出,,系统自动动感知节点点状态并进进行处理高性能:计算任务务将被调度度至数据所所在的节点点,减少网网络开销,,提升执行行性能MapReduceMapReduce是解决海量数据处理的并行编编程环境5.大数据技术术5.1大数据的定定义5.2大数据的技技术特征5.3大数据的典典型应用5.4大数据的发发展趋势@2013北京泽佳公公司版权所所有Copyright©2013ZejiaConsultingCorporation第28页大数据行业业应用分析析应用可能性性电信政府(公共共事业)交通金融医疗教育能源(电力力/石油)纵轴契合度度:表示该用户户的IT应用特点与与大数据特特性的契合合程度;横轴应用可可能性:表示该用用户出于主主客观因素素在短期内内投资大数数据的可能能性;注:该位置为分分析师访谈谈的综合印印象,为定定性分析,,图中位置置不代表具具体数值HighMidLowLowMidHigh优先关注行行业用户应用特点与与大数据技技术有较高高的契合度度,在主客客观条件上上也有较高高的应用可可能性。值得关注行行业用户应有特点与与大数据的的契合度及及应用可能能性综合较较高适当当关关注注行行业业用用户户两个个维维度度暂暂时时都都不不具具备备优优势势,,可可适适当当给给予予关关注注互联联网网((电电子子商商务务))契合合度度流通通零售售制造造@2013北京京泽泽佳佳公公司司版版权权所所有有Copyright©©2013ZejiaConsultingCorporation第29页大数据据应应用用场场景景((1)为企企业业提提供供全全面面,,可可靠靠的的绩绩效效信信息息第30页大数据据应应用用场场景景((2)为城城市市管管理理提提供供最最新新,,实实时时数数据据@2013北京京泽泽佳佳公公司司版版权权所所有有Copyright©©2013ZejiaConsultingCorporation第31页大数据据应应用用场场景景((3)更快的的基基因因组组和和蛋蛋白白质质组组分分析析@2013北京京泽泽佳佳公公司司版版权权所所有有Copyright©©2013ZejiaConsultingCorporation第32页大数据据应应用用场场景景((4)利用用社社交交媒媒体体等等公公开开的的信信息息增增强强传传统统的的CRM数据据,,从从而而凭凭借借全全面面的的个个人人资资料料实实现现实实现现微微观观细细分分。。@2013北京京泽泽佳佳公公司司版版权权所所有有Copyright©©2013ZejiaConsultingCorporation第33页2013年1月29日,,住住房房和和城城乡乡建建设设部部公公

从智慧城市的体系结构来看,由于智慧城市的基础在于物联网技术,因此智慧城市体系架构和物联网的体系结构相类似,也可分为四层,分别为感知层、传输层、平台层、应用层。智慧城市相对于之前数字城市概念,最大的区别在于对感知层获取的信息进行了智慧的处理,因此也可以认为智慧城市是数字城市的升级版。由城市数字化到城市智慧化,关键是要实现对数字信息的智慧处理,其核心是大数据处理技术。智慧慧城城市市大数据据应应用用场场景景((5)5.大数数据据技技术术5.1大数据的的定义5.2大数据的的技术特特征5.3大数据的的典型应应用5.4大数据的的发展趋趋势大数据时时代发展展趋势大数据时时代发展展趋势之之一:软软件应用用泛互联联网化软件的价价值是同同它所协协助管理理的数据据的规模模和活性性成正比比大数据时时代,掌掌握更多多用户行行为数据据,并能能加以充充分挖掘掘利用的的公司,,将在竞竞争中赢赢得先机机,桌面面应用软软件链接接软件公公司与互互联网平平台的核核心纽带带,如何何充分发发挥桌面面应用软软件的纽纽带作用用,是大大数据时时代的核核心趋势势之一。。富界面::集成浏浏览器,,支持移移动终端端、PC等设备((富界面面是指桌桌面应用用软件与与浏览器器的深度度整合,,软件外外观与传传统的应应用软件件雷同,,但所有有的数据据都来自自于互联联网)门户化((排他性性,产品品相互支支援,提提高客户户粘性))门户化化的核心心要义在在于排他他性、相相关性。。第一排排他性是是指用户户一旦适适应一个个门户,,则难以以割舍,,从而提提供用户户粘性;;第二相相关性是是指用户户在门户户化软件件中,可可以完成成他大部部分的任任务,而而无需离离开门户户,门户户中相关关软件互互为支援援,互提提供流量量,促使使用户粘粘性越来来越强。。碎片化——按需付费费,改变变商业模模式(桌桌面应用用软件的的这三个个特征相相互促进进、缺一一不可,,没有互互联网化化,门户户化将无无从谈起起,碎片片化也就就推动了了依托;;没有碎碎片化,,则商业业模式没没有形成成的突破破,在走走卖拷贝贝的老路路。泛互联网网化趋势势,将引引发软件件企业商商业模式式的弈,,从单一一的卖软软件,向向服务转转型。大数据时时代发展展趋势大数据时时代发展展趋势之之二:行行业应用用垂直整整合大数据时时代开源源技术的的发展已已经可以以和商务务软件分分庭抗礼礼,传统统的OS、中间件件、DB等平台级级软件的的同质化化趋势已已经渐趋趋明显,,最终用用户的关关注焦点点集中如如何解决决实际问问题,而而不是购购买谁的的数据库库或OS。因此,,越靠近近最终用用户的企企业,将将在产业业链中拥拥有越大大的发言言权。上上演“扶扶天子令令诸侯””的好戏戏,而这这个“天天子”就就是广泛泛的最终终用户。。开源技术术的兴盛盛和冲击击Oracle行业垂直直整合之之路:ExaD

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论