大数据专题课件_第1页
大数据专题课件_第2页
大数据专题课件_第3页
大数据专题课件_第4页
大数据专题课件_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

BigData

大数据什么是大数据?

海量数据本身+处理方法大数据的产生及概念*facebook社交网络…淘宝、ebuy电子商务…微博、Apps移动互联…21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。“大数据”的诞生半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类发展的领域中。大数据时代的背景指数型增长的海量数据网上1分钟,人间1万年物联网加速大数据的发展指数型增长的海量数据指数型增长的海量数据所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。GBTBPBEBZB想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB

=2^50字节1EB

=2^60字节1ZB=2^70字节指数型增长的海量数据TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临..大数据时代到来大数据的概念与构成大数据是指社会生产生活和管理服务过程中形成的,依托现代信息技术采集、传输、汇总的,超过传统数据系统处理能力的数据,具有数据量大、数据类型多、处理速度快的特点,通过整合共享、交叉复用、提取分析可获取新知识,创造新价值。大数据=海量数据+复杂类型的数据处理方法海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。理解大数据商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式云计算的模式是业务模式,本质是数据处理技术。数据是资产,云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。密不可分的大数据与云计算大数据是落地的云理解大数据*大数据不仅仅是“大”多大?至少PB级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值理解大数据*软件是大数据的引擎理解大数据*大数据的应用不仅仅是精准营销通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象理解大数据理解大数据如何让大数据更有意义是重点;对非结构化数据的内容理解是实现大数据资源化、知识化、普适化的核心非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等麻省理工学院数字商业中心的首席科学家安德鲁麦卡菲对北美33家上市公司的高管进行了结构性访谈之后发现:运用大数据做决策的那些行业领先企业,比其竞争对手在产能上高5%,利润上高6%。大数据相关技术分析技术:数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等存储结构化数据:海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。语义分析技术、图文转换技术、模式识别技术、地理信息技术等等,都在大数据分析时获得应用。大数据相关技术大数据的展现方式大数据的展现方式新模式正在出现基于SQL语言:

面对OLAP的传统行和列不基于SQL或map-reduce的:

由谷歌率先发起数据流:

基于运行商数据直接生成任意图形新平台技术数据入口/汇聚数据平台分析不同范围的服务前提:传统交付模式

-

单片或基于设备的解决方案云:

能够充分利用物理设施的弹性,以实现处理快速增长数据的能力“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。”-ForresteranalystJimKobielus新的传输方案大数据的组成部分大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商;现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统;终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系;展现方式:大型控制中心、移动终端在多样性、体量、速度三大特征的指引下,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。大数据为什么重要?决定企业是否有未来、业务可延伸范围大数据的重要性更高一层数据层面整合企业内外部挖掘内部需求经过大数据改造的IT不再是一个冷冰冰的系统,而变成了推动业务发展,挖掘客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。产生新的用户量、给用户产生行为指纹用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。国外发展情况:万马奔腾,抢占大数据高地大数据国外发展情况衍生于亚马逊、Google等互联网公司前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。互联网越来越智能Google精确掌握用户行为、获取需求IBM\Oracle\EMC\Microsoft角力大数据

EMCEMC的大数据解决方案专注于使组织更有效地使用他们从不同来源产生的数据,包括网络上,网页上,消费者,监控系统和传感器。EMC的数据计算产品事业部正在开发分析工具以解决大数据现象。EMC的大数据解决方案包括40多个产品。2010年7月收购数据库软件供应商Greenplum,花费3亿美元2009年七月收购数据复制解决方案提供商DataDomain,花费24亿美元不一定和大数据完全相关,EMC从2009年起收购了ArcherTechnologies,SourceLabs,FastScaleTechnology,Configuresoft,andVaronisSystems。IBMIBM的策略是提供一个全面的方法来解决前所未有的信息爆炸提出的挑战,因为信息量无论在流量、种类、速度还是活力上都是爆炸式增长IBM一直致力于扩大对包括数据仓库中的大数据、信息流和结构化数据的分析在过去四年中,IBM已经投入超过120亿美元进行了23项相关并购,其中包括:2010年9月收购数据库分析供应商Netezza公司,花费17亿美元2010年10月收购网络分析软件供应商Coremetrics2009年10月收购数据分析和统计软件提供商SPSS,花费12亿美元2009年1月收购业务规则管理软件供应商ILOG,花费3亿4千万美元2007年花费20亿美元收购商务智能软件供应商Cognos微软微软提供了高性能计算能力,并在2005年靠WindowsComputeCluster服务器进入相关市场最近,微软的HPC部门开发了该公司的Dryad

并行处理技术社区技术预览(CTP),第一步是向WindowsHPCServer的用户提供处理大数据工具甲骨文甲骨文大数据提供的数据库和数据库软件主要用于配合Sun的硬件,特别是它的最高端服务2009年7月收购专注于数据复制和实时数据集成解决方案的私人企业GoldenGateSoftware国外已经开始大规模投资应用美国国务院采用大数据技术开发新的美国护照系统。IBM宣布投资1亿美元用于大数据研究;美国IT公司开始意识到大数据技术能够为公司创造价值;大数据公司引入汽车行业高管人员扩展营销业务;大数据在国内的机遇云计算、物联网从政绩工程变成实用工程国内各地制定云计算“十二五”规划云计算、物联网园区中国各地制定或公布了云计算、物联网等产业规划;这些工程的初始着眼点在房地产,政绩工程居多,大数据作为核心内容端,使得政绩工程变为使用工程。

云计算、物联网、社交化媒体、GIS为大数据提供了丰富的数据来源。因此大数据中包括的每个用户的身份、地点、时间、喜好、厌恶、社会关系等等大量的信息。伴随数据挖掘和分析的技术发展,我们即将步入基于大数据的智能化时代。商业模式发生改变卖license卖服务从对license的需求到对整体解决方案、服务的需求易复制、利润率高边际成本为零卖人头盗版客户粘度高软硬一体化利润率较卖license低,需要解决复用问题因泛在计算而导致行业需求变化利用好海量的大数据,解决中国软件公司卖人头、卖授权、无粘度的商业模式,转变为以数据服务为核心的新商业模式。启发各行业对IT系统投资新热点不同行业中,企业信息化成熟度差异明显;政府等行业的信息化成熟度明显领先,总体处于扩展和整合优化阶段;除金融和电信之外的服务行业的信息化建设成熟度相对较低,仍处在成长阶段。对大数据的处理需求将启发对于IT系统投资新热点,证实IT推动业务发展,增加对IT投资。从IT系统走向大数据决策分析未来着眼点在于服务2000制造业金融电信政府互联网企业自动化走向初步信息化快速发展整体解决方案需求年600亿投资规模信息化走向移动互联化基本架构已经建立相对成熟500亿以上投资规模手工化向自动化转型:成熟度低成长阶段中国建筑信息化投入占总收入0.03%建筑流通移动互联化数据智能化大数据更多行业的应用政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目标;应用到制造等更多行业。未来IT投资重心转移结构化数据向非结构化数据演进,使得未来IT投资重点不再是建系统为核心,而是围绕大数据为核心;海量数据可以在各个部门创造重大的财务价值,未来投资倾斜。*数据的再利用:由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。大数据价值链的3大构成:数据本身、技能与思维谷歌公司三者兼具,在刚开始收集数据的时候就已经有多次使用数据的想法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车以及谷歌眼镜等与实景交汇的产品。未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。《大数据时代》传统行业最终都会转变为大数据行业,无论是金融服务也、医药还是制造业。大数据的未来和机遇*大数据赋予我们洞察未来的能力马云成功预测2008年经济危机“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。——《大数据时代》大数据的未来和机遇大数据时代的企业发展成功企业具备的时代特征大数据云计算物联网平台移动互联语义网智能化大数据时代能产生大数据,如电信运营商,互联网门户具备大数据挖掘能力,如Google,百度能应用大数据进行垂直整合,如苹果,淘宝工业时代信息时代手工时代大数据时代典型特征在大数据时代,让数据成为资产,三类企业将获得成功时代变迁掌握”入口”是共性平台化满足用户个性化需求,企业才能持续领先自动交互个性化需求满足平台自愿进入自我增值产品销售规模化产品供应流程批量生产服务响应颠覆性创新传统的以产品营销和服务为核心的商业模式,构建以用户需求为核心的平台生态圈,形成用户:自愿进入(搭建以用户为核心的开放交互平台);自动交互(过程中应用大数据分析挖掘形成用户知识);自我增值(整合网络资源为用户提供个性化解决方案服务)的商业模式大数据时代的企业发展大数据时代的企业发展向平台生态圈企业转型,企业需经历三个阶段平台化转型期采集大数据,形成“入口”能力(~1年时间)平台化发展期应用“入口”大数据,服务产品化(2~3年时间)平台生态圈发展期垂直整合,“入口”能力释放(持续发展)开发能采集用户大数据的智能产品、完善运营大数据的采集能力形成大数据采集、存储和管理的技术平台内外部数据梳理和整合,形成统一的用户大数据和运营大数据整合数据挖掘资源和能力,应用内外大数据支撑产品领先和消费体验领先战略发展大数据技术平台成熟基于用户的大数据内生和应用平台形成形成1~2个领先型大数据产品拥有强大的数据挖掘资源和能力,对大数据进行价值挖掘和应用,数据价值开始显著发挥形成网络化的大数据采集体系整合相关资源形成开放生态圈平台,成为平台生态圈发展的主导者基于生态圈平台,能为用户提供多元化的精确性服务,抢占用户的心理份额、生活份额、钱包份额数据源内部结构化数据外部其他渠道网络/应用日志ED

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论