大数据时代培训(39张)课件_第1页
大数据时代培训(39张)课件_第2页
大数据时代培训(39张)课件_第3页
大数据时代培训(39张)课件_第4页
大数据时代培训(39张)课件_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据时代Is coming第1页,共40页。目录什么是Big Data1.2大数据市场简析2.云与大数据3.大数据应用案例4.艾普云在大数据时代的布局5.第2页,共40页。20世纪90年代,数据仓库之父的Bill Inmon就经常提及Big Data2011年5 月,在“云计算相遇大数据” 为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念Big Data名词由来第3页,共40页。全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特

2、上每天发布 5 千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16 年每天亚马逊上将产生 6.3 百万笔订单每个月网民在Facebook 上要花费7 千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EBGoogle 上每天需要处理24PB 的数据在web 2.0的时代,人们从信息的被动接受者变成了主动创造者Big Data时代到来第4页,共40页。TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数

3、据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临.Big Data时代到来第5页,共40页。1. Volume2. Variety3. value4. Velocity结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据

4、区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合什么是Big Data数据量巨大全球在2010 年正式进入ZB 时代,IDC预计到2020 年,全球将总共拥有35ZB 的数据量第6页,共40页。大数据的含义与界定大数据是指数据量超出传统尺度,一般软件工具难以捕获、存储、管理和分析的数据集。不同行业、不同企业、不同时期、大数据的规模不尽相同、无需也无法统一。目前,大体上,数据量达到大字节(TB,240)的,被称作大数据。第7页,共40页。数据存储演进及含义单位代号数

5、值含义的概略表述字节Byte8位(Bit)在计算机上的一个字母是1B千字节KB210字节一页文字大约5KB兆字节MB220字节一首流行歌曲大约4MB吉字节GB230字节一部电影大约1GB太字节TB240字节美国国会图书馆网络备份大约260TB拍字节PB250字节谷歌每小时处理数据大约1PB艾字节EB260字节中国每人一册500页的书大约1EB泽字节ZB270字节截止2010年全人类信息总量约1.2ZB尧字节YB280字节目前难以表述第8页,共40页。大数据的基本特征五大基本特征BECDA专属的、可共享的海量的、可细分的动态的、可扩展的沉淀的、可挖掘的实时的、可追溯的第9页,共40页。目录什么是

6、Big Data1.10大数据市场简析2.云与大数据3.大数据应用案例4.艾普云在大数据时代的布局5.第10页,共40页。中国大数据市场分析1112011年-2016年中国大数据市场规模22012年各行业大数据市场规模计世资讯预测,2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。计世资讯认为,2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。计世资讯预测,2012年中国大数据市场规模将达到4.7亿元,2013年大

7、数据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。第11页,共40页。中国企业大数据现状12半结构化数据结构化数据非结构化数据企业非结构化数据越来越多中国500强企业日数据生成量中国500强企业数据中心数据年增长率中国企业级数据中心数据存储量正在快速增长,非结构化数据呈指数倍增长,如果能有效的处理和分析,非结构数据中也富含了对企业非常有价值的信息。第12页,共40页。企业大数据应用需求分析1313各行业企业对大数据的关注程度目前企业的数据系统架构存在问题2目前企业数据分析处理面临的问题第13页,共40页。大数据对经济社会影响巨大据国外预测:大数据用于制造业能减少50%

8、的成本,用于零售业能增加60%的利润。美国将大数据用于医疗保健,能产生3000亿美元的效益;欧洲把大数据用于公关管理能产生2500亿欧元的效益。大数据引入经济学和社会学,基于数据精确量化分析的社会科学,被称为“计算社会科学”。第14页,共40页。各国高度关注大数据的应用2009年,联合国启动全球脉动计划,借助大数据分析全球灾害、疾病、环境变化等,向相关各方发出预警,推动应对。2012年1月,WEF达沃斯年会把“大数据、大发展”列为重要议题,引起全球政界、商界的高度关注。2012年3月,美国政府发布大数据研究计划,推进大数据在科研、医疗、能源、安全等领域的应用。欧盟、日本、新加坡等国政府都在加紧

9、行动。第15页,共40页。目录什么是Big Data1.16大数据案例4.3.云与大数据大数据市场简析2.艾普云在大数据时代的布局5.第16页,共40页。云计算与大数据白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!第17页,共40页。大数据时代下的系统需求High performance 高并发读写的需求高并发、实时动态获取和更新数据Huge Storage 海量数据的高效率存储和访问的需求类似SNS网站,海量用户信息的高效率实时存储和查询High S

10、calability & High Availability 高可扩展性和高可用性的需求需要拥有快速横向扩展能力、提供7*24小时不间断服务第18页,共40页。RDBMS VS. NoSQL高并发读写大数据存储的 核心需求高效率存储 和访问高可扩展性和高可用性低成本建设运维 保证一致性的开销过大,难以实现高并发 存储性能受限于控制器,性能难以保证 关系型表单存储难以适应不同数据类型 上亿行数据的超级达标效率极低 传统基于盘阵的存储设备,造价昂贵,且市场垄断严重,建设成本居高不下,扩容成本尤其高 许可和维护花费高昂 无法简单的通过添加服务节点来扩展数据容量和负载能力,难以进行横向扩展 数据库升级

11、需要停机维护和数据迁移,导致服务中断 不保证遵循ACID原则,提高并发读写性能 Schema-Free存储适应不同数据类型舍弃SQL标准功能,尽量简化数据操作,提升效率MapReduce实现高效访问 基于X86设备,价格低廉开源系统,节省许可费用 支持水平扩展,可简单的通过添加服务节点来扩展数据容量和负载能力数据库升级不影响服务持续第19页,共40页。NoSQLNoSQL运动两个核心理论基础:Google的BigTableBigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。Amazon的DynamoDynamo使用的

12、是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。NoSQL是Not Only SQL的缩写,而不是Not SQL,它不一定遵循传统数据库的一些基本要求,比如说遵循SQL标准、ACID属性、表结构等等。相比传统数据库,叫它分布式数据管理系统更贴切,数据存储被简化更灵活,重点被放在了分布式数据管理上。第20页,共40页。Big Table 为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。Key-Value映射:(row:string, column:st

13、ring, time:int64)string数据模型支撑技术Bigtable的表会根据行键自动划分为片(tablet),片是负载均衡的单元。用GFS来存储日志和数据文件按SSTable文件格式存储数据用Chubby管理元数据参考文献:The Chubby lock service for loosely-coupled distributed systems Google论文第21页,共40页。NoSQL数据库第22页,共40页。腾讯在天津投资建立亚洲最大的数据中心;新浪推出企业微博产品,提供精准的数据分析服务。商业价值在大数据推动的商业革命暗涌中,要么学会使用大数据的杠杆创造商业价值,要么

14、被大数据驱动的新生代商业格局淘汰。标准的虚拟化及分布式存储内存计算技术SAP中国区企业信息 管理咨询资深顾问 杜韬Hadoop数据应用策略、数据流技术机器学习算法百度首席科学家 威廉.张Hadoop数据采集、数据存储、数据处理Yahoo!北京全球软件研发中心架构师 韩轶平持续创新传统的企业级数据仓库产品线收购Aster DataHadoop、MapReduceTeradata首席客户官 周俊凌第23页,共40页。目录什么是Big Data1.24大数据市场简析2.4.大数据案例云与大数据3.艾普云在大数据时代的布局5.第24页,共40页。马云的判断来自于数据分析商业价值淘宝双“十一”背后的技术

15、讨论第25页,共40页。政府、金融、电信等行业投资建立大数据的处理分析手段,实现综合治理、业务开拓等目标;应用到制造等更多行业。商业价值第26页,共40页。结构化数据向非结构化数据演进,使得未来IT投资重点不再是建系统为核心,而是围绕大数据为核心;海量数据可以在各个部门创造重大的财物价值,未来投资倾斜。商业价值第27页,共40页。用户行为分析第28页,共40页。大数据应用案例(中信银行信用卡中心)29大数据挑战发卡量增长迅速:2008年发卡约500万张,2010年增加了一倍。业务数据增长迅速:随着业务的迅猛增长,业务数据规模也线性膨胀。数据存储、系统维护、数据有效利用都面临巨大压力。需求可扩展

16、、高性能的数据仓库解决方案能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析提升信用卡中心的业务效率;通过从数据仓库提取数据,改进和推动有针对性的营销活动。采用大数据方案后价值体现实时的商业智能可以结合实时、历史数据进行全局分析,风险管理部门现在可以每天评估客户的行为,并决定对客户的信用额度在同一天进行调整;原有内部系统、模型整体性能显著提高秒级营销Greenplum数据仓库解决方案提供了统一的客户视图,更有针对的进行营销。2011年,中信银行信用卡中心通过其数据库营销平台进行了1286个宣传活动,每个营销活动配置平均时间从2周缩短到2-3天。EMC Green-plum第29页,共

17、40页。大数据应用案例(农夫山泉)30大数据挑战农夫山泉数据量变得越来越大,分销表中数据基数大,增速快,数据展现速度越来越慢;数据运算速度越来越慢,已经让人无法忍受,影响业务的正常进行;数据更新慢,采用传统的ETL(数据抽取、转换、装载),农夫山泉的分析系统数据基本上一天才能更新一次。需求能够应对海量数据的挑战,实现高效的逻辑运算、实时的数据分析以及快速的数据展现的解决方案。采用大数据方案后价值体现实现了快速的数据展现与原有商业智能报表展现方案相比,新方案数据展现速度快25-30倍;形成了强大逻辑计算能力测试了120多张已经上线的报表,基本上速度提升100150倍;SAP HANA和Busin

18、ess Objects 4.0组合只用了46秒就完成原来需要24小时才能完成的逻辑计算;实现了数据的实时、同步HANA使得数据从业务系统中转换到HANA中时基本上没有任何延迟。SAPHANA第30页,共40页。大数据应用案例(“数字黄河”)31大数据挑战数据激增,IT系统负担加重;地域分隔,信息孤岛拉低效能;无法共享,数据同步成为难题;标准各异,数据规范有待统一。需求制定短期和长期技术规划,以适应未来信息系统的发展。采用大数据方案后价值体现解决跨平台异构应用系统的数据共享与集成问题黄河水利委员会各部门随时获取其权限范围内的最新数据,而无须将其存储在本部门系统中;消除信息孤岛,实现数据统一管理有

19、效消除了各业务系统和各组织结构之间的信息孤岛,简单获取黄河数据资源的单一视图,并确保了数据的完整性、及时性、准确性和一致性,同时首次实现元数据的可视化统一管理IBMInfo-Sphere第31页,共40页。32互联网行业拥抱大数据的关键因素互联网行业对数据实时分析要求较高,例如广告监测、B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。互联网行业大数据分析面临的主要问题互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互

20、联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。互联网拥抱大数据第32页,共40页。33医疗大数据应用场景医疗行业产生的数据量主要来自于PACS影像、B超、病理分析等业务所产生的非结构化数据。人体不同部位、不同专科影像的数据文件大小不一,PACS网络存储和传输要采取不同策略。面对大数据,医疗行业遇到前所未有的挑战和机遇。医疗行业大数据应用场景非常多,右图仅以临床操作和研发为例,展示医疗行业大数据应用场景。对于公共卫生部门,可以通过过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。比较效果研究临床操作临床决策支持系统医疗数

21、据透明度远程病人监控研发预测建模提高临床试验设计的统计工具和算法疾病模式的分析第33页,共40页。34能源遇到大数据能源行业数据特征能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,综合各种数据所包含的信息才能得出地下真实的地质状况。能源行业面临的大数据问题能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储、高带宽、可处理不同格式数据的分析方案。第34页,共40页。大数据行业应用35应用可能性电信政府(公共事业)交通金融医疗教育能源(电力/石油)纵轴契合度:表示该用户的IT应用特点与大数据特性的契合程度;横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;

22、注:该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值HighMidLowLowMidHigh优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高适当关注行业用户两个维度暂时都不具备优势,可适当给予关注互联网(电子商务)契合度流通零售制造第35页,共40页。3621互联网行业大数据主要应用在社交和网购方面结合位置数据、消费数据进行实时营销信息推送是电信行业大数据应用主要场景3金融行业大数据应用场景主要集中在投资方面4制造行业具有多环节、多地域特色,各个环节的优化是制造行业最关注的大数据

23、应用场景大数据潜在应用第36页,共40页。艾普云在大数据时代的布局 艾普云Openstack云系统专家 使命:中国第一综合信息化服务提供商第37页,共40页。艾普云在大数据时代的布局IDC中心云计算中心公共信息化服务中心大数据中心第38页,共40页。艾普云在大数据时代的布局第39页,共40页。1、不是井里没有水,而是你挖的不够深。不是成功来得慢,而是你努力的不够多。2、孤单一人的时间使自己变得优秀,给来的人一个惊喜,也给自己一个好的交代。3、命运给你一个比别人低的起点是想告诉你,让你用你的一生去奋斗出一个绝地反击的故事,所以有什么理由不努力!4、心中没有过分的贪求,自然苦就少。口里不说多余的话

24、,自然祸就少。腹内的食物能减少,自然病就少。思绪中没有过分欲,自然忧就少。大悲是无泪的,同样大悟无言。缘来尽量要惜,缘尽就放。人生本来就空,对人家笑笑,对自己笑笑,笑着看天下,看日出日落,花谢花开,岂不自在,哪里来的尘埃!5、心情就像衣服,脏了就拿去洗洗,晒晒,阳光自然就会蔓延开来。阳光那么好,何必自寻烦恼,过好每一个当下,一万个美丽的未来抵不过一个温暖的现在。6、无论你正遭遇着什么,你都要从落魄中站起来重振旗鼓,要继续保持热忱,要继续保持微笑,就像从未受伤过一样。7、生命的美丽,永远展现在她的进取之中;就像大树的美丽,是展现在它负势向上高耸入云的蓬勃生机中;像雄鹰的美丽,是展现在它搏风击雨如苍天之魂的翱翔中;像江河的美丽,是展现在它波

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论