大数据相关知识及政策.ppt_第1页
大数据相关知识及政策.ppt_第2页
大数据相关知识及政策.ppt_第3页
大数据相关知识及政策.ppt_第4页
大数据相关知识及政策.ppt_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章走进大数据时代,主要内容,引例何谓大数据大数据的4V特征大数据带来的思维变革相关案例,引例1-电影点球成金,布拉德.皮特主演的点球成金是一部美国奥斯卡获奖影片,所讲述的是棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功。基于历史数据,利用数据建模定量分析不同球员的特点,合理搭配,重新组队。打破传统思维,通过分析比赛数据,寻找“性价比”最高球员,运用数据取得成功。,引例2乔布斯抗癌,乔布斯早在20多岁时就已患癌症并开始扩散,其元凶很可能是电子行业的有毒化学物质。而在他生命的末期,就曾经利用大数据尝试为自己延长寿命。乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。乔布斯为此支付了几十万美元的费用。医生们可以根据乔布斯特定的DNA为他设计药物,并观察药效,如果由于癌症的病变导致药物失效,医生可以及时的更换药物,以免延误最佳治疗期。实际上大数据在DNA领域的应用早已展开.谷歌搜索和GoogleMaps背后的GoogleCloud平台正和遗传数据机构合作推广成立GoogleGenomics项目,打造遗传分析云服务。云服务的分析工具可以在基因组数据中预测疾病风险的DNA变异。未来,医生可以定期进入云服务,了解病人基因信息引起各类疾病的风险,或者选择适合病人的治疗方案。,引例3谷歌预测流感,2009年,Google通过分析5000万条美国人最频繁检索的词汇,将之和美国疾病中心在2003年到2008年间季节性流感传播时期的数据进行比较,并建立一个特定的数学模型。最终google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。,引例4-Target怀孕预测指数,美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。”店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。Target能够通过分析女性客户购买记录,“猜出”哪些是孕妇。他们从Target的数据仓库中挖掘出25项与怀孕高度相关的商品,制作“怀孕预测”指数。比如他们发现女性会在怀孕四个月左右,大量购买无香味乳液。以此为依据推算出预产期后,就抢先一步将孕妇装、婴儿床等折扣券寄给客户来吸引客户购买。如果不是在拥有海量的用户交易数据基础上实施数据挖掘,Target不可能做到如此精准的营销。,何谓大数据,何谓大数据,何谓大数据,何谓大数据,大数据(bigdata)是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从某种程度上说,大数据是数据分析的前沿技术。维基百科:Bigdataisabroadtermfordatasetssolargeorcomplexthattraditionaldataprocessingapplicationsareinadequate.Challengesincludeanalysis,capture,datacuration,search,sharing,storage,transfer,visualization,queryingandinformationprivacy.,何谓大数据,何谓大数据,大数据的4V特征,大数据的4V特征,大量化(Volume):企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。,大数据的4V特征,价值密度低(Value)价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。,大数据的4V特征,快速化(Velocity):高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMSResearch关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。,1S临界点,大数据的4V特征,数据类型繁多(Variety)这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。,大数据带来的思维变革,大数据带来的思维变革,大数据时代,我们需要什么样的“新理念”?在思考问题和解决问题的方法上有什么新的特点?,大数据思维-,大数据带来的思维变革-数据思维,量化决策整合,量化思维:一切皆可量化,“万物皆数”是毕达格拉斯学派2000多前的一句名言。数据是指存储在某种介质上能够识别的物理符号,是对客观事物性质和状态的描述。“量化”就是用一种共性的语言来描述,标识和解释世界将各种各样的事,量化后转换成统计的事,然后应用统计的方法给予解决。将具体的事数量化,这样的思维就叫量化思维,下面的问题测测你的量化思维的能力。一个老财主,临死时对怀有身孕的老婆说:“将来如果生的是男孩,我的财产的三分之二给他,三分之一给你;如果生的是女孩,三分之二给你,三分之一给她。”后来老婆生了一对龙凤胎。你认为怎样分割财产才能不违背老财主的意愿?,量化思维:一切皆可量化,量化思维:一切皆可量化,量化思维:一切皆可量化,量化思维:一切皆可量化,量化思维:一切皆可量化,科学研究范式:库恩指出:“按既定的用法,范式就是一种公认的模型或模式。”所谓科学发现的范式是,第一,实验;第二,理论;第三,模拟;第四,数据挖掘。,图灵奖得主,关系型数据库的鼻祖吉姆格雷(JimGray)也是一位航海运动爱好者。2007年1月28日,他驾驶帆船在茫茫大海中失联了。而就是17天前的1月11日,在加州山景城召开的NRC-CSTB(NationalResearchCouncil-ComputerScienceandTelecommunicationsBoard)大会上,他发表了留给世人的最后一次演讲“科学方法的革命”,提出将科学研究分为四类范式(Paradigm,某种必须遵循的规范或大家都在用的套路),依次为实验归纳,模型推演,仿真模拟和数据密集型科学发现(Data-IntensiveScientificDiscovery)。其中,最后的“数据密集型”,也就是现在我们所称的“科学大数据”。,量化思维:一切皆可量化,第四科学研究范式几千年前科学以实验为主人类最早的科学研究,主要以记录和描述自然现象为特征,称为“实验科学”(第一范式),从原始的钻木取火,发展到后来以伽利略为代表的文艺复兴时期的科学发展初级阶段,开启了现代科学之门。,过去数百年受当时实验条件的限制,难于完成对自然现象更精细的理解。科学家们开始尝试尽量简化实验模型,去掉一些复杂的干扰,只留下关键因素(这就出现了我们在学习物理学中“足够光滑”、“足够长的时间”、“空气足够稀薄”等令人费解的条件描述),然后通过演算进行归纳总结,这就是第二范式。第二研究范式以理论研究为主,这种研究范式一直持续到19世纪末,都堪称完美,牛顿三大定律成功解释了经典力学,麦克斯韦理论成功解释了电磁学,经典物理学大厦美轮美奂。但之后量子力学和相对论的出现,则以理论研究为主,以超凡的头脑思考和复杂的计算超越了实验设计,而随着验证理论的难度和经济投入越来越高,科学研究开始显得力不从心。,量化思维:一切皆可量化,第四科学研究范式过去数十年20世纪中叶,冯诺依曼提出了现代电子计算机架构,利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及,人们可以对复杂现象通过模拟仿真,推演出越来越多复杂的现象,典型案例如模拟核试验、天气预报等。随着计算机仿真越来越多地取代实验,逐渐成为科研的常规方法,即第三范式。,今天将理论、实验和计算模拟统一起来由仪器收集或者计算模拟产生数据由计算机存储和处理数据科学家通过数据分析挖掘软件分析数据,发现规律而未来科学的发展趋势是,随着数据的爆炸性增长,计算机将不仅仅能做模拟仿真,还能进行分析总结,得到理论。数据密集范式理应从第三范式中分离出来,成为一个独特的科学研究范式。也就是说,过去由牛顿、爱因斯坦等科学家从事的工作,未来完全可以由计算机来做。这种科学研究的方式,被称为第四范式。,思考:我们可以看到,第四范式与第三范式,都是利用计算机来进行计算,二者有什么区别呢?,决策思维:让数据说话,决策模式:直觉驱动的决策:拍脑袋的决策,有随意性逻辑驱动的决策:基于逻辑分析的推理经验驱动的决策:用数据说话、用数据来管理、用数据来决策、用数据来创新现代生活中的很多决策在本质上是不确定的,例如,抽奖、保险和天气预报等等,掌握概率知识,学会以概率的观点来思考生活中与概率相关的问题,就不会再问一件事是否会发生,而是问其发生的概率。,决策思维:让数据说话,概率论和统计学将经验变成了“科学”数据分布(均匀分布、高斯分布、泊松分布)数据抽样假设检验大数定律,决策思维:让数据说话,大数定律在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。大数定律通俗一点来讲,就是样本数量很大的时候,样本均值和真实均值充分接近。例如,在重复投掷一枚硬币的随机试验中,观测投掷了n次硬币中出现正面的次数。不同的n次试验,出现正面的频率(出现正面次数与n之比)可能不同,但当试验的次数n越来越大时,出现正面的频率将大体上逐渐接近于1/2。又如称量某一物体的重量,假如衡器不存在系统偏差,由于衡器的精度等各种因素的影响,对同一物体重复称量多次,可能得到多个不同的重量数值,但它们的算术平均值一般来说将随称量次数的增加而逐渐接近于物体的真实重量。,决策思维:让数据说话,大数定律的假设独立同分布试验的次数非常大在很多情况下,这些假设不一定能满足问题空间的参数太大,训练数据对问题空间的覆盖度不大试验条件在变化,不能满足独立同分布,决策思维:让数据说话,决策思维:让数据说话,整合思维:跨界的创新,Integrativethinking(整合思维):别再只盯着你的一亩三分地,打开眼睛,寻找自己可用的各种资源,整合出解决问题的新方式。“整合思维”就是在面临困难问题时的应对之策,即运用发散思维,寻找新的解决方案,而非仅局限于从已有的“解决方案清单”中选择。,整合思维:跨界的创新,数据孤岛的形成技术的原因历史的原因认识的原因比如,要办一个证,时常就会出现“多部门跑腿”的现象,民众要跑完这个部门再跑另一个部门。-数据孤岛在大数据时代,传统的政务查询、社保查询、医疗教育、水电煤等公共服务将被集成,各政务服务间的信息化壁垒、数据孤岛将会消失,政府、企业、研究机构间的数据可实现安全的分享流通、交易交换。因此,随着大数据的发展,政府首先要进一步把为人民服务的观念和责任意识落实到实际工作中去,要有数据信息开放思维、数据信息整合思维和数据信息分享思维。从互联网的角度来看,政府服务优化是没有止境的。也就是说,不同部门之间要加强服务融合,要加强信息的交换。我们需要用移动互联网的思维去打造一个指尖上的政府服务体系。正如李克强总理强调的“要让政府信息多跑路,群众少跑腿”,我们各级政府应该按照方便办事、就近服务的原则,充分利用大数据的功能,真正完成向服务型政府转变的时代要求。,整合思维:跨界的创新,信息化进程,整合思维:跨界的创新,信息化3.0云计算解决了计算资源的共享问题大数据技术试图解决数据的利用问题大数据是由于不同来源的数据汇集而带来的“跨界”型创新应用,云计算,Cloudcomputingisamodelforenablingubiquitous,convenient,on-demandnetworkaccesstoasharedpoolofconfigurablecomputingresources(e.g.,networks,servers,storage,applications,andservices)thatcanberapidlyprovisionedandreleasedwithminimalmanagementeffortorserviceproviderinteraction.云计算是一个方便灵活的计算模式,它是按需,可通过网络进行访问和使用的计算资源的共享池(例如,网络、服务器、存储、应用程序服务),它以用最少的管理付出,与服务供应商有最少的交互的前提下,可以达到将各种计算资源迅速地配置和推出。,云计算的特点,(1)超大规模。“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软和Yahoo等公司的“云”均拥有几十万台服务器。“云”能赋予用户前所未有的计算能力。(2)虚拟化。云计算支持用户在任意位置、使用各种终端获取服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解应用运行的具体位置,只需要一台笔记本或一个PDA,就可以通过网络服务来获取各种能力超强的服务。(3)高可靠性。“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机更加可靠。(4)通用性。云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一片“云”可以同时支撑不同的应用运行。(5)高可伸缩性。“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。(6)按需服务。“云”是一个庞大的资源池,用户按需购买,像自来水、电和煤气那样计费。(7)极其廉价。“云”的特殊容错措施使得可以采用极其廉价的节点来构成云;“云”的自动化管理使数据中心管理成本大幅降低;“云”的公用性和通用性使资源的利用率大幅提升;“云”设施可以建在电力资源丰富的地区,从而大幅降低能源成本。因此“云”具有前所未有的性能价格比。因此,用户可以充分享受“云”的低成本优势,需要时,花费几百美元、一天时间就能完成以前需要数万美元、数月时间才能完成的数据处理任务。,整合思维:跨界的创新,跨界应用比比皆是2014年7月22日,上海。阿里巴巴宣布,和中行、招行、建行等7家银行深度合作,为中小企业提供基于网商信用的无抵押贷款,最高授信额度为1000万元阿里将平台拥有的数万家企业交易数据开放给银行,降低银行贷款风控成本的同时,也为苦于无法自证信用的中小企业提供了第三方担保。,大数据带来的思维变革-互联网思维,互联网的发展,大数据带来的思维变革-互联网思维,大数据带来的思维变革-互联网思维,以客户为中心:人本思维万物皆有联系:关联思维反垄断去中心化:平等思维,人本思维,传统的信息系统是将业务逻辑作为最重要的内容,互联网应用将客户作为信息系统最重要的组成部分互联网应用的核心在于以用户需求为主导,将用户思考和用户体验做到极致是关键所在,人本思维,有数据显示,高达92%的顾客相信朋友推荐,有75%的顾客决策前参考社会化评价,70%的顾客相信在线评论。口碑营销:通过社会媒体各渠道塑造品牌形象,直接影响消费决策。互联网应用中,最有价值的是社区。为用户画像,了解用户的需求,提供个性化的服务,关联思维,大脑如何记忆:我们会把某种事物特征化,然后将事物与特征彼此关联。每个事物都关联了很多个特征,每个特征也同时关联了很多个事物。大脑会通过这种特征与事物的关联来进行检索和思考。其中,事物的特征是可以被编辑的。也就是说,我们对事物的认识越丰富,在事物中甄别出越多的特征,就会越有利于我们的思考与记忆。例如,听到下面两个词之后,你想到了什么。第一个词“人行横道”,第二个词“非洲”。,关联思维,强调数据之间的关联也很有用,而不去追求数据之间的因果关系。因果关系是最深刻的一类联系,但是我们很多时候并不能获得。,平等思维,平等思维去中心化,中心化(Centralization)和去中心化(Decentralization)就是集权与分权,在互联网上,就是指从我说你听的广播模式,向人人有个小喇叭的广场模式转变。中心化的典型例子是门户网站,去中心化的典型例子是blog、UGC、社交媒体等。建立和运维社区是大数据应用的关键。在社区中,成员都是平等的。,平等思维垄断vs反垄断,互联网本质上是反垄断的技术反垄断:开源社区信息反垄断:信息公开是反腐的利器资源反垄断:开放和标准是有效的办法,平等思维垄断vs反垄断,平等思维长尾效应,从人们需求的角度来看,大多数的需求会集中在头部,这部分我们可以称之为流行;而分布在尾部的需求是个性化的、零散的、小量的需求。这部分差异化的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论