大数据发展现况与趋势.ppt_第1页
大数据发展现况与趋势.ppt_第2页
大数据发展现况与趋势.ppt_第3页
大数据发展现况与趋势.ppt_第4页
大数据发展现况与趋势.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据发展现况与趋势,日期:2016年6月22日单位:贵阳大数据交易所报告人:专业:信息管理硕士主修:数据挖掘、决策支持经历:从事富士康集团大数据业务15年,内容,预备知识(1/2),知识就是力量:人脑获取的的信息进行系统化的提炼、研究和分析,进而形成知识。信息就是能量:通过人脑次级思维活动,实现对原始数据的筛选、加工、创造,进而产生有意义的数据。数据就是变量:未经组织的数字、词语、声音、图像的纪录,可以来自测量仪器的实时记录,也可以来自人的知识。,(摘自块数据2.0一书),知识、信息与数据的双向演进,预备知识(2/2),数据的终极目的决策支持,预测,优化,增加效益,防范风险,(目的),(方法),(目标),智能生活(1)-视频5分钟,数据与生活,保险业地产行业零售行业物流行业政府治理,思路:透过(大)数据在生活中的应用,进而了解大数据的型态、样式、影响与效益,客户属性,养车APP,移动APP,家庭成员,商旅人群,航空延误险旅游天气险手机被盗险行李遗失险,专属理财保险寿险养老险教育险,高端客群,(保险公司)创新保险产品提升精算水平增加利润率提高投资收益,稀有客群,宠物险美甲险珠宝险,保险行业大数据应用场景,旅游业信息,航空业信息,医疗信息,其他外部信息,保险大数据源,发掘,设计,提供,发掘,设计,提供,发掘,设计,提供,获得,分析,分析,位置信息1.常住人口2.年龄3.职业4.收入5.消费6.APP活跃程度7.其他,土地价值,土地投资成本地产开发风险,案例:(身分)一家主要开发三线城市地产著名的房地产商。(事前)一次进入到一个城市时,当地政府非常欢迎,并拿出了一个拥有30万户籍人口的土地让房地产公司进行开发。(事中)房地产商开发完之后,发现房子卖出去很少,同30万户籍人口的需求完全不在一个数量级上,房子积压了不少,造成了较大损失。(原因)房地产商很困惑,究竟是什么原因导致了房子滞销,经过一段时间的调研,地产公司发现:1、30万户籍人口中有一半以上在其他城市工作2、并且未来不会回来购买住房,其开发地块的常住人口住房购买需求较低,相当于10万户籍人口的需求。(事后)地产商按照30万人口需求开发的住宅小区,很难在当地短期内卖出去。本次房地产投资损失较大,导致房地产商从当地房产市场退出。,地产行业大数据应用场景,居住人口数进入人口数活动规律,发现,降低,设计,提升,商铺位置服务内容产品类型动线设计,客流量消费额服务体验,生活爱好年龄分布消费热点,客户基本信息客户购物纪录,购买喜好热门商品流行趋势时间周期商品组合,改善动线货架布置,推荐客户潜在需求商品,精细化生产提升效率优化资源,零售行业比较有名气的大数据案例就是沃尔玛的啤酒和尿布的故事,以及Target通过向年轻女孩寄送尿布广告而告知其父亲,女孩怀孕的故事。,天猫和京东,已经通过客户的购买习惯,将客户日常需要的商品例如尿不湿,卫生纸,衣服等商品依据客户购买习惯事先进行准备。当客户刚刚下单,商品就会在24小时内或者30分钟内送到客户门口,提高了客户体验,让客户连后悔等时间都没有。,零售行业大数据应用场景,优化产品设计库存管理生产计划配置资源,提升,30%,业绩,供应链,物流行业规模5万亿,最后一公里物流3万亿元,中国的物流产业规模大概有5万亿左右,其中公里物流市场大概有3万亿左右。物流行业的整体净利润从过去的30%以上降低到了20%左右,并且下降的趋势明显。,全国物流网路,各个节点的运货需求和运力,降低货车的返程空载率,降低超载率,减少重复路线运输,降低小规模运输比例,建立基于地理位置和产业链的物流港口,实现货物和运力的实时配比,提高物流行业的运输效率,及时了解各个路线货物运送需求,提升,10%(约5000亿),收入,大数据手段,物流行业大数据应用场景,返程空载重复运输小规模运输,传统管理,改善,大数据提升政府治理能力意义重大,国务院发布了促进大数据发展行动纲要中提到,将建立“用数据说话、用数据决策、用数据管理、用数据创新”的管理机制。,1、揭示出与传统不同或难以展现的关联,增强政府决策的科学性2、提高政府监管市场、建立公平竞争环境的能力3、增强公共管理和服务能力,达到个性化和精准化服务的要求4、提升污染监控和环境保护成效,推进生态文明建设5、提高政府监管市场、建立公平竞争环境的能力,大数据提升政府治理能力意义重大,政府治理大数据应用场景(1/5),意义:揭示出与传统不同或难以展现的关联,增强政府决策的科学性,政府治理大数据应用场景(2/5),意义:提高政府监管市场、建立公平竞争环境的能力,政府治理大数据应用场景(3/5),意义:提高政府监管市场、建立公平竞争环境的能力,政府治理大数据应用场景(4/5),意义:提升污染监控和环境保护成效,推进生态文明建设,政府治理大数据应用场景(5/5),意义:提高政府监管市场、建立公平竞争环境的能力,经由上述案例认识,是否可以列举咱们自身经历(或感受)到的大数据应用?,大数据的前世今生,1890年,1943年,1989年,1997年,2007年,2008年,2010年,2011年,2012年,2014年,鉴古知今:大数据的前世今生,大数据定义,大数据的定义最早是源自于企业而非学术机构至目前为止,对大数据概念的讨论也尚未停止。学术界、产业界及政府机构都从自身领域、立场出发进行不同的界定。至今大数据的定义可由四个角度进行认识:1、技术分析角度2、大数据应用价值角度3、大数据自身特征角度4、大数据对社会发展影响角度。,大数据定义(1/4):技术分析角度,【内容】关注的是对海量、复杂数据进行分析处理,从而获得信息和知识的技术手段【提出者】麦肯锡就认为,大数据是大小超出常规数据库工具的获取、储存、管理和分析能力的数据集,也指无法采用传统流程、工具处理或分析的信息,迫使用户采用非传统处理方法的数据集,数量级不一定要超过特定的数据存储容量值。维基百科认为,大数据是指无法再合理时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。数据集成软件商纳斯达克则认为,大数据包括海量数据和复杂数据类型,其规模超过传统数据库系统进行管理和处理的能力,【内容】强调的是大数据的应用,关注的是从数据中获取有价值的信息和知识,最终目的是建立商业方面的竞争优势甚至是创新商业模式。【提出者】高德纳咨询公司认为,大数据是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。维克托迈尔舍恩伯格认为,大数据时代的来临使得人类第一次有机会和条件在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识,得到过去无法企及的商机。哈佛大学访问学者徐晋在大数据经济学中指出,大数据是指存在价值关联的海量数据。大数据的本质是社会经济的离散化解构与全息化重构,表现为行业海量数据的关系从量变到质变的转换(深度挖掘)。赵国栋、易欢欢等在大数据时代的历史机遇一书中指出,大数据是在多样的或者大量的数据中迅速获取信息的能力。,大数据定义(2/4):大数据应用价值角度,【内容】是从大数据本身特质和特点对大数据进行界定。又可分为定量与定性角度说明。【提出者】1、从量的角度:百度百科认为,大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到颉取、管理、处理并整理成为有助于企业经营决策的资讯。大数据科学家约翰*劳瑟认为,大数据就是任何超过了一台计算机处理能力的庞大数据量。2、从性质的角度:高德纳咨询公司分析师道格兰尼首次提出大数据的3V特征,即高速增长的数据体量(Volume),高速进出的数据运动(Velocity),高度异质的数据种类(Variety)。在此基础上,麦肯锡公司提出了大数据具有4V的特征,即:数据容量大(Volume)、数据类型繁多(Variety)、商业价值高(Value)、处理速度快(Velocity)。,大数据定义(3/4):大数据自身特征角度,【内容】强调大数据对人类社会生产生活方式、思维范式等产生的重大影响,认为大数据开启了人类发展的新阶段,并且认为这种范式的影响是持久而深远的。【提出者】维克托。迈尔-恩格教授提出,”大数据”所代表的是当今社会所独有的一种新型的能力以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品及服务,或深刻的洞见。中国工程院院士李国杰认为,理解大数据需要上升到文化和认识论的高度。数据文化的本质是尊重客观的实事求是,重视数据就是强调用事实说话,按理性思维的科学精神。,大数据定义(4/4):大数据对社会发展影响角度,中国的大数据战略,2015年8月,促进大数据发展行动纲要的颁布,成为推动中国大数据发展的重要顶层设计和战略部署。党的十八届五中全会提出实施“国家大数据战略”,标志着大数据战略正式上升为国家战略。2016年3月,中华人民共和国国民经济和社会发展第十三个五年规划纲要,明确提出要把大数据作为国家的基础性战略资源。,促进大数据发展行动纲要对大数据进行了全新界定,即“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。这是国家层面对大数据最具权威的官方解读。这一新的定义,蕴含着大数据时代的三个基本特征,即新模式、新技术、新业态。科学认识这些特征可以帮助我们去探寻大数据带来的变化以及这些变化是如何发生的,这正是发现大数据的本质的过程。,中国大数据的定义,新模式:核心是新的思维范式。大数据不仅是一场技术革命,更是一场思维的革命。大数据思维范式的关键转变在于从人脑思维到电脑思维再到云脑思维的转变,这种思维具有以下特点:一是总体性,伴随着数据在采集、存储、分析等相关技术上的突破,对于数据的获取实现了从样本数据到全体数据的转变。二是容错性,精确性是小数据时代的产物,当数据量无限大时,绝对的精准不再是数据追求的主要目标。三是相关性,也就是人们只需知道“是什么”,而不用知道“为什么”。四是智能性,只能是大数据时代的显着特征,思维方式从自然思维向只能思维转变,不断提升机器设备或系统设置的社会计算能力和智能化水平,从而获得具有洞察力和新价值的数据,甚至类似于人类的智能。,中国大数据的定义,新技术:核心是新的信息技术。大数据本身是什么并不重要,重要的是大数据背后蕴含的价值所带来的影响。大数据具有“容量大、类型多、存取速度快、应用价值高”和“数据巨大、来源分散、格式多样”的特征,大数据的价值在于应用,必须依靠全新的处理方式,即新的数据采集技术、数据存储技术和拘束关联分析技术,从根本上解决“数据从哪里来、数据放在哪里、数据如何使用”这三大问题,实现通过数据发现新知识、创造新价值、提升新能力的目标。,中国大数据的定义(1/3),新业态:核心是新的服务业态。大数据带来社会生产要素的开放共享、集约整合、协同开发和高效使用,改变了传统的生产方式和经济运行机制,持续激发商业模式创新,不断催生新业态。这种新业态以新的服务业态为核心,通过大数据驱动传统服务模式或商业模式的再创新。大数据在重构未来经济格局的同时,也将对传统的社会关系带来重构。,中国大数据的定义(2/3),从贵阳大数据交易所看贵阳大数据顶层设计,宏观,微观,政府,企业,国资控股的交易平台,接受政府监督与监管,因此具有公信力的,经市场供需进行数据资产现货价值发现,获得鉴价凭证(703项目)后,可编入资产负债表,进而影响企业股价和融资能力。观察市场使用本身数据情况,发现新蓝海。,大数据交易所为开放数据重要渠道之一。交易所以企业市场化运作,利用政府无偿数据孵化与建立大数据交易生态圈大数据交易所为政府开放数据与市场应用的最后一哩路,政府可透过大数据交易所获得市场对开放数据的需求,进而做为数据开放的参考与依据,透过大数据交易所有偿购回与政府治理有关数据产品(发挥拉动市场的力量)与提升政府治理能力,内部经营使用指导决策优化管理,不得违反国家安全、社会安全、商业隐私、个人安全等相关法律。,贵阳大数据产业,大数据商联盟:行业自律机制,确保会员资质,引领行业产生数据交易的法令法规、标准。,陈刚市委书记,6号:利用大数据进行政府治理7号:打造大数据产业链8号:利用大数据进行民生服务9号:引进高端产业产生大数据,博士北京中关村项目参与北京朝阳区区长,顶层设计,战略布局,任务与目的,交易模式,交易底线,大数据交易所在贵阳大数据产业战略布局中的位置,交易所(702),贵阳大数据发展,1、策划国家级的大数据交易平台(系统)2、参与国家数据与数据交易标准的制定2.1国家大数据交易标准2.2大数据行业应用2.3大数据安全标准2.4大数据技术标准3、策划互联网金融+移动金融+众筹金融+大数据金融+大数据资产评估的整合4、大数据发展应用促进条例5、政府开放数据推动(省级:云上贵州、贵阳市政务数据交换平台+开放平台+交易平台(交易所负责)6、交管孵化器对外开放7、贵州获批建设全国首个国家级大数据综合实验区重点,进行7项试验8、数据铁笼9、党建红云8、举办国际级的数博会.9、举办国际级的大数据交易商联盟,国家与地方政府政策重点,Farecast&ITASoftware,2006年,微软以1.1亿美元的价格购买了埃齐奥尼的大数据公司Farecast(主打技术是依靠机票销售数据预测机票价格)。然而时隔两年后,谷歌以7亿美元的价格购买了为Farecast提供数据的ITASoftware公司。,TheWeatherCompany,2015年10月28日,IBM公司宣布20亿美金收购,通过整合IBM行业领先的大数据和分析能力,以及TheWeather的科学专业性和基于云计算的天气数据发布系统,来给企业带来实时的天气分析信息,帮助他们更好地进行决策。,美国气象局,大数据价值凸显,美国1970年公开了气象数据。美国国内围绕这一项政府数据的资源,产生了将近300家新创企业,并延伸出数据清洗、分析、挖掘、数据应用等业态,直到现在,每年围绕这一业态产生的经济价值高达300亿美元。,大数据成为资产,资产价值,云应用,创造大数据价值,云计算,形成大数据处理能力,结构化数据,云存储,增加数据广度和深度,贵阳大数据交易所介绍,视频10分钟,大数据技术简介,【数据采集】ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后载入到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。【数据存取】关系数据库、NOSQL、SQL等。【基础架构】云存储、分散式文件存储等。【数据处理】自然语言处理(NLP,NaturalLanguageProcessing)是研究人与电脑交互的语言问题的一门学科。处理自然语言的关键是要让电脑“理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,NaturalLanguageUnderstanding),也称为计算语言学(ComputationalLinguistics。一方面它是语言资讯处理的一个分支,另一方面它是人工智慧(AI,ArtificialIntelligence)的核心课题之一。【统计分析】假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因数分析、聚类分析、主成分分析、因数分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。【数据挖掘】分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinitygroupingorassociationrules)、聚类(Clustering)、描述和可视化、DescriptionandVisualization)、复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)【模型预测】预测模型、机器学习、建模模拟。【结果呈现】云计算、标签云、关系图等。,大数据技术,数据采矿是用来将数据中隐藏的资讯挖掘出来,所以使用了许多统计分析与Modeling的方法,到数据中寻找有用的特征(Patterns)以及关连性(Relationships)。,数据采矿(DataMining)的介绍,这些模式有两种用处:第一,了解数据的特征与关系可以提供你做决策所需要的资讯。譬如AssociationModel可以帮助超级市场或百货店规画如何摆设货品。第二,数据的特征可以帮助你做预测。例如你可以从一份邮寄名单预测出哪些客户最可能对你的推销做回应,所以你可以只对特定的对象做邮购推销,而不必浪费许多印刷费邮寄费而只得到很少的回应。,一般而言,DataMining功能可包含下列五项功能:分类(classification)推估(estimation)预测(prediction)关联分组(affinitygrouping)同质分组(clustering),数据采矿的功能,数据采矿的”分类”功能,数据采矿的”推理”功能,数据采矿的”预测”功能,数据采矿的”关联分组”功能,数据采矿的”同质分组”功能,实践数据采矿功能的技术:算法,决策树(DecisionTrees),利用一系列规则划分,建立树状图,可用于分类和预测。常用的演算法有CART、CHAID、ID3、C4.5、C5.0等。,它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。这个技术涵盖范围相当广泛,包含基因演算法、类神经网路、统计学中的群集分析都有这个功能。,群集算法(Clustering),时间序列(TimeSeries),也叫时间数列、历史复数或动态数列。它是将某种统计指标的数值,按时间先后顺序排到所形成的数列。根据时间序列所反映出来的发展过程、方向和趋势,进行类推或延伸,藉以预测下一段时间或以后若干年内可能达到的水平。,关联规则(Association),又称关联规则,是数据挖掘的一个重要课题,用于从大量数据中挖掘出有价值的数据项之间的相关关系。,关联规则一个经典的实例是购物篮分析(MarketBasketAnalysis)。超市对顾客的购买记录数据库进行关联规则挖掘,可以发现顾客的购买习惯,例如,购买产品X的同时也购买产品Y,于是,超市就可以调整货架的布局,比如将X产品和Y产品放在一起,增进销量。,正如大多数数据挖掘技术一样,关联规则的任务在于减少潜在的大量杂乱无章的数据,使之成为少量的易于观察理解的静态数据。关联式规则多不考虑项目的次序,而仅考虑其组合。,时序群集(SequenceClustering),SequenceDiscovery与Association关系很密切,所不同的是SequenceClustering中相关的Item是以时间区分开来(例如:如果做了X手术,则Y病菌在手术后感染的机率是45%。又例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是68%)。,罗吉斯回归分析(LogisticAnalysis),当区别分析中群体不符合常态分配假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将引数与因变数的关系假定是S行的形状,当引数很小时,机率值接近为零;当引数值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开始减小,故机率值介于0与1之间。,神经网路(NeuralNet),模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整,计算,最后得到结果,用于分类和回归。,类神经网路是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网路即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一种。数据采撷的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。,所谓就是指因变数和自变数之间的关系是直线型的。回归分析预测法中最简单和最常用的是线性回归预测法。是对客观事物数量依存关系的分析是数理统计中的一个常用的方法是处理多个变数之间相互关系的一种数学方法,线性回归模型,是机率论中的一个结论,它跟随机变数的条件机率以及边缘机率分布有关。通常,事件A在事件B(发生)的条件下的机率,与事件B在事件A的条件下的机率是不一样的;然而,这两者是有确定的关系,贝氏定理就是这种关系的陈述。,贝氏定理(Bayestheorem),问题类型与方法选定,SPSS和NCR在1996年为克莱斯勒做数据采矿时所订定,区分六大步骤:,1.商业理解(BusinessUnderstanding)2.数据理解(DataUnderstanding)3.数据预备(DataPreparation)4.塑模(Modeling)5.评估(Evaluation)6.部署(或布署)(Deployment),数据挖掘标准流程(CRISP-DM)(CRoss-IndustryStandardProcessforDataMining),一个数据挖掘项目的生命周期包含六个阶段。这六个阶段的顺序是不固定的,我们经常需要前后调整这些阶段。,最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。,侧重点:数据采矿的重心在于如何从数据中挖掘出知识以获取商业利润,因此整个数据采矿的核心必顸环绕在商业问题上,而不似学术实验室仅专注于演算法的推导与程式撰写。资讯单位与使用者单位间的沟通配合法规以及外在环境应变而改变既有的建模程序成功的数据采矿顾问必顸同时具有三大专业,分别是算法与统计、数据库与资讯平台、产业专业知识,三者缺一不可,业务理解(BusinessUnderstanding),侧重点:运用基础统计以提升数据分析人员对数据的熟悉度,并同时验证数据的品质分析数据的迷思:车流量与脉搏错误的取样会导致错误的结论必顸透过跟案例间比较才能够真正辨识出变数的意义,数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的子集去形成隐含信息的假设。,数据理解(DataUnderstanding),数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论