大数据的发展与未来课件_第1页
大数据的发展与未来课件_第2页
大数据的发展与未来课件_第3页
大数据的发展与未来课件_第4页
大数据的发展与未来课件_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江西财经大学信息管理学院徐升华大数据的发展与未来江西财经大学信息管理学院大数据的发展与未来11of33江西财经大学信息管理学院目录大数据的挑战大数据的管理大数据的应用大数据的到来1of33江西财经大学目录大数据的挑战大22of33WEB时代PC时代20131959发明IC54年前1969@发明Internet44年前1979发明蜂窝电话34年前1989发明WWW24年前19993G3G标准化14年前发明PC197439年前互联网时代移动通信时代宽带移动通信时代发明计算机69年前194474年前1939发明电视47年前1966摩尔时代发明光纤后摩尔时代

2018?移动互联网时代

2012后PC时代

2012后WEB时代

2012云计算时代

2015?物联网时代

2020?LTE数字化/平板化电视时代2010DOSGUIWebCloud以计算机

为中心以软件

为中心以服务

为中心网络时代PC时代云计算时代以认知

为中心DataMining网络共享内容共享资源共享IOT物联网时代以应用为中心大数据时代数据共享大数据时代2020?信息通信技术发展进入新时代大数据的到来江西财经大学信息管理学院2of33WEB时代PC时代20131959发明IC54年前33of33一天一周一月一年1Eb可刻满1.68亿张DVD全球新产生的数据年增40%,全球信息总量每两年就可以翻番!

而对新增数据的处理能力以及其利用率的增长则不足5%ZB()EB()PB()

TB()GB()MB()互联网流量变化大数据的到来江西财经大学信息管理学院3of33一天一周一月一年1Eb可刻满1.68亿张DVD全球44of33美国Telegeography的国际互联网流量数据监测显示:

2010年比2009年全球增长了62%,按此推算10年超过1000倍!美国互联网流量(TB/月):90’96’99’11’110001000015000000大约10年1000倍全球骨干网IP流量骨干网IP流量变化大数据的到来江西财经大学信息管理学院4of33美国Telegeography的国际互联网流量数据55of33单日数据产生量超过50TB,存储量40PB。淘宝新浪微博高峰期每秒100万次响应请求。百度每天约处理60亿次搜索请求,几十PB数据。腾讯每天1千亿次服务调用、5万亿次计算、300G存储量。国家电网到2012年10月信息系统累计产生大数据2PB。联通用户上网记录83万条/秒,对应数据量3.6PB/年。中山大学第一医院所存数据2008年130TB,预计2015年1PB。农夫山泉每天从销售其矿泉水的超市回传10张照片,每月3TB。京东商城每秒产生2千元的交易额,累计各种数据达到PB。每天产生数据超过10TB,现已存20PB,预计该基因库最终将达1EB。北京公交公交一卡通每天刷卡4000万次,地铁1000万次。华大基因每日约处理600G数据。存量数据超过70TB。交通银行大数据应用举例大数据的到来江西财经大学信息管理学院5of33单日数据产生量超过50TB,存储量40PB。淘宝新66of33

“大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在几十TB和数PB之间”

--维基百科定义数据规模微软的研究发现,Facebook

90%的Hadoop任务数据集在100GB以下,Yahoo平均为12.5GB事实上,小数据也值得重视,对未到TB级规模的数据的挖掘也有价值!决策时间大数据的定义大数据的到来江西财经大学信息管理学院6of33“大数据是指无法在容许的时间内用常规软件工具对其77of33超量

VOLUME高速VELOCITY种类VARIETY价值VALUESOCIALBLOGSMART

METER

101100101001001001101010101011100101010100100101数据体量巨大TB=1012,PB=1015,EB=1018,ZB=1021结构化,非结构化数据种类繁多更快的满足实时性需求大数据包括ABC

三个要素:

大分析(Analytic)、

高带宽(Bandwidth)、大内容(Content)结构化--能以表格或关系数据库的表、视图来表示的数据大数据的特征大数据的到来江西财经大学信息管理学院7of33超量

VOLUME高速种类价值SOCIALBLOG88of33大数据的挑战大数据的管理大数据的应用大数据的到来江西财经大学信息管理学院8of33大数据的挑战大数据的管理大数据的应用大数据的到来江99of33丰田公司利用数据分析在试制样车之前避免了80%的缺陷。日本小松公司的挖掘机安装了GPS定位系统,在实时监控车辆运行情况的同时,还统计挖掘机每月每年的工作情况,挖掘机开工越饱满,说明市场需求越旺盛GE正在筛选生产的2万台喷气引擎中的不易察觉的告警信号,对于某些型号的引擎,开发的算法能够提前一个月预测其维护需求,预测准确率达到70%。陕鼓动力集团在其出厂的机组中加装运行监测传感器并连网,提供在线监测及故障诊断服务,服务收入占公司收入1/3。华尔街对冲基金依据购物网站顾客评论分析企业销售状况。华尔街银行根据求职网站岗位数量推断就业率。大数据在制造业的应用大数据的应用江西财经大学信息管理学院9of33丰田公司利用数据分析在试制样车之前避免了80%的缺1010of33硅谷有个气候公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而预测任一农场的明年产量,向农户出售个性化保险,如果出现未能预测的恶劣天气损坏庄稼,气候公司将及时赔付。美国农业部建立一个网站,链接348个农业数据集,通过数据挖掘找到最佳土壤、湿度、日照时间,准确判断农作物是否需要施肥、浇水或者打药,农民还可从数据库分析市场价格,避免因供需失衡给农民带来经济损失。英国政府2013年8月12日发布《英国农业技术战略》,将有6000万英镑的投资致力于将英国打造成农业信息学世界级强国,包括成立一家“农业技术创新中心”,这家中心将研究焦点投向大数据。大数据在农业中应用大数据的应用江西财经大学信息管理学院10of33硅谷有个气候公司,从美国气象局等数据库中获得几十1111of33沃尔玛基于每月4500万网络购物数据并结合在社交网络上挖掘出的对产品的大众评分,开发机器学习语义搜索引擎“北极星”,方便浏览,在线购物者增加10%~15%,增加销售十多亿美元。沃尔玛还通过对消费者的购物行为等非结构化数据进行分析,了解顾客购物习惯,从销售数据分析适合搭配卖的商品。美国No.2超市Target选出孕妇常购的典型商品,建立怀孕预测指数,针对性派送孕妇用品的优惠广告。还将分析用到各种细分客户群。人人公司建立了人人游戏平台分析玩家从哪个地区以何种设备登录,玩家付费时间和充值记录,获取玩家的联系方式,通过回访和主动推广以增加玩家黏性,优化游戏的设计,过去一年人人游戏业务取得100%增长。大数据在商业中应用大数据的应用江西财经大学信息管理学院11of33沃尔玛基于每月4500万网络购物数据并结合在社交1212of33华尔街“德温特资本市场”公司分析全球3.4亿微博账户留言,判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,依此决定公司股票的买入或卖出,该公司今年第一季度获得7%的收益率。阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信的企业,无需担保便可从网上申请到贷款,平均利率6.7%。目前已放贷上千亿元,单笔微贷成本仅2.3元,为银行的0.1%。坏帐率仅0.3%,为商业银行的1/3。余额宝日获利400万元,用户的年化收益率4%~5%。京东商城收购网银在线,利用其掌握消费数据,联手中国银行可同时为商家和消费者提供贷款,包括订单融资、应收账款融资和协同投资等,还推出信用卡分期付款服务,打造仓储、物流、贷款到支付的闭环。苏宁旗下的易付宝获得第三方支付牌照,还设立小贷公司为供应商解决贷款难问题,庞大的会员信息库为精准营销创造了条件。大数据在金融业应用大数据的应用江西财经大学信息管理学院12of33华尔街“德温特资本市场”公司分析全球3.4亿微博1313of33利用收集的街景地图海量数据支持无人驾驶美国AirSage公司每天通过处理来自公路汽车的上百万手机用户的150亿条位置信息,为超过100个城市提供实时交通信息。腾讯投资嘀嘀打车,阿里投资快的打车。大数据在交通中应用美国纽约的交通部门从违规和事故统计中发现规律,改进道路设计。北京公交一卡通每天产生4千万条刷卡记录,地铁每天乘客1千万,分析这一数据可优化设计城市公交路线。大数据的应用江西财经大学信息管理学院13of33利用收集的街景地图海量数据支持无人驾驶美国Air1414of33在长假之前,很多人会在网络上搜索旅游地点介绍、住宿旅店、火车与飞机航班信息或自驾车游的路线等,根据同一IP地址的不同搜索,可以预先知道哪些旅游点和哪些交通线路拥塞。利用短信、微信和微博等数据可分析人流集中的热点,监控突发事件。大数据在旅游业应用大数据的应用江西财经大学信息管理学院14of33在长假之前,很多人会在网络上搜索旅游地点介绍、住1515of33Google每天收集并长期保存全球超过30亿条搜索指令,把5000万条美国人最频繁检索的词条和美国疾控中心在2003~2008年间流感传播期的数据进行了比较,从4.5亿个数学模型中发现了一个特定的数学模型,结合45条

检索词条,得到与

疾控中心数据相关

性高达97%。2009年出现甲型H1N1

流感,在爆发的几周

前,Google就给出了

预测,而且还能判断

流感是从哪里来的。大数据在医疗保健中应用大数据的应用江西财经大学信息管理学院15of33Google每天收集并长期保存全球超过30亿条搜1616of33利用短信、微博、微信和搜索引擎可以收集热点事件与舆情挖掘。通过对微博用户建立档案,从帖子中分析用户的性格,提前关注可能引起社会不稳定的因素。如果一个人在网上在搜索如何制造炸弹或有关器材的同时还搜索某一地点,能帮助提前锁定作案的嫌疑人。通过对QQ群和微信用户群的数据收集,按照物以类聚人以群分惯例,可大致判断犯罪人员的关联。2013年8月美《大西洋月刊》报道,纽约的一对夫妇因在Google上曾经搜索“高压锅”和“背包”被一个由6人组成的联合反恐部队以“查水表”名义上门盘问是否拿高压锅来做炸弹。2012年美国加州大学分析洛杉矶市过去1300多万起案件,找到了各小区发案与日期、天气、交通状况及其它相关事件的关系,建立犯罪活动预测平台,当地的警员每天按该系统发出的巡逻指令前往指定的小区。该系统已使该地区的财产犯罪率和盗窃案件分别下降了12%和26%。大数据在治安管理中的作用大数据的应用江西财经大学信息管理学院16of33利用短信、微博、微信和搜索引擎可以收集热点事件与1717of33大数据在科学研究中应用几千年前几百年前几十年前今天实验科学描述自然现象理论科学牛顿定律、麦克斯韦方程等计算科学模拟复杂现象数据密集型科学理论和实验及模拟的统一科学研究方法的发展大数据研究模式特点——不在意数据的杂乱,但看重数据的量;不要求数据精准,但强调效率;不刻意追求因果关系,但重视规律总结天文学的研究气候变化分析与预测材料基因组的设计超材料特性仿真合成生物学中DNA的编程设计新药的设计与合成中药的药理分析病理图书馆大电网的性能仿真石油勘探数据处理流程工业复杂生产过程的仿真大数据的应用江西财经大学信息管理学院17of33大数据在科学研究中应用几千年前几百年前几十年前今1818of33CloudTacticalOperationsCenter

C2andAnalysisBIGDATABACK-UP&RECOVERYANALYSISBIGDATALaunch&RecoveryGroundControlStationIntelligenceCloudBIGDATANOREAL-TIME,PREDICTIVE,INTERACTIVEANALYSISCONUS美国国防部---目标是将分析人员从任意语言文字资料中提取信息的能力提高100倍;美国中情局---利用大数据将分析搜集数据的时间由63天缩短为27分钟。

美国反恐中心---一天需要查看的数据库超过120个,每天处理1~1.2万条情报信息。大数据在军事领域的应用大数据的应用江西财经大学信息管理学院18of33CloudTacticalOperations1919of33美国NBA球队投篮位置与投篮概率

及命中率投篮概率高低投篮命中率高低NBA从80年代开始将球员在赛场上的表现数据化,经过30多年的积累已达到可辨别每一个球员在场上的弱点,方便教练进行针对性战术安排。目前30家NBA球队俱乐部已有半数聘请了数据分析师,他们的平均胜率达到59.3%,而没有进行数据分析的球队仅有平均40.7%的胜率。大数据在体育训练中的应用大数据的应用江西财经大学信息管理学院19of33美国NBA球队投篮位置与投篮概率

及命中率投篮概2020of33大数据提供机器翻译服务过去机器翻译是尽可能让计算机学会语法和查字典,但语言太复杂了,

很多机器翻译难以实用。Google将语言视为能够判别可能性的数据,将语义挑战变成数学问题。Google有天然的优势即已经索引过的海量资料库;Google翻译系统搜寻不同字词同时出现在同一网页的频率来确定字词间的关联性;一个字词的意义经常能从其他与它并用的字眼而获得;从互联网上找各种文章及对应的译本,找出多语言数据之间的语法和文字对应规律;到2012年中,掌握用不同语言翻译的数十亿页文档,其语料库相当于950亿句英语。Google数据库涵盖了60多种语言,还能接受14种语言的语音输入实现了机器自动学

习功能,从而极大地提高翻译质量。Google的语料库来自互联网上内容,会有语法错误和拼写错误等,但“大数据基础上的简单算法比小数据基础上的复杂算法更有效”。大数据的应用江西财经大学信息管理学院20of33大数据提供机器翻译服务过去机器翻译是尽可能让计算2121of332012年斯坦福大学与Google合作建立深度学习网络,对来自YouTube的上千万幅视频帧自主学习,用10天学会了识别猫的脸孔,然后从2万张未见过的照片中找猫,准确率达到15.8%。人脸识别系统能对照片里的学生头像自动编号和识别,并进行个人身份对比。很好治理了“选修课必逃,必修课选逃”现象的出现。“宝贝回家”App应用存有2万名失踪儿童照片,用户只需将在大街上拍下的疑似失踪儿童照片上传,与数据库中已有照片相似度达到61%时,系统就会通知“宝贝回家”组织,提醒家长确认。Face++的App利用人脸识别技术用于手机和网站密码登录的解锁。硅谷Orbeus将人脸识别用于相亲网站,自动选出长相符合要求的照片,帮助人们更容易找到心仪的对象。大数据提供人脸识别服务大数据的应用江西财经大学信息管理学院21of332012年斯坦福大学与Google合作建立深度学2222of33奥巴马竞选团队有数千名志愿者,通过社交网络和微博等收集选民的爱好和关注,同时运行66000个计算机分析数据并建立选民档案,例如某个选民在Facebook或者Twitter上的大部分帖子都是关于环保和医疗成本,就可通过电子邮件发一条源自奥巴马专门谈论环境问题的信息,让该选民有理由支持总统连任。微软纽约研究院的经济学家DavidRothschild根据网络舆情在2012年预测美国总统选举结果,对51个选区预测命中其中50个,准确率达到98%。在2013年奥斯卡奖项的预测中,全部猜中。大数据提供舆情服务大数据的应用江西财经大学信息管理学院22of33奥巴马竞选团队有数千名志愿者,通过社交网络和微博2323of33大数据的经济价值3000亿美元--美国保健的年度潜在价值,相当于西班牙年度医疗保健开支两倍2500亿欧元--欧洲公共管理的潜在年度价值,比希腊GDP的两倍还多6000亿美元--服务提供者利用全球个人位置数据可获得潜在的消费者年度盈余60%的增加--零售商利用大数据可获得的运营利润50%的减少----制造业设备装配成本14万~19万--美数据深度分析人才数150万--美所需理解数据的管理者数世界经济论坛去年发布报告,认定大数据为新财富,价值堪比石油。麦肯锡说,大数据是下一个创新、竞争、生产力提高的前沿。数据就是一种生产资料。Gartner预测大数据将为全球带来440万个IT岗位,其中190万在美国。另外每一个大数据岗位将催生3个非IT就业岗位。在未来4年,信息经济将推动美国产生600万个就业岗位。大数据的应用江西财经大学信息管理学院23of33大数据的经济价值3000亿美元--美国保健的年度2424of33大数据的挑战大数据的管理大数据的应用大数据的到来江西财经大学信息管理学院24of33大数据的挑战大数据的管理大数据的应用大数据的到来2525of33数据采集、编索与整合需要低成本存储与分布式处理大量的仿真和计算任务须协调数百个参数需要将高维图像等多媒体数据降维后度量与处理需要可视化

计算结果分享与访问控制,安全与隐私保护从数据挖掘到决策大数据的管理江西财经大学信息管理学院25of33数据采集、编索与整合需要低成本存储与分布式处理大2626of333S云计算数据中心数据挖掘虚拟现实DSS专家系统态势分析SaaSTaaSDaaSIaaS湖泊污染监视信息数据库GIS数据库数据录入/查询数据库管理GIS服务器数据录入多源异构数据信息处理集成控制中心应用平台WEBGIS

信息发布3D建模

与GIS

基础信息数字湖泊模型

预警历史数据同步回放数据挖掘实时数据

融合结果GIS数据信息共享实时数据

多种传输网络地基系统水质

探测传感网人工采集数据卫星遥感数据水面自动监测人工辅佐巡查空中影像监测异源数据协同处理与云计算大数据的管理江西财经大学信息管理学院26of333S云计算数据中心数据挖掘虚拟现实DSS专家系统2727of33ETL实时流非结构化数据(HDFS)实时处理分析收集.归类、组织所有有关的文本,解释词汇、编辑、通过上下文关联增进理解

使用可视化分析工具和技术,从大量动态可能是模棱两可甚至是矛盾的数据中综合信息并导出可理解的内容实时结构化数据(hBase,Gemfire,Cassandra)批处理BIGSQL(Greenplum,AsterData,Etc…)非结构化的大数据处理大数据的管理江西财经大学信息管理学院27of33ETL实时流非结构化数据(HDFS)实时处理分2828of33基于搜索词频的判断不完全是独立随机的Google的流感指数在2008年H7N1流感爆发时给出的预测比美国疾控中心

(CDC)早两周发布,与CDC数据相似度0.9。美国纽约州2013年1月流感流行状况十分严峻,政府发布了“公共健康紧急状态”的通告,大众媒体的广泛报道,影响了谷歌用户的搜索行为,导致Google流感指数估值出现了假阳性,远高于CDC的统计数值。基于微博的判断不能代表所有年龄段的人群在谷歌流感指数启发之下,纽约罗切斯特大学利用Twitter的数据进行了尝试,可以提前8天预报流感对个体的侵袭状况,而且准确率高达90%。不过Twitter的使用者大部分是年轻人,而季节性流感的袭扰对象多为抵抗力较弱的老年人和儿童。因此基于Twitter的微博判断流感有片面性。数据可信性分析大数据的管理江西财经大学信息管理学院28of33基于搜索词频的判断不完全是独立随机的数据可信性分2929of33一个二线城市通常有上百条街道,每街道按50个路口,每个路口装16路摄像头,就共有8万个摄像头,如采用8Mbps摄像头,而且存三个月,就需要72万个2T的硬盘。事实上没有感兴趣信息的摄像数据没有保留价值,在存储前甚至在拍摄时就要有所舍弃。或者对每一帧感兴趣的区域增加分辨率,而其他区域降低比特率。对有用的视频信息也需要压缩,北京黔龙泰达公司开发的ZCV无损耗高压缩可检索的视频处理算法,在保证图像质量情况下,可以做到在现有H.264基础上将码流数压缩到原大小的十分之一,该技术还可以将压缩后的文件还原为高比特率。数据压缩大数据的管理江西财经大学信息管理学院29of33一个二线城市通常有上百条街道,每街道按50个路口3030of33大数据的挑战大数据的管理大数据的应用大数据的到来江西财经大学信息管理学院30of33大数据的挑战大数据的管理大数据的应用大数据的到来3131of33中国人口居世界首位,但2010年中国新存储的数据仅为日本的60%和北美的7%,而且我国所存的数据应保护的一半未保护。我国一些部门和机构拥有大数据但以邻为壑,共享难导致信息不完整或重复投资。网络数据中真伪混杂,特别是微博传播不实消息散布很快,而微信圈子内的消息不易监控,对信息内容管理提出挑战。我国在自主可控的大数据分析技术与产品方面与发达国家相比有不少差距。如过分依赖国外的大数据平台,难以回避信息泄密的风险。大数据挖掘需要有法可依,提倡数据共享又要防止数据被滥用。中国能理解与应用大数据的创新人才更是稀缺资源。大数据需要国家战略!大数据的挑战大数据的挑战江西财经大学信息管理学院31of33中国人口居世界首位,但2010年中国新存储的数据3232of33云计算移动互联网社交网络物联网大数据下一代互联网智能化信息化的新浪潮大智移云大数据的挑战江西财经大学信息管理学院32of33云计算移动互联网社交网络物联网大数据下一代互联网3333of33互联网产生大数据,移动互联网和物联网进一步推动数据的爆炸。大数据的挖掘深化了信息技术的应用,催生新的应用和新业态出现。大数据提升了管理和决策的智能化水平。大数据的管理技术是大数据时代竞争的焦点。大数据时代对我国是机遇也是挑战,是对我国创新能力的考验!结束语江西财经大学信息管理学院33of33互联网产生大数据,移动互联网和物联网进一步推动数34THANKYOU江西财经大学信息管理学院徐升华THANKYOU江西财经大学信息管理学院35演讲完毕,谢谢观看!演讲完毕,谢谢观看!36江西财经大学信息管理学院徐升华大数据的发展与未来江西财经大学信息管理学院大数据的发展与未来371of33江西财经大学信息管理学院目录大数据的挑战大数据的管理大数据的应用大数据的到来1of33江西财经大学目录大数据的挑战大382of33WEB时代PC时代20131959发明IC54年前1969@发明Internet44年前1979发明蜂窝电话34年前1989发明WWW24年前19993G3G标准化14年前发明PC197439年前互联网时代移动通信时代宽带移动通信时代发明计算机69年前194474年前1939发明电视47年前1966摩尔时代发明光纤后摩尔时代

2018?移动互联网时代

2012后PC时代

2012后WEB时代

2012云计算时代

2015?物联网时代

2020?LTE数字化/平板化电视时代2010DOSGUIWebCloud以计算机

为中心以软件

为中心以服务

为中心网络时代PC时代云计算时代以认知

为中心DataMining网络共享内容共享资源共享IOT物联网时代以应用为中心大数据时代数据共享大数据时代2020?信息通信技术发展进入新时代大数据的到来江西财经大学信息管理学院2of33WEB时代PC时代20131959发明IC54年前393of33一天一周一月一年1Eb可刻满1.68亿张DVD全球新产生的数据年增40%,全球信息总量每两年就可以翻番!

而对新增数据的处理能力以及其利用率的增长则不足5%ZB()EB()PB()

TB()GB()MB()互联网流量变化大数据的到来江西财经大学信息管理学院3of33一天一周一月一年1Eb可刻满1.68亿张DVD全球404of33美国Telegeography的国际互联网流量数据监测显示:

2010年比2009年全球增长了62%,按此推算10年超过1000倍!美国互联网流量(TB/月):90’96’99’11’110001000015000000大约10年1000倍全球骨干网IP流量骨干网IP流量变化大数据的到来江西财经大学信息管理学院4of33美国Telegeography的国际互联网流量数据415of33单日数据产生量超过50TB,存储量40PB。淘宝新浪微博高峰期每秒100万次响应请求。百度每天约处理60亿次搜索请求,几十PB数据。腾讯每天1千亿次服务调用、5万亿次计算、300G存储量。国家电网到2012年10月信息系统累计产生大数据2PB。联通用户上网记录83万条/秒,对应数据量3.6PB/年。中山大学第一医院所存数据2008年130TB,预计2015年1PB。农夫山泉每天从销售其矿泉水的超市回传10张照片,每月3TB。京东商城每秒产生2千元的交易额,累计各种数据达到PB。每天产生数据超过10TB,现已存20PB,预计该基因库最终将达1EB。北京公交公交一卡通每天刷卡4000万次,地铁1000万次。华大基因每日约处理600G数据。存量数据超过70TB。交通银行大数据应用举例大数据的到来江西财经大学信息管理学院5of33单日数据产生量超过50TB,存储量40PB。淘宝新426of33

“大数据是指无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一数据集的大小在几十TB和数PB之间”

--维基百科定义数据规模微软的研究发现,Facebook

90%的Hadoop任务数据集在100GB以下,Yahoo平均为12.5GB事实上,小数据也值得重视,对未到TB级规模的数据的挖掘也有价值!决策时间大数据的定义大数据的到来江西财经大学信息管理学院6of33“大数据是指无法在容许的时间内用常规软件工具对其437of33超量

VOLUME高速VELOCITY种类VARIETY价值VALUESOCIALBLOGSMART

METER

101100101001001001101010101011100101010100100101数据体量巨大TB=1012,PB=1015,EB=1018,ZB=1021结构化,非结构化数据种类繁多更快的满足实时性需求大数据包括ABC

三个要素:

大分析(Analytic)、

高带宽(Bandwidth)、大内容(Content)结构化--能以表格或关系数据库的表、视图来表示的数据大数据的特征大数据的到来江西财经大学信息管理学院7of33超量

VOLUME高速种类价值SOCIALBLOG448of33大数据的挑战大数据的管理大数据的应用大数据的到来江西财经大学信息管理学院8of33大数据的挑战大数据的管理大数据的应用大数据的到来江459of33丰田公司利用数据分析在试制样车之前避免了80%的缺陷。日本小松公司的挖掘机安装了GPS定位系统,在实时监控车辆运行情况的同时,还统计挖掘机每月每年的工作情况,挖掘机开工越饱满,说明市场需求越旺盛GE正在筛选生产的2万台喷气引擎中的不易察觉的告警信号,对于某些型号的引擎,开发的算法能够提前一个月预测其维护需求,预测准确率达到70%。陕鼓动力集团在其出厂的机组中加装运行监测传感器并连网,提供在线监测及故障诊断服务,服务收入占公司收入1/3。华尔街对冲基金依据购物网站顾客评论分析企业销售状况。华尔街银行根据求职网站岗位数量推断就业率。大数据在制造业的应用大数据的应用江西财经大学信息管理学院9of33丰田公司利用数据分析在试制样车之前避免了80%的缺4610of33硅谷有个气候公司,从美国气象局等数据库中获得几十年的天气数据,将各地的降雨、气温和土壤状况及历年农作物产量做成精密图表,从而预测任一农场的明年产量,向农户出售个性化保险,如果出现未能预测的恶劣天气损坏庄稼,气候公司将及时赔付。美国农业部建立一个网站,链接348个农业数据集,通过数据挖掘找到最佳土壤、湿度、日照时间,准确判断农作物是否需要施肥、浇水或者打药,农民还可从数据库分析市场价格,避免因供需失衡给农民带来经济损失。英国政府2013年8月12日发布《英国农业技术战略》,将有6000万英镑的投资致力于将英国打造成农业信息学世界级强国,包括成立一家“农业技术创新中心”,这家中心将研究焦点投向大数据。大数据在农业中应用大数据的应用江西财经大学信息管理学院10of33硅谷有个气候公司,从美国气象局等数据库中获得几十4711of33沃尔玛基于每月4500万网络购物数据并结合在社交网络上挖掘出的对产品的大众评分,开发机器学习语义搜索引擎“北极星”,方便浏览,在线购物者增加10%~15%,增加销售十多亿美元。沃尔玛还通过对消费者的购物行为等非结构化数据进行分析,了解顾客购物习惯,从销售数据分析适合搭配卖的商品。美国No.2超市Target选出孕妇常购的典型商品,建立怀孕预测指数,针对性派送孕妇用品的优惠广告。还将分析用到各种细分客户群。人人公司建立了人人游戏平台分析玩家从哪个地区以何种设备登录,玩家付费时间和充值记录,获取玩家的联系方式,通过回访和主动推广以增加玩家黏性,优化游戏的设计,过去一年人人游戏业务取得100%增长。大数据在商业中应用大数据的应用江西财经大学信息管理学院11of33沃尔玛基于每月4500万网络购物数据并结合在社交4812of33华尔街“德温特资本市场”公司分析全球3.4亿微博账户留言,判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,依此决定公司股票的买入或卖出,该公司今年第一季度获得7%的收益率。阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信的企业,无需担保便可从网上申请到贷款,平均利率6.7%。目前已放贷上千亿元,单笔微贷成本仅2.3元,为银行的0.1%。坏帐率仅0.3%,为商业银行的1/3。余额宝日获利400万元,用户的年化收益率4%~5%。京东商城收购网银在线,利用其掌握消费数据,联手中国银行可同时为商家和消费者提供贷款,包括订单融资、应收账款融资和协同投资等,还推出信用卡分期付款服务,打造仓储、物流、贷款到支付的闭环。苏宁旗下的易付宝获得第三方支付牌照,还设立小贷公司为供应商解决贷款难问题,庞大的会员信息库为精准营销创造了条件。大数据在金融业应用大数据的应用江西财经大学信息管理学院12of33华尔街“德温特资本市场”公司分析全球3.4亿微博4913of33利用收集的街景地图海量数据支持无人驾驶美国AirSage公司每天通过处理来自公路汽车的上百万手机用户的150亿条位置信息,为超过100个城市提供实时交通信息。腾讯投资嘀嘀打车,阿里投资快的打车。大数据在交通中应用美国纽约的交通部门从违规和事故统计中发现规律,改进道路设计。北京公交一卡通每天产生4千万条刷卡记录,地铁每天乘客1千万,分析这一数据可优化设计城市公交路线。大数据的应用江西财经大学信息管理学院13of33利用收集的街景地图海量数据支持无人驾驶美国Air5014of33在长假之前,很多人会在网络上搜索旅游地点介绍、住宿旅店、火车与飞机航班信息或自驾车游的路线等,根据同一IP地址的不同搜索,可以预先知道哪些旅游点和哪些交通线路拥塞。利用短信、微信和微博等数据可分析人流集中的热点,监控突发事件。大数据在旅游业应用大数据的应用江西财经大学信息管理学院14of33在长假之前,很多人会在网络上搜索旅游地点介绍、住5115of33Google每天收集并长期保存全球超过30亿条搜索指令,把5000万条美国人最频繁检索的词条和美国疾控中心在2003~2008年间流感传播期的数据进行了比较,从4.5亿个数学模型中发现了一个特定的数学模型,结合45条

检索词条,得到与

疾控中心数据相关

性高达97%。2009年出现甲型H1N1

流感,在爆发的几周

前,Google就给出了

预测,而且还能判断

流感是从哪里来的。大数据在医疗保健中应用大数据的应用江西财经大学信息管理学院15of33Google每天收集并长期保存全球超过30亿条搜5216of33利用短信、微博、微信和搜索引擎可以收集热点事件与舆情挖掘。通过对微博用户建立档案,从帖子中分析用户的性格,提前关注可能引起社会不稳定的因素。如果一个人在网上在搜索如何制造炸弹或有关器材的同时还搜索某一地点,能帮助提前锁定作案的嫌疑人。通过对QQ群和微信用户群的数据收集,按照物以类聚人以群分惯例,可大致判断犯罪人员的关联。2013年8月美《大西洋月刊》报道,纽约的一对夫妇因在Google上曾经搜索“高压锅”和“背包”被一个由6人组成的联合反恐部队以“查水表”名义上门盘问是否拿高压锅来做炸弹。2012年美国加州大学分析洛杉矶市过去1300多万起案件,找到了各小区发案与日期、天气、交通状况及其它相关事件的关系,建立犯罪活动预测平台,当地的警员每天按该系统发出的巡逻指令前往指定的小区。该系统已使该地区的财产犯罪率和盗窃案件分别下降了12%和26%。大数据在治安管理中的作用大数据的应用江西财经大学信息管理学院16of33利用短信、微博、微信和搜索引擎可以收集热点事件与5317of33大数据在科学研究中应用几千年前几百年前几十年前今天实验科学描述自然现象理论科学牛顿定律、麦克斯韦方程等计算科学模拟复杂现象数据密集型科学理论和实验及模拟的统一科学研究方法的发展大数据研究模式特点——不在意数据的杂乱,但看重数据的量;不要求数据精准,但强调效率;不刻意追求因果关系,但重视规律总结天文学的研究气候变化分析与预测材料基因组的设计超材料特性仿真合成生物学中DNA的编程设计新药的设计与合成中药的药理分析病理图书馆大电网的性能仿真石油勘探数据处理流程工业复杂生产过程的仿真大数据的应用江西财经大学信息管理学院17of33大数据在科学研究中应用几千年前几百年前几十年前今5418of33CloudTacticalOperationsCenter

C2andAnalysisBIGDATABACK-UP&RECOVERYANALYSISBIGDATALaunch&RecoveryGroundControlStationIntelligenceCloudBIGDATANOREAL-TIME,PREDICTIVE,INTERACTIVEANALYSISCONUS美国国防部---目标是将分析人员从任意语言文字资料中提取信息的能力提高100倍;美国中情局---利用大数据将分析搜集数据的时间由63天缩短为27分钟。

美国反恐中心---一天需要查看的数据库超过120个,每天处理1~1.2万条情报信息。大数据在军事领域的应用大数据的应用江西财经大学信息管理学院18of33CloudTacticalOperations5519of33美国NBA球队投篮位置与投篮概率

及命中率投篮概率高低投篮命中率高低NBA从80年代开始将球员在赛场上的表现数据化,经过30多年的积累已达到可辨别每一个球员在场上的弱点,方便教练进行针对性战术安排。目前30家NBA球队俱乐部已有半数聘请了数据分析师,他们的平均胜率达到59.3%,而没有进行数据分析的球队仅有平均40.7%的胜率。大数据在体育训练中的应用大数据的应用江西财经大学信息管理学院19of33美国NBA球队投篮位置与投篮概率

及命中率投篮概5620of33大数据提供机器翻译服务过去机器翻译是尽可能让计算机学会语法和查字典,但语言太复杂了,

很多机器翻译难以实用。Google将语言视为能够判别可能性的数据,将语义挑战变成数学问题。Google有天然的优势即已经索引过的海量资料库;Google翻译系统搜寻不同字词同时出现在同一网页的频率来确定字词间的关联性;一个字词的意义经常能从其他与它并用的字眼而获得;从互联网上找各种文章及对应的译本,找出多语言数据之间的语法和文字对应规律;到2012年中,掌握用不同语言翻译的数十亿页文档,其语料库相当于950亿句英语。Google数据库涵盖了60多种语言,还能接受14种语言的语音输入实现了机器自动学

习功能,从而极大地提高翻译质量。Google的语料库来自互联网上内容,会有语法错误和拼写错误等,但“大数据基础上的简单算法比小数据基础上的复杂算法更有效”。大数据的应用江西财经大学信息管理学院20of33大数据提供机器翻译服务过去机器翻译是尽可能让计算5721of332012年斯坦福大学与Google合作建立深度学习网络,对来自YouTube的上千万幅视频帧自主学习,用10天学会了识别猫的脸孔,然后从2万张未见过的照片中找猫,准确率达到15.8%。人脸识别系统能对照片里的学生头像自动编号和识别,并进行个人身份对比。很好治理了“选修课必逃,必修课选逃”现象的出现。“宝贝回家”App应用存有2万名失踪儿童照片,用户只需将在大街上拍下的疑似失踪儿童照片上传,与数据库中已有照片相似度达到61%时,系统就会通知“宝贝回家”组织,提醒家长确认。Face++的App利用人脸识别技术用于手机和网站密码登录的解锁。硅谷Orbeus将人脸识别用于相亲网站,自动选出长相符合要求的照片,帮助人们更容易找到心仪的对象。大数据提供人脸识别服务大数据的应用江西财经大学信息管理学院21of332012年斯坦福大学与Google合作建立深度学5822of33奥巴马竞选团队有数千名志愿者,通过社交网络和微博等收集选民的爱好和关注,同时运行66000个计算机分析数据并建立选民档案,例如某个选民在Facebook或者Twitter上的大部分帖子都是关于环保和医疗成本,就可通过电子邮件发一条源自奥巴马专门谈论环境问题的信息,让该选民有理由支持总统连任。微软纽约研究院的经济学家DavidRothschild根据网络舆情在2012年预测美国总统选举结果,对51个选区预测命中其中50个,准确率达到98%。在2013年奥斯卡奖项的预测中,全部猜中。大数据提供舆情服务大数据的应用江西财经大学信息管理学院22of33奥巴马竞选团队有数千名志愿者,通过社交网络和微博5923of33大数据的经济价值3000亿美元--美国保健的年度潜在价值,相当于西班牙年度医疗保健开支两倍2500亿欧元--欧洲公共管理的潜在年度价值,比希腊GDP的两倍还多6000亿美元--服务提供者利用全球个人位置数据可获得潜在的消费者年度盈余60%的增加--零售商利用大数据可获得的运营利润50%的减少----制造业设备装配成本14万~19万--美数据深度分析人才数150万--美所需理解数据的管理者数世界经济论坛去年发布报告,认定大数据为新财富,价值堪比石油。麦肯锡说,大数据是下一个创新、竞争、生产力提高的前沿。数据就是一种生产资料。Gartner预测大数据将为全球带来440万个IT岗位,其中190万在美国。另外每一个大数据岗位将催生3个非IT就业岗位。在未来4年,信息经济将推动美国产生600万个就业岗位。大数据的应用江西财经大学信息管理学院23of33大数据的经济价值3000亿美元--美国保健的年度6024of33大数据的挑战大数据的管理大数据的应用大数据的到来江西财经大学信息管理学院24of33大数据的挑战大数据的管理大数据的应用大数据的到来6125of33数据采集、编索与整合需要低成本存储与分布式处理大量的仿真和计算任务须协调数百个参数需要将高维图像等多媒体数据降维后度量与处理需要可视化

计算结果分享与访问控制,安全与隐私保护从数据挖掘到决策大数据的管理江西财经大学信息管理学院25of33数据采集、编索与整合需要低成本存储与分布式处理大6226of333S云计算数据中心数据挖掘虚拟现实DSS专家系统态势分析SaaSTaaSDaaSIaaS湖泊污染监视信息数据库GIS数据库数据录入/查询数据库管理GIS服务器数据录入多源异构数据信息处理集成控制中心应用平台WEBGIS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论