版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术–导论周可华中科技大学1内容什么是大数据研究背景深入思考23什么是大数据定义1:
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.---Wiki4什么是大数据定义2:3VBigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization--Gartner
大数据的4V特性VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天5大数据及其4V特征海量数据规模(volume):TB级PB级快速处理(velocity):快速数据流转和动态数据体系多样数据类型(variety):数据类型繁杂巨大数据价值(value):价值稀疏、多样、不确定值得关注的大数据的若干研究方向分布式数据存储与管理:对大数据进行存储与管理数据挖掘与商务智能:对大数据规律进行挖掘与发现物联网与CPS:产生与形成大数据云计算及服务平台:存储和处理大数据及其业务关注点:海量数据处理=>分布式存储与管理=>云计算=>
数据挖掘与分析=>海量业务处理=>大服务7什么是大数据定义3:
当数据的规模和性能要求成为数据管理分析系统的重要设计和决定因素时,这样的数据就被称为大数据不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度以目前计算机硬件的发展水平看针对简单查询(如关键字搜索),数据量为TB至PB级时可称为大数据针对复杂查询(如数据挖掘),数据量为GB至TB级时即可称为大数据8什么是大数据定义4:
大数据有两个基本特征不同于传统的数据集:
1.大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间
2.大数据以半结构化或非结构化数据为主,具有较高的复杂性。内容什么是大数据研究背景深入思考9克强强指指数数((Likeqiangindex):耗电电量量铁路路货货运运量量银行行贷贷款款发发放放量量英国国著著名名政政经经杂杂志志《经济济学学人人》认为为::克克强强指指数数比比官官方方GDP数字字更更能能反反映映中中国国经经济济的的现现实实状状况况。。花花旗旗银银行行在在编编制制时时将将各各自自权权重重分分别别设设定定为为40%、25%和35%。12大数数据据涉涉及及诸诸多多不不同同的的领领域域用户户生生成成数数据据DeepWeb数据据多模模态态内内容容数数据据天文文气象象基因因医学学经济济物理理其他他领领域域网络络与与关关系系数数据据13大数数据据的的价价值值科研研价价值值1998年图图灵灵奖奖得得主主、、数数据据库库技技术术奠奠基基人人JimGray认为为数数据据驱驱动动的的研研究究将将是是第第四四种种科科学学研研究究范范式式”TheFourthParadigm:Data-IntensiveScientificDiscovery””大数数据据已已为为多多个个不不同同学学科科的的研研究究工工作作提提供供了了宝宝贵贵机机遇遇经济济价价值值麦肯肯锡锡全全球球研研究究院院::大大数数据据可可为为世世界界经经济济创创造造巨巨大大价价值值,,提提高高企企业业和和公公共共部部门门的的生生产产率率和和竞竞争争力力,,并并为为消消费费者者创创造造巨巨大大的的经经济济利利益益著名名Gartner公司司::到到2015年,,采采用用大大数数据据和和海海量量信信息息管管理理的的公公司司将将在在各各项项财财务务指指标标上上,,超超过过未未做做准准备备的的竞竞争争对对手手20%工业业价价值值分析析使使用用::揭揭示示隐隐藏藏其其中中的的信信息息,,例例如如零零售售业业中中对对门门店店销销售售、、地地理理和和社社会会信信息息的的分分析析能能提提升升对对客客户户的的理理解解二次次开开发发::创创造造出出新新产产品品和和服服务务。。例例如如Facebook通过过结结合合大大量量用用户户信信息息,,定定制制出出高高度度个个性性化化的的用用户户体体验验,,并并创创造造出出一一种种新新的的广广告告模模式式社会会价价值值例如如::2009年淘淘宝宝网网推推出出淘淘宝宝CPI来反反映映网网络络购购物物的的消消费费趋趋势势和和价价格格动动态态其他他价价值值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名名出出版版公公司司O‘‘Reilly的创创始始人人TimO‘‘Reilly深网网挖掘掘深空空探索索2012年我国神州九号进入太空深海海探测测2012年我国蛟龙号探测水下7000米实现大数据价值的
深度挖据和高度利用!大数数据据的的战战略略意意义义大数数据据的的深深度度资资源源挖挖掘掘与与价价值值利利用用是是国国家家战战略略从深空空+深海海深网网14大数据的的现实需需求:感感知现在在15感知现在在:历史数数据与当当前数据的融融合,潜在在线索与与模式的挖挖掘,事件、群群体与社社会发展展状态的感感知中国发展指数(物价、环境、健康)需求:掌握现状,如淘宝CPI、环境指数难点:PB级社会媒体数据,百亿级日志数据,结构与非结构数据关联,历史与流式数据并存犯罪线索挖掘需求:发现线索,如罪犯行为轨迹难点:PB级日志数据、EB级监控数据中发现嫌疑人及其行为模式犹如大海捞针问题与挑挑战:数据规模巨大大、模态态多样、关联复杂杂、真伪难辨现有数据据处理方方法感知度量量难、特特征融合合难、模式挖掘掘难15大数据的的现实需需求:预预测未来来联合国““全球脉脉动”(GlobalPulse):利用网络络大数据据预测失失业率与与疾病爆爆发等现象,,利用数数字化的的早期预预警信号号来提前前指导援援助项目目。问题与挑挑战:数据交互性强强、实时时性强、动态演演变,导致传传统数据据计算方法法:数据生命命周期的的割裂、、时效性性与准确性难以兼兼顾、演演变趋势势难以预预测基于Twitter数据的选举结果预测:通过对Twitter等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。预测未来来:全量数据据、流式式数据、、离线数数据的关联分分析,态势与效效应的判定与与调控,,揭示事事物发展展的演变规律律,进而对事物发发展趋势势进行预预测1617美国的大大数据规规划-大数据上上升为国国家意志志2012年3月29日,美国国联邦政政府整合合6个部门宣宣布2亿美元的的“BigDataResearchandDevelopmentInitiative”促进采集集、存储储、维护护、管理理、分析析和共享享海量数数据的核核心技术术;利用以上上技术来来加速科科学与工工程发现现的步伐伐,强化化国家安安全,改改变教育育和学习习;培养开发发和使用用大数据据技术的的人力资资源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA18欧盟的大大数据规规划-基础设施施是先导导Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大数数据的数数据信息息化基础础设施((E-Infrastructure)是优先先资助领领域GRDI2020-GlobalResearchDataInfrastructures建立针对对科研大大数据的的基础设设施,实实现数据据管理系系统、数数字数据据图书馆馆、研究究图书馆馆、数据据工具和和研究团团体的整整合FP7Call8IntelligentInformationManagement-BigData预算5千万欧元元,2012-1-17截止目标:提升发现现、分析析、开采采、使用用大数据据及其基基础设施施的能力力通过对大大数据收收集与分分析创造造更大价价值探索基于于大规模模互联数数据资源源与专用用基础设设施的新新型科学学研究面向大数数据的人人力资源源开发19学术界对对大数据据的关注注2012年1月,NaturePhysics上出版专专刊“Complexity”特别指出出大数据据为科学学研究,,特别是是复杂性性科学的的研究提提供了史史无前例例的机遇遇2008年,Nature出版专刊刊“BigData”从互联网网技术、、互联网网经济学学、超级级计算、、环境科科学、生生物医药药等多个个方面介介绍了大大数据所所带来的的技术挑挑战2011年,Science刊登专刊刊“DealingwithData”讨论了数数据洪流流(Datadeluge)所带来来的挑战战,也特特别指出出倘若能能够更有有效地组组织和使使用这些些数据,,人们将将得到更更多的机机会发挥挥科学技技术对社社会发展展的巨大大推动作作用2012年4月,欧洲洲信息学学与数学学研究协协会会刊刊ERCIMNews上出版专专刊“BigData”讨论了大大数据时时代的数数据管理理、数据据密集型型研究的的创新数数据库技技术等问问题,并并介绍了了欧洲科科研机构构开展的的研究活活动和取取得的创创新性进进展20大数据会会议/Workshop学术会议议工业会议议内容什么是大大数据研究背景景深入思考考2224大数据总总量增长长态势25目前大数数据的规规模IDC公司发布的数数字宇宙宙研究报报告称::全球信信息总量量每两年年就会增增长一倍倍,2011年全球被被创建和和被复制制的数据据总量为为1.8ZB(1021)。IDC认为,到到下一个个十年(2020年),全球所所有IT部门拥有有服务器器的总量量将会比比现在多多出10倍,所管理理的数据据将会比比现在多多出50倍。预计到到2020年,全球球将总共共拥有35ZB的数据量量2011年企业创创造、采采集、管管理和储储存信息息的成本本已经下下降到2005年的1/6,而同期期企业关关于数据据的总投投资自2005年以来却却反而上上升了50%。数据成本本的下降降助推了了数据量量的增长长,而新新的数据据源和数数据采集集技术的的出现则则大大增增加了未未来数据的类类型,数据类类型的增增加导致致现有数数据空间间维度增加加,极大地地增加了了未来大大数据的的复杂度。26目前大数数据规模模─示例例天文观测测数据::SloanDigitalSkySurvey:2000年部署几周收集集的数据据比历史史上收集集的数据据还多每晚收集集200G的数据,,已收集集了140TB=1.4x105GB的数据LargeSynopticSurveyTelescope:2016年完成部部署每5天可收集集105GB的数据物理实验数据据:LargeHadronCollider:2010年一年产生13PB=1.3x107GB数据互联网数据:Facebook:用户超7亿,每月上传传10亿照片,每天天生成3x105GB日志数据淘宝:有3.7亿会员,在线线商品8.8亿,每天交易易数千万,产产生2x104GB数据IBM估计:全球每天生成成2.5EB=2.5x109GB数据,90%的已有数据是是过去两年生生成的Cisco预测:到2013年,互联网上上的数据将达达到667EB=6.67x1011GB27收集的数据还还没有实现高高度共享和深深度利用2.超大规模:为为保证可靠性性,需要存储储数据副本,,实际存储的的数据量数倍倍于净数据量量3.时空属性:包包含时间与位位置信息4.模糊高维:数数据未必精确确和完整:传传感器误差,,网络中断……5.数据维度高::例如一次体体检可以得到到数百项生命命体征数据大数据特点28大数据与常规规数据的对比比常规数据范围广模态多增长快关联繁数据规模较小小模态属性受限限增长速度较慢慢关联相对简单单稠密与稀疏共共存冗余与缺失并并在动态与静态互互现显式与隐藏均均有特性问题描述与存储的的挑战分析与理解的的挑战挖掘与预测的的挑战挑战大数据应用目标相对比较明确确数据结构相对对比较简单时序长持续时间较短短处理方法通常常为模型化、、参数化钱学森“综合合集成”理论论的启示一个科学新领领域------开放的复杂巨巨系统及其方方法论钱学森-戴汝为:“综合集成”(meta-synthesis)科学方法论“综合集成”可以解读为为从定性到定量量的科学研讨讨厅(hallforworkshop)“综合集成””方法论:1+1>2[J].自然杂志,1990大数据时代的的软件服务工工程拓新“综合集集成的迭代整整合”科学方方法论“综合集成”可可拓展为以科研社交网络络的民主形式式,从定性到定定量的科研整整合“定性”:是指面向领域域或主题、运运用专家的定定性智慧,建建立大数据处处理知识的聚类,形成少数几几种可能的大大数据价值服服务的基本解解决方案及其其本体。面向领域或主题的的大数据服务务的共性需求求解决方案“定量”:细化解决方案案本体,对同类或异类类方案之间的的关联,通过语义互操操作构造与管管理的关联计算,建建立大数据处处理的基本知知识;随着时间与与空间的变化化,不断吸收与迭代整合:来自历史大数据的知识与基于于运行时反射射机理的用户网页个性性化标注的相相关内容,动态演化生长形成面向领域域或主题的大大数据服务的的富知识从定性到定量量整合的科学研讨厅(hallforworkshop):支撑领域或主主题大数据处处理知识的规规模化整合及及其演化的PaaS(平台作为服务务),并接入面向向多样价值目目标的异域异异构大数据服服务SaaS(软件作为服务务)综合与互操作作实现。PaaS+SaaS厚积簿发:面向领域或主主题的富知识识,实现在线流式式大数据分析析的可伸缩、可选选择的按需价价值服务科学家与鞋匠匠所见略同“定性”:鞋匠按手工方方式做鞋,因因各人尺寸各各异,觉得
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 气象指数保险合同
- 食品辐照工艺工程师考试试卷及答案
- 生物质能发电锅炉工程师考试试卷及答案
- 品牌共有运营协议
- 刷好评的协议书的效力
- 注册公司用假租赁协议书
- 盐城装配式造价咨询协议书
- 老祠堂翻新协议书
- 接收培训机构协议书
- 课程资源引进合作协议书
- 2024~2025学年江苏省泰州市兴化市统编版六年级下册期末毕业考试语文试卷
- 门窗厂安全生产管理制度
- 2025年中国品牌在东南亚市场的崛起报告-增长机遇及对区域竞争者的影响-欧睿国际
- 河道治理工程质量管理制度
- 中学实验技能赛方案
- T/CNSS 018-2023预包装食品血糖生成指数标示规范
- 2025内蒙古赤峰林西县招聘社区工作者74人备考考试试题及答案解析
- 城市污水管网沿线绿化与恢复方案
- 新疆保密管理办法
- 肝性脑病合并糖尿病护理
- 方太电烤箱KQD50F-C2说明书
评论
0/150
提交评论