




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、浅谈大数据的概念、技术与挑战 王涛 (信管110502220) 摘要:计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据就云计算技术对于大数据时代数据管理所产生的作用进行分析最后归纳总结大数据时代所面临的新挑战关键词:大数据;技术;挑战;数据分析;云计算Abstract: Data type and amount in human society is growing in amazing speed which is caused by emerging new ser
2、vices such as cloud computing,internet of things and social network,the era of big data has come Data has been fundamental resource from simple dealing object,and how to manage and utilize big data better has attracted much attention key words:big data;technology; Challenge;data analy
3、sis; cloud computing引言近年来,伴随着物联网、云计算、移动互联网等新技术的迅猛发展,数据正以前所未有的速度不断增长和积累,大数据时代已经成为普遍关注的话题大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比在此基础上,阐述大数据处理的基本框架。这引起了产业界、学术界、科技界和政府机构的广泛关注。大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度炒作的危险大数据的基本概念、关键技术以及对其利用上均存在很多的疑问和争议【1】。1、 大数据的基本概念及大
4、数据时代产生的必然早在1980年,美国著名未来学家阿尔温托夫勒( AlvinToffler) 在 第三次浪潮 一书中就提出了 大数据 ( BigData) 的概念,并将其赞颂为 第三次浪潮的华彩乐章2著名的数据库专家 图灵奖获得者吉姆 格雷( JimGray) 认为传统的实验 理论和计算机3大范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,于是,其在2007年提出当前科学研究已发展到了 第4种范式( The FourthParadigm)3,即以大数据为代表的数据密集型科学近几年,一些国际顶级学术刊物也相继出版专刊对大数据进行探讨研究 2008 年9 月,Nature推出了 Bi
5、g Data 专刊4,从互联网技术环境科学 生物医药等多个方面介绍了海量数据带来的挑战 2011年2月,Science出版关于数据处理的专刊 Dealing with data5,讨论了数据洪流( Data Deluge) 所带来的挑战,并阐明了大数据对于科学研究的重要性 2012年4月,欧洲信息学与数学研究协会会刊ERCIM News出版专刊 Big Data6,讨论了有关大数据时代的数据管理 数据密集型研究的创新技术等问题,并介绍了欧洲科研机构开展的研究活动和进展情况最早提出大数据时代已经到来的是全球知名咨 询 公 司 麦 肯 锡,其下属机构全球研究所( Mckinsey Global I
6、nstitute) 于2011年6月份发布的一份专门的研究报告,将 大数据 视为全世界 下一个创新竞争和生产力提高的前沿领域7,并指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素; 而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来 著名的市场调研机构IDC( International Data Corporation,国际数据公司) 在同年的报告中指出,全球数据总量在2011年已达到1.8ZB( 1ZB=240GB) ,而这个数据大约以每两年翻一番的速度增长,预计至2020年全球拥有的数据量将达35ZB8。华尔街日报更是将大数据时代 智能化生产和无线
7、网络革命称为引领未来繁荣的三大技术变革 此外,Gartner、埃森哲、普华永道等咨询公司,以及财富周刊 福布斯 纽约时报 等商业管理刊物也对大数据进行了大量的介绍与研究纵观国际形势,对大数据的研究与应用已引起各国政府部门的高度重视,成为重要的战略布局方向 各国陆续出台有关大数据的国家政策和战略2012年3月,美国奥巴马政府宣布将投资2亿美元用于启动 大数据研发倡议( Big Data Researchand Development Initiative)9,旨在提高从海量和复杂的数据中分析萃取信息的能力,这是继1993年美国宣布 信息高速公路 计划后的又一次重大科技发展部署 继美国率先开启大数
8、据国家战略先河之后,其他各国也随后跟进,已经或者即将出台相应的战略举措 日本政府重新启动2011年日本大地震后一度搁置的政府ICT战略研究,于2012年7月推出新的综合战略 活力ICT日本,重点关注大数据应用所需的云计算 传感器社会化媒体等智能技术开发2013年1月,英国政府宣布将注资6亿英镑,发展大数据 合成生物等8类高新技术,其中信息行业新兴的大数据技术将获得1.89亿英镑,占据总投资的近三分之一 澳大利亚政府在同年3月表示,澳联邦政府大数据战略草案有望在5月份出台,预计会在6 7月间正式颁布一些区域性或全球性组织也对大数据予以高度关注 在过去几年,欧盟已对科学数据信息化基础设施投资1亿多
9、欧元,并将数据信息化基础设施作为Horizon2020计划的优先领域之一62012年初,世界经济论坛一份题为 大数据,大影响( BigData,BigImpact) 的报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样联合国也推出了全球脉动( GlobalPulse)10倡议项目,希望利用大数据来促进全球经济发展。尽管各界 各地区 各机构对大数据广泛关注,进行了大量研究,但目前对于大数据尚未形成公认的定义 信息管理专家涂子沛在大数据: 正在到来的数据革命 中这样定义大数据:指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉 存储管理和分析的数据,11一般以 太字节( TB
10、) 为单位 这一定义基本上简单明了地阐述了大数据的内涵。数据是云计算技术的延伸,更是社会进步和发展的必然结果,大数据时代的到来引领了未来IT技术发展的战略走向。在信息和网络技术飞速发展的今天,越来越多的企业业务及社会活动实现了数字化,特别是随着数据生成的自动化及数据生成速度的加快,数据量也随之快速增长【12】。同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂贵的大规模数据存储和处理变得十分经济【13】,也使得大数据的存在成为可能。传感器数据也是大数据的主要来源之一。在物联网时代,成万上亿计的网络传感器嵌入在数量不断增长的智能电表、移动电话、汽车等物理设备中,不断感知、生成
11、并传输超大规模的有关地理位置、振动、温度、湿度等新型数据。此外,移动互联网、三网融合、Web 2.0技术和电子商务技术的飞速发展,也促进了大数据时代的产生和发展。可以发现,数字化已经成为社会发展的必然趋势。与生产过程必须依赖硬件设备和人力资本一样,企业的业务活动、创新、成长也越来越离不开大量数据的支持【14】。也就是说,企业的任何一项业务活动都与大量的数据紧密相联,而我们每一个人都是数据的产生者,数据量与日俱增,数据结构繁杂多变,数据产生速度非常之快,我们已经进入了大数据的时代【15】。2、 大数据的特点及关键技术分析 1.大数据的特点大数据不是一种新技术,也不是一种新产品,而是一种新现象,是
12、近来研究的一个技术热点 大数据具有以下4个特点,即4个V16:( 1) 数据体量( Volumes) 巨大大型数据集,从TB级别,跃升到PB级别;( 2) 数据类别( Variety) 繁多 数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;( 3) 价值( Value) 密度低 以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟;( 4) 处理速度( Velocity) 快 包含大量在线或实时数据分析处理的需求,1秒定律。随着互联网技术的不断发展,数据本身就是资产云计算为数据资产提供了保管访问的场所和渠道,但如何盘活数据资产,使其为国
13、家治理企业决策乃至个人生活服务,是大数据的核心议题,也是云计算的灵魂和必然的升级方向。大数据已经出现 IDC多年的研究结果告诉我们: 全球数据量大约每两年翻一番,每年产生的数据量按指数增长,数据增速基本符合摩尔定律 全球有46亿移动电话用户,有20亿人访问互联网,人们以比以往任何时候都高得多的热情在与数据或信息交互 思科公司预计,到2013年,在互联网上流动的数据量将达到每年667艾字节17。关键技术2.1云计算;大数据的基础平台与支撑技术如果将各种大数据的应用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算正是云计算技术在数据存储、管理与分析等方面的支撑,才使得大数据有用武
14、之地文件系统是支撑上层应用的基础。原始的数据存储在文件系统之中,但是用户习惯通过数据库系统来存取文件因为这样会屏蔽掉底层的细节,且方便数据管理直接采用关系模型的分布式数据库并不能适应大数据时代的数据存储。据查询是数据库最重要的应用之一,而索引则是解决数据查询问题的有效方案。而数据分析技术是最核心的业务【18】。2.2大数据处理工具关系数据库在很长的时间里成为数据管理的最佳选择,但是在大数据时代,数据管理、分析等的需求多样化使得关系数据库在很多场景不再适用而HadOop是目前最为流行的大数据处理平台而Hadoop【19】最先是Doug Cutting模仿GFS,MapReduce实现的一个云计算
15、开源平台,后贡献给ApacheHadoop已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)、数据处理(MapReduce)等功能模块在内的完整生态系统(Ecosystem)【20】某种程度上可以说Hadoop已经成为大数据处理工具事实上的标准【21】三、大数据时代面临的机遇与挑战综上所述,大数据时代的数据存在着如下几个特点:多源异构;分布广泛;动态增长;先有数据后有模式正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临着新的机遇与挑战。大数据带来的机遇【22】 1.大数据的挖掘和应用成为核心,将从多个方面创造价值。大数据的重心将从存储和传输,过渡到
16、数据的挖掘和应用,这将深刻影响企业的商业模式 据麦肯锡测算,大数据的应用每年潜在可为美国医疗健康业和欧洲政府分别节省3000亿美元和1000亿欧元,利用个人位置信息潜在可创造出6000亿美元价值,因此大数据应用具有远超万亿美元的大市场。【23】2.大数据利用中安全更加重要,为信息安全带来发展契机。随着移动互联网物联网等新兴IT技术逐渐步入主流,大数据使得数据价值极大提高,无处不在的数据,对信息安全提出了更高要求 同时,大数据领域出现的许多新兴技术与产品将为安全分析提供新的可能性; 信息安全和云计算贯穿于大数据产业链的各个环节,云安全等关键技术将更安全地保护数据 大数据对信息安全的要求和促进将推
17、动信息安全产业的大发展。3.大数据时代来临,使商业智能信息安全和云计算具有更大潜力。大数据产业链按产品形态分为硬件基础软件和应用软件三大领域,商业智能信息安全和云计算主题横跨三大领域,将构成产业链中快速发展的三驾马车就国内而言,商业智能市场已步入成长期,预计未来3年复合年均增长率( CAGR) 为35%,十二五期间潜在产值将超300亿元; 信息安全预计未来3年CAGR有望保持35%40%的快速增长,十二五期间潜在产值将超4000亿元; 云计算刚进入成长期,预计未来5年CAGR将超50%,2015年产业规模预计将达1万亿元。(1) 面临的挑战1. 大数据集成数据的广泛存在性使得数据越来越多地散布
18、于不同的数据管理系统中,为了便于进行数据分析需要进行数据的集成数据集成看起来并不是一个新的问题,但是大数据时代的数据集成却有了新的需求,因此也面临着新的挑战1) 广泛的异构性传统的数据集成中也会面对数据异构的问题,但是在大数据时代这种异构性出现了新的变化,大量出现的各种数据本身是非结构化的或弱结构化的,如留言、博客、图像、视频数据等,如何将这些数据转化成一个结构化的格式是研究者面临的一项重大挑战【25】2) 数据质量数据量大不一定就代表信息量或者数据价值的增大,相反很多时候意味着信息垃圾的泛滥.2. 大数据分析大数据最为严重的风险存在于数据分析层面。数据量的增大会带来规律的丧失和严重失真。【2
19、6】传统意义上的数据分析主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系首先利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(online analytical processing,OI。AP),可以进行多个维度的下钻(drill一down)或上卷(rollup)操作对于从数据中提炼更深层次的知识的需求促使数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法这一整套处理流程在处理相对较少的结构化数据时极为高效但是随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。据阿里巴巴
20、称,虽然其各类业务产生的数据为数据分析创造了非常好的基础条件,然而却招聘不到合适的数据科学家而影响了研发进展【27】。3. 大数据的隐私问题隐私问题由来已久,这基本也是大家最关心的问题。计算机的出现使得越来越多的数据以数字化的形式存储在电脑中,互联网的发展则使数据更加容易产生和传播,数据隐私问题越来越严重大数据高度依赖数据存储与共享,必须考虑寻求更好的方法消除各种隐患与漏洞,才能有效地管控安全风险。数据的隐私保护是大数据分析和处理面临的重要问题,既是技术问题也是社会学问题。如果对私人数据使用不当,尤其是泄漏有一定关联的多组数据,将导致用户的隐私泄漏【28】。当前,数据安全形势不容乐观,需要保护
21、的数据量增长已超过了数据总量的增长 据IDC统计【29】:2010年仅有不到1/3的数据需要保护,到2020年这一比例将超过2/5; 2012年的统计显示,虽然有35%的信息需要保护,但实际得到保护的不到20% 在亚洲 南美等新兴市场,数据保护的缺失更加严重 首先个人隐私更容易通过网络泄露,随着电子商务 社交网络的兴起,人们通过网络联系的日益紧密,将个人的相关数据足迹聚集起来分析,可以很容易获取个人的相关信息,隐私数据就可能暴露,而数据在网络上的发布机制使得这种暴露似乎防不胜防; 在国家层面,大数据可能给国家安全带来隐患,如果在大数据处理方面落后,就可能导致数据的单向透明。信息安全战略是国家战
22、略不可分割的重要组成部分,其必要性体现在其从上而下,而非从下而上的推动作用。【30】美国发布大数据研发计划,大力发展大大数据技术就有增强国家安全方面的战略考量.4. 大数据能耗问题在能源价格上涨、数据中心存储规模不断扩大的今天,高能耗已逐渐成为制约大数据快速发展的一个主要瓶颈从小型集群到大规模数据中心都面临着降低能耗的问题,但是尚未引起足够多的重视,相关的研究成果也较少在大数据管理系统中,能耗主要由两大部分组成:硬件能耗和软件能耗,二者之中又以硬件能耗为主理想状态下,整个大数据管理系统的能耗应该和系统利用率成正比但是实际情况并不像预期情况,系统利用率为0时仍然有能量消耗【31】。5.大数据处理
23、与硬件的协同硬件的快速升级换代有力地促进了大数据的发展,但是这也在一定程度上造成了大量不同架构硬件共存的局面.大数据处理必须要有舍才有得。可以通过舍弃一些不必要的性能和精确性来获取更为重要的性能和精确性。【32】6. 大数据管理易用性问题从数据集成到数据分析,直到最后的数据解释,易用性应当贯穿整个大数据的流程易用性的挑战突出体现在两个方面:首先大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化其复杂程度已经远远超出传统的关系数据库其次大数据已经广泛渗透到人们生活的各个方面,很多行业都开始有了大数据分析的需求但是这些行业的绝大部分从业者都不是数据分析的专家,在复杂的大数据工具面前,他们只
24、是初级的使用者(naIve users)复杂的分析过程和难以理解的分析结果限制了他们从大数据中获取知识的能力这两个原因导致易用性成为大数据时代软件工具设计的一个巨大挑战关于大数据易用性的研究仍处于一个起步阶段从设计学的角度来看易用性表现为易见(easy to discover)、易学(easy to learn)和易用(easy to use)。7. 性能测试基准数据库产品的成功离不开以TPC系列为代表的测试基准的产生正是有了这些测试基准,才能够准确地衡量不同数据库产品的性能,并对其存在的问题进行改进。在过去20年里,产业基准起到了很大的作用。在制定行业的标准时,性能、持有成本和能源效率是成功
25、的三大关键。产业界标准的基准都扮演了非常重要的作用,进一步推动了计算机产业科学的发展【33】。4、 结果和结论关系像互联网、云计算以及物联网等技术一样,大数据时代的到来势必会再次让信息技术领域焕然一新。大数据时代下,每个个体都是数据的产生者,企业的任何一项业务活动都可以用数据来表示,如何保证大数据的质量,如何建模、提取并利用隐藏在大数据中的信息以提升企业信息系统绩效、提升企业决策能力,成为摆在业界和学术界面前的重大难题。总的来说,目前对于大数据的研究仍处于一个非常初步的阶段,还有很多基础性的问题有待解决大数据的几个特征中究竟哪个最重要?面对大数据管理我们需要的是简单的技术上的演变(evo1ut
26、ion)还是彻底的变革(revoIution)?不同学科的研究者之间怎样协作才能更有利于大数据问题的解决?诸如此类的问题还有许多,要解决大数据问题仍有很长的路要走。参考文献1孟小峰,慈祥: 大数据管理:概念、技术与挑战。计算机研究与发展146-169,20132阿尔温 托夫勒 第三次浪潮M 北京: 三联书店出版社,19843Jim Gray One Science A transformed scientific methodC/Tony H,Stewart T,Kirstin T The fourth paradigm: Dataintensive scientific discoveryR
27、edmond,WA: Microsoft Research,2009: 19334Nature.BigDataEB/OL. data/indexhtml5 Science.Special online collection: Dealing with dataEB/OL http: /wwwsciencemagorg/site/special/data/,20116李国杰,程学旗大数据研究: 未来科技及经济社会发展的重大战略领域 大数据的研究现状与科学思考J 战略与决策研究,2012,27( 6) :648,6497Big Data: The next frontier for innovat
28、ion,competition and productivity,Mckinsey Global Institute,20118The2011Digital Universe Study: Extracting Value from Chaos International Data Corporation and EMC,June 20119 Big Data across the Federal Government EB/OLhttp: /wwwWhite house gov/sites/default/files/microsites/ostp/big data fact sheet f
29、inal 1pdf10 UN Global Pulse Big Data for Development:Challenges OpportunitiesR/OL.http: //projects/BigDataforDevelopment11涂子沛 大数据: 正在到来的数据革命M 桂林:广西师范大学出版社,2012:575512覃雄派,王会举,杜小勇,等。大数据分析RDBMS与Mapreduse的竞争共性【J】。软件学报,2012,23(1),32-45.13郭秦川:官方统计与大数据对比分析。10047794(2013)080050-614涂子沛,大数据(M),广州:广州师范大学出版社。15朱志军,闰蕾,等大数据大价值、大机遇、大变革M】电子工业出版社,201216大数据分析技术的发展EB/OL 20120516 http: /tech ccidnet com/art/32963/20120516/3859
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025员工解除劳动合同协议书范文
- 2025合同终止的具体法律事实解析
- 2025关于机械设备租赁合同
- 2025深圳市标准商铺租赁合同范本
- 2025短期临时劳动合同协议书
- 2025年深入理解技术合同与劳务合同的区别与联系
- 2025精简版的购房合同协议书
- 《全球建筑》课件
- 《常见的健康问题解析》课件
- 《脊柱侧弯的护理》课件
- 母乳喂养知识培训课件下载
- 西安市曲江第三中学行政人员及教师招聘笔试真题2024
- 2025-2030中国竹纤维行业市场发展现状及竞争策略与投资前景研究报告
- 委托外包催收合同协议
- 2025-2030中国涂装行业市场深度分析及发展预测与投资策略研究报告
- 乳腺癌诊治指南与规范(2025年版)解读
- 银行系统招聘考试(经济、金融、会计)模拟试卷14
- 心理韧性在咨询中的重要性试题及答案
- 外研版(三起)(2024)三年级下册英语Unit 2 单元测试卷(含答案)
- 2025年全国普通话水平测试训练题库及答案
- 国开(内蒙古)2024年《创新创业教育基础》形考任务1-3终考任务答案
评论
0/150
提交评论