大数据与云计算技术及应用_第1页
大数据与云计算技术及应用_第2页
大数据与云计算技术及应用_第3页
大数据与云计算技术及应用_第4页
大数据与云计算技术及应用_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据与云计算技术及应用

一、大数据概论.............................................................3

1.1.大数据的定义........................................................3

1.2.大数据与海量信息的关系..............................................4

13.大数据的来源与特点..................................................5

1.4.大数据的用途.......................................................6

1.5.数据价值............................................................9

1.6.大数据主要分析和处理工具..........................................10

1.7.大数据的发展前景..................................................15

二、云计算.................................................................16

2.1.概念..................................................

22应用...................................................

2.3.服务形式..............................................

三、相关问题...............................................................25

一、大数据概论

当移动通信和互联网给我们带来的生活方式、思维方式的巨大改变还没有消退的时候,

大数据时代以排山倒海之势到来,什么是大数据?大数据能为人们带来哪里益处?大数据

如何改变人们的生活、工作和学习?大数据下的政府、企业和过去有什么不同?这一系列

的问题困扰着很多人,甚至连一些专家学者也对此迷惘。在人人都谈大数据的时代并不是每

个人都真正理解大数据的精髓,因此本章给读者简单的介绍一下大数据的定义、原理、方

法、应用及存在的问题。以后各章将介绍与大数据有关的技术、工具、商业模型及应用案例

等,引导读者逐步深入,了解和掌握大数据的基本知识和技能,为从事大数据及其相关产业

打下基础。

1.1.大数据的定义

大数据(RigOata)是指数据量大到用常规工具和方法无法进行处理的蕴含着大量

价值的数据集合。

因此大数据的核心是价值,数据量大只是大数据的表象,这也是为什么大数据引起业

界广泛关注的重要原因。由此可见,对于大数据的研究和应用主要集中于两点:一、从技术

层面研窕大数据的模型及处理算法、开发相应的处理工具等;二、从商业模式层面寻找大数

据的商业模型、盈利模式、产业发展等。

维克托•迈尔-舍恩伯格和肯尼斯・库克耶编写的《大数据时代》中指出大数据指不用

随机分析法(抽样调查)这样的捷径,而采用对所有数据进行分析处理。大数据的4V特

八占I、・•

Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。从该定义

看来大数据仍然体现在数据量大和价值两方面。

知名研究机构Gartner对大数据给出了这样的定义。"大数据”是需要新处理模式

才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息

资产。

Gartner的定义更多的倾向于大数据的决策优化作用。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有价值的数据进

行专、也化处理。换言之,如果把大数据比作一种产业,初级或者粗糙的大数据产业主要是

提高对数据的“加工能力”,通过“加工”实现数据的“增值”;而更高层次的大数据

产业将数据信息产生的价值应用到具体的行业,发挥行业价值,从而实现数据信息价值

的倍增。这样才能真正体现大数据的价值所在。

1.2.大数据与海量信息的关系

在io年前,我们经常听到一个名词“海量信息”,用来描述大量数据,这是在信息

技术飞速发展的大背景下,数据量增加带来的现实问题,为此国家在“十一五”期间还加

大的对海量信息及其相关技术的研究。下面是国家科技部“973”计划对信息领域的项

目资助指南。

“十•五”期间,信息领域基础研究的发展目标是根据国际信息技术的发展趋势,结

合我国的国情和发展状况,着重从信息获取、处理、传输、存储、再现、安全、利用,信

息系统的基础元器件、信息处理环境、科学计算、人工智能、控制理论等方面开展系统

深入的研究,为我国信息产业的跨越式发展奠定坚实的理论和技术基础。

“十一五”期间,重点研究方向包括:

(1)微纳集成电路、光电子器件和集成微系统的基础研究;

(2)信息处理环境及科学计算的基础研究;

(3)泛在、可控的下一代信息网络的基础研究;

(4)信息获取的基础研究;

(5)高可信、高效率软件的基础研究;

(6)智能信息处理、和谐人机交互的基础研究;

(7)海量信息处理、存储及应用的基础研究;

(8)量子通信的基础研究;

(9)信息安全的基础研究

从科技部973重大基础研究计划资助的领域中可以看出,国家加大了对海量信息的

研究力度,这里就产生了一个疑问,大数据大还是海量数据大?二者有何联系?又有什

么区别?

海量信息仅仅是从数据量上进行界定,海量数据指数据量巨大,用普通的方法和工具

处理起来相对困难,其计算时间和运算量较大,需要开发新的存储、处理和挖掘等技术才

可以进行快速处理。大数据的数据量明显远大于海量数据,当然二者没有严格的区分门

限,通常意义上讲,大数据的数据量要大于海量数据。海量数据的很多分析处理技术可

以用于大数据的分析与处理,同样大数据的相关理论和方法同样可以用于海量数据。大

数据不仅仅从量上进行了分析,而且从本质上进行了定义,突出了其核心价值。因此可

以说大数据是海量数据的升级,大数据更突出了数据的本质。

既然谈到数据量的问题,这里有必要介绍关于数据量的一些常见数量单位。

数据的最小的基本单位是bit,按顺序给出所有单位:bit、B、te、KB、MB、GB、TB、

PB、EB、ZB、YB、B、.NB、DB、它

们按照进率1024(210)来计算:

1B、te=8bit

1KB=1,024Bytes

1MB=1,024KB=1,048,576Bytes

1GB=1,024MB=1048,576KB

1TB=1,024GB=1,048,576MB

1PB=1,024TB=1,048,576GB

1EB=1,024PB=1,048,576TB

1ZB=1.024EB=1048576PB

1YB=1.024ZB=1,048,576EB

1BB=1024YB=l,048,576ZB

1NB=1,024BB=1,048,576YB

1DB=1,024NB=1048576BB

当前用的最多的关于大数据描述的数量级是TB和PB,一般行业或者政府机构的数

据基本在PB级上,比如目前某省的农业数据大概有几百TB到几十个PB之间,全国的

每天产生的交通数据大概是几个到几百个TB量级1.0因此,如此大量的数据用传统的数

据库存储、查询和处理方式无法实现数据的实时处理,导致时效性大打折扣,甚至不可用,

例如在追击逃犯的时候,需要快速查出犯罪分子的行动路线、推测他可能去的地方等,

如果数据处理速度较慢,很容易错过机会。同样在商、业领域,每天的电子商务交易记

录、顾客浏览记录等番是大量的数据,因此这些数据的处理都需要快速。

1.3.大数据的来源与特点

随着电子信息技术和互联网的飞速发展,各种电子设备和数据终端迅速走入寻常百姓

家庭,以移动通信发展为代表的手机等客户端产生大量的数据;以PC为代表的微机时代产

生了大量的计算机数据;以数码相机为代表的电子设备产生大量的视频、图片数据;以互联

网为代表的网络应用产生大量的web数据。因此大数据的产生是源于信息技术的发展和普

及。所以遍布全球的物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及各

种各样的传感器,无一不是数据来源或者承载的方式。

大数据的存在形式多种多样,这也决定了大数据的处理非常困难,需要运用数学、统

计学、物理学等知识进行全方位的研究。比如大数据可以是包括网络日志,RFID,传感器网

络,社会网络,社会数据:互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,

大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,

医疗记录;摄影档案馆视施档案;大规模的电子商务等等。

大数据分析相比于传统的数据库应用,具有数据量大、查询分析复杂等特点。大数据

的4个“V”是指大数据有四个层面特点:第一,数据体量巨大。从TB级别,跃升到PB

级别;第二,数据类型繁多。如网络日志、视频、图片、音频、文档、地理位置信息等等。

第三,处理速度快,极短的时间可从各种类型的数据中快速获得具有较高价值的信息,这

一点也是和传统的数据挖掘技术有着本质的不同。第四,只要合理利用数据并对其进行正

确、准确的分析,将会带来很高的价值回报。因此业界将其归纳为4个“V”一一Volume

(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快),Value(价值密度

高)。

从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,

快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点使该技

术引起众多企业的关注。

大数据最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术

而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。

1.4.大数据的用途

大数据可分成大数据技术、大数据工程、大数据科学和大数据应用几个部分。每部分

侧重点不同,目前人们关注最多的是大数据技术和大数据应用。工程和科学问题尚未被重

视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发

展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

大数据的应用范围北常广,可以说,需要信息的地方就需要大数据。为了便于给读者

宜观的了解,下面简单的介绍几个大数据应用场景。

第一,利用大数据探索实现信息库的充实。客户服务、保险、汽车、医疗、教育、交

通和技术标准等行业需要储备规模巨大的知识库,而庞大繁杂手册和知识系统会造成重复

查询,导致系统延迟和成本上升。例如,IBMInfoSphereDataExplore使某全球航空制

造商中的技师、支持人员和工程师能够即时通过单一访问点查看位于不同应用程序中的信

息。部署第一年,该公司全天候支持的呼叫时间从过去的50分钟缩短为15分钝,每

年节约3600万美元。

第二,利用运营分析实现运营优化。制造、能源、公共事业、电信、旅行和运输等行

业需要时刻关注突发事件、通过大数据分析和视频监控提升运营效率并预测潜在风险。巴

基斯坦移动运营商Ufone部署了【BM大数据解决方案,通过实时识别用户行为,开展应

对特定目标的营销活动,并使用预测分析来设计更好的营销活动和电话推广计划,有效降

低了客户流失率。

第三,利用数据仓库扩充实现IT效率和规模效益提升。企业需要增强现有数据仓库

基础架构,实现大容量数据传输、低时延、和实时查询需求,确保有效利用预测分析和商

业智能实现企业效益和管理水平的提升。某汽车制造商利用IBMInfoSphereBig

Insights增强原有数据仓库,实现快速部署并且更易于管理。

第四,利用安全性和智能扩展实现犯罪防范,实现社会和谐稳定。政府、保险、银

行、消防、教育等行业亟待利用大数据技术补充和加强传统的安全解决方案。重点人群的

监控、重点领域的布防、重要事件的预防和应急灯都需要大数据来实现准确的预测、预防和

定位等。秘密情报和监视传感器系统供应商TerraEchos通过部署IBMInfoSphere

Streams,能够实时分析流式传输的声学数据并对其进行分类,并将实时捕获和分析275MB

声学数据所需的时间从数小时减少到十四分之一秒,同时大幅提升监控精确度。

第五,利用大数据实现广告的精准推送,由于用户对垃圾邮件和烦人的广告比较讨厌

反感,各国都在加大整治垃圾邮件和非法广告的力度,而网络广告商在收取广告费用的时

候通常是按用户的点击数或者链接等,而不考虑广告的效果。商家花出的广告费却没有

收到相应的效果,普通用户收到不需要的广告会反感,而需要广告的人未必收到广告信

息。因此如果利用大数据技术,分析客户的喜好和行为习惯,将广告精准推送给需要的

人,既不会产生垃圾信息,又能使客户的费用得到合理的使用。由此可见,大数据可以

为广告行业提供精准的服务,提升数据价值。

其他应用比如洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。

google流感趋势(GoogleFluTrends)利用搜索关键词预测禽流感的散布。统计学家内

特•西尔弗

(NateSilver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和

交通数据建立城市规划。梅西口货的实时定价机制。根据需求和库存的情况,该公司基于

SAS的系统对多达7300万种货品进行实时调价。Tipp24AG针对欧洲博彩业构建的下注

和预测平台。该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测

模型对特定用户进行动态的营销活动。这项举措减少了90舟的预测模型构建时间。SAP公

司正在试图收购KXENo“SAP想通过这次收购来扭转其长久以来在预测分析方面的劣

势。"Laney分析到。PredPolInc.公司通过与洛杉叽和圣克鲁斯的警方以及一群研究人

员合作,基于地震预测算法的变体和犯罪数据来预测犯罪发生的几率,可以精确到500平

方英尺的范围内。在洛杉矶运用该算法的地区,盗窃罪和暴力犯罪分布下降了33%和21%。

经典大数据案例-沃尔玛经典营销:啤酒与尿布

“啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市

管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤

酒”与

“尿布”两件看上去亳无关系的商品会经常出现在同一个购物篮中,这种独特的销仕现象

引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。

在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿

布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两

件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能

买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒

与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区

域,让

年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户

一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”

故事的由来。

当然“岬酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal提

出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之

间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关

系的计算方法一一Aprior算法。沃尔玛从上个世纪90年代尝试将Aprior算法引入到

POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

1.5.数据价值

众所周知,企业数据本身就蕴藏着价值,但是将有用的数据与没有价值的数据进行区

分看起来可能是一个棘手的问题。

显然,您所掌握的人员情况、工资表和客户记录对于企业的运转至关重要,但是其他

数据也拥有转化为价值的力量。一段记录人们如何在您的商店浏览购物的视频、人们在购

买您的服务前后的所作所为、如何通过社交网络联系您的客户、是什么吸引合作伙伴加

盟、客户如何付款以及供应商喜欢的收款方式……所有这些场景都提供了很多指向,将

它们抽丝剥茧,透过特殊的棱镜观察,将其与其他数据集对照,或者以与众不同的方式

分析解剖,就能让您的行事方式发生天翻地覆的转变。

但是屡见不鲜的是,很多公司仍然只是将信息简单堆在一起,仅将其当作为满足公司

治理规则而必须要保存的信息加以处理,而不是将它们作为战略转变的工具。

毕竟,数据和人员是业务部门仅有的两笔无法被竞争对手复制的财富。在善用的人手

中,好的数据是所有管理决策的基础,带来的是对客户的深入了解和竞争优势。数据是业

务部门的生命线,必须让数据在决策和行动时无缝且安全地流到人们手中。

所以,数据应该随时为决策提供依据。看看在政府公开道路和公共交通的使用信息这

样看起来甚至有点晦涩的数据时会发生什么:这些数捱来源为一些私营公司提供了巨大的

价值,这些公司能够善用这些数据,创造满足潜在需求的新产品和服务。

企业需要向创造和取得数据方面的投入索取回报。有效管理来自新旧来源的数据以及

获取能够破解庞大数据集含义的工具只是等式的一部分,但是这种挑战不容低估。产生的

数据在数量上持续膨胀;音频、视频和图像等富媒体需要新的方法来发现;电子邮件、1小

iweel和社交网络等合作和交流系统以非结构化文本的形式保存数据,必须用一种智能的方

式来解读。

但是,应该将这种复杂性看成是一种机会而不是问题。处理方法正确时,产生的数据

越多,结果就会越成熟可靠。传感器、GPS系统和社交数据的新世界将带来转变运营的惊

人新视角和机会。请不要错过。

有些人会说,数据中蕴含的价值只能由专业人员来解读。但是泽字节经济并不只是数

据科学家和高级开发员的天下。

数据的价值在「将正确的信息在正确的时间交付到止确的人手中。未来将属于那些能

够驾驭所拥有数据的公司,这些数据与公司自身的业务和客户相关,通过对数据的利用,

发现新的洞见,帮助他们找出竞争优势。

1.6.大数据主要分析和处理工具

如此大量的数据,靠人工分析显然是不可能的,统计学家和计算高手也无法完成如此

巨大的任务,“工欲善其事,必先利其器”,因此对于大数据的分析和处理,必须有非常

好的工具才行,而且不能指望一种工具可以解次所有问题,当前用于分析大数据的工具

主要有开源与商用两个生态圈。

开源大数据生态圈:

1.HadoopHDFS、HadoopMapReduce%HBase、Hive渐次诞生,早期Hcidoop生态圈

逐步形成。

2.Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

3.NoSQL,mcmbasc、MongoDb商

用大数据生态圈:

1.一体机数据库/数据仓库:IBUPureData(Netezza),OracleExadata,SAPHana等

等。

2.数据仓库:TeradataAsterData,EMCGreenPlum,BPVertica等等。

3.数据集市:QIikVic\v>Tableau、以及国内的YonghongData

Marto[主要的大数据分析工具有:

在大数据处理领域,最耀眼的明星是hadoop,Hadoop已被公认为是新一代的大数据

处理平台,EMC、IBM^Informatica>Microsoft以及Oracle都纷纷投入了Hadoop的怀

抱。对于大数据来说,最重要的还是对于数据的分析,从里面寻找有价值的数据帮助企业

作出更好的商业决策。下面,我们就来看以下八大关于大数据分析的利器。

EMC—Greenplum

2010年EMC收购了Greenplum推出EMCGreenplum统一分析平台(UAP),数据团

队和分析团队可以在该平台上无缝地共享信息、协作分析。正因为如此,UAP包括ECM

Greenplum关系数据库、EMCGreenplumHI)Hadoop发行版和EMCGreenplumChorus。

EMC为人数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运

行,并扩展Greenplum关系数据库和GreenplumHD节点。DCA提供了一个共享的指挥中

(CommandCenter)界面:让管理员可以监控、管理和配置Greenplum数据库和Hadoop

系统性能及容量。随着Hadoop平台日趋成熟,预计分析功能会急剧增加。

IBM—InfoSphereBigInsights

几年前,IBM开始在其实验室尝试使用Hadoop,在2012年5月推出了InfoSphereBig

Insights云版本的InfoSphereDigInsights使组织内的任何用户都可以做大数据分

析。云上的BigInsights软件可以分析数据库里的结构化数据和非结构化数据,使决策

者能够迅速将洞察转化为行动。IBM随后又在10月通过其智慧云企业(SmartCloud

Enterprise)基础架构,将BigInsights和BigSheets作为一项服务来提供。据IBM

声称,客户用不了30分钟就能搭建起Hadoop集群,并将数据转移到集群里面,数据处

理费用是每个集群每小时60美分起价

Informatica9.1

Informatica公司在2012年10月推出了llParser,这是一种针对Hadoop而优化

的数据转换环境。据Informatica声称,软件支持灵活高效地处理Hadoop里面的任何文

件格式,为

Hadoop开发人员提供了即开即用的解析功能,以便处理复杂而多样的数据源,包括日志、

文档、二进制数据或层次式数据,以及众多行业标准格式(如银行业的NA、HA、支付业的

SWIFT、金融数据业的FIX和保险业的ACORD)。正如数据库内处理技术加快了各种分析

方法,Informatica同样将解析代码添加到Hadoop生面,以便充分利用所有这些处理功

能,不久会添加其他的数据处理代码。InformaticaHParsor是InformaticaB2BData

Exchange家族产品及Informatica平台的最新补充,旨在满足从海量无结构数据中提取

商业价值的日益增长的需求。去年,Informatica成功地推出了创新的Informatica9.1

forBigData,是全球第一个专门为大数据而构建的统一数据集成平台。

惠普一Vertica数据分析平台

惠普Vertica5.0在大数据分析领域站稳脚跟,能提供高效数据存储和快速查询的列

存储数据库实时分析平台。该数据库还支持大规模并行处理(MPP)。通过MPP的扩展性

可以让Vertica为高端数字营销、电子商务客户(比如AOL、Twitter、Groupon)分析

处理的数据达到PB级。惠普展示了一款Vertica设备----VerticaAnalyticsAppliance,

和小冰箱差不多大小。它是惠普融合基础架构中的一款全集成技术栈。通过这款新设备

“惠普可以真正打开这个市场,尤其是将分析作为一项服务的市场”。

甲骨文一OracleBigDataAppliance

甲骨文的BigDataAppliance集成系统包括Cloudera的Hadoop系统管理软件和

支持服务ApacheHadoop和ClouderaManager<,甲骨文视BigDataAppliance为包括

Exadata、Exalogic和ExalyticsIn-MemoryMachine的"建造系统"。Oracle大数据机

(OracleBigDataAppliance),是一个软、硬件集成系统,在系统中融入了Cloudera的

DistributionIncludingApacheHadoop、ClouderaManager和一个开源R。该大数据机

采用OracleLinux操作系统,并配备OracleNoSQL

数据库社区版本和OracleHotSpotJava虚拟机。BigDataAppliance为全架构产品,每个

架构

864GB存储,216个CPU内核,648TBRAW存储,每秒40GB的InifiniBand连接。Big

Data

Appliance售价45万美元,每年硬软件支持费用为

12%。微软SQLServer

2011年初微软发布的SQLServerR2ParallelDataWarehouse(PDW,并行数据仓

库),

PDW使用了大规模并行处理来支持高扩展性,它可以帮助客户扩展部署数百TB级别数据

的分析解决方案。微软目前已经开始提供HadoopConnectorforSQLServerParallei

Data

Warehouse和HadoopConnectorforSQLServer社区技术预览版本的连接器。微软在

2012年推出了基于Azure云平台的测试版Hadoop服务,2013年它推出与Windows兼

容的基于

Hadoop的大数据解决方案(BigData

亚马叩

Soution)o—MReduce

亚马逊早在2009年就推出了亚马逊弹性MapReduce(AmazonElasticMapReduce),

性MapReduce是•项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(AmazonEC2)

和亚马逊简单存储服务(AmazonS3)上。实现面对数据密集型任务,比如互联网索引、数

据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多

大容量,立即就能配置到多大容量。

Teradata

Teradata是企业级数据仓库(EDW)的领导者,在数据库分析领域不断推陈出新:该

公司购AsterData一高级分析和管理各种非结构化数据领域的市场领导者和开拓者。

Teradata日前宣布了一项AsterDataMapReduce产品的计划,它建立在以往产品同样的硬

件平台之上,而且在Teradata和AsterData之间新增了两种集成方法。

1.6.1大数据处理流程

1、采集

定义:利用多种轻型数据库来接收发自客户端的数据,并且用户可以通过这些数据库

来进行简单的查询和处理工作

特点和挑战:并发系数高

使用的产品:MySQL,Oracle,HBase,Redis和MongoDB等,并且这些产品的特点各

不相同

2.统计分析

定义:将海量的来自前端的数据快速导入到一个集中的大型分布式数据库或者分布式

存储集群,利用分布式技术来对存储于其内的集中的海量数据进行普通的查询和分类汇总等,

以此满足大多数常见的分析需求

特点和挑战:导入数据量大,查询涉及的数据量大,查询请求多

使用的产品:InfoBright,Hadoop(Pig和Hive),YunTable,SAPHana和Orac1e

Exadata,除Hadoop以做离线分析为主之外,其他产品可做

实时分析3.挖掘

定义:基于前面的查询数据进行数据挖掘,来满足高级别的数据分析需求

特点和挑战:算法复杂,并且计算涉及的数据量和计算量都大

使用的产品:R,HadoopMahout

1.7.大数据的发展前景

2013年5月10日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,将卸任阿

里集团CEO的职位,并在晚会上做卸任前的演讲,马云说:“大家还没搞清PC时代的时

候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”

大数据正在改变着产品和生产过程、企业和产业,甚至竞争本身的性质。把信息技术

看作是辅助或服务性的工具已经成为过时的观念,管理者应该认识到信息技术的广泛影响

和深刻含义,以及怎样利用信息技术来创造有力而持久的竞争优势。无疑,信息技术正

在改变着我们习以为常的商业模式,•场关系到企业生死存亡的技术革命已经到来。

借着大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节

约资源提高效率。在这个过程里可以为世界节约40席的能源。抛开这个软件的前景不看,从

微软团队致力于研究开始:可•以看他们的目标不仅是为了节约了能源,更加关注智能化运

营。通过跟踪取暖器、空调、风扇以及灯光等枳累卜.来的超大量数据,捕捉如何杜绝能

源浪费。

“给我提供•些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”

微软史密斯这样说。而智能建筑正是他的团队专注的事情。

随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访

问量,以及监控摄像机或智能电表等设备产生的数据爆增,使数字宇宙的规模在2012到

2013两年间翻了一番,达到惊人的2.8ZB。IDC预计,到2020年,数字宇宙规模将超出

预期,达到40ZBo

40ZB究竟是个什么样的概念呢?地球上所有海灌上的沙粒加在一起估计有七万零五

亿亿颗。40ZB相当于地球上所有海滩上的沙粒数量的57倍。也就是说到2020年,数字

宇宙将每两年翻一番;到2020年,人均数据量将达5,247GB。

该报告同时显示,尽管个人和机器每天产生大量数据,使数字宇宙前所未有地不断膨

胀,但仅有0.4%的全球数据得到了分析。由此可见,大数据的应用几乎是一块未被开垦的

处女地。

二、云计算

云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常

涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说

法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽

象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能

力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接

入数据中心,按自己的需求进行运算。

对云计算的定义有多种说法。对于到底什么是云计算,至少可以找到100种解释。现

阶段广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费

的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池

(资源包括网络,服务器.存储,应用软件,服务),这些资源能够被快速提供,只需投

入很少的管理工作,或与服务供应商进行很少的交互。

2.1概念

云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常

涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

(原文:Cloudcomputingisastyleofcomputinginwhichdynamically

scalableandoftenvirtualizedresourcesareprovidedasaserviceoverthe

Internet.)

美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种

模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网

络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工

作,或与服务供应商进行很少的交互。XenSystcm,以及在国外己经非常成熟的Intel和

IBM,各种“云计算”的应用服务范围正日渐扩大,影响力也无可估量。

由于云计算应用的不断深入,以及对大数据处理需求的不断扩大,用户对性能强大、

可用性高的4路、8路服务器需求出现明显提速,这一细分产品同比增速超过200%.

115M在这一领域占有相当的优势,更值得关注的是,浪潮仅以天梭TS850一款产品在

2011实现了超过15%的市场占有率,以不到晚的差距排名IBM,HP之后,成为中国高端

服务器三强。

2012年浪潮斥资近十亿元研发的32路高端容错服务器天梭K1系统尚未面世,其

巨大的市场潜力有待挖掘,

原文:Cloudcomputingisamodelforenablingubiquitous,convenient,on-

demandnetworkaccesstoasharedpoolofconfigurablecomputingresources(e.g.,

networks,servers,storage,applications,andservices)thatcanberapidly

provisionedandreleasedwithminimalmanagementeffortorsei'viceprovider

interaction.

云计算常与网格计算、效用计算、自主计算相混淆。

网格计算:分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机,

常用来执行一些大型任务;

效用计算:IT资源的一种打包和计费方式,比如按照计算、存储分别计量费用,像

传统的电力等公共设施一样;

自主计算:具有自我管理功能的计算机系统。

事实上,许多云计算部署依赖于计算机集群(但与网格的组成、体系结构、目的、工

作方式大相径庭),也吸收了自主计算和效用计算的特点。

1983年,太阳电脑(SunMicrosystems)提出“网络是电脑"("TheNetwork

istheComputerw,2006年3月,亚马逊(Amazon)推出弹性计算云(Elastic

ComputeCloud;EC2)服务。

2006年8月9日,Google首席执行官埃里克•施密特(EricSchmidt)在搜索

引擎大会(SESSanJose2006)首次提出"云计算"(CloudComputing)的概念。

Google“云端计算”源于Google工程师克里斯托弗・比希利亚所做的“Google101”

项目。

2007年10月,Google与IBM开始在美国大学校园,包括卡内基梅隆大学、麻

省理工学院、斯坦福大学、加州大学柏克莱分校及马里兰大学等,推广云计算的计划,

这项计划希望能降低分布式计算技术在学术研究方面的成本,并为这些大学提供相关的

软硬件设备及技术支持〔包括数百台个人电脑及BladeCenter与Systemx服务器,

这些计算平台将提供1600个处理器,支持包括Linux、Xen、

Hadoop等开放源代码平台)。而学生则可以通过网络开发各项以大规模计算为基础

的研究计划。

2008年1月30日,Google宣布在台湾启动"云计算学术计划”,将与台湾台

大、交大等学校合作,将这种先进的大规模、快速将云计算技术推广到校园。

2008年2月1日,IBM(NYSE:IBM)宣布将在中国无锡太湖新城科教产业园为

中国的软件公司建立全球第一个云计算中心(CloudComputingCenter)o

2008年7月29H,雅虎、惠普和英特尔宣布一项涵盖美国、德国和新加坡的联

合研究计划,推出云计算研究测试床,推进云计算。该计划要与合作伙伴创建6个数

据中心作为研究试脸平台,每个数据中心配置1400个至4000个处理器。这些合作伙

伴包括新加坡资讯通信发展管理局、德国卡尔斯鲁厄大学Steinbuch计算中心、美国

伊利诺伊大学香宾分校、英特尔研究院、惠普实验室和雅虎。

2008年8月3日,美国专利商标局网站信息显示,戴尔正在申请“云计算”

(CloudComputing)商标,此举旨在加强对这一未来可能重塑技术架构的术语的丝制

权。

2010年3月5日,Novell与云安全联盟(CSA)共同宣布一项供应商中立计

划,名为“可信任云计算计划(TrustedCloudInitiative)”。

2010年7月,美国国家航空航天局和包括Rackspace、AMD、Intel.戴尔等

支持厂商共同宣布“OpcnStack”开放源代码计划,微软在2010年10月表示支

持OpenSlack与WindowsServer2008R2的集成;而Ubuntu已把OpenSlack加

至11.04版本中。

2011年2月,思科系统正式加入OpenStack,重点研制OpenStack的网络服

务。

特点

云计算是通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,

企业数据中心的运行将与互联网更相似。这使得企业能够将资源切换到需要的应用上,根据

需求访问计算机和存储系统。

好比是从古老的单台发电机模式转向了电厂集中供电的模式。它意味着计算能力也可

以作为一种商品进行流通.就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,

它是通过互联网进行传输的。

被普遍接受的云计算特点如下:

(1)超大规模

“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon.IBM.

微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。

“云”能赋予用户前所未有的计算能力。

(2)虚拟化

云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,

而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担

心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现

我们需要的一切,甚至包括超级计算这样的任务。

⑶高可靠性

“云”使用了数据多副本容错•、计算节点同构可互换等措施来保障服务的高可靠性,

使用云计算比使用本地计算机可靠。

(4)通用性

云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个

“云”可以同时支撑不同的应用运行。

⑸高可扩展性

“云”的规模可以敬态伸缩,满足应用和用户规模增长的需要。

(6)按需服务

“云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。

⑺极其廉价

由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“云”的自动化集中

式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用

率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费

几百美元、几天时

间就能完成以前需要数万美元、数月时间才能完成的里务。

云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人

类进步做贡献,而不是简单的技术提升。

(8)潜在的危险性

云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断

在私人机构(企业)手中:而他们仅仅能够提供商业信用。对于政府机构、商业机构(特别

像银行这样持有敏感数据的商业机构)对于选择云计算服务应保持足够的警惕。一旦商业用

户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私

人机构以“数据(信息)”的重要性挟制整个社会。对于信息社会而言,“信息”是至关重

要的。另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但

是对于提供云计算的商业机构而言确实亳无秘密可言。所有这些潜在的危险,是商业机构和

政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要的

前提。

22应用

云物联

“物联网就是物物相连的互联网”。这有两层意思:第一,物联网的核心和基础仍然

是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物

品与物品之间,进行信息交换和通信。

物联网的两种业务模式:

1.MAI(M2MApplicationIntegration),内部MaaS;2.

MaaS(M2MAsAService),MMO,Multi-Tenants(多租户模

型)。

随着物联网业务量的增加,对数据存储和计算量的需求将带来对“云计算”能力的要求:

1.云计算:从计算中心到数据中心在物联网的初级阶段,PoP即可满足需求;

2.在物联网高级阶段,可能出现MVN0/MM0营运商(国外已存在多年),需要虚拟

化云计算技术,SOA等技术的结合实现互联网的泛在服务:TaaS(everyTHINGAsA

Service)。

云安全

云安全(CloudSecurity)是一个从“云计算”演变而来的新名词。云安全的策略构想

是:使用者越多,每个使用者就越安全,因为如此庞大的用户群,足以覆盖互联网的每个

角落,只要某个网站被挂马或某个新木马病毒出现,就会立刻被截获。

“云安全”通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、

恶意程序的最新信息,推送到Server端进行自动分析和处理,再把病毒和木马的解决方

案分发到每一个客户端。

十种方法

1.密码优先

如果我们讨论的是理想的情况的话,那么你的用户名和密码对于每一个服务或网站都

应该是唯一的,而且要得到许可。理由很简单:如果用户名和密码都是同一组,那么当其

中一个被盗了,其它的帐户也同样暴露了。

2.检查安全问题

在设置访问权限时,尽量避开那些瞥一眼就能看出答案的问题,例如,Facebook头

像。最好的方法选择•个问题,而这个问题的答案却是通过另•个问题的答案。例如,如果

你选择的问题是“小时候住在哪里",答案最好是“黄色”之类的。

3.试用加密方法

无论这种方法是否可行,它都不失为一个好的想法。加密软件需要来自用户方面的努

力,但它也有可能需要你去抢夺代码凭证,因此没有人能够轻易获得它。

4.管理密码

这里讲的是,你可能有大量的密码和用户名需要跟踪照管。所以为了管理这曲密码,

你需要有一个应用程序和软件在手边,它们将会帮助你做这些工作。其中一个不错的选择

LastPass0

5.双重认证

在允许用户访问网站之前可以会有两中使用模式。因此除了用户名和密码之外,唯一

验证码也是必不可少的。这一验证码可能是以短信的形式发送到你的手机上,然后进行登

录。通过这种方法,即使其它人得到了你的凭证,但他们得不到唯一验证码,这样的他

们的登录就会遭到拒绝。

6.不要犹豫,立刻备份

当涉及到云中数据保护时,人们被告知在物理硬盘上进行数据备份时,这听起来可能

有些奇怪,但这确实是需要你去做的事。这就是为什么需要一遍一遍反复思考;你应该直接

在你的外部硬盘上备份数据,并随身携带。

7.完成即删除

为什么有都无限的数据存储选择时,我们还要找麻烦去做删除工作呢?原因在于,你

永远不知道有多少数据会变成潜在的危险。如果来自于某家银行帐户的邮件或警告信息时

间太长,已经失去了价值,那么就删除它。[4]

8.注意登录的地点

有时我们从别人设备上登录的次数,要比从自己设备上多得多。当然,有进我们也会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论