一篇文章让你认识并读懂大数据_第1页
一篇文章让你认识并读懂大数据_第2页
一篇文章让你认识并读懂大数据_第3页
一篇文章让你认识并读懂大数据_第4页
一篇文章让你认识并读懂大数据_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据究竟竟是什么?一篇文章章让你认识识并读懂大大数据在写这篇文文章之前,我我发现身边边很多ITT人对于这这些热门的的新技术、新趋势往往往趋之若若鹜却又很很难说的透透彻,如果果你问他大大数据和你你有什么关关系?估计计很少能说说出一二三三来。究其其原因,一一是因为大大家对新技技术有着相相同的原始始渴求,至至少知其然然在聊天时时不会显得得很“土鳖鳖”;二是是在工作和和生活环境境中真正能能参与实践践大数据的的案例实在在太少了,所所以大家没没有必要花花时间去知知其所以然然。我希望有些些不一样,所所以对该如如何去认识识大数据进进行了一番番思索,包包括查阅了了资料,翻翻阅了最新新的专业书书籍,但我我并不想

2、把把那些零散散的资料碎碎片或不同同理解论述述简单规整整并堆积起起来形成毫毫无价值的的转述或评评论,我很很真诚的希希望进入事事物探寻本本质。如果你说大大数据就是是数据大,或或者侃侃而而谈4个VV,也许很很有深度的的谈到BII或预测的的价值,又又或者拿GGooglle和Ammazonn举例,技技术流可能能会聊起HHadooop和Clloud Compputinng,不管管对错,只只是无法勾勾勒对大数数据的整体体认识,不不说是片面面,但至少少有些管窥窥蠡测、隔隔衣瘙痒了了。也许,“解构”是最好的的方法。怎样结构大大数据?首先,我认认为大数据据就是互联联网发展到到现今阶段段的一种表表象或特征征而已,没

3、没有必要神神话它或对对它保持敬敬畏之心,在在以云计算算为代表的的技术创新新大幕的衬衬托下,这这些原本很很难收集和和使用的数数据开始容容易被利用用起来了,通通过各行各各业的不断断创新,大大数据会逐逐步为人类类创造更多多的价值。其次,想要要系统的认认知大数据据,必须要要全面而细细致的分解解它,我着着手从三个个层面来展展开:第一层面是是理论,理理论是认知知的必经途途径,也是是被广泛认认同和传播播的基线。我会从大大数据的特特征定义理理解行业对对大数据的的整体描绘绘和定性;从对大数数据价值的的探讨来深深入解析大大数据的珍珍贵所在;从对大数数据的现在在和未来去去洞悉大数数据的发展展趋势;从从大数据隐隐私这

4、个特特别而重要要的视角审审视人和数数据之间的的长久博弈弈。第二层面是是技术,技技术是大数数据价值体体现的手段段和前进的的基石。我我将分别从从云计算、分布式处处理技术、存储技术术和感知技技术的发展展来说明大大数据从采采集、处理理、存储到到形成结果果的整个过过程。第三层面是是实践,实实践是大数数据的最终终价值体现现。我将分分别从互联联网的大数数据,政府府的大数据据,企业的的大数据和和个人的大大数据四个个方面来描描绘大数据据已经展现现的美好景景象及即将将实现的蓝蓝图。和大数据据相关的理理论 特征定定义最早提出大大数据时代代到来的是是麦肯锡:“数据,已已经渗透到到当今每一一个行业和和业务职能能领域,成

5、成为重要的的生产因素素。人们对对于海量数数据的挖掘掘和运用,预预示着新一一波生产率率增长和消消费者盈余余浪潮的到到来。”业界(IBBM 最早早定义)将将大数据的的特征归纳纳为4个“V”(量Voolumee,多样VVarieety,价价值Vallue,速速Veloocityy),或者者说特点有有四个层面面:第一,数数据体量巨巨大。大数数据的起始始计量单位位至少是PP(10000个T)、E(1000万个TT)或Z(110亿个TT);第二二,数据类类型繁多。比如,网网络日志、视频、图图片、地理理位置信息息等等。第第三,价值值密度低,商商业价值高高。第四,处处理速度快快。最后这这一点也是是和传统的的数

6、据挖掘掘技术有着着本质的不不同。其实这些VV并不能真真正说清楚楚大数据的的所有特征征,下面这这张图对大大数据的一一些相关特特性做出了了有效的说说明。古语云:三三分技术,七七分数据,得得数据者得得天下。先先不论谁说说的,但是是这句话的的正确性已已经不用去去论证了。维克托迈尔-舍舍恩伯格在在大数据据时代一一书中举了了百般例证证,都是为为了说明一一个道理:在大数据据时代已经经到来的时时候要用大大数据思维维去发掘大大数据的潜潜在价值。书中,作作者提及最最多的是GGooglle如何利利用人们的的搜索记录录挖掘数据据二次利用用价值,比比如预测某某地流感爆爆发的趋势势;Amaazon如如何利用用用户的购买买

7、和浏览历历史数据进进行有针对对性的书籍籍购买推荐荐,以此有有效提升销销售量;FFareccast如如何利用过过去十年所所有的航线线机票价格格打折数据据,来预测测用户购买买机票的时时机是否合合适。那么,什么么是大数据据思维?维维克托迈尔-舍舍恩伯格认认为,1-需要全部部数据样本本而不是抽抽样;2-关注效率率而不是精精确度;33-关注相相关性而不不是因果关关系。阿里巴巴的的王坚对于于大数据也也有一些独独特的见解解,比如,“今天的数数据不是大大,真正有有意思的是是数据变得得在线了,这这个恰恰是是互联网的的特点。”“非互联网网时期的产产品,功能能一定是它它的价值,今今天互联网网的产品,数数据一定是是它

8、的价值值。”“你千万不不要想着拿拿数据去改改进一个业业务,这不不是大数据据。你一定定是去做了了一件以前前做不了的的事情。”特别是最后后一点,我我是非常认认同的,大大数据的真真正价值在在于创造,在在于填补无无数个还未未实现过的的空白。有人把数据据比喻为蕴蕴藏能量的的煤矿。煤煤炭按照性性质有焦煤煤、无烟煤煤、肥煤、贫煤等分分类,而露露天煤矿、深山煤矿矿的挖掘成成本又不一一样。与此此类似,大大数据并不不在“大”,而在于于“有用”。价值含含量、挖掘掘成本比数数量更为重重要。 价值探探讨大数据是什什么?投资资者眼里是是金光闪闪闪的两个字字:资产。比如,FFacebbook上上市时,评评估机构评评定的有效

9、效资产中大大部分都是是其社交网网站上的数数据。如果把大数数据比作一一种产业,那那么这种产产业实现盈盈利的关键键,在于提提高对数据据的“加工能力力”,通过“加工”实现数据据的“增值”。Targeet 超市市以20多多种怀孕期期间孕妇可可能会购买买的商品为为基础,将将所有用户户的购买记记录作为数数据来源,通通过构建模模型分析购购买者的行行为相关性性,能准确确的推断出出孕妇的具具体临盆时时间,这样样Targget的销销售部门就就可以有针针对的在每每个怀孕顾顾客的不同同阶段寄送送相应的产产品优惠卷卷。Targeet的例子子是一个很很典型的案案例,这样样印证了维维克托迈尔-舍舍恩伯格提提过的一个个很有指

10、导导意义的观观点:通过过找出一个个关联物并并监控它,就就可以预测测未来。TTargeet通过监监测购买者者购买商品品的时间和和品种来准准确预测顾顾客的孕期期,这就是是对数据的的二次利用用的典型案案例。如果果,我们通通过采集驾驾驶员手机机的GPSS数据,就就可以分析析出当前哪哪些道路正正在堵车,并并可以及时时发布道路路交通提醒醒;通过采采集汽车的的GPS位位置数据,就就可以分析析城市的哪哪些区域停停车较多,这这也代表该该区域有着着较为活跃跃的人群,这这些分析数数据适合卖卖给广告投投放商。不管大数据据的核心价价值是不是是预测,但但是基于大大数据形成成决策的模模式已经为为不少的企企业带来了了盈利和声

11、声誉。从大数据的的价值链条条来分析,存存在三种模模式:1- 手握握大数据,但但是没有利利用好;比比较典型的的是金融机机构,电信信行业,政政府机构等等。2- 没有有数据,但但是知道如如何帮助有有数据的人人利用它;比较典型型的是ITT咨询和服服务企业,比比如,埃森森哲,IBBM,Orraclee等。3- 既有有数据,又又有大数据据思维;比比较典型的的是Gooogle,AAmazoon,Maasterrcardd等。未来在大数数据领域最最具有价值值的是两种种事物:11-拥有大大数据思维维的人,这这种人可以以将大数据据的潜在价价值转化为为实际利益益;2-还还未有被大大数据触及及过的业务务领域。这这些是

12、还未未被挖掘的的油井,金金矿,是所所谓的蓝海海。Wal-MMart作作为零售行行业的巨头头,他们的的分析人员员会对每个个阶段的销销售记录进进行了全面面的分析,有有一次他们们无意中发发现虽不相相关但很有有价值的数数据,在美美国的飓风风来临季节节,超市的的蛋挞和抵抵御飓风物物品竟然销销量都有大大幅增加,于于是他们做做了一个明明智决策,就就是将蛋挞挞的销售位位置移到了了飓风物品品销售区域域旁边,看看起来是为为了方便用用户挑选,但但是没有想想到蛋挞的的销量因此此又提高了了很多。还有一个有有趣的例子子,19448年辽沈沈战役期间间,司令员员林彪要求求每天要进进行例常的的“每日军情情汇报”,由值班班参谋读

13、出出下属各个个纵队、师师、团用电电台报告的的当日战况况和缴获情情况。那几几乎是重复复着千篇一一律枯燥无无味的数据据:每支部部队歼敌多多少、俘虏虏多少;缴缴获的火炮炮、车辆多多少,枪支支、物资多多少有一天天,参谋照照例汇报当当日的战况况,林彪突突然打断他他:“刚才念的的在胡家窝窝棚那个战战斗的缴获获,你们听听到了吗?”大家都很很茫然,因因为如此战战斗每天都都有几十起起,不都是是差不多一一模一样的的枯燥数字字吗?林彪彪扫视一周周,见无人人回答,便便接连问了了三句:“为什么那那里缴获的的短枪与长长枪的比例例比其它战战斗略高?”“为什么么那里缴获获和击毁的的小车与大大车的比例例比其它战战斗略高?”“为

14、什么么在那里俘俘虏和击毙毙的军官与与士兵的比比例比其它它战斗略高高?”林彪司令令员大步走走向挂满军军用地图的的墙壁,指指着地图上上的那个点点说:“我猜想,不不,我断定定!敌人的的指挥所就就在这里!”果然,部部队很快就就抓住了敌敌方的指挥挥官廖耀湘湘,并取得得这场重要要战役的胜胜利。这些例子真真实的反映映在各行各各业,探求求数据价值值取决于把把握数据的的人,关键键是人的数数据思维;与其说是是大数据创创造了价值值,不如说说是大数据据思维触发发了新的价价值增长。 现在和和未来我们先看看看大数据在在当下有怎怎样的杰出出表现:大数据帮助助政府实现现市场经济济调控、公公共卫生安安全防范、灾难预警警、社会舆

15、舆论监督;大数据帮助助城市预防防犯罪,实实现智慧交交通,提升升紧急应急急能力;大数据帮助助医疗机构构建立患者者的疾病风风险跟踪机机制,帮助助医药企业业提升药品品的临床使使用效果,帮帮助艾滋病病研究机构构为患者提提供定制的的药物;大数据帮助助航空公司司节省运营营成本,帮帮助电信企企业实现售售后服务质质量提升,帮帮助保险企企业识别欺欺诈骗保行行为,帮助助快递公司司监测分析析运输车辆辆的故障险险情以提前前预警维修修,帮助电电力公司有有效识别预预警即将发发生故障的的设备;大数据帮助助电商公司司向用户推推荐商品和和服务,帮帮助旅游网网站为旅游游者提供心心仪的旅游游路线,帮帮助二手市市场的买卖卖双方找到到

16、最合适的的交易目标标,帮助用用户找到最最合适的商商品购买时时期、商家家和最优惠惠价格;大数据帮助助企业提升升营销的针针对性,降降低物流和和库存的成成本,减少少投资的风风险,以及及帮助企业业提升广告告投放精准准度;大数据帮助助娱乐行业业预测歌手手,歌曲,电电影,电视视剧的受欢欢迎程度,并并为投资者者分析评估估拍一部电电影需要投投入多少钱钱才最合适适,否则就就有可能收收不回成本本;大数据帮助助社交网站站提供更准准确的好友友推荐,为为用户提供供更精准的的企业招聘聘信息,向向用户推荐荐可能喜欢欢的游戏以以及适合购购买的商品品。其实,这些些还远远不不够,未来来大数据的的身影应该该无处不在在,就算无无法准

17、确预预测大数据据终会将人人类社会带带往到哪种种最终形态态,但我相相信只要发发展脚步在在继续,因因大数据而而产生的变变革浪潮将将很快淹没没地球的每每一个角落落。比如,Ammazonn的最终期期望是:“最成功的的书籍推荐荐应该只有有一本书,就就是用户要要买的下一一本书。”Googlle也希望望当用户在在搜索时,最最好的体验验是搜索结结果只包含含用户所需需要的内容容,而这并并不需要用用户给予GGooglle太多的的提示。而当物联网网发展到达达一定规模模时,借助助条形码、二维码、RFIDD等能够唯唯一标识产产品,传感感器、可穿穿戴设备、智能感知知、视频采采集、增强强现实等技技术可实现现实时的信信息采集

18、和和分析,这这些数据能能够支撑智智慧城市,智智慧交通,智智慧能源,智智慧医疗,智智慧环保的的理念需要要,这些都都所谓的智智慧将是大大数据的采采集数据来来源和服务务范围。未来的大数数据除了将将更好的解解决社会问问题,商业业营销问题题,科学技技术问题,还还有一个可可预见的趋趋势是以人人为本的大大数据方针针。人才是是地球的主主宰,大部部分的数据据都与人类类有关,要要通过大数数据解决人人的问题。比如,建立立个人的数数据中心,将将每个人的的日常生活活习惯,身身体体征,社社会网络,知知识能力,爱爱好性情,疾疾病嗜好,情情绪波动换言之之就是记录录人从出生生那一刻起起的每一分分每一秒,将将除了思维维外的一切切

19、都储存下下来,这些些数据可以以被充分的的利用:医疗机构将将实时的监监测用户的的身体健康康状况;教育机构更更有针对的的制定用户户喜欢的教教育培训计计划;服务行业为为用户提供供即时健康康的符合用用户生活习习惯的食物物和其它服服务;社交网络能能为你提供供合适的交交友对象,并并为志同道道合的人群群组织各种种聚会活动动;政府能在用用户的心理理健康出现现问题时有有效的干预预,防范自自杀,刑事事案件的发发生;金融机构能能帮助用户户进行有效效的理财管管理,为用用户的资金金提供更有有效的使用用建议和规规划;道路交通、汽车租赁赁及运输行行业可以为为用户提供供更合适的的出行线路路和路途服服务安排;当然,上面面的一切

20、看看起来都很很美好,但但是否是以以牺牲了用用户的自由由为前提呢呢?只能说说当新鲜事事物带来了了革新的同同时也同样样带来了“病菌”。比如,在在手机未普普及前,大大家喜欢聚聚在一起聊聊天,自从从手机普及及后特别是是有了互联联网,大家家不用聚在在一起也可可以随时随随地的聊天天,只是“病菌”滋生了另另外一种情情形,大家家慢慢习惯惯了和手机机共渡时光光,人与人人之间情感感交流仿佛佛永远隔着着一张“网”。 大数据据隐私你或许并不不敏感,当当你在不同同的网站上上注册了个个人信息后后,可能这这些信息已已经被扩散散出去了,当当你莫名其其妙的接到到各种邮件件,电话,短短信的滋扰扰时,你不不会想到自自己的电话话号码

21、,邮邮箱,生日日,购买记记录,收入入水平,家家庭住址,亲亲朋好友等等私人信息息早就被各各种商业机机构非法存存储或贱卖卖给其它任任何有需要要的企业或或个人了。更可怕的是是,这些信信息你永远远无法删除除,它们永永远存在于于互联网的的某些你不不知道的角角落。除非非你更换掉掉自己的所所有信息,但但是这代价价太大了。用户隐私问问题一直是是大数据应应用难以绕绕开的一个个问题,如如被央视曝曝光过的分分众无线、罗维邓白白氏以及网网易邮箱都都涉及侵犯犯用户隐私私。目前,中中国并没有有专门的法法律法规来来界定用户户隐私,处处理相关问问题时多采采用其他相相关法规条条例来解释释。但随着着民众隐私私意识的日日益增强,合

22、合法合规地地获取数据据、分析数数据和应用用数据,是是进行大数数据分析时时必须遵循循的原则。说到隐私被被侵犯,爱爱德华斯诺登应应该占据一一席之地,这这位前美国国中央情报报局(CIIA)雇员员一手引爆爆了美国“棱镜计划划”(PRIISM)的的内幕消息息。“棱镜”项目是一一项由美国国国家安全全局(NSSA)自22007年年起开始实实施的绝密密电子监听听计划,年年耗资近22000亿亿美元,用用于监听全全美电话通通话记录,据据称还可以以使情报人人员通过“后门”进入9家家主要科技技公司的服服务器,包包括微软、雅虎、谷谷歌、Faaceboook、PPalTaalk、美美国在线、Skyppe、YoouTubb

23、e、苹果果。这个事事件引发了了人们对政政府使用大大数据时对对公民隐私私侵犯的担担心。再看看我们们身边,当当微博,微微信,QQQ空间这些些社交平台台肆意的吞吞噬着数亿亿用户的各各种信息时时,你就不不要指望你你还有隐私私权了,就就算你在某某个地方删删除了,但但也许这些些信息已经经被其他人人转载或保保存了,更更有可能已已经被百度度或Gooogle存存为快照,早早就提供给给任意用户户搜索了。因此在大大数据的背背景下,很很多人都在在积极的抵抵制无底线线的数字化化,这种大大数据和个个体之间的的博弈还会会一直继续续下去专家给予了了我们一些些如何有效效保护大数数据背景下下隐私权的的建议:11-减少信信息的数字

24、字化;2-隐私权立立法;3-数字隐私私权基础设设施(类似似DRM数数字版权管管理);44-人类改改变认知(接接受忽略过过去);55-创造良良性的信息息生态;66-语境化化。但是这些都都很难立即即见效或者者有实质性性的改善。比如,现在在有一种职职业叫删帖帖人,专门门负责帮人人到各大网网站删帖,删删除评论。其实这些些人就是通通过黑客技技术侵入各各大网站,破破获管理员员的密码然然后进行手手工定向删删除。只不不过他们保保护的不是是客户的隐隐私,而大大多是丑闻闻。还有一一种职业叫叫人肉专家家,他们负负责从互联联网上找到到一个与他他们根本就就无关系用用户的任意意信息。这这是很可怕怕的事情,也也就是说,如如

25、果有人想想找到你,只只需要两个个条件:11-你上过过网,留下下过痕迹;2-你的的亲朋好友友或仅仅是是认识你的的人上过网网,留下过过你的痕迹迹。这两个个条件满足足其一,人人肉专家就就可以很轻轻松的找到到你,可能能还知道你你现在正在在某个餐厅厅和谁一起起共进晚餐餐。当很多互联联网企业意意识到隐私私对于用户户的重要性性时,为了了继续得到到用户的信信任,他们们采取了很很多办法,比比如gooogle承承诺仅保留留用户的搜搜索记录99个月,浏浏览器厂商商提供了无无痕冲浪模模式,社交交网站拒绝绝公共搜索索引擎的爬爬虫进入,并并将提供出出去的数据据全部采取取匿名方式式处理等。在这种复杂杂的环境里里面,很多多人

26、依然没没有建立对对于信息隐隐私的保护护意识,让让自己一直直处于被滋滋扰,被精精心设计,被被利用,被被监视的处处境中。可可是,我们们能做的几几乎微乎其其微,因为为个人隐私私数据已经经无法由我我们自己掌掌控了,就就像一首诗诗里说到的的:“如果你现现在继续麻麻木,那就就别指望这这麻木能抵抵挡得住被被”扒光”那一刻的的惊恐和绝绝望”和大数据据相关的技技术 云技术术大数据常和和云计算联联系到一起起,因为实实时的大型型数据集分分析需要分分布式处理理框架来向向数十、数数百或甚至至数万的电电脑分配工工作。可以以说,云计计算充当了了工业革命命时期的发发动机的角角色,而大大数据则是是电。云计算思想想的起源是是麦卡

27、锡在在上世纪660年代提提出的:把把计算能力力作为一种种像水和电电一样的公公用事业提提供给用户户。如今,在GGooglle、Ammazonn、Facceboook等一批批互联网企企业引领下下,一种行行之有效的的模式出现现了:云计计算提供基基础架构平平台,大数数据应用运运行在这个个平台上。业内是这么么形容两者者的关系:没有大数数据的信息息积淀,则则云计算的的计算能力力再强大,也也难以找到到用武之地地;没有云云计算的处处理能力,则则大数据的的信息积淀淀再丰富,也也终究只是是镜花水月月。那么大数据据到底需要要哪些云计计算技术呢呢?这里暂且列列举一些,比比如虚拟化化技术,分分布式处理理技术,海海量数据

28、的的存储和管管理技术,NNoSQLL、实时流流数据处理理、智能分分析技术(类类似模式识识别以及自自然语言理理解)等。云计算和大大数据之间间的关系可可以用下面面的一张图图来说明,两两者之间结结合后会产产生如下效效应:可以以提供更多多基于海量量业务数据据的创新型型服务;通通过云计算算技术的不不断发展降降低大数据据业务的创创新成本。如果将云计计算与大数数据进行一一些比较,最最明显的区区分在两个个方面:第一,在概概念上两者者有所不同同,云计算算改变了IIT,而大大数据则改改变了业务务。然而大大数据必须须有云作为为基础架构构,才能得得以顺畅运运营。第二,大数数据和云计计算的目标标受众不同同,云计算算是C

29、IOO等关心的的技术层,是是一个进阶阶的IT解解决方案。而大数据据是CEOO关注的、是业务层层的产品,而而大数据的的决策者是是业务层。 分布式式处理技术术分布式处理理系统可以以将不同地地点的或具具有不同功功能的或拥拥有不同数数据的多台台计算机用用通信网络络连接起来来,在控制制系统的统统一管理控控制下,协协调地完成成信息处理理任务这就是分分布式处理理系统的定定义。以Hadooop(YYahooo)为例进进行说明,HHadooop是一个个实现了MMapReeducee模式的能能够对大量量数据进行行分布式处处理的软件件框架,是是以一种可可靠、高效效、可伸缩缩的方式进进行处理的的。而MapRReduc

30、ce是Goooglee提出的一一种云计算算的核心计计算模式,是是一种分布布式运算技技术,也是是简化的分分布式编程程模式,MMapReeducee模式的主主要思想是是将自动分分割要执行行的问题(例例如程序)拆拆解成maap(映射射)和reeducee(化简)的的方式, 在数据被被分割后通通过Mapp 函数的的程序将数数据映射成成不同的区区块,分配配给计算机机机群处理理达到分布布式运算的的效果,在在通过Reeducee 函数的的程序将结结果汇整,从从而输出开开发者需要要的结果。再来看看HHadooop的特性性,第一,它它是可靠的的,因为它它假设计算算元素和存存储会失败败,因此它它维护多个个工作数据

31、据副本,确确保能够针针对失败的的节点重新新分布处理理。其次,HHadooop 是高高效的,因因为它以并并行的方式式工作,通通过并行处处理加快处处理速度。Hadooop 还还是可伸缩缩的,能够够处理 PPB 级数数据。此外外,Haddoop 依赖于社社区服务器器,因此它它的成本比比较低,任任何人都可可以使用。你也可以这这么理解HHadooop的构成成,Haddoop=HDFSS(文件系系统,数据据存储技术术相关)+HBasse(数据据库)+MMapReeducee(数据处处理)+OthhersHadooop用到的的一些技术术有:HDFS: Haddoop分分布式文件件系统(DDistrribut

32、ted FFile Systtem) HDDFS (HadooopDiistriibuteed Fiile SSysteem)MapReeducee:并行计计算框架HBasee: 类似似Googgle BBigTaable的的分布式NNoSQLL列数据库库。Hive:数据仓库库工具,由由Faceebookk贡献。Zookeeeperr:分布式式锁设施,提提供类似GGooglle Chhubbyy的功能,由由Faceebookk贡献。Avro:新的数据据序列化格格式与传输输工具,将将逐步取代代Hadooop原有有的IPCC机制。Pig:大大数据分析析平台,为为用户提供供多种接口口。Ambarri

33、:Haadoopp管理工具具,可以快快捷的监控控、部署、管理集群群。Sqoopp:用于在在Hadooop与传传统的数据据库间进行行数据的传传递。说了这么多多,举个实实际的例子子,虽然这这个例子有有些陈旧,但但是淘宝的的海量数据据技术架构构还是有助助于我们理理解对于大大数据的运运作处理机机制:如上图所示示,淘宝的的海量数据据产品技术术架构分为为五个层次次,从上至至下来看它它们分别是是:数据源源,计算层层,存储层层,查询层层和产品层层。数据来源层层。存放着着淘宝各店店的交易数数据。在数数据源层产产生的数据据,通过DDataXX,DbSSync和和Timeetuneel准实时时的传输到到下面第22点

34、所述的的“云梯”。计算层。在这个计计算层内,淘淘宝采用的的是Haddoop集集群,这个个集群,我我们暂且称称之为云梯梯,是计算算层的主要要组成部分分。在云梯梯上,系统统每天会对对数据产品品进行不同同的MappReduuce计算算。存储层层。在这一一层,淘宝宝采用了两两个东西,一一个使MyyFox,一一个是Prrom。MMyFoxx是基于MMySQLL的分布式式关系型数数据库的集集群,Prrom是基基于Haddoop Hbasse技术的的一个NooSQL的的存储集群群。查询层层。在这一一层中,GGlideer是以HHTTP协协议对外提提供resstfull方式的接接口。数据据产品通过过一个唯一一

35、的URLL来获取到到它想要的的数据。同同时,数据据查询即是是通过MyyFox来来查询的。最后一层是是产品层,这这个就不用用解释了。 存储技技术大数据可以以抽象的分分为大数据据存储和大大数据分析析,这两者者的关系是是:大数据据存储的目目的是支撑撑大数据分分析。到目目前为止,还还是两种截截然不同的的计算机技技术领域:大数据存存储致力于于研发可以以扩展至PPB甚至EEB级别的的数据存储储平台;大大数据分析析关注在最最短时间内内处理大量量不同类型型的数据集集。提到存储,有有一个著名名的摩尔定定律相信大大家都听过过:18个个月集成电电路的复杂杂性就增加加一倍。所所以,存储储器的成本本大约每118-244

36、个月就下下降一半。成本的不不断下降也也造就了大大数据的可可存储性。比如,Goooglee大约管理理着超过550万台服服务器和1100万块块硬盘,而而且Gooogle还还在不断的的扩大计算算能力和存存储能力,其其中很多的的扩展都是是基于在廉廉价服务器器和普通存存储硬盘的的基础上进进行的,这这大大降低低了其服务务成本,因因此可以将将更多的资资金投入到到技术的研研发当中。以Amazzon举例例,Amaazon S3 是是一种面向向 Intterneet 的存存储服务。该服务旨旨在让开发发人员能更更轻松的进进行网络规规模计算。Amazzon SS3 提供供一个简明明的 Weeb 服务务界面,用用户可通

37、过过它随时在在 Webb 上的任任何位置存存储和检索索的任意大大小的数据据。 此服服务让所有有开发人员员都能访问问同一个具具备高扩展展性、可靠靠性、安全全性和快速速价廉的基基础设施,AAmazoon 用它它来运行其其全球的网网站网络。再看看SS3的设计计指标:在在特定年度度内为数据据元提供 99.999999999999% 的耐耐久性和 99.999% 的的可用性,并并能够承受受两个设施施中的数据据同时丢失失。S3很成功功也确实卓卓有成效,SS3云的存存储对象已已达到万亿亿级别,而而且性能表表现相当良良好。S33云已经拥拥万亿跨地地域存储对对象,同时时AWS的的对象执行行请求也达达到百万的的峰

38、值数量量。目前全全球范围内内已经有数数以十万计计的企业在在通过AWWS运行自自己的全部部或者部分分日常业务务。这些企企业用户遍遍布1900多个国家家,几乎世世界上的每每个角落都都有Amaazon用用户的身影影。 感知技技术大数据的采采集和感知知技术的发发展是紧密密联系的。以传感器器技术,指指纹识别技技术,RFFID技术术,坐标定定位技术等等为基础的的感知能力力提升同样样是物联网网发展的基基石。全世世界的工业业设备、汽汽车、电表表上有着无无数的数码码传感器,随随时测量和和传递着有有关位置、运动、震震动、温度度、湿度乃乃至空气中中化学物质质的变化,都都会产生海海量的数据据信息。而随着智能能手机的普

39、普及,感知知技术可谓谓迎来了发发展的高峰峰期,除了了地理位置置信息被广广泛的应用用外,一些些新的感知知手段也开开始登上舞舞台,比如如,最新的的”iPhoone 55S”在homme键内嵌嵌指纹传感感器,新型型手机可通通过呼气直直接检测燃燃烧脂肪量量,用于手手机的嗅觉觉传感器面面世可以监监测从空气气污染到危危险的化学学药品,微微软正在研研发可感知知用户当前前心情智能能手机技术术,谷歌眼眼镜InSSightt新技术可可通过衣着着进行人物物识别。除此之外,还还有很多与与感知相关关的技术革革新让我们们耳目一新新:比如,牙牙齿传感器器实时监控控口腔活动动及饮食状状况,婴儿儿穿戴设备备可用大数数据去养育育

40、宝宝,IIntell正研发33D笔记本本摄像头可可追踪眼球球读懂情绪绪,日本公公司开发新新型可监控控用户心率率的纺织材材料,业界界正在尝试试将生物测测定技术引引入支付领领域等。其实,这些些感知被逐逐渐捕获的的过程就是是就世界被被数据化的的过程,一一旦世界被被完全数据据化了,那那么世界的的本质也就就是信息了了。就像一句名名言所说,“人类以前延续的是文明,现在传承的是信息。”大数据的实实践 互联网网的大数据据互联网上的的数据每年年增长500%,每两两年便将翻翻一番,而而目前世界界上90%以上的数数据是最近近几年才产产生的。据据IDC预预测,到22020年年全球将总总共拥有335ZB的的数据量。互联

41、网是是大数据发发展的前哨哨阵地,随随着WEBB2.0时时代的发展展,人们似似乎都习惯惯了将自己己的生活通通过网络进进行数据化化,方便分分享以及记记录并回忆忆。互联网上的的大数据很很难清晰的的界定分类类界限,我我们先看看看BAT的的大数据:百度拥有两两种类型的的大数据:用户搜索索表征的需需求数据;爬虫和阿阿拉丁获取取的公共wweb数据据。搜索巨巨头百度围围绕数据而而生。它对对网页数据据的爬取、网页内容容的组织和和解析,通通过语义分分析对搜索索需求的精精准理解进进而从海量量数据中找找准结果,以以及精准的的搜索引擎擎关键字广广告,实质质上就是一一个数据的的获取、组组织、分析析和挖掘的的过程。搜搜索引

42、擎在在大数据时时代面临的的挑战有:更多的暗暗网数据;更多的WWEB化但但是没有结结构化的数数据;更多多的WEBB化、结构构化但是封封闭的数据据。阿里巴巴拥拥有交易数数据和信用用数据。这这两种数据据更容易变变现,挖掘掘出商业价价值。除此此之外阿里里巴巴还通通过投资等等方式掌握握了部分社社交数据、移动数据据。如微博博和高德。腾讯拥有用用户关系数数据和基于于此产生的的社交数据据。这些数数据可以分分析人们的的生活和行行为,从里里面挖掘出出政治、社社会、文化化、商业、健康等领领域的信息息,甚至预预测未来。在信息技术术更为发达达的美国,除除了行业知知名的类似似Googgle,FFacebbook外外,已经

43、涌涌现了很多多大数据类类型的公司司,它们专专门经营数数据产品,比比如:Metammarkeets:这这家公司对对Twittter、支付、签签到和一些些与互联网网相关的问问题进行了了分析,为为客户提供供了很好的的数据分析析支持。Tableeau:他他们的精力力主要集中中于将海量量数据以可可视化的方方式展现出出来。Taableaau为数字字媒体提供供了一个新新的展示数数据的方式式。他们提提供了一个个免费工具具,任何人人在没有编编程知识背背景的情况况下都能制制造出数据据专用图表表。这个软软件还能对对数据进行行分析,并并提供有价价值的建议议。ParAcccel:他们向美美国执法机机构提供了了数据分析析

44、,比如对对150000个有犯犯罪前科的的人进行跟跟踪,从而而向执法机机构提供了了参考性较较高的犯罪罪预测。他他们是犯罪罪的预言者者。QlikTTech:QlikkTechh旗下的QQlikvview是是一个商业业智能领域域的自主服服务工具,能能够应用于于科学研究究和艺术等等领域。为为了帮助开开发者对这这些数据进进行分析,QQlikTTech提提供了对原原始数据进进行可视化化处理等功功能的工具具。GoodDData:GooddDataa希望帮助助客户从数数据中挖掘掘财富。这这家创业公公司主要面面向商业用用户和ITT企业高管管,提供数数据存储、性能报告告、数据分分析等工具具。TellAApartt

45、:TelllApaart和电电商公司进进行合作,他他们会根据据用户的浏浏览行为等等数据进行行分析,通通过锁定潜潜在买家方方式提高电电商企业的的收入。DataSSift:DataaSiftt主要收集集并分析社社交网络媒媒体上的数数据,并帮帮助品牌公公司掌握突突发新闻的的舆论点,并并制定有针针对性的营营销方案。这家公司司还和Twwitteer有合作作协议,使使得自己变变成了行业业中为数不不多可以分分析早期ttweett的创业公公司。Datahhero:公司的目目标是将复复杂的数据据变得更加加简单明了了,方便普普通人去理理解和想象象。举了很多例例子,这里里简要归纳纳一下,在在互联网大大数据的典典型代

46、表性性包括:1-用户行行为数据(精精准广告投投放、内容容推荐、行行为习惯和和喜好分析析、产品优优化等)22-用户消消费数据(精精准营销、信用记录录分析、活活动促销、理财等)3-用户地理位置数据(O2O推广,商家推荐,交友推荐等)4-互联网金融数据(P2P,小额贷款,支付,信用,供应链金融等)5-用户社交等UGC数据(趋势分析、流行元素分析、受欢迎程度分析、舆论监控分析、社会问题分析等) 政府的的大数据近期,奥巴巴马政府宣宣布投资22亿美元拉拉动大数据据相关产业业发展,将将“大数据战战略”上升为国国家意志。奥巴马政政府将数据据定义为“未来的新新石油”,并表示示一个国家家拥有数据据的规模、活性及解

47、解释运用的的能力将成成为综合国国力的重要要组成部分分,未来,对对数据的占占有和控制制甚至将成成为陆权、海权、空空权之外的的另一种国国家核心资资产。在国内,政政府各个部部门都握有有构成社会会基础的原原始数据,比比如,气象象数据,金金融数据,信信用数据,电电力数据,煤煤气数据,自自来水数据据,道路交交通数据,客客运数据,安安全刑事案案件数据,住住房数据,海海关数据,出出入境数据据,旅游数数据,医疗疗数据,教教育数据,环环保数据等等等。这些些数据在每每个政府部部门里面看看起来是单单一的,静静态的。但但是,如果果政府可以以将这些数数据关联起起来,并对对这些数据据进行有效效的关联分分析和统一一管理,这这

48、些数据必必定将获得得新生,其其价值是无无法估量的的。具体来说,现现在城市都都在走向智智能和智慧慧,比如,智智能电网、智慧交通通、智慧医医疗、智慧慧环保、智智慧城市,这这些都依托托于大数据据,可以说说大数据是是智慧的核核心能源。从国内整整体投资规规模来看,到到20122年底全国国开建智慧慧城市的城城市数超过过180个个,通信网网络和数据据平台等基基础设施建建设投资规规模接近55000亿亿元。“十二五”期间智慧慧城市建设设拉动的设设备投资规规模将达11万亿元人人民币。大大数据为智智慧城市的的各个领域域提供决策策支持。在在城市规划划方面,通通过对城市市地理、气气象等自然然信息和经经济、社会会、文化、

49、人口等人人文社会信信息的挖掘掘,可以为为城市规划划提供决策策,强化城城市管理服服务的科学学性和前瞻瞻性。在交交通管理方方面,通过过对道路交交通信息的的实时挖掘掘,能有效效缓解交通通拥堵,并并快速响应应突发状况况,为城市市交通的良良性运转提提供科学的的决策依据据。在舆情情监控方面面,通过网网络关键词词搜索及语语义智能分分析,能提提高舆情分分析的及时时性、全面面性,全面面掌握社情情民意,提提高公共服服务能力,应应对网络突突发的公共共事件,打打击违法犯犯罪。在安安防与防灾灾领域,通通过大数据据的挖掘,可可以及时发发现人为或或自然灾害害、恐怖事事件,提高高应急处理理能力和安安全防范能能力。另外,作为为

50、国家的管管理者,政政府应该有有勇气将手手中的数据据逐步开放放,供给更更多有能力力的机构组组织或个人人来分析并并加以利用用,以加速速造福人类类。比如,美美国政府就就筹建了一一个datta.goov网站,这这是奥巴马马任期内的的一个重要要举措:要要求政府公公开透明,而而核心就是是实现政府府机构的数数据公开。截止目前前,已经开开放了有9910544 个daataseets;3349ciitizeen-deevelooped appss;1377 mobbile appss;1755 ageenciees annd suubageenciees;877 gallleriies;2295 GGoverr

51、nmennt APPIs。 企业的的大数据企业的CXXO们最关关注的还是是报表曲线线的背后能能有怎样的的信息,他他该做怎样样的决策,其其实这一切切都需要通通过数据来来传递和支支撑。在理理想的世界界中,大数数据是巨大大的杠杆,可可以改变公公司的影响响力,带来来竞争差异异、节省金金钱、增加加利润、愉愉悦买家、奖赏忠诚诚用户、将将潜在客户户转化为客客户、增加加吸引力、打败竞争争对手、开开拓用户群群并创造市市场。那么,哪些些传统企业业最需要大大数据服务务呢?抛砖砖引玉,先先举几个例例子:1) 对大量量消费者提提供产品或或服务的企企业(精准准营销);2) 做做小而美模模式的中长长尾企业(服服务转型);3

52、) 面面临互联网网压力之下下必须转型型的传统企企业(生死死存亡)。对于企业的的大数据,还还有一种预预测:随着着数据逐渐渐成为企业业的一种资资产,数据据产业会向向传统企业业的供应链链模式发展展,最终形形成“数据供应应链”。这里尤尤其有两个个明显的现现象:1) 外部数数据的重要要性日益超超过内部数数据。在互互联互通的的互联网时时代,单一一企业的内内部数据与与整个互联联网数据比比较起来只只是沧海一一粟;2) 能提供供包括数据据供应、数数据整合与与加工、数数据应用等等多环节服服务的公司司会有明显显的综合竞竞争优势。对于提供大大数据服务务的企业来来说,他们们等待的是是合作机会会,就像微微软史密斯斯说的:

53、“给我提供供一些数据据,我就能能做一些改改变。如果果给我提供供所有数据据,我就能能拯救世界界。”然而,一直直做企业服服务的巨头头将优势不不在,不得得不眼看新新兴互联网网企业加入入战局,开开启残酷竞竞争模式。为何会出出现这种局局面?从 IT 产产业的发展展来看,第第一代 IIT 巨头头大多是 ToB 的,比如如 IBMM、Miccrosooft、OOraclle、SAAP、HPP这类传统统 IT 企业;第第二代 IIT 巨头头大多是TToC 的的,比如 Yahooo、Goooglee、Amaazon、Faceebookk 这类互互联网企业业。大数据据到来前,这这两类公司司彼此之间间基本是井井水不犯河河水;但在在当前这个个大数据时时代,这两两类公司已已经开始直直接竞争。比如 AAmazoon 已经经开始提供供云模式的的数据仓库库服务,直直接抢占 IBM、Oraccle 的的市场。这这个现象出出现的本质质原因是:在互联网网巨头的带带动下,传传统 ITT 巨头的的客户普遍遍开始从事事电子商务务业务,正正是由于客客户进入了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论