版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1.1序言“数据科学”从出现到现在已经有三十多年的历史了,其中涉及了很多方面的内容,涵盖数学、统计学、数据上程、模式识别、机器学习、高性能计算、可视化、数据仓库以及数据建模等多个领域的技术和理论。数据科学的最终目的就是从数据中挖掘出有用的信息,让数据增值。虽然已有三十年历史了,但数据科学仍然是一门新兴的学科,尽管之前运用较多的是在计算智能或者是商业分析方面,但已经慢慢地深入到了人类社会的各个方面。之所以要开设数据科学这门学科,就是为了培养这门学科的专业人员,使他们运用所有可以得到的数据,寻找其背后的故事,从而找到办法让这些数据所蕴含的意义可以轻易地被人们所理解,即便他们不具备数据科学的相关知识。本章将会首先从数据开始谈起,向读者讲述数据的发展概况和现状,从而感受学习数据科学的重要性。返回1.2数据1.2.1数据的概念数据科学这门学科研究的核心内容就是数据,那究竟什么是数据呢?一提到数据,我们首先想到的会是数字。但数据并不局限于数字,文本、音频、图像、视频都可以是数据。在本书里,我们对数据给出如下的定义:数据是指以定性或者定量的方式来描述事物的符号记录,是可定义为意义的实体,它涉及事物的存在形式。简单说来,数据就是人为创造的一种对事物的表示方式,是通过观察或者实验得来的对现实世界中的地方、事件、对象或概念的描述和反映。数据可以是连续的值,例如声音,称为模拟数据;也可以是不连续(离散)的值,例如成绩,称为数字数据。上一页返回1.2数据1.2.2数据的发展史人类历史上最早的有记录的数据,可以追溯到穴居的原始人时期。当时的人类,会在作为居处的洞穴墙壁上,以石器或者骨器刻画来记录数据。这些被记录的数据,或者是简单的记录日期的刻痕,或者是形象化地记载一些日常发生事件的壁画。后来,人们创造了结绳记事的方式来记录数据。《周易·系辞下》中有云:“上古结绳而治,后世圣人易之以书契。”即在一条绳子上打结,用以记事。上古时期的中国及秘鲁印第安人皆有此习惯。到了近代,一些没有文字的民族,仍然采用结绳记事来作为数据记录方式传递信息。古人采取的结绳方法,据古书记载为:“事大,大结其绳;事小,小结其绳,结之多少,随物众寡。”上一页下一页返回1.2数据图1-1所示的是古代印加人采用的一种结绳记事的方法,用来计数或者记录历史。事大,大结其绳;事小,小结其绳。不过,这种记事的方法已经失传,目前还没有人能够了解其全部含义。随着数字和文字的出现,古人开始以更加明确的形式来记录数据。古埃及人创造了莎草纸,用来进行记录。埃及博物馆中陈列的各种莎草纸文书、图画表明,莎草纸是人类历史上最早、最便利的书写材料之一,是记录古埃及历史的主要载体(图1-2)。我们的相‘先在汉代发明了造纸术(图1-3),这种数据记录的方式一直延续到现在。这里一定要强调,本书中所提到的数据,不光是涉及数字形式的数据,以文本、图像、语音等方式所记录的数据都是数据科学所研究的内容。造纸术的发明和改进,让文本形式的数据记录方式开始盛行起来。上一页下一页返回1.2数据最早的录音机,也叫留声机,诞生于1877年,是发明大王爱迪生所制造的。爱迪生发现了电话传话器里的模板随着说话声而震动的现象,于是他拿短针做了试验,从中得到了很大的启发。说话的快慢高低能使短针产生相应的颤动。那么,反过来,这种颤动也一定能发出原先的说话声音。于是,他开始研究声音重发的问题。在1877年8月15日,爱迪生让助手克瑞西按图样制造出一台由大圆筒、曲柄、受话机和模板组成的怪机器。爱迪生指着这台怪机器对助手说:“这是一台会说话的机器。”上一页下一页返回1.2数据他取出一张锡箔,卷在刻有螺旋槽纹的金属圆筒上,让针的一头轻擦着锡箔转动,另一头和受话机连接。爱迪生摇动曲柄,对着受话机唱起了“玛丽有只小羊羔,雪球儿似一身毛……”。唱完后,把针又放回原处,再轻悠悠地摇动曲柄。接着,机器不紧不慢、一圈又一圈地转动着,唱起了“玛丽有只小羊羔……”,与刚才爱迪生唱的一模一样。在他身旁的助手们,见到一架会说话的机器,都惊讶得说不出话来。“会说话的机器”诞生的消息,轰动了全世界。1877年12月,爱迪生公开表演了留声机(图1-4),外界舆论马上把他誉为“科学界之拿破仑”,留声机是19世纪最让人振奋的三大发明之一。即将开幕的巴黎世界博览会立即把它作为时新展品展出。就连当时美国总统海斯也在留声机旁转了2个多小时。上一页下一页返回1.2数据10年后,爱迪生又把留声机上的大圆筒和小曲柄改成类似时钟发条的装置,由发动机带动一个薄薄的蜡制大圆盘转动,从此以后留声机才广为普及。留声机的发明,让音频数据的记录成为可能。在公元前400年前,墨子所著《墨经》中已有针孔成像的记载;在13世纪,欧洲也出现了利用针孔成像原理制成的映像暗箱,人们可以走进暗箱观赏映像或描绘景物。但直到1822年,法国的涅普斯才在感光材料上制出了世界上的第一张照片,不过当时成像不太清晰,而且需要8个小时的曝光。1826年,他又在涂有感光性沥青的锡基底版上,通过暗箱拍摄了一张照片。上一页下一页返回1.2数据1839年,法国的达盖尔制成了第一台实用的银版照相机,它是由两个木箱组成,把一个木箱插入另一个木箱中进行调焦,用镜头盖作为快门,来控制长达三十分钟的曝光时间,从而拍摄出清晰的图像,最终实现了静止图像数据的记录(图1-5)。1874年,法国的朱尔·让桑发明了一种摄影机。他将感光胶片卷绕在带齿的供片盘上,在一个钟摆机构的控制下,供片盘在圆形供片盒内做间歇供片运动,同时钟摆机构带动快门旋转,每当胶片停下时,快门开启曝光。让桑将这种相机与一架望远镜相接,能以每秒一张的速度拍下行星运动的一组照片。让桑将其命名为摄影枪,这就是现代电影摄影机+Y6R的始祖。摄影机(图1-6)的发明,使得运动图像数据的记录成为可能。上一页下一页返回1.2数据1946年2月14日,由美国军方定制的世界第一台电子计算机“电子数字积分计算机”(ElectronicNumericalandCalculator,ENIAC)在美国宾夕法尼亚大学问世,这表明电子计算机时代的到来。从此,人类与数据的关系进入了第二个时代(图1-7)。计算机的飞速发展,为数据的存储和处理模式带来了巨大的变革。以往的数据需要存储在纸张、胶片、磁带等介质上,一方面,数据的存储无法进行压缩,另一方面,介质的存储需要古用大量的空间。而计算机的发明,从本质上改变了这一点。数据可以通过多种算法进行压缩。而且随着半导体上业的发展,存储能力不断增强,数据所需要的存储实体空间也在不断缩小。如今,一块小小的优盘就可以存储GB量级的数据,为我们节约了大量的数据存储空间。上一页下一页返回1.2数据随着计算机技术的发展,数据的处理能力也在不断提升。在计算机发明以前,数据都是通过人上的方式来进行处理。而有了计算机的帮助,通过各种各样的计算方式和统计软件,我们可以快速地处理数据。根据最新的统计,目前世界上最快的计算机--中国制造的天河2号(图1-8),处理速率已经达到了每秒钟进行22.86千万亿次浮点操作的水平。互联网的出现,使人类与数据之间的关系进入到第三个时代的标志(图1-9)。最早的网络,是由美国国防部高级研究计划局(ARPA)建立的。现代计算机网络中的很多概念和方法,如分组交换技术都来自于ARPANET。ARPANET不仅进行了租用线互联的分组交换技术研究,而且做了无线、卫星网的分组交换技术研究,其结果就是加速了TCP/IP的问世。上一页下一页返回1.2数据1977-1979年,ARPANET推出了TCP/IP体系结构和协议。1980年前后,ARPANET上的所有计算机开始了TCP/IP协议的转换上作,并以ARPANET为主干网建立了初期的Internet。到1983年时,RPANET的全部计算机完成了向TCP/IP的转换,并在UNIXCBSD4.1)上实现了TCP/IP。到1984年时,美国国科学基金会NSF规划建立了13个国家超级计算中心及国家教育科技网,随之替代了ARPANET的骨干地位。1988年,Internet开始对外开放。到了1991年6月,在联通Internet的计算机中,商业用户首次超过了学术界用户,这是Internet发展史上的一个里程碑,从此Internet的成长速度一发不可收拾。上一页下一页返回1.2数据互联网的精神就在于“开放、分享、平等、合作”。网络的出现,让人与人之间的距家离变得越来越短,地球村的概念也随之产生。通过网络,我们可以越洋对话,可以浏览海量的数据,可以实时地关注国际上最新的事件。网络让数据的产生和共享进入了一个崭新的时代。网络时代的来临,造就了数据的大爆炸。据统计,2012年年底,有超过6000万用户,通过社交网站Facebook发布了超过300亿条的新内容;游戏商Zynga每天要处理超过1PB容量的玩家数据;每天通过视频网站YouTube被浏览的视频量大约为20亿次;每个月通过微博Twitter所进行的搜索量会达到320亿次。让我们感受一下,这是多么庞大的数据量。上一页下一页返回1.2数据通过传感器网络搜集的数据又是另一大来源。所谓传感器网络,就是由大量部署在作用区域内的、具有无线通信与计算能力的微小传感器节点,通过自组织的方式所构成的,能根据环境自主完成指定任务的分布式智能化网络系统。传感器网络综合了多种先进技术,如传感器技术、嵌入式计算技术、现代网络及无线通信技术、分布式信息处理技术,等等。它能够通过各类集成化的微型传感器协作,来实时监测、感知和采集各种环境或监测对象的信息,并可通过嵌入式系统对信息进行处理,并且通过无线通信网络将所感知到的信息传送到用户终端。上一页下一页返回1.2数据利用传感器网络,通过感知识别技术,让物品“开口说话、发布信息”,融合物理世界和信息世界,便可以建立物联网(图1-10)。物联网的“触手”是位于感知识别层的大量信息生成设备,包括RFID、传感器网络、定位系统等。传感器网络所感知的数据正是物联网海量信息的重要来源之一。互联网和物联网,正是我们数据收集来源的两大重要渠道,推动了大数据时代的来临。1.2.3数据、信息与知识数据、信息与知识,这三个概念,在后面的学习中会多次出现。在使用这三者时,往往会存在一些概念上的交叠,容易混淆,在这里先做一下区分。上一页下一页返回1.2数据这三者之间最主要的区别是所考虑的抽象层次不同。数据是最低层次的抽象,信息次之,知识则是最高层次的抽象。数据是原始的、零散的,数据本身是没有意义的,数据经过了处理依然是数据,只有经过解释和理解才有意义。从数据抽象到信息的过程,就是对数据解读和释义的过程。我们对数据进行解释和理解之后,才可以从数据中提取出有用的信息。对信息进行整合和呈现,则能够获得知识。例如,世界第一高峰珠穆朗玛峰的高度8844.43m,可以认为是“数据”;一本关于珠穆朗玛峰地质特性的书籍,则是“信息”;而一份包含了攀上珠穆朗玛峰最佳路径信息的报告,就是“知识”了。所以,我们说数据是信息的载体,是形成知识的源泉,是智慧、决策以及价值创造的基石。上一页下一页返回1.2数据信息所涉及的范畴是非常广泛的,从日常生活到技术细节都可以涵盖其中。通常而言,信息这个概念,一般是与约束、形式、指示、含义、样式、表达等紧密关联的。可以这么说,数据是一对符号的组合,而当这些符号被用来指示某件事物或者某样事情时,则成为了信息。数据科学所研究的正是从“数据”形成“知识”的整个过程,其中包含了对数据进行采集、分类、录入、储存、处理、统计、分析、整合、呈现等一系列活动。上一页返回1.3大数据1.3.1大数据时代的来临最早提出“大数据”时代到来的是全球知名的咨询公司麦肯锡。麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率的增长和消费者浪潮的到来。”可以说,“大数据”已经成为时下最火热、最流行的IT词汇,引领着各个应用领域的新一轮创新浪潮,跟随大数据而来的数据仓库、数据安全、数据分析、数据挖掘,等等,围绕大数据的商业价值,已逐渐成为各行各业人们争相追捧的焦点。下一页返回1.3大数据其实早在1980年,著名未来学家阿尔文·托夫勒(图1-11)便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通信等行业的存在也由来已久。不过,直到2009年,随着互联网和信息行业的发展,“大数据”成为互联网信息技术行业的流行词汇后,它才开始变得越来越引起人们的关注。进入2012年,大数据一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。上一页下一页返回1.3大数据数据正在迅速膨胀并变大,它决定着企业的未来。虽然现在企业可能并没有意识到数据爆炸性增长带来的隐患,但是随着时间的推移,人们将越来越多地意识到数据对企业的重要性。正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临(图1-12),在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。哈佛大学的社会学教授加里·金形容:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”上一页下一页返回1.3大数据大数据到底有多大呢?让我们来看一组名为“互联网上一天”的数据:(1)一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;(2)发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);(3)发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);(4)卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……这里所指的数据,并非单纯指人们在互联网上发布的信息,全世界的上业设备、汽车、电表上有着无数的数码传感器,随时间、位置、温度、湿度,乃至空气中化学物质的变化,也产生了海量的数据信息。上一页下一页返回1.3大数据1.3.2大数据的概念那么究竟什么是大数据呢?目前,尚没有一个业界公认的统一标准。“大数据”这个术语最早的引用可追溯到Apache的开源项目Nutch。当时,大数据用来描述为更新网络搜索引擎需要同时进行批量处理或分析的大量数据集。《著云台》的分析师团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百,甚至数千台电脑分配上作。上一页下一页返回1.3大数据权威研究机构Gartner对大数据给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”在这个定义里,主要强调的是大数据的出现所带来的挑战和机遇,即数据处理的难度加大了,而从中所能获取的价值也增加了。同样的,维基百科也给出了一个大数据的定义:“大数据,或称巨量资料,指的是所涉及的数据量规模巨大到无法通过人上,在合理时间内截取、管理、处理,并整理成为人类所能解读的信息。”可见,这个定义与Gartner的定义的异曲同上之处就在于,都是从挑战和机遇两个方面去区分之前的数据以及大数据。上一页下一页返回1.3大数据1.3.3大数据的特征要更好地理解大数据的概念,一定要明确认识大数据的特征。一般说来,我们可以用4个V来定义大数据的特征(图1-13),即:(1)数据量大(Volume)。第一个特征是数据量大。大数据的起始计量单位至少是P(1000个T),E(100万个T)或Z(10亿个T)。(2)类型繁多(Variety)。第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息,等等,多类型的数据对数据的处理能力提出了更高的要求。上一页下一页返回1.3大数据(3)价值密度低(Veracity)。第三个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代函待解决的难题。(4)速度快时效高(Velocity)。第四个特征是处理速度快、时效性要求高。这是大数据区别于传统数据挖掘最显著的特征。上一页下一页返回1.3大数据这4个特点,正说明了大数据所带来的挑战在哪里、机遇是什么。既有的技术架构和路线,已经无法高效地处理如此海量的数据。而对于相关组织来说,如果把物力和财力投入到巨大的采集中,却不能及时处理和反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。1.3.4大数据对社会所产生的影响大数据所涉及的信息与人密切相关。与人有关的信息古世界上所有数据的90%,主要包括电子邮件、视频文件、社交网络、博客内容、呼叫中心的对话等,它正以惊人的速度增长,年复合增长率高达62%。大数据的应用,将有助于决策人灵活应对现实世界中“数据海啸”带来的机遇和挑战(图1-14
)。上一页下一页返回1.3大数据《大数据时代》这本书探讨了使大数据时代与众不同的三个方面。一是我们现在收集了多于以往任何时候的数据;二是虽然我们现在需要的数据量大,但对精确度的需求较低;三是因为有了数量充足而精确度相对较低的数据,我们可以通过相关关系而非因果关系来进行数据分析。从这其中,就提取出来了大数据时代带给我们的三大思维变革:(1)更多--我们所考虑的不再是随机样本,而是全体数据。(2)更杂--考虑问题时不再执着于精确性,而要考虑到混杂性。(3)更好--大数据分析的特点,不一定非要明白因果关系,而最重要的是明确相关关系。上一页下一页返回1.3大数据大数据是继云计算、物联网之后IT产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息,物联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。而如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。与智能手机、3D打印这些可以亲身体验的划时代产品相比,大数据可能显得虚无缥缈、难以捉摸,但从未来的前景预测,大数据给这个世界带来的改变,或许会更大、更难以想象。上一页下一页返回1.3大数据大数据时代网民和消费者的界限正在消失,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。因此,大数据对国家治理模式对企业的决策、组织和业务流程,对个人生活方式都将产生巨大的影响。如果不能利用大数据更好地为消费者服务,那么所有传统的产品公司都只能沦为新型用户平台级公司的附庸,其衰落将不是管理所能扭转的。大数据概念的背后对应着一套新的解决问题的流程,即通过收集、整理生活中方方面面的数据,并对其进行分析挖掘,从而获得有价值的信息,最终衍化出一种新的商业模式。数据处理技术和设备提供商、IT系统咨询和ERP/CRM/BI改造服务商、智能化和人机交互应用以及信息安全提供商将获得巨大需求,相应公司将获得机会。上一页下一页返回1.3大数据例如,通过分析谷歌搜索、Facebook的帖子和微博消息,可使人们的行为和情绪的细节化测量成为可能。而通过挖掘用户的行为习惯和喜好,就可以从凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性的调整和优化,这些都是大数据的价值。大数据已经日益显现出对各个行业的推进力。虽然目前大数据在国内还处于初级阶段,但是其商业价值已经显现出来。首先,手中握有数据的公司站在金矿上,基于数据交易即可产生很好的效益。其次,基于数据挖掘会有很多商业模式产生,定位角度不同,或侧重数据分析。比如,帮企业做内部数据挖掘,就可以使它更精准地找到用户,降低营销成本,提高企业销售率,增加利润。上一页下一页返回1.3大数据未来,数据可能会成为最大的交易商品。但仅数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来的大数据,将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业,大数据将带来新的洞察力(图1-15
)。据IDC预测,到2020年全球将总共拥有35ZB的数据量,而麦肯锡则预测,未来大数据产品在三大行业的应用将产生7000亿美元的潜在市场,未来中国大数据产品的潜在市场规模有望达到1.57万亿元。上一页下一页返回1.3大数据越来越多的政府、企业等机构开始意识到,数据正在成为组织最重要的资产,数据分析能力正在成为组织的核心竟争力。2012年3月,奥巴马政府宣布投资2亿美元拉动大数据相关产业的发展,将“大数据战略”上升为国家意志。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分。未来,对数据的古有和控制将成为陆权、海权、空权之外的另一种国家核心资产。联合国也在2012年发布了大数据政务白皮书,其中指出,大数据对联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。上一页下一页返回1.3大数据而最为积极的还是众多的IT企业。麦肯锡在一份名为“大数据,是下一轮创新、竟争和生产力的前沿”的专题研究报告中提出,“对企业来说,海量数据的运用将成为未来竟争和增长的基础”。该报告在业界引起了广泛反响。IBM则提出,上一个十年,他们抛弃了PC,成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于大数据分析软件带来的全新业务增长点。IBM执行总裁罗睿兰认为:“数据将成为一切行业当中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。”上一页下一页返回1.3大数据在国内,百度已经致力于开发自己的大数据处理和存储系统;腾讯也提出目前已经到了数据化运营的黄金时期,如何整合这些数据则成为未来的关键任务。事实上,自2009年以来,有关“大数据”主题的并购案层出不穷,且并购数量和规模呈逐步上升的态势。其中,Oracle对Sun、惠普对Autonomy两大并购案总金额高达176亿美元,大数据的产业价值由此可见一斑。“大数据”可能带来的巨大价值正渐渐被人们认可。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把数据比作一种产业,那么这种产业实现营利的关键,就在于提高对数据的“加上能力”,通过“加上”实现数据的“增值”。上一页下一页返回1.3大数据大数据的影响不只局限于经济方面,它同时也能在政治、文化等方面产生深远的意义,大数据可以帮助人们开启循“数”管理的模式,也是我们当下“大社会”的集中体现,三分技术、七分数据,得数据者得天下。它通过技术的创新与发展以及数据的全面感知、收集、分析、共享,为人们提供了一种全新看待世界的方法,使人们更多地基于事实与数据做出决策。这样的思维方式,将使习惯于靠“差不多”运行的社会发生巨大变革。1.3.5迎接大数据时代的挑战既然大数据时代已经来临,我们就该做好迎接这个时代的准备。特别是正在学习阶段的学生,更要努力去学好大数据时代所需要的技巧和知识,成为迎接这个时代的弄潮儿。上一页下一页返回1.3大数据大数据是信息资产,是21世纪的“石油”。石油会有采完的那一天,但数据只会越来越多,取之不竭。对毕业后就将面临就业的学子而言,他们一定要关注业界的变化。未来的公司运作比拼的是数据化运营。从资本角度看,什么样的公司有价值,拥有多大的价值,这些都能通过它所拥有的数据规模、数据活性以及分析应用能力看出。大数据时代公司的竟争优势,就在于谁能更快、更精准地从已拥有的数据中预测未来。2012年8月,对1105家美国企业和集团进行的调查显示,63%的受访者认为只有实施和使用大数据技术才能完成各自机构的使命,49%的受访者表示将增加他们的大数据预算,46%的受访者计划至少保持他们现有的大数据预算水平。上一页下一页返回1.3大数据(1)谷歌继发布作为大数据算法起源的MapReuce,GoogleFileSystem,Bigtable等研究之后,又专注于研究面向大数据的网络搜索、图计算、在线可视化等技术。(2)Facebook也拥有自己的数据团队,据称Facebook管理着世界上最大的Hadoop集群。(3)IBM以17亿美元收购数据分析公司Netezza,发布了结合Hadoop和云计算技术的新产品InfoSphereBigInsights来应对大数据分析。(4)EMC并购了VMware,RSA,Greenplum,Isilon等多家在“云和大数据”方向具备高度战略价值的公司。(5)惠普收购实时分析平台Vertica,并发布了Vertica5.0,在大数据分析领域站稳了脚跟。上一页下一页返回1.3大数据(6)甲骨文发布面向大数据的OracleBigDataAppliance数据管理和分析系统;微软为SQLServer新增并行数据仓库功能,以此来支撑大数据的处理能力。(7)亚马逊推出弹性MapReduce,将其作为一项服务。(8)Teradata收购AsterData,跨入大规模分析领域,扩张大数据市场。(9)在国内,互联网企业如百度、腾讯、淘宝、新浪等,也已开始使用大数据或者相关数据分析解决方案。这些还只是冰山一角,让我们来看看未来大数据时代的企业布局(图1-16)。在国外,与数据相关的职位,其资源最为紧缺。据报告称,仅是美国,未来就需要超过19万个数据科学家和150万个初级数据管理人员。这是多么巨大的就业机会!上一页下一页返回1.3大数据谷歌的哈尔·瓦里安说过一句话:“数据科学家将会是21世纪最性感的上作。”(图1-17)当然,哈尔·瓦里安本人就是目前世界上最顶尖的数据科学家。那么,什么是数据科学家呢?我们可以从数据科学家所拥有的特质来定义它:第一,数据科学家是科学家,他们能从生硬的数据中,找出潜在的趋势,形成知识与智慧。第二,数据科学家是艺术家,他们可以解锁数据,从中解读出精彩的故事,是分析家与艺术家的结合。第三,数据科学家是探险家,他们能运用多种技巧,找到数据背后深藏的秘密,发掘出新的宝藏和机遇。上一页下一页返回1.3大数据第四,数据科学家是革命家,因为他们是数据与智慧的桥梁,将数据带给人类,改变世界。第五,数据科学家还是一位超人,因为他们是一个计算机科学家,是一位统计学家,懂数学、明算理、知人文、会创造、能发现。那么,怎样才能成为一名数据科学家呢?那就要学习数据科学的知识。上一页返回1.4数据科学“数据科学”这个字眼的出现到现在已经有超过30年的历史了。当时是作为计算机科学的一个分支,由彼得·诺尔在1960年提出来的。数据科学这门学科中涉及了多方面的内容,涵盖数学、统计学、数据上程、模式识别、机器学习、高性能计算、可视化、数据仓库以及数
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026广东广州市爱莎文华高中招聘备考题库带答案详解(新)
- 2026江苏苏州高新区实验初级中学招聘1人备考题库附答案详解(b卷)
- 2026安徽第二医学院高层次人才招聘20人备考题库参考答案详解
- 2026清华大学出版社校园招聘备考题库及答案详解(基础+提升)
- 2026内蒙古鄂尔多斯东胜区第一小学三部教师招聘1人备考题库附答案详解(基础题)
- 2026山东济南市妇幼保健院招聘卫生高级人才和博士(控制总量)26人备考题库【含答案详解】
- 2026黑龙江齐齐哈尔市拜泉县乡镇卫生院招聘医学相关专业毕业生5人备考题库及答案详解(夺冠)
- 2026江苏保险公司销售人员招聘备考题库参考答案详解
- 2026新疆喀什昆仑建设有限公司招聘3人备考题库及参考答案详解(黄金题型)
- 2026湖南湘潭医卫职业技术学院招聘5人备考题库附参考答案详解(精练)
- 白内障术后护理注意事项
- 数字绘画笔触创新-洞察与解读
- 山东省2025年中考历史真题试卷三套附同步解析
- 多联机空调运维、维保技术服务方案
- 农村美食旅游推广创新创业项目商业计划书
- 2025年中考数学试题及答案常州
- 一级实验室生物安全手册
- 预算授权管理暂行办法
- DB11∕T 1200-2023 超长大体积混凝土结构跳仓法技术规程
- 毕业设计(论文)-自动取药转运一体机结构设计
- 现代农业精深加工示范区污水处理厂建设项目环境影响报告书
评论
0/150
提交评论