版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
“每月一读”专家说书活动好书报告人力资源部在人类历史长河中,即使是在现代社会日新月异的发展中,人们还主要是依赖抽样数据、局部数据和片面数据,甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。因此,人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。维克托指出,大数据时代的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可获取的知识,得到过去无法企及的商机。大数据的出现,使得通过数据分析获得知识、商机和社会服务的能力从以往局限少数象牙塔之中的学术精英圈子扩大到了普通机构、企业和政府部门。门槛的降低直接导致了数据的容错率提高和成本的降低,正如维克托所强调的,重要的是人们可以在很大程度上对于因果的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。引言《大数据时代》【美】维克托·迈尔-舍恩伯格肯尼思·库克耶【著】盛杨燕周涛【译】推荐书籍作者简介好书快览本书观点感悟解读结语精髓摘读导读作者简介他是十余年潜心研究数据科学的技术权威,他是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。他的学术成果斐然,有一百多篇论文公开发表在《科学》《自然》等著名学术期刊上,他同时也是哈佛大学出版社、麻省理工出版社、通信政策期刊、美国社会学期刊等多家出版机构的特约评论员。维克托·迈尔-舍恩伯格(ViktorMayer-Schönberger)作者简介好书快览本书观点感悟解读结语精髓摘读导读如今,一个大规模生产、分享和应用数据的时代正在开启,大数据的真是价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。互联网时代,尤其是社交网络、电子商务与移动通信把人类社会带入了一个以PB(1024TB)为单位的结构与非结构数据信息的新时代。以云计算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、告诉、多变化的终端数据存储下来,并随时经行分析与计算。数据,这个21世纪人类探索的新边疆,正在被云计算发现、征服。书籍快览——本书亮点书籍快览——本书要点本书作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要精确,要相关不要因果;接着从万事万物数据化和数据交叉复用的巨大价值两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的根本原动力;最后,作者冷静的描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐私、信息公正公开等问题。本书从大数据时代的思维变革、商业变革、管理变革三个方面讲述了大数据时代是一场生活、工作与思维的大变革,是一次重大的时代转型。作者简介好书快览本书观点感悟解读结语精髓摘读导读《大数据时代》目录
序
言推荐序一拥抱“大数据时代”推荐序二实实在在大数据译者序在路上·晃晃悠悠引言一场生活、工作与思维的大变革大数据,变革公共卫生大数据,变革商业大数据,变革思维大数据,开启重大的时代转型预测,大数据的核心大数据,大挑战第一部分大数据时代的思维变革01更多:不是随机样本,而是全体数据让数据“发声”小数据时代的随机采样,最少的数据获得最多的信息全数据模式,样本=总体02更杂:不是精确性,而是混杂性允许不精确大数据的简单算法比小数据的复杂算法更有效纷繁的数据越多越好混杂性,不是竭力避免,而是标准途径新的数据库设计的诞生03更好:不是因果关系,而是相关关系关联物,预测的关键“是什么”,而不是“为什么”改变,从操作方式开始大数据,改变人类探索世界的方法第二部分大数据时代的商业变革04数据化:一切皆可“量化”数据,从最不可能的地方提取出来数据化,不是数字化量化一切,数据化的核心当文字变成数据当方位变成数据当沟通变成数据世间万物的数据化05价值:“取之不尽,用之不竭”的数据创新数据创新1:数据的再利用数据创新2:重组数据《大数据据时代代》目录数据创创新3:可扩扩展数数据数据创创新4:数据据的折折旧值值数据创创新5:数据据废气气数据创创新6:开放放数据据给数据据估值值06角色定定位::数据据、技技术与与思维维的三三足鼎鼎立大数据据价值值链的的3大构成成大数据据掌控控公司司大数据据技术术公司司大数据据思维维公司司和个个人全新的的数据据中间间商专家的的消亡亡与数数据科科学家家的崛崛起大数据据,决决定企企业竞竞争力力第三部部分大大数数据时时代的的管理理变革革07风险::让数数据主主宰一一切的的隐忧忧无处不不在的的“第第三只只眼””我们的的隐私私被二二次利利用了了预测与与惩罚罚,不不是因因为““所做做”,,而是是因为为“将将做””数据独独裁挣脱大大数据据的困困境08掌控::责任任与自自由并并举的的信息息管理理管理变变革1:个人人隐私私保护护,从从个人人许可可到让让数据据使用用者承承担责责任管理变变革2:个人人动因因VS预测分分析管理变变革3:击碎碎黑盒盒子,,大数数据算算法师师的崛崛起管理变变革4:反数数据垄垄断大大亨结语正正在在发生生的未未来参考文文献本书观观点——大数据据时代代生活活、工工作与与思维维的大大变革革本书观观点——大数据据、思思维变变革大数据据,改改变人人类探探索世世界的的方法法,在在小数数据时时代,,我们们会假假想世世界是是怎么么运作作的,,然后后通过过收集集和分分析数数据来来验证证这种种假想想。在不久久的将将来,,我们们会在在大数数据的的指导导下探探索世世界,,不再再受限限于各各种假假想。。我们们的研研究始始于数数据,,也因因为数数据我我们发发现了了以前前不曾曾发现现的联联系。。2003年,埃埃奇奥奥尼决决定开开发一一个系系统,,用来来推测测当前前网页页上的的机票票价格格是否否合理理。在在基于于41天之内内的12000个价格格样本本之上上,他他创立立了一一个预预测系系统,,这个个小项项目逐逐渐发发展成成为一一家得得到风风险投投资基基金支支持的的科技技创业业公司司,名名为Farecast。Farecast票价预预测工工具帮帮助消消费者者抓住住最佳佳购买买时机机,而而在此此之前前还没没有其其他网网站能能让消消费者者获得得这些些信息息。本书观观点——大数据据,商商业变变革到2012年为止止,Farecast系统用用了将将近10亿条价价格记记录来来帮助助预测测美国国国内内航班班的票票价。。Farecast票价预预测的的准确确率已已经高高达75%,使用用Farecast票价预预测工工具购购买机机票的的旅客客,平平均没没涨机机票可可节省省50美元。。Farecast是大数数据公公司的的一个个缩影影,也也代表表了当当今世世界发发展的的趋势势。本书观观点——样本=主体我们可可以用用Lytro相机来来打一一个恰恰当的的比方方。Lytro相机是具有有革新性的的,因为它它把大数据据运用到了了基本的摄摄影中。与与传统相机机只可以记记录一束光光不同,Lytro相机可以记记录整个光光场里所有有的光,达达到1100万束之多。。具体生成成什么样的的照片则可可以在拍摄摄之后再根根据需要决决定。用户户没必要在在一开始就就聚焦,因因为该相机机可以捕捉捉到所有的的数据,所所以之后可可以选择聚聚焦图像中中的任一点点。整个光光场的光束束都被记录录了,也就就是收集了了所有的数数据,“样样本=总体”。因因此,与普普通照片相相比,这些些照片就更更具“可循循环利用性性”。如果果使用普通通相机,摄摄影师就必必须在拍照照之前决定定好聚焦点点。同理,因为为大数据是是建立在掌掌握所有数数据,至少少是尽可能能多的数据据的基础上上的,所以以我们就可可以正确地地考察细节节并进行新新的分析。。在任何细细微的层面面,我们都都可以用大大数据去论论证新的假假设。假设你要测测量一个葡葡萄园的温温度,但是是整个葡萄萄园只有一一个温度测测量仪,那那你就必须须确保这个个测量仪是是精确的而而且能够一一直工作。。反过来,,如果每100棵葡萄树就就有一个测测量仪,有有些测试的的数据可能能会是错误误的,可能能会更加混混乱,但众众多的读数数合起来就就可以提供供一个更加加准确的结结果。因为为这里面包包含了更多多的数据,,而它不仅仅能抵消掉掉错误数据据造成的影影响,还能能提供更多多的额外价价值。现在想想增增加读数频频率的这个个事情。如如果每隔一一分钟就测测量一下温温度,我们们至少还能能够保证测测量结果是是按照时间间有序排列列的。如果果变成每分分钟测量十十次甚至百百次的话,,不仅读数数可能出错错,连时间间先后都可可能搞混掉掉。试想,,如果信息息在网络中中流动,那那么一条记记录很可能能在传输过过程中被延延迟,在其其到达的时时候已经没没有意义了了,甚至干干脆在奔涌涌的信息洪洪流中彻底底迷失。虽虽然我们得得到的信息息不再那么么准确,但但收集到的的数量庞大大的信息让让我们放弃弃严格精确确的选择变变得更为划划算。本书观点——不是精确性性,而是混混杂性本书观点——不是因果关关系,而是是相关关系系杰夫·贝索斯,亚亚马逊公司司的创始人人以及总裁裁开始尝试试根据客户户个人以前前的购物喜喜好,为其其推荐具体体的书籍。。从一开始始,亚马逊逊已从每一一个客户身身上捕获了了大量的数数据。比如如说,他们们购买了什什么书籍??哪些书他他们只浏览览却没有购购买?他们们浏览了多多久?哪些些书是他们们一起购买买的?客户户的信息数数据量非常常大,所以以亚马逊必必须先用传传统的方法法对其进行行处理,通通过样本分分析找到客客户之间的的相似性。。但这些推推荐信息是是非常原始始的,就如如在买一件件婴儿用品品时,会被被淹没在一一堆差不多多的婴儿用用品中一样样。詹姆斯斯·马库斯回忆忆说:“推推荐信息往往往为你提提供与你以以前购买物物品有微小小差异的产产品,并且且循环往复复。”詹姆姆斯·马库斯从1996年到2001年都是亚马马逊的书评评家,在他他的回忆录录《亚马逊》里,他说道道:“那种种感觉就像像你和一群群脑残在一一起逛书店店。”格雷格·林登很快就就找到了一一个解决方方案。他意意识到,推推荐系统实实际上并没没有必要把把顾客与其其他顾客进进行对比,,这样做其其实在技术术上也比较较烦琐。它它需要做的的是找到产产品之间的的关联性。。1998年,林登和和他的同事事申请了著著名的“item-to-item””协同过滤技技术的专利利。方法的的转变使技技术发生了了翻天覆地地的变化。。因为估算可可以提前进进行,所以以推荐系统统快如闪电电,而且适适用于各种种各样的产产品。因此此,当亚马马逊跨界销销售除书以以外的其他他商品时,,也可以对对电影或烤烤面包机这这些产品进进行推荐。。由于系统统中使用了了所有的数数据,推荐荐会更理想想。林登回回忆道:““在组里有有句玩笑话话,说的是是如果系统统运作良好好,亚马逊逊应该只推推荐你一本本书,而这这本书就是是你将要买买的下一本本书。”如今,据说说亚马逊销销售额的三三分之一都都是来自于于它的个性性化推荐系系统。有了了它,亚马马逊不仅使使很多大型型书店和音音乐唱片商商店歇业,,而且当地地数百个自自认为有自自己风格的的书商也难难免受转型型之风的影影响。事实实上,林登登的工作彻彻底改变了了电子商务务,现在几几乎每个人人都在使用用电子商务务。作者简介好书快览本书观点感悟解读结语精髓摘读导读摘读1——莫里的导航航图,大数数据的最早早实践之一一有经验的海海员有时依依靠经验能能安全航海海,但有时时也会陷入入危险之中中。在从纽纽约到里约约热内卢这这条繁忙的的航线上,,水手们往往往倾向于于与自然斗斗争而不是是顺应自然然。美国船船长一直被被劝导前往往里约热内内卢不能通通过海峡,,因为那样样存在很大大风险,所所以船长会会选择在东东南方向的的航线上航航行,再穿穿过赤道驶驶向西南方方向。而这这样一来,,航行的距距离就相当当于穿越大大西洋两次次。这是很很荒谬的,,其实直接接沿着海峡峡向南航行行就可以了了。为了提高精精确度,莫莫里需要更更多的信息息,因此他他创建了一一个标准的的表格来记记录航海数数据,并且且要求美国国所有的海海军舰艇在在海上使用用,返航后后再提交表表格。商船船也拼命地地想得到他他的图表,,莫里就要要求以他们们的航海日日志作为回回报(病毒毒型社交网网络的早期期版本)。。他宣称::“每艘航航行在公海海上的船舶舶从此以后后都可以被被视为一个个浮动的天天文台,一一个科学的的殿堂。””为了改进进和完善图图表,他需需要寻求更更多的数据据(正如谷谷歌利用网网页排名来来获得更多多的数据))。莫里让让船长定期期向海里扔扔掷标有日日期、位置置、风向以以及当时洋洋流情况的的瓶子,然然后再来寻寻找这些瓶瓶子。许多多船挂了一一面特殊的的旗帜,表表明它参与与了这个信信息交流计计划。这些些旗帜就是是出现在一一些网多多船挂了一一面特殊的的旗帜,表表明它参与与了这个信信息交流计计划。这些些旗帜就是是出现在一一些网站上上的友情链链接的前身身。站上上的友情链链接的前身身。通过分析这这些数据,,莫里知道道了一些良良好的天然然航线,这这些航线上上的风向和和洋流都非非常利于航航行。他所所绘制的图图表帮助商商人们节省省了一大笔笔钱,因为为航海路程程减少了三三分之一左左右。一个个船长感激激地说:““我在得到到你的图表表之前都是是在盲目地地航行,你你的图表真真的指引了了我。”有有一些顽固固的人拒绝绝使用这个个新制的图图表,而当当他们因为为使用旧方方法航行到到半路出了了事故或者者花费的航航行时间长长很多的时时候,他们们反而帮助助证明了莫莫里系统的的实用性。。摘读2——大数据,变变革公共卫卫生谷歌公司把把5000万条美国人人最频繁检检索的词条条和美国疾疾控中心在在2003年至2008年间季节性性流感传播播时期的数数据进行了了比较。他他们希望通通过分析人人们的搜索索记录来判判断这些人人是否患上上了流感,,谷歌公司司的员工猜猜测,特定定的检索词词条是为了了在网络上上得到关于于流感的信信息,如““哪些是治治疗咳嗽和和发热的药药物”,但但是找出这这些词条并并不是重点点,他们也也不知道哪哪些词条更更重要。更更关键的是是,他们建建立的系统统并不依赖赖于这样的的语义理解解。他们设设立的这个个系统唯一一关注的就就是特定检检索词条的的使用频率率与流感在在时间和空空间上的传传播之间的的联系。谷谷歌公司为为了测试这这些检索词词条,总共共处理了4.5亿个不同的的数学模型型。在将得得出的预测测与2007年、2008年美国疾控控中心记录录的实际流流感病例进进行对比后后,谷歌公公司发现,,他们的软软件发现了了45条检索词条条的组合,,将它们用用于一个特特定的数学学模型后,,他们的预预测与官方方数据的相相关性高达达97%。和疾控中中心一样,,他们也能能判断出流流感是从哪哪里传播出出来的,而而且判断非非常及时,,不会像疾疾控中心一一样要在流流感爆发一一两周之后后才可以做做到。所以,2009年甲型H1N1流感爆发的的时候,与与习惯性滞滞后的官方方数据相比比,谷歌成成为了一个个更有效、、更及时的的指示标。。公共卫生生机构的官官员获得了了非常有价价值的数据据信息。惊惊人的是,,谷歌公司司的方法甚甚至不需要要分发口腔腔试纸和联联系医生——它是建立在在大数据的的基础之上上的。这是是当今社会会所独有的的一种新型型能:以一种前所所未有的方方式,通过过对海量数数据进行分分析,获得得有巨大价价值的产品品和服务,,或深刻的的洞见。基于这样的的技术理念念和数据储储备,下一一次流感来来袭的时候候,世界将将会拥有一一种更好的的预测工具具,以预防防流感的传传播。摘读3——大数据的力力量到2013年,世界上上存储的数数据预计能能达到约1.2泽字节,其其中非数字字数据只占占不到2%。这样大的的数据量意意味着什么么?如果把把这些数据据全部记在在书中,这这些书可以以覆盖整个个美国52次。如果将将之存储在在只读光盘盘上,这些些光盘可以以堆成五堆堆,每一堆堆都可以伸伸到月球。。公元前3世纪,埃及及的托勒密密二世竭力力收集了当当时所有的的书写作品品,所以伟伟大的亚历历山大图书书馆可以代代表世界上上所有的知知识量。但但当数字数数据洪流席席卷世界之之后,每个个地球人都都可以获得得大量数据据信息,相相当于当时时亚历山大大图书馆存存储的数据据总量的320倍之多。事情真的在在快速发展展。人类存存储信息量量的增长速速度比世界界经济的增增长速度快快人类存存储信息量量的增长速速度比世界界经济的增增长速度快快4倍,而计倍倍,而计算算机数据处处理能力的的增长速度度则比世界界经济的增增长速度快快算机数数据处理能能力的增长长速度则比比世界经济济的增长速速度快9倍。难怪人人们会抱怨怨信息过量量,因为每每个人都受受到了这种种极速发展展的冲击。。摘读4——大数据先锋锋大数据相关关关系分析析的极致,,非美国折折扣零售商商塔吉特莫莫属了。该该公司使用用大数据的的相关关系系分析已经经有多年。。《纽约时报》的记者在一一份报道中中阐述了塔塔吉特公司司怎样在完完全不和准准妈妈对话话的前提下下预测一个个女性会在在什么时候候怀孕。基基本上来说说,就是收收集一个人人可以收集集到的所有有数据,然然后通过相相关关系分分析得出事事情的真实实状况。对于零售商商来说,知知道一个顾顾客是否怀怀孕是非常常重要的。。他们会开开始光顾以以前不会去去的商店,,渐渐对新新的品牌建建立忠诚。。塔吉特公公司的市场场专员们向向分析部求求助,看是是否有什么么办法能够够通过一个个人的购物物方式发现现她是否怀怀孕。塔吉特公司司注意到,,登记簿上上的妇女会会在怀孕大大概第三个个月的时候候买很多无无香乳液。。几个月之之后,她们们会买一些些营养品,,比如镁、、钙、锌。。公司最终终找出了大大概20多种关联物物,这些关关联物可以以给顾客进进行“怀孕孕趋势”评评分。这些些相关关系系甚至使得得零售商能能够比较准准确地预测测预产期,,这样就能能够在孕期期的每个阶阶段给客户户寄送相应应的优惠券券,这才是是塔吉特公公司的目的的。杜西格在《习惯的力量量》一书中讲到到了接下来来发生的事事情。一天天,一个男男人冲进了了一家位于于明尼阿波波利斯市郊郊的塔吉特特商店,要要求经理出出来见他。。他气愤地地说:“我我女儿还是是高中生,,你们却给给她邮寄婴婴儿服和婴婴儿床的优优惠券,你你们是在鼓鼓励她怀孕孕吗?”而而当几天后后,经理打打电话向这这个男人致致歉时,这这个男人的的语气变得得平和起来来。他说::“我跟我我的女儿谈谈过了,她她的预产期期是8月份,是我我完全没有有意识到这这个事情的的发生,应应该说抱歉歉的人是我我。”摘读5——大数据独裁裁我们在书中中举过无数数谷歌的例例子,我们们明白它的的一切运作作都是基于于数据基础础之上的。。很明显,,它大部分分的成功都都是数据造造就的,但但是偶尔谷谷歌也会因因为数据栽栽跟头。谷谷歌公司的的创始人拉拉里·佩奇和谢尔尔盖·布林一直强强调要得到到每个应聘聘者申请大大学时的SAT成绩以及大大学毕业时时的平均绩绩点。他们们认为,前前者能彰显显潜能,后后者则展现现成就。因因此,当40多岁、成绩绩斐然的经经理人在应应聘时被问问到大学成成绩的时候候,就完全全无法理解解这种要求求。尽管公公司内部研研究早就表表明,工作作表现和这这些分数根根本没有关关系,谷歌歌依然冥顽顽不化。谷歌本应该该懂得抵制制数据的独独裁。考试试结果可能能一生都不不会改变,,但是它并并不能测试试出一个人人的知识深深度,也展展示不出一一个人的人人文素养,,学习技能能之外,科科学和工程程知识才是是更适合考考量的。谷谷歌在招聘聘人才方面面如此依赖赖数据让人人很是费解解,要知道道,它的创创始人可是是接受过注注重学习而而非分数的的蒙台梭利利教育。谷谷歌就是在在重蹈前人人覆辙,过过去美国的的科技巨头头们也把个个人简历看看得比个人人能力重要要。如果按按谷歌的做做法,其创创始人都没没有资格成成为传奇性性的贝尔实实验室的经经理,因为为他们都在在博士阶段段辍学了;;比尔·盖茨和马马克·扎克伯格格也都会会被淘汰汰,因为为他们都都没有大大学文凭凭。谷歌对数数据的依依赖有时时太夸张张了。玛玛丽莎·迈尔曾任任谷歌高高管职位位,居然然要求员员工测试试41种蓝色的的阴影效效果中,,哪种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 46971-2026电子凭证会计数据银行电子对账单
- 空调设计入门培训
- 带状疱疹患者的出院指导与随访
- 安全教育培训讲义
- 灭火器配置培训
- 灭火器实操培训
- 碳素热场材料项目环评报告
- 2026岚图汽车品牌传播中心招聘备考题库及参考答案详解1套
- 2026年房地产经纪人综合能力测评试题及答案
- 员工抗压能力测试题及答案
- 四川省泸州市2025-2026学年高一上学期期末质量监测化学试卷
- 初高中生物知识衔接课件
- 2024年风电、光伏项目前期及建设手续办理流程汇编
- 迈瑞售后管理制度规范
- 2025天津市水务规划勘测设计有限公司招聘18人笔试历年参考题库附带答案详解
- 胰腺常见囊性肿瘤的CT诊断
- 驾驶心态培训课件
- 公司代持协议书范本
- 浸没光刻机照明系统光学元件应力双折射的多维探究与优化策略
- 海洋的奥秘:给小学生的科普之旅
- 带电绕组温升测试仪操作规程
评论
0/150
提交评论