大数据的前世今生:大数据特征与发展历程_第1页
大数据的前世今生:大数据特征与发展历程_第2页
大数据的前世今生:大数据特征与发展历程_第3页
大数据的前世今生:大数据特征与发展历程_第4页
大数据的前世今生:大数据特征与发展历程_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据的前世今生:大数据特征与发展历程大数据的前世今生:大数据特征与发展历程 大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的 数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。 大数据具有以下五大特征(五大特征(4V+1O4V+1O)的数据才称之为大数据)的数据才称之为大数据,即: 数据量大(数据量大(VolumeVolume)。)。第一个特征是数据量大,包括采集、存储和计算的 量都非常大。大数据的起始计量单位至少是 P(1000 个 T)、E(100 万个 T) 或 Z(10 亿个 T)。 类型繁多(类型繁多(VarietyVariety)。)。第二个特征是种类和来源多样化。包括结构化、半 结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置 信息等等,多类型的数据对数据的处理能力提出了更高的要求。 价值密度低(价值密度低(ValueValue)。)。第三个特征是数据价值密度相对较低,或者说是浪 里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不 在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来 挖掘数据价值,是大数据时代最需要解决的问题。 速度快时效高(速度快时效高(VelocityVelocity)。)。第四个特征数据增长速度快,处理速度也 快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个 性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显 著特征。 数据是在线的(数据是在线的(OnlineOnline)。)。数据是永远在线的,是随时能调用和计算的, 这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是 大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如, 对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有 意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值 大。 关于大数据特征方面,特别要强调的一点是数据是在线的,因为很多人认 为数据量大就是大数据,往往忽略了大数据的在线特性。数据只有在线,即数 据在与产品用户或者客户产生连接的时候才有意义。如某用户在使用某互联网 应用时,其行为及时的传给数据使用方,数据使用方通过某种有效加工后(通 过数据分析或者数据挖掘进行加工),进行该应用的推送内容的优化,把用户 最想看到的内容推送给用户,也提升了用户的使用体验。 大数据发展过程的重大事件大数据发展过程的重大事件 20052005 年年 HadoopHadoop 项目诞生。项目诞生。 Hadoop 其最初只是雅虎公司用来解决网页搜索 问题的一个项目,后来因其技术的高效性,被 Apache Software Foundation 公 司引入并成为开源应用。Hadoop 本身不是一个产品,而是由多个软件产品组成 的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。从技 术上看,Hadoop 由两项关键服务构成:采用 Hadoop 分布式文件系统(HDFS) 的可靠数据存储服务,以及利用一种叫做 MapReduce 技术的高性能并行数据处 理服务。这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、 可靠分析变为现实的基础。 20082008 年末,年末,“大数据大数据”得到部分美国知名计算机科学研究人员的认可得到部分美国知名计算机科学研究人员的认可,业 界组织计算社区联盟 (Computing Community Consortium),发表了一份有影响 力的白皮书大数据计算:在商务、科学和社会领域创建革命性突破。它使 人们的思维不仅局限于数据处理的机器,并提出:大数据真正重要的是新用途 和新见解,而非数据本身。此组织可以说是最早提出大数据概念的机构。 20092009 年印度政府建立了用于身份识别管理的生物识别数据库年印度政府建立了用于身份识别管理的生物识别数据库,联合国全球 脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格 到疾病爆发之类的问题。 20092009 年中,美国政府通过启动年中,美国政府通过启动 DD 网站的方式进一步开放了数据的网站的方式进一步开放了数据的 大门,大门,这个网站向公众提供各种各样的政府数据。该网站的超过 4.45 万量数据 集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定 区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推 出类似举措。 20092009 年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关 系致力于改善在互联网上获取科学数据的简易性。系致力于改善在互联网上获取科学数据的简易性。 20102010 年年 2 2 月,肯尼斯月,肯尼斯库克尔在经济学人上发表了长达库克尔在经济学人上发表了长达 1 14 4 页的大数页的大数 据专题报告数据,无所不在的数据。据专题报告数据,无所不在的数据。库克尔在报告中提到:“世界上有着 无法想象的巨量数字信息,并以极快的速度增长。从经济界到科学界,从政府 部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。科学家和计 算机工程师已经为这个现象创造了一个新词汇:“大数据”。库克尔也因此成 为最早洞见大数据时代趋势的数据科学家之一。 20112011 年年 2 2 月,月,IBMIBM 的沃森超级计算机每秒可扫描并分析的沃森超级计算机每秒可扫描并分析 4TB4TB(约(约 2 2 亿页文亿页文 字量)的数据量字量)的数据量,并在美国著名智力竞赛电视节目危险边缘“Jeopardy” 上击败两名人类选手而夺冠。后来纽约时报认为这一刻为一个“大数据计算的 胜利。” 20112011 年年 5 5 月,全球知名咨询公司麦肯锡月,全球知名咨询公司麦肯锡(McKinsey&Company)(McKinsey&Company)肯锡全球研究肯锡全球研究 院(院(MGIMGI)发布了一份报告)发布了一份报告大数据:创新、竞争和生产力的下一个新领大数据:创新、竞争和生产力的下一个新领 域,大数据开始备受关注,域,大数据开始备受关注,这也是专业机构第一次全方面的介绍和展望大数 据。报告指出,大数据已经渗透到当今每一个行业和业务职能领域,成为重要 的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消 费者盈余浪潮的到来。报告还提到,“大数据”源于数据生产和收集的能力和 速度的大幅提升由于越来越多的人、设备和传感器通过数字网络连接起 来,产生、传送、分享和访问数据的能力也得到彻底变革。 20112011 年年 12 12 月,工信部发布的物联网十二五规划上,把信息处理技术作为月,工信部发布的物联网十二五规划上,把信息处理技术作为 4 4 项关键技术创新工程之一被提出来项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、 图像视频智能分析,这都是大数据的重要组成部分。 20122012 年年 1 1 月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一月份,瑞士达沃斯召开的世界经济论坛上,大数据是主题之一, 会上发布的报告大数据,大影响(Big Data, Big Impact) 宣称,数据已经 成为一种新的经济资产类别,就像货币或黄金一样。 20122012 年年 3 3 月,美国奥巴马政府在白宫网站月,美国奥巴马政府在白宫网站发布了大数据研究和发展倡发布了大数据研究和发展倡 议,议,这一倡议标志着大数据已经成为重要的时代特征。2012 年 3 月 22 日, 奥巴马政府宣布 2 亿美元投资大数据领域,是大数据技术从商业行为上升到国 家科技战略的分水岭,在次日的电话会议中,政府对数据的定义“未来的新石 油”,大数据技术领域的竞争,事关国家安全和未来。并表示,国家层面的竞 争力将部分体现为一国拥有数据的规模、活性以及解释、运用的能力;国家数 字主权体现对数据的占有和控制。数字主权将是继边防、海防、空防之后,另 一个大国博弈的空间。 20122012 年年 4 4 月,月,美国软件公司美国软件公司 SplunkSplunk 于于 1919 日在纳斯达克成功上市,成为第日在纳斯达克成功上市,成为第 一家上市的大数据处理公司。一家上市的大数据处理公司。鉴于美国经济持续低靡、股市持续震荡的大背 景,Splunk 首日的突出交易表现尤其令人们印象深刻,首日即暴涨了一倍多。 Splunk 是一家领先的提供大数据监测和分析服务的软件提供商,成立于 2003 年。Splunk 成功上市促进了资本市场对大数据的关注,同时也促使 IT 厂商加 快大数据布局。 20122012 年年 7 7 月,联合国在纽约发布了一份关于大数月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了据政务的白皮书,总结了 各国政府如何利用大数据更好地服务和保护人民各国政府如何利用大数据更好地服务和保护人民。这份白皮书举例说明在一个 数据生态系统中,个人、公共部门和私人部门各自的角色、动机和需求:例如 通过对价格关注和更好服务的渴望,个人提供数据和众包信息,并对隐私和退 出权力提出需求;公共部门出于改善服务,提升效益的目的,提供了诸如统计 数据、设备信息,健康指标,及税务和消费信息等,并对隐私和退出权力提出 需求;私人部门出于提升客户认知和预测趋势目的,提供汇总数据、消费和使 用信息,并对敏感数据所有权和商业模式更加关注。白皮书还指出,人们如今 可以使用的极大丰富的数据资源,包括旧数据和新数据,来对社会人口进行前 所未有的实时分析。联合国还以爱尔兰和美国的社交网络活跃度增长可以作为 失业率上升的早期征兆为例,表明政府如果能合理分析所掌握的数据资源,将 能“与数俱进”,快速应变。 20122012 年年 7 7 月,为挖掘大数据的价值,阿里巴巴集团在管理层设立月,为挖掘大数据的价值,阿里巴巴集团在管理层设立“首席数首席数 据官据官”一职,一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平 台“聚石塔”,为天猫、淘宝平台上的电商及电商服务商等提供数据云服 务。随后,阿里巴巴董事局主席马云在 2012 年网商大会上发表演讲,称从 2013 年 1 月 1 日起将转型重塑平台、金融和数据三大业务。马云强调:“假如 我们有一个数据预报台,就像为企业装上了一个 GPS 和雷达,你们出海将会更 有把握。”因此,阿里巴巴集团希望通过分享和挖掘海量数据,为国家和中小 企业提供价值。此举是国内企业最早把大数据提升到企业管理层高度的一次重 大里程碑。阿里巴巴也是最早提出通过数据进行企业数据化运营的企业。 20142014 年年 4 4 月,世界经济论坛以月,世界经济论坛以“大数据的回报与风险大数据的回报与风险”主题发布了全球主题发布了全球 信息技术报告(第信息技术报告(第 1313 版)。版)。报告认为,在未来几年中针对各种信息通信技术 的政策甚至会显得更加重要。在接下来将对数据保密和网络管制等议题展开积 极讨论。全球大数据产业的日趋活跃,技术演进和应用创新的加速发展,使各 国政府逐渐认识到大数据在推动经济发展、改善公共服务,增进人民福祉,乃 至保障国家安全方面的重大意义。 20142014 年年 5 5 月,美国白宫发布了月,美国白宫发布了 20142014 年全球年全球“大数据大数据”白皮书的研究报告白皮书的研究报告 大数据:抓住机遇、守护价值大数据:抓住机遇、守护价值。报告鼓励使用数据以推动社会进步,特别 是在市场与现有的机构并未以其他方式来支持这种进步的领域;同时,也需要 相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或 是防止歧视的坚定信仰。 大数据相关技术的发展大数据相关技术的发展 大数据技术是一种新一代技术和构架,它以成本较低、以快速的采集、处 理和分析技术,从各种超大规模的数据中提取价值。大数据技术不断涌现和发 展,让我们处理海量数据更加容易、更加便宜和迅速,成为利用数据的好助 手,甚至可以改变许多行业的商业模式,大数据技术的发展可以分为六大方 向: (1 1)在大数据采集与预处)在大数据采集与预处理方向。理方向。这方向最常见的问题是数据的多源和多 样性,导致数据的质量存在差异,严重影响到数据的可用性。针对这些问题, 目前很多公司已经推出了多种数据清洗和质量控制工具(如 IBM 的 Data Stage)。 (2 2)在大数据存储与管理方向。)在大数据存储与管理方向。这方向最常见的挑战是存储规模大,存储 管理复杂,需要兼顾结构化、非结构化和半结构化的数据。分布式文件系统和 分布式数据库相关技术的发展正在有效的解决这些方面的问题。在大数据存储 和管理方向,尤其值得我们关注的是大数据索引和查询技术、实时及流式大数 据存储与处理的发展。 (3 3)大数据计算模式方向)大数据计算模式方向。由于大数据处理多样性的需求,目前出现了多目前出现了多 种典型的计算模式,包括大数据查询分析计算(如种典型的计算模式,包括大数据查询分析计算(如 HiveHive)、批处理计算(如)、批处理计算(如 Hadoop MapReduceHadoop MapReduce)、流式计算(如)、流式计算(如 StormStorm)、迭代计算(如)、迭代计算(如 HaLoopHaLoop)、图计)、图计 算(如算(如 PregelPregel)和内存计算(如)和内存计算(如 HanaHana),而这些计算模式的混合计算模式将成 为满足多样性大数据处理和应用需求的有效手段。 (4 4)大数据分析与挖掘方向。)大数据分析与挖掘方向。在数据量迅速膨胀的同时,还要进行深度的 数据深度分析和挖掘,并且对自动化分析要求越来越高,越来越多的大数据数 据分析工具和产品应运而生,如用于大数据挖掘的 R Hadoop 版、基于 MapReduce 开发的数据挖掘算法等等。 (5 5)大数据可视化分析方向。)大数据可视化分析方向。通过可视化方式来帮助人们探索和解释复杂 的数据,有利于决策者挖掘数据的商业价值,进而有助于大数据的发展。很多 公司也在开展相应的研究,试图把可视化引入其不同的数据分析和展示的产品 中,各种可能相关的商品也将会不断出现。可视化工具 Tabealu 的成功上市反 映了大数据可视化的需求。 (6 6)大数据安全方向)大数据安全方向。当我们在用大数据分析和数据挖掘获取商业价值的 时候

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论