大数据是未来的新石油吗_第1页
大数据是未来的新石油吗_第2页
大数据是未来的新石油吗_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据是未来的新石油吗

2013年,大数据(大规模数据)一词已成为社会热点话题。这是继“物联网”和“云计算”之后的另一场技术革命。已经引起了产业界、科技界和政府部门的高度关注。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”美国政府于2012年3月22日公布了“大数据的研究和发展计划”(BigDataResearchandDevelopmentInitiative)。其目的在改进联邦政府的数据收集、组织、分析的技术,以提高从全球各式各样的数据集合中获取知识和预见性的能力。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府预测到了这场技术革命的战略价值,认为大数据是“未来的新石油”。1大数据的定义随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。但是目前还没有统一的定义,《著云台》的分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。一般来说大数据是结构化数据、半结构化数据与非结构化数据的总和。简言之,大数据(BigData)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。1.1个人计算机硬盘的价值分析经过一定时期的研究,业界人士认为大数据的特点可以归纳为4个“V”———Volume,Variety,Value,Velocity。或者说特点有4个特征:(1)数据体量巨大。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级;(2)数据类型繁多。这种类型的多样性使得数据被分为结构化数据和非结构化数据,相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等;(3)价值密度低。若是以视频为例,在连续不间断监控过程中,可能有用的数据仅仅有一两秒;(4)处理速度快。这是大数据不同于传统数据挖掘的最显著特点。根据IDC的调查报告,预计到2020年,全球数据使用量将达到35.2ZB。在这样的海量数据面前,处理数据的工作效率就是企业的生命。1.2云为大量信息构建的采用和应用提供了新的技术基础目前,云计算已经普及并成为IT行业的主流技术,其实质是在计算量越来越大、数据越来越多、越来越动态、越来越实时的需求背景下被催生出来的一种基础架构和模式。可以说,云是一座用大数据砌成的金字塔。大数据的出现,正在引发全球范围内深刻的技术与商业变革。在技术上,大数据使从数据当中提取信息的常规方式发生了变化。大数据以分布式的处理手段应用在云这个金字塔平台上。云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。云计算是大数据成长的驱动力,而另一方面,由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。1.3noaa与地震数据处理大数据分析技术主要涵盖5个方面:可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理等,2012年3月11日,日本大地震发生后仅9min,美国国家海洋和大气管理局(NO-AA)就发布了详细的海啸预警。随即,NOAA通过对海洋传感器获得的实时数据进行计算机模拟,制作的海啸影响模型出现在YouTube等网站。这个事例子证实,大数据分析技术可以让我们在在灾难发生之前,能够做到一定程度的预测,这使得我们可以最大程度的保护生命安全和避免经济损失。当下大数据的应用不仅仅停留在IT领域,在医药、科学、制造以及气象等行业,都出现海量的数据应用,如果能合理地利用这些资源,对行业将带来巨大的推动,但目前来看,大数据应用尚不广泛。由于大数据的特殊性,大数据分析技术还处于发展阶段,老技术会日趋完善,新技术会更多出现。2大数据技术在图书馆服务中的应用2.1基于数据挖掘的图书馆数据处理随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。所谓数据挖掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘技术在商业领域内的应用给图书馆带来了很大启发,图书馆读者具有人数众多、年龄不同、专业方向不同等特点,这样的读者特点给图书馆提出了不同的个性化要求。如何满足读者的需求,提高读者的满意度,给读者提供更好的服务。2.2预测性分析能力有助于应对图书馆未来的生存危机据OCLC的《ResearchLibraries,Risks,andSysteMicChange》研究报告调查显示:在未来社会,价值质疑、技术障碍、人员队伍无法适应挑战等重大问题将严重困扰着图书馆,高校教职工已经逐步弱化了图书馆存在价值,图书馆用户流失异常严重,我们通过大数据技术的预测性分析能力不仅可以通过数据了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等需要,更可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测,从而应对图书馆未来所面对的各种生存危机。2.3新型知识服务引擎技术引擎是图书馆信息服务的技术核心,如何利用大数据技术构建图书馆的新型知识服务引擎,将会是未来几年内图书馆领域内信息技术研究的主要热点。新型知识服务引擎包括资源及学术搜索引擎、资源及服务推荐引擎、知识服务社区实体(包括用户及资源)行为智能分析引擎、用户知识需求预测引擎、多维度信息资源获取、组织、分析及决策引擎等。例如,美国Hiptype公司将大数据分析技术用来分析电子书读者阅读习惯和喜好,这也是国内外图书馆领域首例利用大数据技术构建知识服务社区实体(包括用户及资源)行为智能分析引擎。3大数据的存在意义大数据时代的来临改变了传统的IT架构与数据存储也将会对以存储信息知识,提供信息服务的信息中心的图书馆形成冲击和挑战。大数据技术在未来几年里将给图书馆领域带来革命性、持续性和创造性的变化,大数据的出现,将改变我们对数据的看法与认识,数据的存在不仅有价值,大数据更是能将其转化为有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论