大数据信息检索论文_第1页
大数据信息检索论文_第2页
大数据信息检索论文_第3页
大数据信息检索论文_第4页
大数据信息检索论文_第5页
免费预览已结束,剩余2页可下载查看

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据的概念、技术与挑战学院:信息科学与技术学院专业名称:计算机应用技术学号:姓名:指导教师:时间:大数据的概念、技术与挑战【摘要】计算、物联网、社交网络等新兴服务促使人类社会的数据种类和规模正以前所未有的速度增长,大数据时代正式到来.数据从简单的处理对象开始转变为一种基础性资源,如何更好地管理和利用大数据已经成为普遍关注的话题.大数据的规模效应给数据存储、管理以及数据分析带来了极大的挑战,数据管理方式上的变革正在酝酿和发生.对大数据的基本概念进行剖析,并对大数据的主要应用作简单对比.在此基础上,阐述大数据处理的基本框架,并就云计算技术对于大数据时代数据管理所产生的作用进行分析.最后归纳总结大

2、数据时代所面临的新挑战.【关键词】大数据,技术,挑战,数据分析,云计算近年来,伴随着物联网、云计算、移动互联网等新技术的迅猛发展,数据正以前所未有的速度不断增长和积累,大数据时代已经到来,这引起了产业界学术界科技界和政府机构的广泛关注。大数据的火热并不意味着对于大数据的了解深入,反而表明大数据存在过度炒作的危险.大数据的基本概念、关键技术以及对其利用上均存在很多的疑问和争议。一、大数据的基本概念及大数据时代产生的必然数据是云计算技术的延伸,更是社会进步和发展的必然结果,大数据时代的到来引领了未来IT技术发展的战略走向。在信息和网络技术飞速发展的今天,越来越多的企业业务及社会活动实现了数字化,特

3、别是随着数据生成的自动化及数据生成速度的加快,数据量也随之快速增长。同时,随着存储设备、内存、处理器等电脑元件成本的稳定下降,使得之前较昂贵的大规模数据存储和处理变得十分经济,也使得大数据的存在成为可能。传感器数据也是大数据的主要来源之一。在物联网时代,成万上亿计的网络传感器嵌入在数量不断增长的智能电表、移动电话、汽车等物理设备中,不断感知、生成并传输超大规模的有关地理位置、振动、温度、湿度等新型数据。二、大数据的特点及关键技术分析1 .大数据的特点大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点大数据具有以下4个特点,即4个V:(1)数据体量(Volumes)

4、巨大大型数据集,从TB级别,跃升到PB级别;(2)数据类别(Variety)繁多数据来自多种数据源,数据种类和格式冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;(3)价伯:(Value)密度低以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟;(4)处理速度(Velocity)快包含大量在线或实时数据分析处理的需求,1秒定律。随着互联网技术的不断发展,数据本身就是资产云计算为数据资产提供了保管访问的场所和渠道,但如何盘活数据资产,使其为国家治理企业决策乃至个人生活服务,是大数据的核心议题,也是云计算的灵魂和必然的升级方向。2 .关键技术2.1 云计算;大数据的基础平

5、台与支撑技术如果将各种大数据的应用比作一辆辆“汽车”,支撑起这些“汽车”运行的“高速公路”就是云计算.正是云计算技术在数据存储、管理与分析等方面的支撑,才使得大数据有用武之地.文件系统是支撑上层应用的基础。原始的数据存储在文件系统之中,但是用户习惯通过数据库系统来存取文件.因为这样会屏蔽掉底层的细节,且方便数据管理.直接采用关系模型的分布式数据库并不能适应大数据时代的数据存储。据查询是数据库最重要的应用之一,而索引则是解决数据查询问题的有效方案。而数据分析技术是最核心的业务。2.2 大数据处理工具关系数据库在很长的时间里成为数据管理的最佳选择,但是在大数据时代,数据管理、分析等的需求多样化使得

6、关系数据库在很多场景不再适用.而HadOop是目前最为流行的大数据处理平台.而Hadoop最先是DougCutting模仿GFS,MapReduce实现的一个云计算开源平台,后贡献给Apache.Hadoop已经发展成为包括文件系统(HDFS)、数据库(HBase、Cassandra)数据处理(MapReduce污功能模块在内的完整生态系统(Ecosystem).某种程度上可以说Hadoop已经成为大数据处理工具事实上的标准.三、大数据时代面临的机遇与挑战综上所述,大数据时代的数据存在着如下几个特点:多源异构;分布广泛;动态增长;先有数据后有模式.正是这些与传统数据管理迥然不同的特点,使得大数

7、据时代的数据管理面临着新的机遇与挑战。(一)大数据带来的机遇1 .大数据的挖掘和应用成为核心,将从多个方面创造价值。大数据的重心将从存储和传输,过渡到数据的挖掘和应用,这将深刻影响企业的商业模式据麦肯锡测算,大数据的应用每年潜在可为美国医疗健康业和欧洲政府分别节省3000亿美元和1000亿欧元,利用个人位置信息潜在可创造出6000亿美元价值,因此大数据应用具有远超万亿美元的大市场。2 .大数据利用中安全更加重要,为信息安全带来发展契机。随着移动互联网物联网等新兴IT技术逐渐步入主流,大数据使得数据价值极大提高,无处不在的数据,对信息安全提出了更高要求同时,大数据领域出现的许多新兴技术与产品将为

8、安全分析提供新的可能性;信息安全和云计算贯穿于大数据产业链的各个环节,云安全等关键技术将更安全地保护数据大数据对信息安全的要求和促进将推动信息安全产业的大发展。3 .大数据时代来临,使商业智能信息安全和云计算具有更大潜力。大数据产业链按产品形态分为硬件基础软件和应用软件三大领域,商业智能信息安全和云计算主题横跨三大领域,将构成产业链中快速发展的三驾马车就国内而言,商业智能市场已步入成长期,预计未来3年复合年均增长率(CAGR)为35%,十二五期间潜在产值将超300亿元;信息安全预计未来3年CAGR有望保持35%40%的快速增长,十二五期间潜在产值将超4000亿元;云计算刚进入成长期,预计未来5

9、年CAGR将超50%,2015年产业规模预计将达1万亿元。(二)面临的挑战1 .大数据集成数据的广泛存在性使得数据越来越多地散布于不同的数据管理系统中,为了便于进行数据分析需要进行数据的集成.数据集成看起来并不是一个新的问题,但是大数据时代的数据集成却有了新的需求,因此也面临着新的挑战.1)广泛的异构性.传统的数据集成中也会面对数据异构的问题,但是在大数据时代这种异构性出现了新的变化,大量出现的各种数据本身是非结构化的或弱结构化的,如留言、博客、图像、视频数据等,如何将这些数据转化成一个结构化的格式是研究者面临的一项重大挑战.2)数据质量.数据量大不一定就代表信息量或者数据价值的增大,相反很多

10、时候意味着信息垃圾的泛滥.2 .大数据分析大数据最为严重的风险存在于数据分析层面。数据量的增大会带来规律的丧失和严重失真。传统意义上的数据分析主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系.首先利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(onlineanalyticalprocessing,OI。AP),可以进行多个维度的下钻(drill-down)或上卷(rollup)操作.对于从数据中提炼更深层次的知识的需求促使数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法.这一整套处理流程在处理相对较少的结构化数据时

11、极为高效.但是随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。据阿里巴巴称,虽然其各类业务产生的数据为数据分析创造了非常好的基础条件,然而却招聘不到合适的数据科学家而影响了研发进展。3 .大数据的隐私问题隐私问题由来已久,这基本也是大家最关心的问题。计算机的出现使得越来越多的数据以数字化的形式存储在电脑中,互联网的发展则使数据更加容易产生和传播,数据隐私问题越来越严重.大数据高度依赖数据存储与共享,必须考虑寻求更好的方法消除各种隐患与漏洞,才能有效地管控安全风险。数据的隐私保护是大数据分析和处理面临的重要问题,既是技术问题也是社会学问题。如果对

12、私人数据使用不当,尤其是泄漏有一定关联的多组数据,将导致用户的隐私泄漏。4 .大数据能耗问题在能源价格上涨、数据中心存储规模不断扩大的今天,高能耗已逐渐成为制约大数据快速发展的一个主要瓶颈.从小型集群到大规模数据中心都面临着降低能耗的问题,但是尚未引起足够多的重视,相关的研究成果也较少.在大数据管理系统中,能耗主要由两大部分组成:硬件能耗和软件能耗,二者之中又以硬件能耗为主.理想状态下,整个大数据管理系统的能耗应该和系统利用率成正比.但是实际情况并不像预期情况,系统利用率为0时仍然有能量消耗。5 .大数据处理与硬件的协同硬件的快速升级换代有力地促进了大数据的发展,但是这也在一定程度上造成了大量

13、不同架构硬件共存的局面.大数据处理必须要有舍才有得。可以通过舍弃一些不必要的性能和精确性来获取更为重要的性能和精确性。6 .大数据管理易用性问题从数据集成到数据分析,直到最后的数据解释,易用性应当贯穿整个大数据的流程.易用性的挑战突出体现在两个方面:首先大数据时代的数据量大,分析更复杂,得到的结果形式更加多样化.其复杂程度已经远远超出传统的关系数据库.其次大数据已经广泛渗透到人们生活的各个方面,很多行业都开始有了大数据分析的需求.7 .性能测试基准数据库产品的成功离不开以TPC系列为代表的测试基准的产生.正是有了这些测试基准,才能够准确地衡量不同数据库产品的性能,并对其存在的问题进行改进。在过

14、去20年里,产业基准起到了很大的作用。在制定行业的标准时,性能、持有成本和能源效率是成功的三大关键。产业界标准的基准都扮演了非常重要的作用,进一步推动了计算机产业科学的发展1331o四、结果和结论关系像互联网、云计算以及物联网等技术一样,大数据时代的到来势必会再次让信息技术领域焕然一新。大数据时代下,每个个体都是数据的产生者,企业的任何一项业务活动都可以用数据来表示,如何保证大数据的质量,如何建模、提取并利用隐藏在大数据中的信息以提升企业信息系统绩效、提升企业决策能力,成为摆在业界和学术界面前的重大难题。总的来说,目前对于大数据的研究仍处于一个非常初步的阶段,还有很多基础性的问题有待解决.大数据的几个特征中究竟哪个最重要?面对大数据管理我们需要的是简单的技术上的演变(evolution)还是彻底的变革(revoluti

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论