版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
云计算与大数据技术
人民邮电出版社王鹏黄焱安俊秀张逸琴编著
目录CONTENTS第1章云计算与大数据基础第2章云计算与大数据的相关技术第3章虚拟化技术第4章集群系统基础第5章MPI—面向计算第6章Hadoop—分布式大数据系统第7章HPCC—面向数据的高性能计算集群系统第8章Storm—基于拓扑的流数据实时计算系统第9章服务器与数据中心第10章云计算大数据仿真技术第1章云计算与大数据基础《云计算与大数据技术》
第1章云计算与大数据基础1.1云计算技术概述 1.1.1云计算简介
1.1.2云计算的特点 1.1.3云计算技术分类
1.2大数据技术概述1.2.1大数据简介
1.2.2主要的大数据处理系统
1.2.3大数据处理的基本流程
1.3云计算与大数据的发展
1.1.1云计算简介云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型云计算并不是对某一项独立技术的称呼,而是对实现云计算模式所需要的所有技术的总称。云计算技术的内容很多包括分布式计算技术、虚拟化技术、网络技术、服务器技术、数据中心技术、云计算平台技术、存储技术等。从广义上说,云计算技术几乎包括了当前信息技术中的绝大部分。
1.1.1云计算简介维基百科中对云计算的定义为:云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。2012年的国务院政府工作报告将云计算作为国家战略性新兴产业给出了定义:云计算是基于互联网的服务的增加、使用和交付模式,通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。云计算是传统计算机和网络技术发展融合的产物,它意味着计算能力也可作为一种商品通过互联网进行流通。
1.1.1云计算简介云计算技术的出现改变了信息产业传统的格局。传统的信息产业企业既是资源的整合者又是资源的使用者;这这种格局并不符合现代产业分工高度专业化的需求,同时也不符合企业需要灵敏地适应客户的需要。1.1.1云计算简介传统的计算资源和存储资源大小通常是相对固定的,面对客户高波动性的需求时会非常的不敏捷,企业的计算和存储资源要么是被浪费,要么是面对客户峰值需求时力不从心。云计算技术使资源与用户需求之间是一种弹性化的关系,资源的使用者和资源的整合者并不是一个企业,资源的使用者只需要对资源按需付费,从而敏捷地响应客户不断变化的资源需求,这一方法降低了资源使用者的成本,提高了资源的利用效率。
1.1.1云计算简介云计算时代基本的3种角色:
资源的整合运营者、资源的使用者、终端客户。资源的整合运营者就像是发电厂负责资源的整合输出;资源的使用者负责将资源转变为满足客户需求的各种应用;终端客户为资源的最终消费者。1.1.1云计算简介云计算算这种种新的的模式式的出出现被被认为为是信信息产产业的的一大大变革革,吸吸引了了大量量企业业重新新布局局:IBM、微微软、、谷歌歌、DELL等等企业业国内企企业::华为为、中中兴、、腾讯讯、阿阿里、、联想想、浪浪潮、、五舟舟等企企业1.1.1云云计算算简介介云计算算技术术作为为一项项涵盖盖面广广且对对产业业影响响深远远的技技术,,未来来将逐逐步渗渗透到到信息息产业业和其其他产产业的的方方方面面面,并并将深深刻改改变产产业的的结构构模式式、技技术模模式和和产品品销售售模式式,进进而深深刻影影响人人们的的生活活;云计算算会逐逐步成成为人人们生生活中中必不不可少少的技技术;;1.1.1云云计算算简介介移动互互联网网的出出现使使云计计算应应用走走向了了人们们的指指间,,推动动了云云计算算技术术的应应用发发展,,今后后云计计算将将是一一项随随时、、随地地、随随身为为我们们提供供服务务的技技术;;云计算算的出出现也也将如如电的的出现现一般般,为为信息息产业业的发发展提提供无无限的的想象象空间间,使使应用用的创创新能能力得得到完完全释释放。。1.1.1云云计算算简介介1.1.2云云计算算的特特点1.资源池池弹性性可扩扩张2.按需提提供资资源服服务3.虚拟化化4.网络化化的资资源接接入5.高可靠靠性和和安全全性1.1.2云云计算算的特特点与传统统的资资源提提供方方向相相比,,云计计算具具有以以下特特点::(1))资源源池弹弹性可可扩张张云计算算系统统的一一个重重要特特征就就是资源的的集中中管理理和输输出,这就就是所所谓的的资源源池。。从资资源低低效率率的分分散使使用到到资源源高效效的集集约化化使用用正是是云计计算的的基本本特征征之一一。分散的的资源源使用用方法法造成成了资资源的的极大大浪费费,现现在每每个人人都可可能有有一到到两台台自己己的计计算机机,但但对这这种资资源的的利用用率却却非常常的低低,计计算机机在大大量时时间都都是在在等待待状态态或是是在处处理文文字数数据等等低负负荷的的任务务。资源集集中起起来后后资源源的利利用效效率会会大大大地提提高,,随着着资源源需求求的不不断提提高,,资源源池的的弹性性化扩扩张能能力成成为云云计算算系统统的一一个基基本要要求,,云计计算系系统只只有具具备了了资源源的弹弹性化化扩张张能力力才能能有效效地应应对不不断增增长的的资源源需求求。大多数数云计计算系系统都都能较较为方方便地地实现现新资资源的的加入入。1.1.2云云计算算的特特点(2))按需需提供供资源源服务务云计算算系统统带给给客户户最重重要的的好处处就是是敏捷捷地适应用用户对对资源源不断断变化化的需需求;云计算算系统统实现现按需向向用户户提供供资源源能大大大节省省用户户的硬硬件资资源开开支,,用户户不用用自己己购买买并维维护大大量固固定的的硬件件资源源,只只需向向自己己实际际消费费的资资源量量来付付费;;按需提提供资资源服服务使使应用用开发发者在在逻辑辑上可可以认认为资资源池池的大大小是是不受受限制制的,,应用用开发发者的的主要要精力力只需需要集集中在在自己己的应应用上上。1.1.2云云计算算的特特点(3))虚拟拟化现有的的云计计算平平台的的重要要特点点是利利用软软件来来实现现硬件件资源源的虚虚拟化化管理理、调调度及及应用用。在云计算中利利用虚拟化技技术可大大降降低维护成本本和提高资源源的利用率。。1.1.2云云计算的特特点(4)网络化化的资源接入入。从最终用户的的角度看,基于云计算算系统的应用用服务通常都都是通过网络络来提供的,,应用开发者者将云计算中中心的计算、、存储等资源源封装为不同同的应用后往往往会通过网网络提供给最最终的用户。。云计算技术必必须实现资源源的网络化接接入才能有效效地向应用开开发者和最终终用户提供资资源服务。以网络技术的的发展是推动动云计算技术术出现的首要要动力。1.1.2云云计算的特特点(5)高可靠靠性和安全性性。用户数据存储储在服务器端端,而应用程程序在服务器器端运行,计计算由服务器器端来处理。。所有的服务务分布在不同同的服务器上上,如果什么么地方(节点点)出问题就就在什么地方方终止它,另另外再启动一一个程序或节节点,即自动处理失败败节点,从而保证了了应用和计算算的正常进行行。数据被复制到到多个服务器器节点上有多多个副本(备备份),存储储在云里的数数据即使遇到到意外删除或或硬件崩溃也也不会受到影影响。1.1.2云云计算的特特点1.1.3云云计算技术术分类1.1.3云云计算技术术分类1.按技术路路线分类2.按服务对对象分类3.按资源封封装的层次分分类目前已出现的的云计算技术术种类非常多多,对于云计计算的分类可可以有多种角角度:从技术路线角角度可以分为为资源整合型型云计算和资资源切分型云云计算;从服务对像角角度可以被分分为公有云和和私有云;按资源封装的的层次来分可可以分为:基础设施即服服务(InfrastructureasaService,,IaaS))平台即服务((PlatformasaService,PaaS)软件即服务((SoftwareasaService,SaaS)。1.1.3云云计算技术术分类1.按技术路路线分类资源整合型云云计算:这种类型的云云计算系统在在技术实现方方面大多体现现为集群架构构,通过将大大量节点的计计算资源和存存储资源整合合后输出。这类系统通常常能实现跨节节点弹性化的的资源池构建建,核心技术术为分布式计计算和存储技技术。MPI、Hadoop、、HPCC、、Storm等都可以被被分类为资源源整合型云计计算系统。1.1.3云云计算技术术分类资源切分型云云计算:这种类型最为为典型的就是是虚拟化系统统,这类云计计算系统通过过系统虚拟化化实现对单个个服务器资源源的弹性化切切分,从而有有效地利用服服务器资源,,其核心技术术为虚拟化技技术。这种技术的优优点是用户的的系统可以不不做任何改变变接入采用虚虚拟化技术的的云系统,是是目前应用较较为广泛的技技术,特别是是在桌面云计计算技术上应应用得较为成成功;缺点是跨节点点的资源整合合代价较大;;KVM、VMware都都是这类技术术的代表。1.1.3云云计算技术术分类2.按服务对对象分类公有云:指服务对象是是面向公众的的云计算服务务,公有云对对云计算系统统的稳定性、、安全性和并并发服务能力力有更高的要要求。私有云:指主要服务于于某一组织内内部的云计算算服务,其服服务并不向公公众开放,如如企业、政府府内部的云服服务。公有云与私有有云的界限并并不是特别清清晰,有时服服务于一个地地区和团体的的云也被称为为公有云。所所以这种云计计算分类方法法并不是一种种准确的分类类方法,主要要是在商业领领域的一种称称呼。1.1.3云云计算技术术分类3.按资源封封装的层次分分类基础设施即服服务(InfrastructureasaService,,IaaS):把单纯的计算算和存储资源源不经封装地直接通过网网络以服务的形式式提供的用户使使用。这类云计算服服务用户的自自主性较大,,就像是发电电厂将发的电电直接送出去去一样。这类云服务的的对象往往是是具有专业知识识能力的资源使用者者,传统数据据中心的主机机租用等可能能作为IaaS的典型代代表。1.1.3云云计算技术术分类平台即服务((PlatformasaService,PaaS):计算和存储资资源经封装后,以某种接口和和协议的形式式提供给用户调调用,资源的的使用者不再再直接面对底底层资源。平台即服务需需要平台软件件的支撑,可可以认为是从从资源到应用用软件的一个个中间件,通过这类中中间件可以大大大减小应用用软件开发时时的技术难度度。这类云服务的的对象往往是是云计算应用用软件的开发者,平台软件的的开发需要使使用者具有一定的技技术能力。1.1.3云云计算技术术分类软件即服务((SoftwareasaService,SaaS):将计算和存储储资源封装为用户可以直接接使用的应用并通过过网络提供给给用户;SaaS面向向的服务对象象为最终用户,用户只是对软件功能进进行使用,无需了解任任何云计算系系统的内部结结构,也不需需要用户具有有专业的技术术开发能力。。1.1.3云云计算技术术分类图1.1云云计算服务体体系结构如图所示,云云计算系统按按资源封装的的层次分为IaaS、PaaS、SaaS,分分为对底层硬硬件资源不同同级别的封装装,从而实现现将资源转变变为服务的目目的。传统的信息系系统资源的使使用者通常是是以直接占有有物理硬件资资源的形式来来使用资源的的,而云计算算系统通过IaaS、PaaS、SaaS等不不同层次的封封装将物理硬硬件资源封装装后,以服务务的形式利用用网络提供给给资源的使用用者。在这里资源的的使用者可能能是资源的二二次加工者,,也可能是最最终应用软件件的使用者,,通常IaaS、PaaS层面向的的资源使用者者往往是资源源的二次加工工者,这类资资源的使用者者并不是资源源的最终消费费者,他们将将资源转变为为应用服务程程序后以SaaS的形式式提供给资源源的最终消费费者。实现对物理资资源封装的技技术并不是惟惟一的,目前前不少的软件件都能实现,,甚至有的系系统只有SaaS层,并并没有进行逐逐层的封装。。1.1.3云云计算技术术分类云计算的服务务层次是根据据服务类型即即服务集合来来划分,与大大家熟悉的计计算机网络体体系结构中层层次的划分不不同。在计算机网络络中每个层次次都实现一定定的功能,层层与层之间有有一定关联。。而云计算体体系结构中的的层次是可以以分割的,即即某一层次可可以单独完成成一项用户的的请求而不需需要其他层次次为其提供必必要的服务和和支持。1.1.3云云计算技术术分类在云计算服务务体系结构中中各层次与相相关云产品对对应。应用层对应SaaS软件件即服务,如:GoogleAPPS、SoftWare+Services。平台层对应PaaS平台台即服务,如:IBMITFactory、GoogleAPPEngine、F。基础设施层对对应IaaS基础设施即即服务,如:AmazoEC2、IBMBlueCloud、SunGrid。。虚拟化层对应应硬件即服务务,结合PaaS提供硬硬件服务,包括服务器集集群及硬件检检测等服务。。1.1.3云云计算技术术分类1.2大数数据技术概述述1.2大数数据技术概述述1.2.1大大数据简介介1.什么是大大数据2.数据的来来源3.生产数据据的三个阶段段4.大数据的的特点5.大数据的的应用领域1.2大数数据技术概述述1.2.1大大数据简介介计算和数据是是信息产业不不变的主题,,在信息和网网络技术迅速速发展的推动动下,人们的的感知、计算算、仿真、模模拟、传播等等活动产生了了大量的数据据,数据的产产生不受时间间、地点的限限制,大数据据的概念逐渐渐形成,大数数据涵盖了计计算和数据两两大主题,是是产业界和学学术界的研究究热点,被誉誉为未来十年年的革命性技技术。1.2.1大大数据简介介2008年,,《Nature》杂志志推出了“大大数据”专辑辑,引发了学学术界和产业业界的关注;;2011年,,大数据应用用进入我国并并快速发展,,目前大数据据的应用和研研究已经是学学术界和产业业界的热点;;2012年3月,美国政政府发布《大大数据研究和和发展倡议》》,投资2亿亿美元发展大大数据,用用以强化国土土安全、转变变教育学习模模式、加速科科学和工程领领域的创新速速度和水平;;2012年7月月,日本本提出以以电子政政府、电电子医疗疗、防灾灾等为中中心制定定新ICT(信信息通信信技术))战略,,发布““新ICT计划划”,重重点关注注大数据据研究和和应用;;2013年1月月,英国国政府宣宣布将在在对地观观测、医医疗卫生生等大数数据和节节能计算算技术方方面投资资1.89亿英英镑;2013年我国国上海、、重庆等等地相继继发布大大数据行行动计划划。1.什么么是大数数据维基百科科将大数据描述为::大数据是是现有数数据库管管理工具具和传统统数据处处理应用用很难处处理的大大型、复复杂的数数据集,,大数据据的挑战战包括采采集、存存储、搜搜索、共共享、传传输、分分析和可可视化等等。大数据的的“大”是一个动态的概念以前10GB的的数据是是个天文文数字;;而现在在,在地地球、物物理、基基因、空空间科学学等领域域,TB级的数数据集已已经很普普遍。大大数据系系统需要要满足以以下三个个特性。
(1)规模模性(Volume)):需要要采集、、处理、、传输的的数据容容量大;;(2))多样性性(Variety)):数据据的种类类多、复复杂性高高;((3)高高速性((Velocity)):数据据需要频频繁地采采集、处处理并输输出。1.2.1大大数据简简介2.数据据的来源源大数据的的数据来源源很多,主主要有信息管理理系统、、网络信信息系统统、物联联网系统统、科学学实验系系统等;其数据类型型包括结构化数数据、半结构化化数据和非结构化化数据。(1)管管理信息息系统::企业内内部使用用的信息息系统,,包括办办公自动动化系统统、业务务管理系系统等,,是常见见的数据据产生方方式。管管理信息息系统主主要通过过用户输输入和系系统的二二次加工工的方式式生成数数据,其其产生的的数据大大多为结结构化数数据,存存储在数数据库中中。1.2.1大大数据简简介(2)网网络信息息系统::基于网网络运行行的信息息系统是是大数据据产生的的重要方方式,电电子商务务系统、、社交网网络、社社会媒体体、搜索索引擎等等都是常常见的网网络信息息系统,,网络信信息系统统产生的的大数据据多为半半结构化化或无结结构化的的数据,,网络信信息系统统与管理理信息系系统的区区别在于于管理信信息系统统是内部部使用的的,不接接入外部部的公共共网络。。(3)物物联网系系统:通通过传感感器获取取外界的的物理、、化学、、生物等等数据信信息。(4)科科学实验验系统::主要用用于学术术科学研研究,其其环境是是预先设设定的,,数据既既可以是是由真实实实验产产生也可可以是通通过模拟拟方式获获取仿真真的。1.2.1大大数据简简介3.生产产数据的的三个阶阶段(1)被被动式生生成数据据:数据库技技术使得得数据的的保存和和管理变变得简单单,业务务系统在在运行时时产生的的数据直直接保存存数据库库中,这这个时候候数据的的产生是是被动的的,数据据是随着着业务系系统的运运行产生生的。1.2.1大大数据简简介(2)主主动式生生成数据据:互联网的的诞生尤尤其是Web2.0、移动动互联网网的发展展大大加加速了数数据的产产生,人人们可以以随时随随地通过过手机等等移动终终端随时时随地地地生成数数据,人人们开始始主动地地生成数数据。(3)感感知式生生成数据据:感知技术术尤其是是物联网网的发展展促进了了数据生生成方式式发生了了根本性性的变化化,遍布布在城市市各个角角落的摄摄像头等等数据采采集设备备源源不不断地自自动采集集、生成成数据。。1.2.1大大数据简简介4.大数数据的特特点(1)数数据产生生方式::在大数据据时代,,数据的的产生方方式发生生了巨大大的变化化,数据据的采集集方式由由以往的的被动采集集数据转变为主动生成成数据。(2)数数据采集集密度:以往我们们进行数数据采集集时的采样密度度较低,获得的的采样数据据有限;在大数据据时代,,有了大大数据处处理平台台的支撑撑,我们们可以对对需要分分析的事事件的数数据进行行更加密集集地采样样,从而精确地获取事件的全局数据据。(3)数数据源:以往我们们多从各各个单一的数数据源获取数据据,获取取的数据据较为孤孤立,不不同数据据源之间间的数据据整合难难度较大大;在大数据据时代,,我们可可以通过过分布式式计算、、分布式式文件系系统、分分布式数数据库等等技术对对多个数数据源源获取的的数据据进行行整合处处理。1.2.1大大数据据简介介(4))数据据处理理方式式:以往我我们对对数据据的处处理大大多采采用离线处处理的方式式,对对已经经生成成的数数据集集中进进行分分析处处理,,不对对实时时产生生的数数据进进行分分析;;在大数数据时时代,,我们们可以以根据据应用用的实实际需需求对对数据据采取取灵活活的处处理方方式,,对于于较大大的数数据源源、响应时间要求求低的应用可以采取批处理的方式进行集集中计算,而而对于响应时间要求求高的实时数据处理则采用流处理的方式进行实时计算,并且可以通通过对历史数据的分析进行预测分析;1.2.1大大数据简介介大数据需要处处理的数据大小通常达到到PB(1024TB))或EB(1024PB))级;数据的的类型多种多多样,包括结构化数据、半结构化数据和非结构化数据;巨大的数据量量和种类繁多多的数据类型型给大数据系系统的存储和和计算带来很很大挑战,单单节点的存储储容量和计算算能力成为瓶瓶颈;分布式系统是对大数据进进行处理的基基本方法,分分布式系统将将数据切分后存储到到多个节点上,并在多个节点上上发起计算,解决单节点点的存储和计计算瓶颈。常常见的数据切分的方方法有随机方法、、哈希方法和和区间方法:随机方法将数据随机分分布到不同的的节点;哈希方法根据数据的某某一行或者某某一列的哈希希值将数据分分布到不同的的节点;区间方法将不同的数据据按照不同区区间分布到不不同节点。1.2.1大大数据简介介5.大数据的的应用领域大数据在社会会生活的各个个领域得到广广泛的应用,,不同领域的的大数据应用用具有不同的的特点,其对对响应时间、、系统稳定性性、计算精确确性的要求各各不相同,其其对比如表1.1所示。。表1.1典典型的大数数据应用特征征对比应用领域示例用户数量响应时延数据量级稳定性精确度科学计算基因计算小长TB一般非常高金融股票交易大实时GB非常高非常高社交网络Facebook非常大快速PB高高移动数据移动终端非常大快速TB高高物联网传感网大快速TB高高网页数据新闻网站非常大快速GB高高多媒体视频网站非常大快速GB高一般1.2.1大大数据简介介1.2.2主主要的大数数据处理系统统大数据处理的的数据源类型型多种多样,,如结构化数数据、半结构构化数据、非非结构化数据据,数据处理理的需求各不不相同:对海量已有数数据进行批量量处理,对大量的实时时生成的数据据进行实时处处理,在进行数据分分析时进行反反复迭代计算算,对图数据进行行分析计算。。1.2.2主要的大数据据处理系统目前主要的大大数据处理系系统有:数据查询分析析计算系统、、批处理系统统、流式计算算系统、迭代代计算系统、、图计算系统统和内存计算算系统。1.数据查询询分析计算系系统大数据时代,,数据查询分分析计算系统统需要具备对对大规模数据据进行实时或或准实时查询询的能力,数数据规模的增增长已经超出出了传统关系系型数据库的的承载和处理理能力。目前主要的数数据查询分析析计算系统包包括HBase、Hive、Cassandra、Dremel、Shark、、Hana等等。1.2.2主主要的大数数据处理系统统HBase::开源、分布式式、面向列的的非关系型数数据库模型,,是Apache的Hadoop项项目的子项目目;源于Google论文《《Bigtable:一一个结构化数数据的分布式式存储系统》》,实现了其其中的压缩算算法、内存操操作和布隆过过滤器HBase的的编程语言为为Java。。HBase的表能够作作为MapReduce任务的输入入和输出,可可以通过JavaAPI来存取数数据。1.2.2主主要的大数数据处理系统统Hive:基于Hadoop的数据据仓库工具,,用于查询、、管理分布式式存储中的大大数据集,提提供完整的SQL查询功功能,可以将将结构化的数数据文件映射射为一张数据据表。Hive提供供了一种类SQL语言((HiveQL)可以将将SQL语句句转换为MapReduce任务运运行。1.2.2主主要的大数数据处理系统统Cassandra:开源NoSQL数据库系系统,最早由由Facebook开发发,并于2008年开源源;由于其良好的的可扩展性,,Cassandra被被Facebook、、Twitter、Backspace、Cisco等公公司使用;其数据模型借借鉴了Amazon的的Dynamo和GoogleBigTable,是一种种流行的分布布式结构化数数据存储方案案。1.2.2主主要的大数数据处理系统统Impala:由Cloudera公司司主导开发,,是运行在Hadoop平台上的开开源的大规模模并行SQL查询引擎。。用户可以使用用标准的SQL接口的工工具查询存储储在Hadoop的HDFS和HBase中的的PB级大数数据。1.2.2主主要的大数数据处理系统统Shark::Spark上上的数据仓库库实现,即SQLonSpark;与Hive相相兼容,但处处理HiveQL的的性能比Hive快100倍。。Hana:由SAP公司司开发的与数数据源无关、、软硬件结合合、基于内存存计算的平台台。1.2.2主主要的大数数据处理系统统2.批处理系系统MapReduce是被被广泛使用的的批处理计算算模式。MapReduce对具具有简单数据据关系、易于于划分的大数数据采用“分分而治之”的的并行处理思思想,将数据据记录的处理理分为Map和Reduce两个简简单的抽象操操作,提供了了一个统一的的并行计算框框架。批处理系统将将复杂的并行行计算的实现现进行封装,,大大降低开开发人员的并并行程序设计计难度。Hadoop和Spark是典型的的批处理系统统。MapReduce的批处理模模式不支持迭迭代计算。1.2.2主主要的大数数据处理系统统Hadoop:目前大数据处处理最主流的的平台,是Apache基金会的开开源软件项目目,使用Java语言开开发实现。Hadoop平台使开发发人员无需了了解底层的分分布式细节,,即可开发出出分布式程序序,在集群中中对大数据进进行存储、分分析。1.2.2主主要的大数数据处理系统统Spark::由加州伯克利利大学AMP实验室开发发,适合用于于机器学习、、数据挖掘等等迭代运算较较多的计算任任务。Spark引引入了内存计计算的概念,,运行Spark时服务务器可以将中中间数据存储储在RAM内内存中,大大大加速数据分分析结果的返返回速度,可可用于需要互互动分析的场场景。1.2.2主主要的大数数据处理系统统3.流式计算算系统流式计算具有有很强的实时时性,需要对对应用源源不不断产生的数数据实时进行行处理,使数数据不积压、、不丢失,常常用于处理电电信、电力等等行业应用以以及互联网行行业的访问日日志等。Facebook的Scribe、Apache的的Flume、Twitter的Storm、Yahoo的的S4、UCBerkeley的SparkStreaming是是常用的流式式计算系统。。1.2.2主主要的大数数据处理系统统Scribe:Scribe由Facebook开开发开源系统统,用于从海海量服务器实实时收集日志志信息,对对日志信息进进行实时的统统计分析处理理,应用在Facebook内部。。Flume::Flume由由Cloudera公司开发发,其功能与与Scribe相似,主主要用于实时时收集在海量量节点上产生生的日志信息息,存储到类类似于HDFS的网络文文件系统中,,并根据用户户的需求进行行相应的数据据分析。1.2.2主主要的大数数据处理系统统Storm::基于拓扑的分布式流数据据实时计算系系统,由BackType公公司(后被Twitter收购)开开发,现已经经开放源代码码,并应用于于淘宝、百度度、支付宝、、Groupon、Facebook等平台,,是主要的流流数据计算平平台之一。1.2.2主主要的大数数据处理系统统S4:S4的全称是是SimpleScalableStreamingSystem,是由由Yahoo开发的通用用、分布式、、可扩展、部部分容错、具具备可插拔功功能的平台;;其设计目的是是根据用户的的搜索内容计计算得到相应应的推荐广告告,现已经开开源,是重要要的大数据计计算平台。1.2.2主主要的大数数据处理系统统SparkStreaming::构建在Spark上的流流数据处理框框架,将流式式计算分解成成一系列短小小的批处理任任务进行处理理。网站流量统计计是SparkStreaming的一种典典型的使用场场景,这种应应用既需要具具有实时性,,还需要进行行聚合、去重重、连接等统统计计算操作作;如果使用HadoopMapReduce框框架,则可以以很容易地实实现统计需求求,但无法保保证实时性;;如果使用Storm这这种流式框架架则可以保证证实时性,但但实现难度较较大;SparkStreaming可以以以准实时的方方式方便地实实现复杂的统统计需求。1.2.2主主要的大数数据处理系统统4.迭代计算算系统针对MapReduce不支持迭代代计算的缺陷陷,人们对Hadoop的MapReduce进行了大量量改进,Haloop、、iMapReduce、Twister、Spark是是典型的迭代代计算系统。。HaLoop:Haloop是HadoopMapReduce框架的的修改版本,,用于支持迭迭代、递归类类型的数据分分析任务,如如PageRank、K-means等。iMapReduce::一种基于MapReduce的迭迭代模型,实实现了MapReduce的异步步迭代。Twister:基于于Java的的迭迭代代MapReduce模模型型,,上上一一轮轮Reduce的的结结果果会会直直接接传传送送到到下下一一轮轮的的Map。。Spark::基于于内内存存计计算算的的开开源源集集群群计计算算框框架架。。1.2.2主主要要的的大大数数据据处处理理系系统统5..图图计计算算系系统统社交交网网络络、、网网页页链链接接等等包包含含具具有有复复杂杂关关系系的的图图数数据据,,这这些些图图数数据据的的规规模模巨巨大大,,可可包包含含数数十十亿亿顶顶点点和和上上百百亿亿条条边边,,图图数数据据需需要要由由专专门门的的系系统统进进行行存存储储和和计计算算。。常用用的的图图计计算算系系统统有有Google公公司司的的Pregel、、Pregel的的开开源源版版本本Giraph、、微微软软的的Trinity、、BerkeleyAMPLab的的GraphX以以及及高高速速图图数数据据处处理理系系统统PowerGraph。。1.2.2主主要要的的大大数数据据处处理理系系统统Pregel::Google公公司司开开发发的的一一种种面面向向图图数数据据计计算算的的分分布布式式编编程程框框架架,,采采用用迭迭代代的的计计算算模模型型。。Google的的数数据据计计算算任任务务中中,,大大约约80%的的任任务务处处理理采采用用MapReduce模模式式,,如如网网页页内内容容索索引引;;图图数数据据的的计计算算任任务务约约占占20%,,采采用用Pregel进进行行处处理理。。Giraph:一个个迭迭代代的的图图计计算算系系统统,,最最早早由由雅雅虎虎公公司司借借鉴鉴Pregel系系统统开开发发,,后后捐捐赠赠给给Apache软软件件基基金金会会,,成成为为开开源源的的图图计计算算系系统统。。Giraph是是基基于于Hadoop建建立立的的,,Facebook在在其其脸脸谱谱搜搜索索服服务务中中大大量量使使用用了了Giraph。。1.2.2主主要要的的大大数数据据处处理理系系统统Trinity::微软软公公司司开开发发的的图图数数据据库库系系统统,,该该系系统统是是基基于于内内存存的的数数据据存存储储与与运运算算系系统统,,源源代代码码不不公公开开。。GraphX::由AMPLab开开发发的的运运行行在在数数据据并并行行的的Spark平平台台上上的的图图数数据据计计算算系系统统。。PowerGraph::高速速图图处处理理系系统统,,常常用用于于广广告告推推荐荐计计算算和和自自然然语语言言处处理理。。1.2.2主主要要的的大大数数据据处处理理系系统统6.内内存计计算系系统随着内内存价价格的的不断断下降降、服服务器器可配配置内内存容容量的的不断断增长长,使使用内内存计计算完完成高高速的的大数数据处处理已已成为为大数数据处处理的的重要要发展展方向向。目前常常用的的内存存计算算系统统有分分布式式内存存计算算系统统Spark、、全内内存式式分布布式数数据库库系统统HANA、、Google的的可扩扩展交交互式式查询询系统统Dremel。1.2.2主主要的的大数数据处处理系系统Dremel::Google的的交互互式数数据分分析系系统,,可以以在数数以千千计的的服务务器组组成的的集群群上发发起计计算,,处理理PB级的的数据据。Dremel是是GoogleMapReduce的补补充,,大大大缩短短了数数据的的处理理时间间,成成功地地应用用在Google的的bigquery中。。HANA::SAP公司司开发发的基基于内内存技技术、、面向向企业业分析析性的的产品品。Spark:基于内内存计计算的的开源源集群群计算算系统统。1.2.2主主要的的大数数据处处理系系统1.2.3大大数据据处理理的基基本流流程1.2.3大大数据据处理理的基基本流流程大数据据的处处理流流程可可以定义为在适适合工工具的的辅助助下,,对广广泛异异构的的数据据源进进行抽取和集成,结果果按照照一定定的标标准统统一存储,利用用合适适的数数据分分析技技术对对存储储的数数据进进行分析,从中中提取有益的的知识并利用用恰当当的方方式将将结果果展示给终端端用户户。大大数据据处理理的基基本流流程如如图1.2所示示。图1.2大大数数据处处理的的基本本流程程1.数数据抽抽取与与集成成由于大大数据据处理理的数数据来来源类类型丰丰富,,大数数据处处理的的第一一步是是对数数据进进行抽抽取和和集成成,从从中提提取出出关系系和实实体,,经过过关联联和聚聚合等等操作作,按按照统统一定定义的的格式式对数数据进进行存存储。。现有的的数据据抽取取和集集成方方法有有三种种:基于物物化或或ETL方方法的的引擎擎(MaterializationorETLEngine)、、基于联联邦数数据库库或中中间件件方法法的引引擎((FederationEngineorMediator))、基于数数据流流方法法的引引擎((StreamEngine))。1.2.3大大数据据处理理的基基本流流程2.数数据分分析数据分分析是是大数数据处处理流流程的的核心心步骤骤,通通过数数据抽抽取和和集成成环节节,我我们已已经从从异构构的数数据源源中获获得了了用于于大数数据处处理的的原始始数据据,用用户可可以根根据自自己的的需求求对这这些数数据进进行分分析处处理,,比如如数据据挖掘掘、机机器学学习、、数据据统计计等,,数据据分析析可以以用于于决策策支持持、商商业智智能、、推荐荐系统统、预预测系系统等等。1.2.3大大数据据处理理的基基本流流程3.数数据解解释大数据据处理理流程程中用用户最最关心心的是是数据据处理理的结结果,,正确确的数数据处处理结结果只只有通通过合合适的的展示示方式式才能能被终终端用用户正正确理理解,,因此此数据据处理理结果果的展展示非非常重重要,,可视化化和人机交交互是数据据解释释的主主要技技术。。1.2.3大大数据据处理理的基基本流流程我们在在开发发调试试程序序的时时候经经常通通过打打印语语句的的方式式来呈呈现结结果,,这种种方式式非常常灵活活、方方便,,但只只有熟熟悉程程序的的人才才能很很好地地理解解打印印结果果。使用可视视化技术术,可以以将处理理的结果果通过图图形的方方式直观观地呈现现给用户户,标签签云(TagCloud))、历史史流(HistoryFlow))、空间间信息流流(SpatialInformationFlow)等等是常用用的可视视化技术术,用户户可以根根据自己己的需求求灵活地地使用这这些可视视化技术术;人机交互互技术可可以引导导用户对对数据进进行逐步步的分析析,使用用户参与与到数据据分析的的过程中中,使用用户可以以深刻地地理解数数据分析析结果。。1.2.3大大数据处处理的基基本流程程1.3云云计算算与大数数据的发发展1.3云云计算算与大数数据的发发展1.云计计算与大大数据发发展历程程早在1958年年,人工工智能之之父JohnMcCarthy发发明了函函数式语语言LISP,,LISP语语言后后来成为为MapReduce的思想想来源。。1960年JohnMcCarthy预预言了了:“今今后计算算机将会会作为公公共设施施提供给给公众””,这一一概念与与我们现现在所定定义的云云计算已已非常相相似,但但当时的的技术条条件决定定了这一一设想只只是一种种对未来来技术发发展的预预言。云计算是是网络技技术发展展到一定定阶段后后必然出出现的新新的技术术体系和和产业模模式。1984年SUN公司司提出““网络就就是计算算机”这这一具有有云计算算特征的的论点,,2006年Google公司司CEOEricSchmidt提出出云计算算概念,,2008年云计计算概念念全面进进入中国国,2009年中国国首届云云计算大大会召开开,此后后云计算算技术和和产品迅迅速地发发展起来来。随着社交交网络、、物联网网等技术术的发展展,数据据正在以以前所未未有的速速度增长长和积累累,IDC的研研究数据据表明,,全球的的数据量量每年增增长50%,两两年翻一一番,这这意味着着全球近近两年产产生的数数据量将将超过之之前全部部数据的的总和。。2011年全球球数据总总量已达达1.8ZB,,到2020年年,全球球数据总总量将达达到35ZB。2008年《Nature》》杂志推推出了大大数据专专刊,2011年《Science》杂志志推出大大数据专专刊,讨讨论科学学研究的的中大数数据问题题。2012年大数数据的关关注度和和影响力力快速增增长,成成为当年年达沃斯斯世界经经济论坛坛的主题题,美国国政府启启动大数数据发展展计划。。中国计算算机学会会于2012年年成立了了大数据据专家委委员会,,并发布布了大数数据技术术白皮书书。1.3云云计算算与大数数据的发发展图1.3近年年来云云计算、、大数据据的关注注度如图1.3所示示为云计计算、大大数据两两个关键键词近年年来的网网络关注注度,可可以看出出2012年至至今大数数据的关关注度越越来越高高,云计计算和大大数据是是信息技技术未来来的发展展方向。。1.3云云计算算与大数数据的发发展网络技术术在云计计算和大大数据的的发展历历程中发发挥了重重要的推推动作用用。可以认为为信息技技术的发发展经历历了硬件件发展推推动和网网络技术术推动两两个阶段段。早期主要要以硬件件发展为为主要动动力,在在这个阶阶段硬件件的技术术水平决决定着整整个信息息技术的的发展水水平,硬硬件的每每一次进进步都有有力地推推动着信信息技术术的发展展,从电电子管技技术到晶晶体管技技术再到到大规模模集成电电路,这这种技术术变革成成为产业业发展的的核心动动力。但网络技技术的出出现逐步步地打破破了单纯纯的硬件件能力决决定技术术发展的的格局,,通信带带宽的发发展为信信息技术术的发展展提供了了新的动动力,在在这一阶阶段通信信带宽成成为了信信息技术术发展的的决定性性力量之之一,云云计算、、大数据据技术的的出现正正是这一一阶段的的产物,,其广泛泛应用并并不是单单纯靠某某一个人人发明而而是由于于技术发发展到现现在的必必然产物物,生产产力决定定生产关关系的规规律在这这里依然然是成立立的。1.3云云计算算与大数数据的发发展当前移动动互联网网的出现现并迅速速普及更更是对云云计算、、大数据据的发展展起到了了推动作作用。移动瘦客客户终端端与云计计算资源源池的结结合大大大拓展了了移动应应用的思思路,云云计算资资源得以以在移动动终端上上实现随随时、随随地、随随身资源源服务。。移动互联网再再次拓展了以以网络化资源源交付为特点点的云计算技技术的应用能能力,同时也也改变了数据据的产生方式式,推动了全全球数据的快快速增长,推推动了大数据据的技术和应应用的发展。。1.3云计计算与大数据据的发展云计算是一种种全新的领先先信息技术,,结合IT技技术和互联网网实现超级计计算和存储的的能力,而推推动云计算兴兴起的动力是是高速互联网网和虚拟化技技术的发展、、更加廉价且且功能强劲的的芯片及硬盘盘、数据中心心的发展。云计算作为下下一代企业数数据中心,其其基本形式为为大量链接在在一起的共享享IT基础设设施,不受本本地和远程计计算机资源的的限制,可以以很方便地访访问云中的““虚拟”资源源,使用户和和云服务提供供商之间可以以像访问网络络一样进行交交互操作。1.3云计计算与大数据据的发展云计算的兴起起有以下因素素:(1)高速互互联网技术发发展。云计算能够利利用现有的IT基础设施施在极短的时时间内处理大大量的信息以以满足动态网网络的高性能能的需求。(2)资源利利用率需求。。引入云计算模模式后可以通通过整合资源源或采用租用用存储空间、、租用计算能能力等服务来来降低企业运运行成本和节节省能源。同同时,利用用云计算将资资源集中,统统一提供可靠靠服务,能减减少企业成本本,提升企业业灵活性,企企业可以把更更多的时间用用于服务客户户和进一步研研发新的产品品上。1.3云计计算与大数据据的发展(3)简单与与创新需求。。在实际的业务务需求中,越越来越多的个个人用户和企企业用户都在在期待着使用用计算机操作作能简单化,,能够直接通通过购买软件件或硬件服务务而不是软件件或硬件实体体,为自己的的学习、生活活和工作带来来更多的便利利,能在学习习场所、工作作场所、住所所之间建立便便利的文件或或资料共享的的纽带。而对资源的利利用可以简化化到通过接入入网络就可以以实现自己想想要实现的一一切,就需要要在技术上有有所创新,利利用云计算来来提供这一切切,将我们需需要的资料、、数据、文档档、程序等全全部放在云端端实现同步。。1.3云计计算与大数据据的发展(4)其他需需求连接设备、实实时数据流、、SOA的采采用以及搜索索、开放协作作、社会网络络和移动商务务等的移动互互联网应用急急剧增长,数数字元器件性性能的提升也也使IT环境境的规模大幅幅度提高,从从而进一步加加强了对一个个由统一的云云进行管理的的需求。个人或企业希希望按需计算算或服务,能能在不同的地地方实时实现现项目、文档档的协作处理理,能在繁杂杂的信息中方方便地找到自自己需要的信信息等需求也也是云计算兴兴起的原因之之一。人类历史不断断地证明生产产力决定生产产关系,技术术的发展历史史也证明了技技术能力决定定技术的形态态,1.3云计计算与大数据据的发展纵观整个信息息技术的发展展历史图1.4信信息产业发展展演进路线图图1.3云计计算与大数据据的发展硬件驱动的时时代诞生了IBM、微软软、Intel等企业。。20世纪50年代最早早的网络开始始出现,信息息产业的发展展驱动力中开开始出现网络络的力量,但但当时网络性性能很弱,网网络并不是推推动信息产业业发展的主要要动力,处理理器等硬件的的影响还占绝绝对主导因素素。随着网络的发发展,网络通通信带宽逐步步加大,从20世纪80年代的局域域网到20世世纪90年代代的互联网,,网络逐渐成成为了推动信信息产业发展展的主导力量量,这个时期期诞生了百度度、谷歌、亚亚马逊等企业业。直到云计算的的出现才标志志着网络已成成为信息产业业发展的主要要驱动力,此此时技术的变变革即将出现现。1.3云计计算与大数据据的发展2.为云计算算与大数据发发展做出贡献献的科学家超级计算机之之父—西摩··克雷(SeymourCray)在人类解决计计算和存储问问题的历程中中,西摩·克克雷成为了一一座丰碑,被被称为超级计计算机之父。。西摩·克雷,,生于1925年9月28日,美国国人,1958年设计建建造了世界上上第一台基于于晶体管的超级计算机,成为计算机机发展史上的的重要里程碑碑。同时也对对精简指令((RISC))高端微处理理器的产生有有重大的贡贡献。1972年,他创创办了克雷研研究公司,公公司的宗旨是是只生产超级级计算机。此此后的十余年年中,克雷先先后创造了Cray-1、Cray-2等机型型。作为高性能计计算机领域中中最重要的人人物之一,他他亲手设计了了Cray全全部的硬件与与操作系统。。Cray机机成为了从事事高性能计算算学者中永远远的记忆,到到1986年年1月为止,,世界上有130台超级级计算机投入入使用,其中中大约90台台是由克雷的的上市公司——克雷研究所所研制的。美国的的《商商业周周刊》》在1990年年的一一篇文文章中中曾这这样写写道::“西西摩··克雷雷的天天赋和和非凡凡的干干劲已已经给给本世世纪的的技术术留下下了不不可磨磨灭的的印记记”。。2013年11月月高性性能计计算Top500排排行中中第2名和和第6名均均为Cray机机。图1.5西西摩摩·克克雷1.3云云计算算与大大数据据的发发展2.为为云计计算与与大数数据发发展做做出贡贡
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026民宿消防验收难点及改造技术方案与保险产品定制需求分析报告
- 房地产经纪人工作流程与服务规范方案
- 2026年海口市政府采购中心(公共资源交易中心)人员招聘考试备考试题及答案详解
- 2026年张家界市信访系统事业单位人员招聘考试备考试题及答案详解
- 2026年康复医学治疗技术(副高级职称)考试机考真题带答案详解
- 2026年临沂市税务系统事业单位人员招聘考试备考试题及答案详解
- 2026年六盘水市殡葬管理服务系统事业单位人员招聘考试备考试题及答案详解
- 2026年绵阳市人力资源与社会保障系统事业单位人员招聘考试备考试题及答案详解
- 2026年中山市民政系统事业单位人员招聘考试备考试题及答案详解
- 2026年沈阳市文化和旅游系统事业单位人员招聘考试备考试题及答案详解
- 2026文化和旅游部恭王府博物馆招聘应届毕业生4人考试备考试题及答案解析
- 昆明供电局项目制用工招聘笔试真题2025
- 2026年新国考公共基础知识专项试题及答案
- 2024版公路工程工艺工序标准化手册-路面分册
- 冰淇淋购买合同书模板
- 人工智能知到章节答案智慧树2023年复旦大学
- 世界社会主义五百年
- 无人机组装调试与检修 第五章 无人机系统调试
- SAP风电行业解决方案探讨V1.1
- 站场路基施工方案
- GBZ/T(卫生) 262-2014核和辐射突发事件心理救助导则
评论
0/150
提交评论