




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
云计算与大数据技术
人民邮电出版社王鹏黄焱安俊秀张逸琴编著
目录录CONTENTS第1章云云计计算与大大数据基基础第2章云云计计算与大大数据的的相关技技术第3章虚虚拟拟化技术术第4章集集群群系统基基础第5章MPI—面面向计算算第6章Hadoop—分分布式大大数据系系统第7章HPCC——面向数数据的高高性能计计算集群群系统第8章Storm—基于于拓扑的的流数据据实时计计算系统统第9章服服务务器与数数据中心心第10章章云云计算大大数据仿仿真技术术第1章云计计算与大大数据基基础《云计算算与大数数据技术术》第1章云云计计算与大大数据基基础1.1云云计算算技术概概述1.1..1云云计算简简介1.1..2云云计算的的特点1.1..3云云计算技技术分类类1.2大大数据据技术概概述1.2..1大大数据简简介1.2..2主主要的大大数据处处理系统统1.2..3大大数据处处理的基基本流程程1.3云云计算算与大数数据的发发展1.1..1云云计算简简介云计算技技术是硬硬件技术术和网络络技术发发展到一一定阶段段而出现现的一种种新的技技术模型型云计算并并不是对对某一项项独立技技术的称称呼,而而是对实实现云计计算模式式所需要要的所有有技术的的总称。。云计算技技术的内内容很多多包括分布布式计算算技术、、虚拟化化技术、、网络技技术、服服务器技技术、数数据中心心技术、、云计算算平台技技术、存存储技术术等。从广义上上说,云云计算技技术几乎乎包括了了当前信信息技术术中的绝绝大部分分。1.1..1云云计算简简介维基百科科中对云计算的定义为:云计算是是一种基基于互联联网的计计算方式式,通过过这种方方式,共共享的软软硬件资资源和信信息可以以按需求求提供给给计算机机和其他他设备。。2012年的国务院政政府工作作报告将云计算算作为国家战略略性新兴兴产业给出了定义:云计算是是基于互互联网的的服务的的增加、、使用和和交付模模式,通通常涉及及通过互互联网来来提供动动态、易易扩展且且经常是是虚拟化化的资源源。云计算是是传统计计算机和和网络技技术发展展融合的的产物,,它意味味着计算算能力也也可作为为一种商商品通过过互联网网进行流流通。1.1..1云云计算简简介云计算技技术的出出现改变变了信息息产业传传统的格格局。传统的信信息产业业企业既既是资源源的整合合者又是是资源的的使用者者;这这种格格局并不不符合现现代产业业分工高高度专业业化的需需求,同同时也不不符合企企业需要要灵敏地地适应客客户的需需要。1.1..1云云计算简简介传统的计计算资源源和存储储资源大大小通常常是相对对固定的的,面对对客户高高波动性性的需求求时会非非常的不不敏捷,,企业的的计算和和存储资资源要么么是被浪浪费,要要么是面面对客户户峰值需需求时力力不从心心。云计算技技术使资资源与用用户需求求之间是是一种弹弹性化的的关系,,资源的的使用者者和资源源的整合合者并不不是一个个企业,,资源的的使用者者只需要要对资源源按需付付费,从从而敏捷捷地响应应客户不不断变化化的资源源需求,,这一方方法降低低了资源源使用者者的成本本,提高高了资源源的利用用效率。。1.1..1云云计算简简介云计算时时代基本本的3种种角色::资源的整整合运营营者、资资源的使使用者、、终端客客户。资源的整整合运营营者就像像是发电电厂负责责资源的的整合输输出;资源的使使用者负负责将资资源转变变为满足足客户需需求的各各种应用用;终端客户户为资源源的最终终消费者者。1.1..1云云计算简简介云计算这这种新的的模式的的出现被被认为是是信息产产业的一一大变革革,吸引引了大量量企业重重新布局局:IBM、、微软、、谷歌、、DELL等企企业国内企业业:华为为、中兴兴、腾讯讯、阿里里、联想想、浪潮潮、五舟舟等企业业1.1..1云云计算简简介云计算技技术作为为一项涵涵盖面广广且对产产业影响响深远的的技术,,未来将将逐步渗渗透到信信息产业业和其他他产业的的方方面面面,并并将深刻刻改变产产业的结结构模式式、技术术模式和和产品销销售模式式,进而而深刻影影响人们们的生活活;云计算会会逐步成成为人们们生活中中必不可可少的技技术;1.1..1云云计算简简介移动互联联网的出出现使云云计算应应用走向向了人们们的指间间,推动动了云计计算技术术的应用用发展,,今后云云计算将将是一项项随时、、随地、、随身为为我们提提供服务务的技术术;云计算的的出现也也将如电电的出现现一般,,为信息息产业的的发展提提供无限限的想象象空间,,使应用用的创新新能力得得到完全全释放。。1.1..1云云计算简简介1.1..2云云计算的的特点1.资源池弹弹性可扩扩张2.按需提供供资源服服务3.虚拟化4.网络化的的资源接接入5.高可靠性性和安全全性1.1..2云云计算的的特点与传统的的资源提提供方向向相比,,云计算算具有以以下特点点:(1)资资源池弹弹性可扩扩张云计算系系统的一一个重要要特征就就是资源的集集中管理理和输出出,这就是是所谓的的资源池池。从资资源低效效率的分分散使用用到资源源高效的的集约化化使用正正是云计计算的基基本特征征之一。。分散的资资源使用用方法造造成了资资源的极极大浪费费,现在在每个人人都可能能有一到到两台自自己的计计算机,,但对这这种资源源的利用用率却非非常的低低,计算算机在大大量时间间都是在在等待状状态或是是在处理理文字数数据等低低负荷的的任务。。资源集中中起来后后资源的的利用效效率会大大大地提提高,随随着资源源需求的的不断提提高,资资源池的的弹性化化扩张能能力成为为云计算算系统的的一个基基本要求求,云计计算系统统只有具具备了资资源的弹弹性化扩扩张能力力才能有有效地应应对不断断增长的的资源需需求。大多数云云计算系系统都能能较为方方便地实实现新资资源的加加入。1.1..2云云计算的的特点(2)按按需提供供资源服服务云计算系系统带给给客户最最重要的的好处就就是敏捷捷地适应用户户对资源源不断变变化的需需求;云计算系系统实现现按需向用用户提供供资源能大大节节省用户户的硬件件资源开开支,用用户不用用自己购购买并维维护大量量固定的的硬件资资源,只只需向自自己实际际消费的的资源量量来付费费;按需提供供资源服服务使应应用开发发者在逻逻辑上可可以认为为资源池池的大小小是不受受限制的的,应用用开发者者的主要要精力只只需要集集中在自自己的应应用上。。1.1..2云云计算的的特点(3)虚虚拟化现有的云云计算平平台的重重要特点点是利用用软件来来实现硬硬件资源源的虚拟拟化管理理、调度度及应用用。在云计算算中利用用虚拟化化技术可可大大降降低维护护成本和和提高资资源的利利用率。。1.1..2云云计算的的特点(4)网网络化的的资源接接入。从最终用用户的角角度看,基于云云计算系系统的应应用服务务通常都都是通过过网络来来提供的的,应用用开发者者将云计计算中心心的计算算、存储储等资源源封装为为不同的的应用后后往往会会通过网网络提供供给最终终的用户户。云计算技技术必须须实现资资源的网网络化接接入才能能有效地地向应用用开发者者和最终终用户提提供资源源服务。。以网络技技术的发发展是推推动云计计算技术术出现的的首要动动力。1.1..2云云计算的的特点(5)高高可靠性性和安全全性。用户数据据存储在在服务器器端,而而应用程程序在服服务器端端运行,,计算由由服务器器端来处处理。所所有的服服务分布布在不同同的服务务器上,,如果什什么地方方(节点点)出问问题就在在什么地地方终止止它,另另外再启启动一个个程序或或节点,,即自动处理理失败节节点,从而保保证了应应用和计计算的正正常进行行。数据被复复制到多多个服务务器节点点上有多多个副本本(备份份),存存储在云云里的数数据即使使遇到意意外删除除或硬件件崩溃也也不会受受到影响响。1.1..2云云计算的的特点1.1..3云云计算技技术分类类1.1..3云云计算技技术分类类1.按技技术路线线分类2.按服服务对象象分类3.按资资源封装装的层次次分类目前已出出现的云云计算技技术种类类非常多多,对于于云计算算的分类类可以有有多种角角度:从技术路路线角度度可以分分为资源源整合型型云计算算和资源源切分型型云计算算;从服务对对像角度度可以被被分为公公有云和和私有云云;按资源封封装的层层次来分分可以分分为:基础设施施即服务务(InfrastructureasaService,IaaS)平台即服服务(PlatformasaService,,PaaS)软件即服服务(SoftwareasaService,,SaaS)。。1.1..3云云计算技技术分类类
1.按技技术路线线分类资源整合合型云计计算:这种类型型的云计计算系统统在技术术实现方方面大多多体现为为集群架架构,通通过将大大量节点点的计算算资源和和存储资资源整合合后输出出。这类系统统通常能能实现跨跨节点弹弹性化的的资源池池构建,,核心技技术为分分布式计计算和存存储技术术。MPI、、Hadoop、HPCC、、Storm等等都可以以被分类类为资源源整合型型云计算算系统。。1.1..3云云计算技技术分类类资源切分分型云计计算:这种类型型最为典典型的就就是虚拟拟化系统统,这类类云计算算系统通通过系统统虚拟化化实现对对单个服服务器资资源的弹弹性化切切分,从从而有效效地利用用服务器器资源,,其核心心技术为为虚拟化化技术。。这种技术术的优点点是用户户的系统统可以不不做任何何改变接接入采用用虚拟化化技术的的云系统统,是目目前应用用较为广广泛的技技术,特特别是在在桌面云云计算技技术上应应用得较较为成功功;缺点是跨跨节点的的资源整整合代价价较大;;KVM、、VMware都是这这类技术术的代表表。1.1..3云云计算技技术分类类2.按服服务对象象分类公有云::指服务对对象是面面向公众众的云计计算服务务,公有有云对云云计算系系统的稳稳定性、、安全性性和并发发服务能能力有更更高的要要求。私有云::指主要服服务于某某一组织织内部的的云计算算服务,,其服务务并不向向公众开开放,如如企业、、政府内内部的云云服务。。公有云与与私有云云的界限限并不是是特别清清晰,有有时服务务于一个个地区和和团体的的云也被被称为公公有云。。所以这这种云计计算分类类方法并并不是一一种准确确的分类类方法,,主要是是在商业业领域的的一种称称呼。1.1..3云云计算技技术分类类3.按资资源封装装的层次次分类基础设施施即服务务(InfrastructureasaService,IaaS):把单纯的的计算和和存储资资源不经封装装地直接通通过网络络以服务的的形式提供的用用户使用用。这类云计计算服务务用户的的自主性性较大,,就像是是发电厂厂将发的的电直接接送出去去一样。。这类云服服务的对对象往往往是具有专业业知识能能力的资源使使用者,,传统数数据中心心的主机机租用等等可能作作为IaaS的的典型代代表。1.1..3云云计算技技术分类类平台即服服务(PlatformasaService,,PaaS):计算和存存储资源源经封装后,以某种接接口和协协议的形形式提供给用用户调用用,资源源的使用用者不再再直接面面对底层层资源。。平台即服服务需要要平台软软件的支支撑,可可以认为为是从资资源到应应用软件件的一个个中间件,通过这这类中间间件可以以大大减减小应用用软件开开发时的的技术难难度。这类云服服务的对对象往往往是云计计算应用用软件的的开发者,平台软软件的开开发需要要使用者者具有一定定的技术术能力。1.1..3云云计算技技术分类类软件即服服务(SoftwareasaService,,SaaS):将计算和和存储资资源封装为用户可以以直接使使用的应用并并通过网网络提供供给用户户;SaaS面向的的服务对对象为最终用户户,用户只只是对软件功功能进行行使用,无需了了解任何何云计算算系统的的内部结结构,也也不需要要用户具具有专业业的技术术开发能能力。1.1..3云云计算技技术分类类图1.1云计计算服务务体系结结构如图所示示,云计计算系统统按资源源封装的的层次分分为IaaS、、PaaS、SaaS,分为为对底层层硬件资资源不同同级别的的封装,,从而实实现将资资源转变变为服务务的目的的。传统的信信息系统统资源的的使用者者通常是是以直接接占有物物理硬件件资源的的形式来来使用资资源的,,而云计计算系统统通过IaaS、PaaS、、SaaS等不不同层次次的封装装将物理理硬件资资源封装装后,以以服务的的形式利利用网络络提供给给资源的的使用者者。在这里资资源的使使用者可可能是资资源的二二次加工工者,也也可能是是最终应应用软件件的使用用者,通通常IaaS、、PaaS层面面向的资资源使用用者往往往是资源源的二次次加工者者,这类类资源的的使用者者并不是是资源的的最终消消费者,,他们将将资源转转变为应应用服务务程序后后以SaaS的的形式提提供给资资源的最最终消费费者。实现对物物理资源源封装的的技术并并不是惟惟一的,,目前不不少的软软件都能能实现,,甚至有有的系统统只有SaaS层,并并没有进进行逐层层的封装装。1.1..3云云计算技技术分类类云计算的的服务层层次是根根据服务务类型即即服务集集合来划划分,与与大家熟熟悉的计计算机网网络体系系结构中中层次的的划分不不同。在计算机机网络中中每个层层次都实实现一定定的功能能,层与与层之间间有一定定关联。。而云计计算体系系结构中中的层次次是可以以分割的的,即某某一层次次可以单单独完成成一项用用户的请请求而不不需要其其他层次次为其提提供必要要的服务务和支持持。1.1..3云云计算技技术分类类在云计算算服务体体系结构构中各层层次与相相关云产产品对应应。应用层对对应SaaS软软件即服服务,如:GoogleAPPS、SoftWare+Services。平台层对对应PaaS平平台即服服务,如:IBMITFactory、GoogleAPPEngine、、F。基础设施施层对应应IaaS基础础设施即即服务,,如:AmazoEC2、IBMBlueCloud、SunGrid。虚拟化层层对应硬硬件即服服务,结结合PaaS提提供硬件件服务,,包括服务务器集群群及硬件件检测等等服务。。1.1..3云云计算技技术分类类1.2大大数据据技术概概述1.2大大数据据技术概概述1.2..1大大数据简简介1.什么么是大数数据2.数据据的来源源3.生产产数据的的三个阶阶段4.大数数据的特特点5.大数数据的应应用领域域1.2大大数据据技术概概述1.2..1大大数据简简介计算和数数据是信信息产业业不变的的主题,,在信息息和网络络技术迅迅速发展展的推动动下,人人们的感感知、计计算、仿仿真、模模拟、传传播等活活动产生生了大量量的数据据,数据据的产生生不受时时间、地地点的限限制,大大数据的的概念逐逐渐形成成,大数数据涵盖盖了计算算和数据据两大主主题,是是产业界界和学术术界的研研究热点点,被誉誉为未来来十年的的革命性性技术。。1.2..1大大数据简简介2008年,《《Nature》杂志志推出了了“大数数据”专专辑,引引发了学学术界和和产业界界的关注注;2011年,大大数据应应用进入入我国并并快速发发展,目目前大数数据的应应用和研研究已经经是学术术界和产产业界的的热点;;2012年3月月,美国国政府发发布《大大数据研研究和发发展倡议议》,投投资2亿亿美元发发展大数数据,用用以强强化国土土安全、、转变教教育学习习模式、、加速科科学和工工程领域域的创新新速度和和水平;;2012年7月月,日本本提出以以电子政政府、电电子医疗疗、防灾灾等为中中心制定定新ICT(信信息通信信技术))战略,,发布““新ICT计划划”,重重点关注注大数据据研究和和应用;;2013年1月月,英国国政府宣宣布将在在对地观观测、医医疗卫生生等大数数据和节节能计算算技术方方面投资资1.89亿英英镑;2013年我国国上海、、重庆等等地相继继发布大大数据行行动计划划。1.什么么是大数数据维基百科科将大数据描述为::大数据是是现有数数据库管管理工具具和传统统数据处处理应用用很难处处理的大大型、复复杂的数数据集,,大数据据的挑战战包括采采集、存存储、搜搜索、共共享、传传输、分分析和可可视化等等。大数据的的“大”是一个动态的概念以前10GB的的数据是是个天文文数字;;而现在在,在地地球、物物理、基基因、空空间科学学等领域域,TB级的数数据集已已经很普普遍。大大数据系系统需要要满足以以下三个个特性。
(1)规模模性(Volume)):需要要采集、、处理、、传输的的数据容容量大;;(2))多样性性(Variety)):数据据的种类类多、复复杂性高高;((3)高高速性((Velocity)):数据据需要频频繁地采采集、处处理并输输出。1.2..1大大数据简简介2.数据据的来源源大数据的的数据来源源很多,主主要有信息管理理系统、、网络信信息系统统、物联联网系统统、科学学实验系系统等;其数据类型型包括结构化数数据、半结构化化数据和非结构化化数据。(1)管管理信息息系统::企业内内部使用用的信息息系统,,包括办办公自动动化系统统、业务务管理系系统等,,是常见见的数据据产生方方式。管管理信息息系统主主要通过过用户输输入和系系统的二二次加工工的方式式生成数数据,其其产生的的数据大大多为结结构化数数据,存存储在数数据库中中。1.2..1大大数据简简介
(2)网网络信息息系统::基于网网络运行行的信息息系统是是大数据据产生的的重要方方式,电电子商务务系统、、社交网网络、社社会媒体体、搜索索引擎等等都是常常见的网网络信息息系统,,网络信信息系统统产生的的大数据据多为半半结构化化或无结结构化的的数据,,网络信信息系统统与管理理信息系系统的区区别在于于管理信信息系统统是内部部使用的的,不接接入外部部的公共共网络。。(3)物物联网系系统:通通过传感感器获取取外界的的物理、、化学、、生物等等数据信信息。(4)科科学实验验系统::主要用用于学术术科学研研究,其其环境是是预先设设定的,,数据既既可以是是由真实实实验产产生也可可以是通通过模拟拟方式获获取仿真真的。1.2..1大大数据简简介3.生产产数据的的三个阶阶段(1)被被动式生生成数据据:数据库技技术使得得数据的的保存和和管理变变得简单单,业务务系统在在运行时时产生的的数据直直接保存存数据库库中,这这个时候候数据的的产生是是被动的的,数据据是随着着业务系系统的运运行产生生的。1.2..1大大数据简简介(2)主主动式生生成数据据:互联网的的诞生尤尤其是Web2.0、移动动互联网网的发展展大大加加速了数数据的产产生,人人们可以以随时随随地通过过手机等等移动终终端随时时随地地地生成数数据,人人们开始始主动地地生成数数据。(3)感感知式生生成数据据:感知技术术尤其是是物联网网的发展展促进了了数据生生成方式式发生了了根本性性的变化化,遍布布在城市市各个角角落的摄摄像头等等数据采采集设备备源源不不断地自自动采集集、生成成数据。。1.2..1大大数据简简介
4.大数数据的特特点(1)数数据产生生方式::在大数据据时代,,数据的的产生方方式发生生了巨大大的变化化,数据据的采集集方式由由以往的的被动采集集数据转变为主动生成成数据。(2)数据采采集密度度:以往我们们进行数数据采集集时的采样密度度较低,获得的的采样数据据有限;在大数据据时代,,有了大大数据处处理平台台的支撑撑,我们们可以对对需要分分析的事事件的数数据进行行更加密集集地采样样,从而精确地获取事件的全局数据据。(3)数据源源:以往我们们多从各各个单一的数数据源获取数据据,获取取的数据据较为孤孤立,不不同数据据源之间间的数据据整合难难度较大大;在大数据据时代,,我们可可以通过过分布式式计算、、分布式式文件系系统、分分布式数数据库等等技术对对多个数据据源获取的数数据进行行整合处理理。1.2..1大大数据简简介(4)数据处处理方式式:以往我们们对数据据的处理理大多采采用离线处理理的方式,,对已经经生成的的数据集集中进行行分析处处理,不不对实时时产生的的数据进进行分析析;在大数据据时代,,我们可可以根据据应用的的实际需需求对数数据采取取灵活的的处理方方式,对对于较大大的数据据源、响应时间间要求低低的应用可可以采取批处处理的方式进进行集中中计算,,而对于于响应时间间要求高高的实时数据据处理则采用流处处理的方式进进行实时计算算,并且可可以通过过对历史数据据的分析进进行预测分析析;1.2..1大大数据简简介大数据需需要处理理的数据据大小通常常达到PB(1024TB)或EB(1024PB)级;数数据的类类型多种种多样,,包括结构化数据、半结构化化数据和非结构化化数据;巨大的数数据量和和种类繁繁多的数数据类型型给大数数据系统统的存储储和计算算带来很很大挑战战,单节节点的存存储容量量和计算算能力成成为瓶颈颈;分布式系系统是对大数数据进行行处理的的基本方方法,分分布式系系统将数数据切分后存存储到多多个节点点上,并在多个节节点上发发起计算算,解决单单节点的的存储和和计算瓶瓶颈。常常见的数据切分分的方法法有随机方方法、哈哈希方法法和区间间方法::随机方法法将数据随随机分布布到不同同的节点点;哈希方法法根据数据据的某一一行或者者某一列列的哈希希值将数数据分布布到不同同的节点点;区间方法法将不同的的数据按按照不同同区间分分布到不不同节点点。1.2..1大大数据简简介5.大数数据的应应用领域域大数据在在社会生生活的各各个领域域得到广广泛的应应用,不不同领域域的大数数据应用用具有不不同的特特点,其其对响应应时间、、系统稳稳定性、、计算精精确性的的要求各各不相同同,其对对比如表表1.1所示。。表1.1典典型的大大数据应应用特征征对比应用领域示例用户数量响应时延数据量级稳定性精确度科学计算基因计算小长TB一般非常高金融股票交易大实时GB非常高非常高社交网络Facebook非常大快速PB高高移动数据移动终端非常大快速TB高高物联网传感网大快速TB高高网页数据新闻网站非常大快速GB高高多媒体视频网站非常大快速GB高一般1.2..1大大数据简简介1.2..2主主要的大大数据处处理系统统大数据处处理的数数据源类类型多种种多样,,如结构构化数据据、半结结构化数数据、非非结构化化数据,,数据处处理的需需求各不不相同::对海量已已有数据据进行批批量处理理,对大量的的实时生生成的数数据进行行实时处处理,在进行数数据分析析时进行行反复迭迭代计算算,对图数据据进行分分析计算算。1.2..2主要的大大数据处处理系统统目前主要要的大数数据处理理系统有有:数据查询询分析计计算系统统、批处处理系统统、流式式计算系系统、迭迭代计算算系统、、图计算算系统和和内存计计算系统统。1.数据据查询分分析计算算系统大数据时时代,数数据查询询分析计计算系统统需要具具备对大大规模数数据进行行实时或或准实时时查询的的能力,,数据规规模的增增长已经经超出了了传统关关系型数数据库的的承载和和处理能能力。目前主要要的数据据查询分分析计算算系统包包括HBase、Hive、、Cassandra、Dremel、Shark、Hana等。1.2..2主主要的大大数据处处理系统统
HBase:开源、分分布式、、面向列列的非关关系型数数据库模模型,是是Apache的Hadoop项目目的子项项目;源于Google论文文《Bigtable:一个个结构化化数据的的分布式式存储系系统》,,实现了了其中的的压缩算算法、内内存操作作和布隆隆过滤器器HBase的编编程语言言为Java。。HBase的的表能够够作为MapReduce任任务的输输入和输输出,可可以通过过JavaAPI来来存取数数据。1.2..2主主要的大大数据处处理系统统Hive:基于Hadoop的数数据仓库库工具,,用于查查询、管管理分布布式存储储中的大大数据集集,提供供完整的的SQL查询功功能,可可以将结结构化的的数据文文件映射射为一张张数据表表。Hive提供了了一种类类SQL语言((HiveQL)可以以将SQL语句句转换为为MapReduce任务运运行。1.2..2主主要的大大数据处处理系统统Cassandra::开源NoSQL数据库库系统,,最早由由Facebook开开发,并并于2008年年开源;;由于其良良好的可可扩展性性,Cassandra被Facebook、、Twitter、Backspace、、Cisco等等公司使使用;其数据模模型借鉴鉴了Amazon的的Dynamo和GoogleBigTable,,是一种种流行的的分布式式结构化化数据存存储方案案。1.2..2主主要的大大数据处处理系统统Impala::由Cloudera公公司主导导开发,,是运行行在Hadoop平台台上的开开源的大大规模并并行SQL查询询引擎。。用户可以以使用标标准的SQL接接口的工工具查询询存储在在Hadoop的HDFS和和HBase中中的PB级大数数据。1.2..2主主要的大大数据处处理系统统
Shark:Spark上的的数据仓仓库实现现,即SQLonSpark;;与Hive相兼兼容,但但处理HiveQL的性性能比Hive快100倍倍。Hana:由SAP公司开开发的与与数据源源无关、、软硬件件结合、、基于内内存计算算的平台台。1.2..2主主要的大大数据处处理系统统2.批处处理系统统MapReduce是是被广泛泛使用的的批处理理计算模模式。MapReduce对对具有简简单数据据关系、、易于划划分的大大数据采采用“分分而治之之”的并并行处理理思想,,将数据据记录的的处理分分为Map和Reduce两两个简单单的抽象象操作,,提供了了一个统统一的并并行计算算框架。。批处理系系统将复复杂的并并行计算算的实现现进行封封装,大大大降低低开发人人员的并并行程序序设计难难度。Hadoop和和Spark是是典型的的批处理理系统。。MapReduce的批处处理模式式不支持持迭代计计算。1.2..2主主要的大大数据处处理系统统
Hadoop::目前大数数据处理理最主流流的平台台,是Apache基基金会的的开源软软件项目目,使用用Java语言言开发实实现。Hadoop平平台使开开发人员员无需了了解底层层的分布布式细节节,即可可开发出出分布式式程序,,在集群群中对大大数据进进行存储储、分析析。1.2..2主主要的大大数据处处理系统统Spark:由加州伯伯克利大大学AMP实验验室开发发,适合合用于机机器学习习、数据据挖掘等等迭代运运算较多多的计算算任务。。Spark引入入了内存存计算的的概念,,运行Spark时服服务器可可以将中中间数据据存储在在RAM内存中中,大大大加速数数据分析析结果的的返回速速度,可可用于需需要互动动分析的的场景。。1.2..2主主要的大大数据处处理系统统3.流式式计算系系统流式计算算具有很很强的实实时性,,需要对对应用源源源不断断产生的的数据实实时进行行处理,,使数据据不积压压、不丢丢失,常常用于处处理电信信、电力力等行业业应用以以及互联联网行业业的访问问日志等等。Facebook的的Scribe、Apache的Flume、Twitter的Storm、、Yahoo的S4、UCBerkeley的的SparkStreaming是常用用的流式式计算系系统。1.2..2主主要的大大数据处处理系统统Scribe::Scribe由由Facebook开开发发开源系系统,用用于从海海量服务务器实时时收集日日志信息息,对对日志信信息进行行实时的的统计分分析处理理,应用用在Facebook内部。。Flume:Flume由Cloudera公司司开发,,其功能能与Scribe相似似,主要要用于实实时收集集在海量量节点上上产生的的日志信信息,存存储到类类似于HDFS的网络络文件系系统中,,并根据据用户的的需求进进行相应应的数据据分析。。1.2..2主主要的大大数据处处理系统统
Storm:基于拓扑扑的分布式流流数据实实时计算算系统,由BackType公司((后被Twitter收购))开发,,现已经经开放源源代码,,并应用用于淘宝宝、百度度、支付付宝、Groupon、Facebook等平台台,是主主要的流流数据计计算平台台之一。。1.2..2主主要的大大数据处处理系统统S4:S4的全全称是SimpleScalableStreamingSystem,是是由Yahoo开发的的通用、、分布式式、可扩扩展、部部分容错错、具备备可插拔拔功能的的平台;;其设计目目的是根根据用户户的搜索索内容计计算得到到相应的的推荐广广告,现现已经开开源,是是重要的的大数据据计算平平台。1.2..2主主要的大大数据处处理系统统SparkStreaming::构建在Spark上的的流数据据处理框框架,将将流式计计算分解解成一系系列短小小的批处处理任务务进行处处理。网站流量量统计是是SparkStreaming的一种种典型的的使用场场景,这这种应用用既需要要具有实实时性,,还需要要进行聚聚合、去去重、连连接等统统计计算算操作;;如果使用用HadoopMapReduce框架架,则可可以很容容易地实实现统计计需求,,但无法法保证实实时性;;如果使使用Storm这种流流式框架架则可以以保证实实时性,,但实现现难度较较大;SparkStreaming可可以以准准实时的的方式方方便地实实现复杂杂的统计计需求。。1.2..2主主要的大大数据处处理系统统4.迭代代计算系系统针对MapReduce不支支持迭代代计算的的缺陷,,人们对对Hadoop的MapReduce进行行了大量量改进,,Haloop、iMapReduce、、Twister、Spark是典典型的迭迭代计算算系统。。HaLoop:Haloop是是HadoopMapReduce框架架的修改改版本,,用于支支持迭代代、递归归类型的的数据分分析任务务,如PageRank、K-means等。iMapReduce:一种基于于MapReduce的迭迭代模型型,实现现了MapReduce的的异步迭迭代。Twister:基于Java的的迭代MapReduce模模型,上上一轮Reduce的的结果会会直接传传送到下下一轮的的Map。Spark:基于内存存计算的的开源集集群计算算框架。。1.2..2主主要的大大数据处处理系统统5.图计计算系统统社交网络络、网页页链接等等包含具具有复杂杂关系的的图数据据,这些些图数据据的规模模巨大,,可包含含数十亿亿顶点和和上百亿亿条边,,图数据据需要由由专门的的系统进进行存储储和计算算。常用的图图计算系系统有Google公公司的Pregel、、Pregel的开源源版本Giraph、、微软的的Trinity、BerkeleyAMPLab的的GraphX以及高高速图数数据处理理系统PowerGraph。1.2..2主主要的大大数据处处理系统统Pregel::Google公公司开发发的一种种面向图图数据计计算的分分布式编编程框架架,采用用迭代的的计算模模型。Google的的数据计计算任务务中,大大约80%的任任务处理理采用MapReduce模模式,如如网页内内容索引引;图数数据的计计算任务务约占20%,,采用Pregel进进行处理理。Giraph:一个迭代代的图计计算系统统,最早早由雅虎虎公司借借鉴Pregel系统统开发,,后捐赠赠给Apache软件件基金会会,成为为开源的的图计算算系统。。Giraph是基于于Hadoop建立的的,Facebook在其脸脸谱搜索索服务中中大量使使用了Giraph。。1.2..2主主要的大大数据处处理系统统Trinity:微软公司司开发的的图数据据库系统统,该系系统是基基于内存存的数据据存储与与运算系系统,源源代码不不公开。。GraphX::由AMPLab开发的的运行在在数据并并行的Spark平台台上的图图数据计计算系统统。PowerGraph:高速图处处理系统统,常用用于广告告推荐计计算和自自然语言言处理。。1.2..2主主要的大大数据处处理系统统6.内存存计算系系统随着内存存价格的的不断下下降、服服务器可可配置内内存容量量的不断断增长,,使用内内存计算算完成高高速的大大数据处处理已成成为大数数据处理理的重要要发展方方向。目前常用用的内存存计算系系统有分分布式内内存计算算系统Spark、全全内存式式分布式式数据库库系统HANA、Google的可扩扩展交互互式查询询系统Dremel。。1.2..2主主要的大大数据处处理系统统Dremel::Google的的交互式式数据分分析系统统,可以以在数以以千计的的服务器器组成的的集群上上发起计计算,处处理PB级的数数据。Dremel是是GoogleMapReduce的补补充,大大大缩短短了数据据的处理理时间,,成功地地应用在在Google的bigquery中。HANA:SAP公公司开发发的基于于内存技技术、面面向企业业分析性性的产品品。Spark:基于内存存计算的的开源集集群计算算系统。。1.2..2主主要的大大数据处处理系统统1.2..3大大数据处处理的基基本流程程1.2..3大大数据处处理的基基本流程程大数据的的处理流流程可以以定义为在适合合工具的的辅助下下,对广广泛异构构的数据据源进行行抽取和集成,结果按按照一定定的标准准统一存储,利用合合适的数数据分析析技术对对存储的的数据进进行分析,从中提取有益的知识并利用恰恰当的方方式将结结果展示给终端用用户。大大数据处处理的基基本流程程如图1.2所所示。图1.2大数据处处理的基基本流程程
1.数据据抽取与与集成由于大数数据处理理的数据据来源类类型丰富富,大数数据处理理的第一一步是对对数据进进行抽取取和集成成,从中中提取出出关系和和实体,,经过关关联和聚聚合等操操作,按按照统一一定义的的格式对对数据进进行存储储。现有的数数据抽取取和集成成方法有有三种::基于物化化或ETL方法法的引擎擎(MaterializationorETLEngine)、基于联邦邦数据库库或中间间件方法法的引擎擎(FederationEngineorMediator)、基于数据据流方法法的引擎擎(StreamEngine))。1.2..3大大数据处处理的基基本流程程2.数据据分析数据分析析是大数数据处理理流程的的核心步步骤,通通过数据据抽取和和集成环环节,我我们已经经从异构构的数据据源中获获得了用用于大数数据处理理的原始始数据,,用户可可以根据据自己的的需求对对这些数数据进行行分析处处理,比比如数据据挖掘、、机器学学习、数数据统计计等,数数据分析析可以用用于决策策支持、、商业智智能、推推荐系统统、预测测系统等等。1.2..3大大数据处处理的基基本流程程3.数据据解释大数据处处理流程程中用户户最关心心的是数数据处理理的结果果,正确确的数据据处理结结果只有有通过合合适的展展示方式式才能被被终端用用户正确确理解,,因此数数据处理理结果的的展示非非常重要要,可视化和人机交互互是数据解解释的主主要技术术。1.2..3大大数据处处理的基基本流程程我们在开开发调试试程序的的时候经经常通过过打印语语句的方方式来呈呈现结果果,这种种方式非非常灵活活、方便便,但只只有熟悉悉程序的的人才能能很好地地理解打打印结果果。使用可视视化技术术,可以以将处理理的结果果通过图图形的方方式直观观地呈现现给用户户,标签签云(TagCloud))、历史史流(HistoryFlow))、空间间信息流流(SpatialInformationFlow)等等是常用用的可视视化技术术,用户户可以根根据自己己的需求求灵活地地使用这这些可视视化技术术;人机交互互技术可可以引导导用户对对数据进进行逐步步的分析析,使用用户参与与到数据据分析的的过程中中,使用用户可以以深刻地地理解数数据分析析结果。。1.2..3大大数据处处理的基基本流程程1.3云云计算算与大数数据的发发展1.3云云计算算与大数数据的发发展1.云计计算与大大数据发发展历程程早在1958年年,人工工智能之之父JohnMcCarthy发发明了函函数式语语言LISP,,LISP语语言后后来成为为MapReduce的思想想来源。。1960年JohnMcCarthy预预言了了:“今今后计算算机将会会作为公公共设施施提供给给公众””,这一一概念与与我们现现在所定定义的云云计算已已非常相相似,但但当时的的技术条条件决定定了这一一设想只只是一种种对未来来技术发发展的预预言。云计算是是网络技技术发展展到一定定阶段后后必然出出现的新新的技术术体系和和产业模模式。1984年SUN公司司提出““网络就就是计算算机”这这一具有有云计算算特征的的论点,,2006年Google公司司CEOEricSchmidt提出出云计算算概念,,2008年云计计算概念念全面进进入中国国,2009年中国国首届云云计算大大会召开开,此后后云计算算技术和和产品迅迅速地发发展起来来。
随着社交交网络、、物联网网等技术术的发展展,数据据正在以以前所未未有的速速度增长长和积累累,IDC的研研究数据据表明,,全球的的数据量量每年增增长50%,两两年翻一一番,这这意味着着全球近近两年产产生的数数据量将将超过之之前全部部数据的的总和。。2011年全球球数据总总量已达达1.8ZB,,到2020年年,全球球数据总总量将达达到35ZB。2008年《Nature》》杂志推推出了大大数据专专刊,2011年《Science》杂志志推出大大数据专专刊,讨讨论科学学研究的的中大数数据问题题。2012年大数数据的关关注度和和影响力力快速增增长,成成为当年年达沃斯斯世界经经济论坛坛的主题题,美国国政府启启动大数数据发展展计划。。中国计算算机学会会于2012年年成立了了大数据据专家委委员会,,并发布布了大数数据技术术白皮书书。1.3云云计算算与大数数据的发发展图1.3近年年来云云计算、、大数据据的关注注度如图1..3所示示为云计计算、大大数据两两个关键键词近年年来的网网络关注注度,可可以看出出2012年至至今大数数据的关关注度越越来越高高,云计计算和大大数据是是信息技技术未来来的发展展方向。。1.3云云计算算与大数数据的发发展网络技术术在云计计算和大大数据的的发展历历程中发发挥了重重要的推推动作用用。可以认为为信息技技术的发发展经历历了硬件件发展推推动和网网络技术术推动两两个阶段段。早期主要要以硬件件发展为为主要动动力,在在这个阶阶段硬件件的技术术水平决决定着整整个信息息技术的的发展水水平,硬硬件的每每一次进进步都有有力地推推动着信信息技术术的发展展,从电电子管技技术到晶晶体管技技术再到到大规模模集成电电路,这这种技术术变革成成为产业业发展的的核心动动力。但网络技技术的出出现逐步步地打破破了单纯纯的硬件件能力决决定技术术发展的的格局,,通信带带宽的发发展为信信息技术术的发展展提供了了新的动动力,在在这一阶阶段通信信带宽成成为了信信息技术术发展的的决定性性力量之之一,云云计算、、大数据据技术的的出现正正是这一一阶段的的产物,,其广泛泛应用并并不是单单纯靠某某一个人人发明而而是由于于技术发发展到现现在的必必然产物物,生产产力决定定生产关关系的规规律在这这里依然然是成立立的。1.3云云计算算与大数数据的发发展当前移动动互联网网的出现现并迅速速普及更更是对云云计算、、大数据据的发展展起到了了推动作作用。移动瘦客客户终端端与云计计算资源源池的结结合大大大拓展了了移动应应用的思思路,云云计算资资源得以以在移动动终端上上实现随随时、随随地、随随身资源源服务。。移动互联联网再次次拓展了了以网络络化资源源交付为为特点的的云计算算技术的的应用能能力,同同时也改改变了数数据的产产生方式式,推动动了全球球数据的的快速增增长,推推动了大大数据的的技术和和应用的的发展。。1.3云云计算算与大数数据的发发展云计算是是一种全全新的领领先信息息技术,,结合IT技术术和互联联网实现现超级计计算和存存储的能能力,而而推动云云计算兴兴起的动动力是高高速互联联网和虚虚拟化技技术的发发展、更更加廉价价且功能能强劲的的芯片及及硬盘、、数据中中心的发发展。云计算作作为下一一代企业业数据中中心,其其基本形形式为大大量链接接在一起起的共享享IT基基础设施施,不受受本地和和远程计计算机资资源的限限制,可可以很方方便地访访问云中中的“虚虚拟”资资源,使使用户和和云服务务提供商商之间可可以像访访问网络络一样进进行交互互操作。。1.3云云计算算与大数数据的发发展云计算的的兴起有有以下因因素:(1)高高速互联联网技术术发展。。云计算能能够利用用现有的的IT基基础设施施在极短短的时间间内处理理大量的的信息以以满足动动态网络络的高性性能的需需求。(2)资资源利用用率需求求。引入云计计算模式式后可以以通过整整合资源源或采用用租用存存储空间间、租用用计算能能力等服服务来降降低企业业运行成成本和节节省能源源。同时,利利用云计计算将资资源集中中,统一一提供可可靠服务务,能减减少企业业成本,,提升企企业灵活活性,企企业可以以把更多多的时间间用于服服务客户户和进一一步研发发新的产产品上。。1.3云云计算算与大数数据的发发展
(3)简简单与创创新需求求。在实际的的业务需需求中,,越来越越多的个个人用户户和企业业用户都都在期待待着使用用计算机机操作能能简单化化,能够够直接通通过购买买软件或或硬件服服务而不不是软件件或硬件件实体,,为自己己的学习习、生活活和工作作带来更更多的便便利,能能在学习习场所、、工作场场所、住住所之间间建立便便利的文文件或资资料共享享的纽带带。而对资源源的利用用可以简简化到通通过接入入网络就就可以实实现自己己想要实实现的一一切,就就需要在在技术上上有所创创新,利利用云计计算来提提供这一一切,将将我们需需要的资资料、数数据、文文档、程程序等全全部放在在云端实实现同步步。1.3云云计算算与大数数据的发发展(4)其他需需求连接设备备、实时时数据流流、SOA的采采用以及及搜索、、开放协协作、社社会网络络和移动动商务等等的移动动互联网网应用急急剧增长长,数字字元器件件性能的的提升也也使IT环境的的规模大大幅度提提高,从从而进一一步加强强了对一一个由统统一的云云进行管管理的需需求。个人或企企业希望望按需计计算或服服务,能能在不同同的地方方实时实实现项目目、文档档的协作作处理,,能在繁繁杂的信信息中方方便地找找到自己己需要的的信息等等需求也也是云计计算兴起起的原因因之一。。人类历史史不断地地证明生生产力决决定生产产关系,,技术的的发展历历史也证证明了技技术能力力决定技技术的形形态,1.3云云计算算与大数数据的发发展纵观整个个信息技技术的发发展历史史
图1.4信息息产业发发展演进进路线图图1.3云云计算算与大数数据的发发展硬件驱动动的时代代诞生了了IBM、微软软、Intel等企业业。20世纪50年代代最早的的网络开开始出现现,信息息产业的的发展驱驱动力中中开始出出现网络络的力量量,但当当时网络络性能很很弱,网网络并不不是推动动信息产产业发展展的主要要动力,,处理器器等硬件件的影响响还占绝绝对主导导因素。。随着网络络的发展展,网络络通信带带宽逐步步加大,,从20世纪80年代代的局域域网到20世纪纪90年年代的互互联网,,网络逐逐渐成为为了推动动信息产产业发展展的主导导力量,,这个时时期诞生生了百度度、谷歌歌、亚马马逊等企企业。直到云计计算的出出现才标标志着网网络已成成为信息息产业发发展的主主要驱动动力,此此时技术术的变革革即将出出现。1.3云云计算算与大数数据的发发展2.为云云计算与与大数据据发展做做出贡献献的科学学家超级计算算机之父父—西摩摩·克雷雷(SeymourCray)在人类解解决计算算和存储储问题的的历程中中,西摩摩·克雷雷成为了了一座丰丰碑,被被称为超超级计算算机之父父。西摩·克克雷,生生于1925年年9月28日,,美国人人,1958年年设计建建造了世世界上第第一台基基于晶体管的超级计算算机,成为计计算机发发展史上上的重要要里程碑碑。同时时也对精精简指令令(RISC))高端微微处理器器的产生生有重重大的贡贡献。1972年,他他创办了了克雷研研究公司司,公司司的宗旨旨是只生生产超级级计算机机。此后后的十余余年中,,克雷先先后创造造了Cray--1、Cray-2等等机型。。作为高性性能计算算机领域域中最重重要的人人物之一一,他亲亲手设计计了Cray全全部的硬硬件与操操作系统统。Cray机机成为了了从事高高性能计计算学者者中永远远的记忆忆,到1986年1月月为止,,世界上上有130台超超级计算算机投入入使用,,其中大大约90台是由由克雷的的上市公公司—克克雷研究究所研制制的。美国的《《商业周周刊》在在1990年的的一篇文文章中曾曾这样写写道:““西摩··克雷的的天赋和和非凡的的干劲已已经给本本世纪的的技术留留下了不不可磨灭灭的印记记”。2013年11月高性性能计算算Top500排行中中第
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 胶质瘤综合治疗
- 缺铁性贫血治疗原则
- 个人委托代理购房协议书
- 2025年初中9年级语文部编版下册教案第6单元《23出师表》
- 双方联合办学协议书二零二五年
- 心理咨询师聘用合同书二零二五年
- 股权重组协议二零二五年
- 借款合同书担保合同书抵押合同书
- 海洋运输货物保险合同书二零二五年
- 二零二五不动产抵押合同书范例
- 2024-2025学年人教版PEP四年级英语下册期末试卷(3)(含答案含听力原文无音频)
- 2025年乡村医生公共卫生服务考试题库:公共卫生服务传染病防控跨部门合作试题
- 2025广州房屋租赁合同标准版
- 2025年上海房屋租赁合同模板
- 2024年西医临床模拟训练计划试题及答案
- 初级会计师考试历年真题试题及答案
- 2024年美容师考试要关注的法规与行业标准指导试题及答案
- 2024年汽车维修工社会服务意识试题及答案
- 2025年河南三门峡黄河明珠(集团)有限公司招聘笔试参考题库附带答案详解
- 昌乐县马宋水库防御洪水方案
- 运输机场机坪运行管理规定
评论
0/150
提交评论