《Spark技术》-《Spark技术》-项目一_第1页
《Spark技术》-《Spark技术》-项目一_第2页
《Spark技术》-《Spark技术》-项目一_第3页
《Spark技术》-《Spark技术》-项目一_第4页
《Spark技术》-《Spark技术》-项目一_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

项目一初识Spark技术延时符序言02延时符项目描述对采集到的数据进行分析处理,可以获取有价值的信息。那么你知道数据分为哪些类型吗?不同的数据采用什么技术进行分析处理呢?本书介绍Spark技术分析处理数据。项目分析近年来,大数据分析一词成了IT行业的流行术语,大数据分析即将大量的的数据通过各种技术进行交叉分析,从而挖掘出数据背后的价值,甚至可以预见未来。要想通过大量的数据分析出数据的价值,关键在于收集数据、存储数据及分析数据。0301OPTION02OPTION数据处理系统实时数据处理目录页延时符数据处理系统1.数据存储技术2.数据分析技术3.批数据和实时数据4.数据价值挖掘04任务105早期的数据存储技术

美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据,发明了一台电动器来读取卡片上的洞数,这台设备使美国用了1年时间就完成了原本需要耗时8年的人口普查工作。

最早的数据存储技术就是利用穿孔卡片来完成的。06数据库技术数据处理早期互联网时代互联网企业很少,主要采用关系型数据库,当时全世界的数据库市场几乎被Oracle、IBM的DB2、Microsoft的SQLServer垄断,其他数据库厂商市场份额比较小。

互联网时代的数据是通过设备、服务器、应用自动产生,目前数据呈现出以指数级别增长,数据涵盖各行各业。促使了类似Hadoop大数据技术的诞生,如Hadoop生态圈中的HBaesNoSQL分布式数据库、Hive数据仓库。07大数据存储技术共性01020304存储技术共性硬件基于服务器

操作系统主要是Linux

存储基于服务器自身的磁盘架构基于大规模分布式计算和极高的横向扩展能力05提供故障容错及数据高可用保证机制08大数据存储技术路线3.基于Hadoop生态圈技术扩展和封装1.大数据一体机2.采用MPP架构的数据库集群基于Hadoop生态技术衍生出来的,主要应对传统关系型数据库较难处理的数据和场景。MPP(MassivelyParallelProcessing,大规模并行处理)数据库集群重点面向行业大数据,具有高性能和可扩展的特点。软硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统组成。具有良好的稳定性和纵向扩展能力。大数据处理技术进入了新的阶段,目前大数据存储技术路线最典型的有三种。09数据分析技术大数据分析技术:通过对规模巨大的数据进行分析,挖掘出大规模数据中隐藏的价值信息,为社会经济活动提供依据,提高各个领域的运行效率。经典案例:谷歌与流感啤酒与尿布10数据分析技术区别于传统的数据处理流程,大数据处理的是大量的、非结构化的数据。为保证数据处理速度,需要在并行的分布式系统中处理数据。目前,Hadoop、MapReduce和Spark等分布式处理方式是大数据处理过程中的普遍使用技术。11Hadoop生态圈HDFS分布式文件存储系统是一个数据管理系统,是数据分析的源头。MapReduce是一个大规模并行的数据计算框架,具有很强的分布式计算能力。用户可以使用这些组件在Hadoop上开发和运行处理海量数据的应用程序,以满足大数据处理中的各种场景需要。Hadoop生态圈中提供了很多解决大数据问题的组件,如图所示,组件包括数据存储、数据集成、数据处理和数据分析。Hadoop生态圈12

Hadoop特性:低成本、高可靠性、高扩展、高容错。但MapReduce只适用于离线数据处理,在实时性处理需求出现时毫无用处。支持在线处理数据的Storm、CloudarImpala及支持迭代计算的Spark等,以及资源统一管理调度系统如ApacheMesos、Hadoop生态圈中的Apache

Yarn等。

基于性能、兼容性、数据类型等方面的原因,大数据分析技术不断更新,除了上面提供到的各种数据处理工具之外,还有Phoenix、ApacheAccumulo、ApacheDirll等其他开源解决方案,预计未来相当长的一段时间内,主流的Hadoop平台将与各种新的计算模式和系统共存,并相互兼容融合,形成新一代的大数据处理系统和平台。实时处理技术13批数据和实时数据

批数据:又称为历史数据,是在集群中积累的数据。

流式数据:又称为实时数据,是当前系统即时产生的数据。批数据和实时数据在处理延时方面还有很大差别:基于历史数据的复杂的业务查询时间一般允许在数十分钟到数小时之间,基于历史数据的交互式SQL查询时间一般允许数十秒到数分钟之间;基于实时数据流的数据处理延迟度要求在数百毫秒到数秒之间。无论是批数据处理还是流式数据处理,都依赖于前面提到的大数据处理技术。14数据挖掘价值目前,整个社会对数据达成的共识可以理解成:数据像石油、煤炭资源一样宝贵,其内在的价值非常巨大,最直观的数据价值体现就是互联网企业对数据巧妙的使用和价值挖掘给人们生活带来各种便利。大数据有如下四个特点:多样化速度化价值密度低大量化15数据价值挖掘大数据的核心价值在使劲按中主要有如下三个方面:数据辅助决策通过对数据的分析,对企业提供基础的数据统计报表分析查询服务。分析师可以通过分析统计报表来指导产品生产和运营;产品经理可以通过统计数据来完善产品的功能,提高用户的体验等。数据驱动业务通过数据分析,数据挖掘模型实现企业产品和运营的智能化,从而极大地提高企业的整体效能产出。最常见的领域有基于个性化的推荐服务和精准广告营销服务、基于模型算法的风控反欺诈服务等。数据对外变现通过对数据进行精心的包装,对外提供数据服务,从而获取现金收人。市面上比较常见的有各个大数据公司利用自己掌握的大数据技术,提供风控查询验证,提供导客、导流、精准营销服务等。实时数据处理1.实时数据的价值2.实时数据处理技术3.Spark实时数据处理16任务217实时数据处理技术针对实时数据处理,目前主流的实时数据处理框架有Storm、Spark、Samza、Flink。下面简单介绍这些技术的特点。Storm最开始是由Nathan

Marz和他的团队于2010年在数据分析公司BackType开发的后来BackType公司被Twitter收购,接着Titter开源Storm并在2014年成为Apache顶级项目。毋庸置疑,Storm成为大规模流数据处理的先锋,并逐渐成为工业标准。Storm是原生的流处理系统,提供low

-

level的API。Storm使用Thrift

来定义topology和支持多语言协议,使得人们可以使用大部分编程语言开发,Scala自然包括在内。Trident是对Storm的一个更高层次的抽象,Trident最大的特点是以batch的形式进行流处理。Trident简化topology构建过程,增加了窗口操作、聚合操作或者状态管理等高级操作,这些在Storm中并不支持。对应于Storm的At

most

once流传输机制,Trident提供了Exactly

once传输机制。Trident支持Java、Clojure和Scala语言开发。Strom18实时数据处理技术当前流式处理框架中,Spark是非常受欢迎的批处理框架,包含Spark

SQL、MLlib和Spark

Streaming。

Spark的运行是建立在批处理之上的,因此,后续加人的Spark

Streaming也依赖于批处理,实现了微批处理,接收器把输人数据流分成短小批处理,并以类似Spark作业的方式处理微批处理。可以通过控制SparkStreaming中微批处理的时间来控制数据接收速度,同时,也可以通过外部参数控制。SparkStreaming相对于Storm来说,吞吐量大,同时,可以在流批次中使用Spark的各种API扩展。Spark

Streaming提供高级声明式API(支持

Scala、Java和Pvthon语言开发)。Spark19实时数据处理技术最开始是专为LinkedIn公司开发的流处理解决方案,并和LinkedIn的Kafka一起贡献给社区,现已成为基础设施的关键部分。Samza的构建严重依赖于基于log的Kafka,两者紧密耦合。Samza提供组合式API,当然,也支持Scala语言开发。Samza20实时数据处理技术Flink是个相当早的项目,开始于2008年。Flink是原生的流处理系统,提供high

level

的API。Flink也提供API来像Spark一样进行批处理,但两者处理的基础是完全不同的。

Flink把批处理当作流处理中的一种特殊情况。在Flink中,所有的数据都看作流,是一种很好的抽象,因为这更接近于现实世界。Flink21Spark实时数据处理Spark提供强大的内存计算引擎,几乎涵盖了所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark

Streaming)、数据查询分析计算(Shark)及图计算(GraphX)。Spark使用Scala作为应用框架,采用基于内存的分布式数据集,优化了迭代式的工作负载及交互式查询。与Hadoop不同的是,Spark和Scala紧密集成,Scala像管理本地collective

对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务,实际上也可以基于Hadoop生态圈中的Yarn资源调度框架运行。Spark中实时数据处理技术具体指的是SparkStreaming。

SparkStreaming是Spark核心的扩展,支持实时数据处理,提供了一种抽象的连续数据流,即Discretized

S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论