《大数据分析技术应用》课件-1.大数据基本概念_第1页
《大数据分析技术应用》课件-1.大数据基本概念_第2页
《大数据分析技术应用》课件-1.大数据基本概念_第3页
《大数据分析技术应用》课件-1.大数据基本概念_第4页
《大数据分析技术应用》课件-1.大数据基本概念_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

B

i

g

Data

ana

l

y

s

is

techno

lo

g

yPART

ONE认识大数据以互联网、物联网、信息获取、社交网络等为代表的技术日新月异,手机、平板电脑、智能穿戴设备

等新型信息传感器随处可见。伴随着云计算、大数据、物联网、人工智能等信息技术的快速发展和传统产业数字化的转型,数据量呈现几何级增长。面对浩如烟海的大数据,如何充分利用、发掘出有价值的信息,成为当前的重要课题,而大数据也被赋予多重战略含义。1.大数据的概念•

一小时能产生3.6GB的数据•

一个城市每月产生的数据达上千万GB•

目前数据总量10亿GB•

存储网页1万亿页•

每天大约要处理60亿次搜索请求•

一个病人的CT影像数据量达几十GB•

全国每年需保持的数据达上百亿GB•单日数据产生量超过5万GB•

存储量4000万GB一个8Mbps的

摄像头淘宝网站百度公司医院2311.大数据的概念Volume

Velocity大数据4V特征Variety1.大数据的概念Vo

l

u

m

e

(大

)一般而言

当对大数据实施整合

期间

TB是最小存储单位

比其

点的储存单位分别是PB、EB等。Va

r

i

ety

(多

)大数据的种类和来源多样化

,多样的数据为数据处理带来了

挑战。Va

l

u

e

(低

)数据的价值密度和数据的规模

呈反相关

数据的规模越大

数据的价值密度越低。Ve

l

o

c

ity

(高

)大数据不仅增长速度快

处理

速度也快

有很强的时效性。Value2.大数据的关键技术数据采集与预处理数据存储管理数据处理与分析数据可视化与应用大数据主流技术体系图42313.大数据的应用金融领域医疗领域电商领域交通领域教育领域大数据的应用场景……45231初识Spark1.Spark

的发展Spa

rk以

了Apa

ch

e

的顶级项目Spa

rk

Apa

ch

e

基金会下的项目Spa

rk变

重点部署或者使用Spa

rk诞

于伯克

利大学的AMPLab伯克利正式开源了

Spa

rk

项目2013年2014年2009年2010年2015年~实验室2.Spark

的特点Spark提供了内存计算和基于DAG的任务调度执行机制

,减少了迭代计算时的I/O开销。Spark作为一个更加快速、高效的大数据计算平台。Spark使用先进的有向无环图DAG执行引擎

以支持循环数据流与内存计算

基于内存的执行速度可比Had

oop

MapReduce快上百倍

基于磁盘的执行速度也

能快十倍。Spark支持使用Scala、

Java、

Python、

R语言进行编程

同时Spark提供超过80个高级运算符

使得编写并行应用程序变得容易。0102速度快易用性2.Spark

的特点Spark支持一组丰富的高级工具

包括用于SQL和结构化数据处理的Spark

SQL、用于pandas工作负载的Spark上的pandas

API、

用于机器学习的MLlib、

用于图形处理的GraphX以及用于增量计算和流处理的结构化流。Spark可以非常方便的与其他开源产品进行融合

比如

Spark可以使用Had

oop的YARN和Appache

Mesos作为它的资源管理和调度器,并且可以处理所有Had

oop支持的数据,包括

HDFS,

HBase等。0304兼容性通用性在广告业务方面需要大数据做应用分析、效果分析、定向优化等

,在推荐系统方面则需要大数据优化相关排名、个性化推荐以及热点点击分析等。这些应用场景的普遍特点是计算量大、效率要求高

,Spark恰恰满足了这些要求。Spark能够一次处理PB级的数据

,也可

以分布在数千个协作的物理或虚拟服务器集群中

同时有一套广泛的开发者库和API

,支持多种编程语言的灵活性特点

,能够适合各种场景的应用。Spark已被许多企业尤其是互联网企业广泛应用到商业项目中。美团在2014年就引入Spark

,并将其逐渐覆盖到大多数业务线;字节跳动也基于Spark构建数据仓库

,服务了几乎所有的产品线;还有Facebook也将数据分析引擎切换为Spark。以美团为例

,海量的日志数据将被汇总处理、分析、挖掘与学习

,为各种推荐、搜索系统甚至公司战略目标制定提供数据支持。3.Spark

的应用主讲:陈静义乌工商职业技术学院Spark生态系统Spark生态系统Spark生态系统已经成为伯克利数据分析软件栈(BDAS)的重要组成部分。Spark核心组件,它实现了Spark的基本功能,

包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

SparkCore中还包含了对弹性分布式数据集(RDD)的API定义。Spark生态系统用于结构化数据处理的组件,通过SparkSQL可以直接查询Hive、

HBase等多种外部数据源中的数据。

SparkSQL一个重要的特点是能够统一处理关系表和RDD。在处理结构化数据时,开发人员可以直接使用SQL命令进行查询,来

进行更复杂的数据分析。Spark生态系统Spark提供的流式计算框架,支持高吞吐量、可容错处理的实时数据处理,其核心原理是将流数据分解成一系列短小的批处理作业,每个短小的批处理作业都可以使用SparkCore进行快速处理。

SparkStreaming支持多种数据源,如

Kafka、

Flume以及TCP套接字等。Spark生态系统MLlib机器学习库提供了常用机器学习算法的实现,

包括聚类、分类、回归、协同过滤等,降低了机器学习的门槛,

开发人员只需具备一定的理论知识就能进行机器学习的工作。Spark生态系统GraphX是Spark中用于图计算的API,可认为是Pregel在Spark上的重写及优化,

GraphX性能良好,拥有丰富的功能和运算符,能在海量数据上自如地运行

复杂的图算法。Spark生态系统Spark生态系统Spark生态系统中各个组件关系密切,并且可以相互调用,这样设计具有以下显著优势。不需要运行多套独立的软件系统,能够大大减少运行整个

系统的资源代价。Spark

生态系统包含的所有程序库和高级组件都可以从

Spark核心引擎的改进中获益。能够无缝整合各个系统,构建不同处理模型的应用。>>>Spark运行架构术语介绍RDD弹性分布式数据集,是分布式内存的一个抽象概念,

提供了一种高度受限的共享内存模型。DAG有向无环图,反映RDD之间的依赖关系。Application(应用)Spark上运行的应用程序。Application中包含了一个驱动器(Driver)进程和集群上的多个执行器(Executor)进程。Driver

Program(驱动器)运行main()方法并创建SparkContext的进程。SparkCore包含Spark最基础和最核心的功能,如内存计算、任务调度、部署模式、故障恢复、存储管理等,当提及Spark运行架构时,就是指SparkCore的运行架构。1.基本概念术语介绍Cluster

Manager(集群管理器)用于在集群上申请资源的外部服务(如独立部署的集群管理器、YARN或者Mesos等)。Worker

Node(工

作节点)集群上运行应用程序的任意一个节点。Executor

(执行器)在集群工作节点上为某个应用启动的工作进程,该进程负责运行计算任务,并为应用程序存储数据。Task

(任务)运行在Executor上的工作单元。Job

(作业)一个作业包含多个RDD及作用于相应RDD上的各种操作。Stage

(阶段)每个Job可以划分为更小的Task集合,每组任务被称为Stage。1.基本概念2.

Spark运行架构每个应用程序都有自己

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论