《云计算与大数据》-第3章“大数据”关键技术与应用_第1页
《云计算与大数据》-第3章“大数据”关键技术与应用_第2页
《云计算与大数据》-第3章“大数据”关键技术与应用_第3页
《云计算与大数据》-第3章“大数据”关键技术与应用_第4页
《云计算与大数据》-第3章“大数据”关键技术与应用_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

3.1

大数据技术总体框架3.2数据采集与预处理技术3.3

大数据存储技术3.4

大数据处理技术3.5大数据分析技术3.6

大数据可视化技术1《云计算与大数据》第二版课件重点

大数据存储技术、处理技术难点

大数据分析技术、可视化47云计算是新的商业模式。大数据的本质是应需求驱动的,大数据的应用最终使云计算模式落地。大数据来源于互联网、企业系统和物联网等信息系

统,经过大数据处理系统的分析挖掘,产生新的知

识用以支撑决策或业务的自动智能化运转。3

47《云计算与大数据》第二版课件业务环节业务需求技术实现产生大数据操作●数据容量:每18个月翻一番●数据类型:多于80%的数据来自于非机构化数据●数据速度:数据来源不断变化,数据快速流通采用一个统一的大数据处理方法,使得企业用户能够快速处理和加载海量数据,能够在统一平台上对不同类型

的数据进行处理和存储聚集管理大数据的复杂性,需要分类、同步、聚合、集成、共享、转换、剖析、迁移、压缩、备份、保护、恢复、清洗、淘汰各种类型数据一个数据集成和管理平台,集成各种工具和服务来管理异构存储环境下的各类数据分析当前数据仓库和数据挖掘擅长分析结构化的事后数据

,在大数据环境下要求能够分析非结构化数据,包括

流文件,并能进行实时分析和预测建立一个实时预测分析解决方案,整合结构化的数据仓库和非结构化的分析工具利用满足不同的用户对大数据的实时的多种访问方式任何时间、任何地点、任何设备上的

集中共享和协同需要理解大数据怎样影响业务,怎样转化为行动对大数据影响业务和战略进行建模,

并利用技术来实现这些模型3.1大数据技术总体框架

《云计算与大数据》第二版课件3.1.1总体目标2

具备不同格式数据处理能力3

具备高速数据处理和啊应能力

4

低成本、计算节点易扩展5

具备较强的可靠性6

具备艮好的安全性《云计算与大数据》第二版课件1

具备PB级以上容量数据处理能力3.1.2架构设计原则471.统一集成的大数据平台>可基于开源软件实现Hadoop

基础工具的整合;>用户友好的管理平台,包括HDFS浏览器和类SQL查询语言等;提供服务、存储、调度和高级安全等企业级应用的功能。《云计算与大数据》第二版课件3.1.3总体架构的特点47《云计算与大数据》第二版课件2.低成本的可扩展性支持大规模可扩展性,到PB级数据源;支持极大的混合工具负载,各种数据类型;简单的配置、开发和管理;以线性成本扩展并提供一致的性能;标准的晋通硬件。473.实时地分析执行在声明或发现数据结构之前装载数据;能以数据全载入的速度来准确更新数据;可调度和执行复杂的几百个节点的工作流;>在刚装载的数据上,可实时执行流分析查询;>能以大于每秒1GB的速率来分析数据。8《云计算与大数据》第二版课件47《云计算与大数据》第二版课件4.

可靠性当处理节点失效时,自动恢复,不需要中断操作。1.大数据来源目前大数据的主要数据来源有三个途径:3.2.1大数据采集3.2

大数据采集与预处理技术《云计算与大数据》第二版课件102.Web

网络数据的爬取爬虫的开发是利用HTTP协议读取网站上公开的数据,因此编写爬虫首先需要粗略了解HTTP请求和网页结构。URL的详细格式schema://host[:port#J/path/../I

?

query-string]

[#anchor]锚发送给http服务器的数据访问资源的路径服务器端口,HTTP

默认端口是80(可省略),其他端口要指明服务器的域名或者IP地址底层协议(例如:http,https

,ftp)图3-2

URL格式11《云计算与大数据》第二版课件爬虫通过URL请求获取web服务器响应的数据信息,从

技术角度理解就是模拟浏览器发送请求Request,接收服务器响应内容Response,解析响应结果后通过定位提取所用的数据。客户端/前端图3-3

URL

浏览过程12《云计算与大数据》第二版课件输入http://www.ahpu.edu.cn向服

务器发送请求服务端/后端返回请求结果数据库交互2.

爬虫编程爬虫编程程序首先需要向Web

服务器提出Request请求,接收服务器响应后根据返回结果的类型进行不同的处理,通常返回结果为html

,html

文档需要解析出组织结构才可以定位检索所需数据。13《云计算与大数据》第二版课件47第一

首先在浏览器中浏览网站,显示要爬取的数据页面;分析数据所在文体中的组织模式结构找到数据的定位标识信息。分析出爬取数据所在的网页或其他格式文体的URL,有时需要分析请求需要的其他相关信息;爬虫编程主要有两阶段工作:(1)分析准备阶段《云计算与大数据》第二版课件第三第二14引入所需库(2)编程阶段提出请求,解析结果定位获取具体的数据显示或存储《云计算与大数据》第二版课件15按照数据的结构不同,数据可以被分为结构化的大数据、非结构化的大数据和半结构化的大数据。163.3.1大数据如何存储3.3

大数据存储技术《云计算与大数据》第二版课件471.结构化数据存储结构化数据通常是人们所熟悉的数据库中的数据,数据库中积累的结构化数据越来越多,

一些问题显现出来,这些问题可以分为四类:历史数据应如

何存储;历史数据的二

次增值如何解

决。历史数据和当

前数据都存在

一个数据库中

导致系统处理

速度越来越慢历史数据与当

前数据的期限

如何界定;《云计算与大数据》第二版课件17分布式数据库系统是数据库技术和网络技术相结合的产物。它通常使用体积较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都有DBMS

的一份完

整的副本,并具有自己局部的数据库。位于不同地点的许多计算机通过网络互相连接,共同组成一个完整的。全局的大型数据库。18《云计算与大数据》第二版课件《云计算与大数据》第二版课件逻辑

整体性系统的可

靠性高,

可用性好可扩展性好,易于集成现有的系统具有灵活的体系结构分布式数据库系统具有以下主要特点物理分布性192.非结构化数据存储常见的非结构化数据包括文件、图片、视频、语音、邮件和聊天记录等,和结构化数据相比,这些数据是未被抽象出有价值信息的数据,需要经过二次加工才能得到其有价值信息。20《云计算与大数据》第二版课件47由于非结构化数据具有形式多样、体量大、来源广、维度多、有价内容密度低、分析意义大等特点,所以要为了分析而存储,而不是为了存储而存储。当前针对非结构化数据的特点均采用分布式文件系统方式来存储这些数据。21《云计算与大数据》第二版课件47分布式文件系统将数据存储在物理上分散的多个存储节点上,对这些节点的资源进行统一管理和分配

,并向用户提供文件系统访问接口,主要解决本地

文件系统在文件大小、文件数量、打开文件数等的限制问题。22《云计算与大数据》第二版课件47分布式文件系统的数据存储解决方案归根结底是将大问题划分为小问题。对于很大的文件,可以将大文件划分成多个相对较小的片段,存储在多个数据服务器上。23《云计算与大数据》第二版课件473.半结构化数据存储半结构化数据是指数据中既有结构化数据,也有非结构化数据。24《云计算与大数据》第二版课件47大数据存储对底层硬件架构和文件系统在性价比上

的要求要大大高于传统技术,同时要求能够弹性扩

展存储容量。但以往网络附看存储系统(NAS)

存储区域网络(SAN)

等体系,存储和计算的物理

设备分离,它们之间要通过网络接口连接,这导致

在进行数据密集型计算时I/O

容易成为瓶颈。《云计算与大数据》第二版课件3.3.2大数据存储问题4725对于大数据存储,以下问题不能忽视容量问题

延迟问题安全问题

成本问题

数据积累《云计算与大数据》第二版课件263.3.1

storm平台Storm

是由BackType

开发的实时处理系统。Storm

为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm

也可被用于“连续计算”。3.4

大数据处理技术《云计算与大数据》第二版课件27简单的编程模型可以使用各种编程语言容错性水平扩展可靠的消息处理快速本地模式《云计算与大数据》第二版课件Storm的主要特点28Storm的集群架构Storm

集群由一个主节点和多个工作节点组成:

master

节点和worker

节点。master

节点运行一个

守护进程,叫Nimbus。Nimbus

负责在集群中分发代码,分配任务,以及故障检测。每个worker节点运行一个守护进程,叫Supervisor。Supervisor监听分配到该服务器的任务,开始和结束工作进程。29

47《云计算与大数据》第二版课件《云计算与大数据》第二版课件SupervisorSupervisorSupervisorSupervisorSupervisorZookeeperZookeeperZookeeperNimbus30《云计算与大数据》第二版课件框架本身不提供持久化存储框架不提供消息接入模块存在Nimbus

单点失效问题编程门槛对晋通用户来说较高Storm

UI功能过于简单31《云计算与大数据》第二版课件3.5.1大数据分析特点及技术路线正发生什么事?为什么它会发生?预测监控分析统计已发生仲么

?18世纪大数据分析的趋势图统计数据挖掘优化21世纪查询视图19世纪记录板20世纪将要发生什么事?复杂度提升4732大数据分析的理论核心是数据挖掘算法大数据分析最重要的应用领域之一就是预测性分析大数据分

析离不开

数据质量

和数据管理大数据分

析广泛应用于网络

数据挖掘大数据分析具有五个特点3.5

大数据分析技术大数据分析应是可视化分析《云计算与大数据》第二版课件332.大数据分析技术路线目前的大数据分析主要有两条技术路线,

一是凭借先验知识人工建立数学模型来分析数据,二是通过建立人工

智能系统,使用大量样本数据进行训练,让机器代替人工获得从数据中提取知识的能力。《云计算与大数据》第二版课件343.5.2大数据分析过程识别信息需求收集数据分析数据评价并改进数据分析的有效性数据分析过程的主要活动《云计算与大数据》第二版课件35数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用3.5.3大数据分析方法《云计算与大数据》第二版课件36大数据分析的研究对象是大数据,它侧重于在海量数据中的分析挖掘出有用的信息。其分析方法可分为两类:一是统计分析方法,另一个是数据挖掘方法。37

47《云计算与大数据》第二版课件1)描述性统计分析2)回归分析3)因子分析4)方差分析1)分类和预测2)关联规则3)聚类统计分析方法《云计算与大数据》第二版课件38从应用的角度来看数据可视化有多个目标:有效地呈现重要特征、揭示数据的客观规律、辅助理解事物概念、对测量进行质量监控等。3.6大数据可视化技术数据可

视化的

功能《云计算与大数据》第二版课件39从宏观的角度分析,数据

可视化有下面的三个功能:1

2

3信息传播与协同信息分析与推理《云计算与大数据》第二版课件信息记录40从大数据可视

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论