大数据技术培训教学课件(36p)_第1页
大数据技术培训教学课件(36p)_第2页
大数据技术培训教学课件(36p)_第3页
大数据技术培训教学课件(36p)_第4页
大数据技术培训教学课件(36p)_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、社保+大数据第1页,共37页。一、大数据技术大数据技术就是从各种类型的海量数据中快速获得有价值信息的技术。根据大数据处理的生命周期,包括大数据采集与预处理,大数据存储与管理,大数据分析与挖掘,大数据应用与展现。第2页,共37页。1、大数据采集与预处理技术在此环节,如何进行实时数据质量监控和清洗,如何通过强大的集群和分布式计算能力提高数据质量监控性能,如何保证负载均衡和高可靠性等方面都是需要深入思考和设计的。淘宝自主研发的Time Tunnel数据采集工具每天要实时采集来自淘宝主站的用户、店铺、商品和交易等数据库的数据,还有用户的浏览、搜索等行为日志等上百万的数据量。目前,大数据采集工具有Clo

2、udera公司的Flume、Facebook公司的Scribe、LinkedIn的Kafka、淘宝的Time Tunnel以及开源社区Hadoop的Chukwa等,这些均可以满足每秒数百MB的日志数据采集和传输需求。第3页,共37页。1.1、Cloudera公司的FlumeFlume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同进,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。Flume对日志收集通过三种节点:Master、Collector和Agent。Master管理Collecto

3、r和Agent第4页,共37页。1.2、Facebook公司的ScribeScribe为日志的“分布式收集,统一处理”提供了一个可扩展的,高容错的方案。它最重要的特点就是容错性好。Scribe从各种数据源上收集数据,放到一个共享队列上,然后Push到后端的中央存储系统上。当中央存储系统出现故障时,Scribe可以暂时把日志写到本地文件中,待中央存储系统恢复性能后,Scribe把本地日志续传到中央存储系统上。第5页,共37页。1.3、开源社区Hadoop的ChukwaChukwa是一个开源的用于监控大型分布式系统的数据收集系统,是构建在Hadoop的HDFS的Map/Reduce框架之上的,继承

4、了Hadoop的可伸缩性和鲁棒性(异常和危险情况下系统生存的关键)。Chukwa可以用于监控大规模(2000+以上的节点,每天产生数据量在TB级别)Hadoop集群的整体运行情况并对它们的日志进行分析。第6页,共37页。1.4、LinkedIn的KafkaKafka是分布式消息订阅发布系统,用Scala开发,目前开源给了Apache。现在作为多种类型的数据管道和消息系统使用,以实时处理消息,低I/O消耗见长,多用于大数据实时消息和离线消息处理。Kafka主要有三种角色Producer,Broker,Consumer。Producer向某个Topic发布消息,面Consumer订阅某个Topic

5、的消息,进而一旦有新的关于某个Topic的消息,Broker会传递给订阅它的所有Consumer。第7页,共37页。1.5、淘宝的Time TunnelTime Tunnel是一个高效的、可靠的、可扩展的实时数据传输平台,它是基于发布订阅的消息模型开发的,支持消息多用户订阅。目前在阿里广泛地应用于日志收集、数据监控、广告反馈、量子统计、数据库同步等领域。主要功能是实时完成少量数据的交换,业务逻辑也就有两个:一是发布数据,将数据发送到Time Tunnel;另一个是订阅数据,从Time Tunnel读取自己所关心的数据。第8页,共37页。2、大数据存储与管理技术结构化数据非结构化数据半结构化数据

6、定义有数据结构描述信息的数据不方便用固定结构来表现的数据介于完全结构化数据和完全非结构化数据之间的数据特点先有结构,再有数据只有数据,没有结构先有数据,再有结构存储分布式关系型数据库分布式文件系统分布式非关系型数据库大数据时代,主要以半结构化和半结构化数据为主,采用分而治之的思想,即构建分布式存储系统。分为分布式文件系统和分布式数据库。第9页,共37页。2.1、分布式文件系统采用分布式系统来存储海量数据时,应该考虑以下三个核心的需求。(1)Consistency(一致性):在分布式系统中的所有数据备份,在同一时刻是否是同样的值,等同于所有节点访问同一份最新的数据副本(2)Availabilit

7、y(可用性):在集群中一部分节点故障后,集群整体是否还能响应客户端的读写请求,即对数据更新要具备高可用性。(3)Partition Tolerance(分区容错性):以实际效果而言,分区相当于对通信的时限要求,第统如果不能在时限内达成数据一致性,就意味着发生了分区的情况,必须就当前操作在Consistency和Availability之间做出选择。第10页,共37页。典型的分布式文件系统LustreGFS(Google File System)GlusterFSPVFS(Parallel Virtual File System)FastDFS,NFS,MogileFS,FreeNAS,Open

8、AFS,MooseFSQFS(Quantcast File System)Ceph,HDFS(Hadoop Distributed File System)等第11页,共37页。2.1.1、LustreLustre文件系统是一个开源的、基于对象存储技术的集群并行文件系统,是一个大规模的、安全可靠的,具备高可用性的集群文件系统,由Sun公司开发和维护。Lustre集群组件包含MDS(元数据服务器)、MDT(元数据存储节点)、OSS(对象存储服务器)、OST(对象存储节点)、Client(客户端),以及连接这些组件的高速网络。目前Lustre文件系统最多可以支持100000个Client,1000

9、个OSS和两个MDS节点。第12页,共37页。2.1.2、GFSGFS是Google自己研发的一个适用于大规模分布式数据处理相关应用的,可扩展的分布式文件系统,它运行于廉价的普通硬件上,提供容错功能,在保证系统可靠性和可用性的同时,减少了系统的成本。整个系统节点分为三个角色:Client、Master、和Chunk Server。Client是提供给应用程序的访问接口,Master是GFS的管理节点,Chunk Server负责具体的存储工作。第13页,共37页。2.1.3、PVFSPVFS是Clemson大学为了运行Linux集群而创建的一个并行虚拟文件系统。PVFS是基于传统的C/S架构进

10、行设计。整个文件系统由管理节点、计算节点和I/O节点三大部分组成。管理节点负责处理文件的元数据,计算节点用来执行各种计算任务,I/O节点则主要负责数据文件的存储和读写,并负责给计算节点提供所需的数据。第14页,共37页。2.1.4、HDFSHDFS意为Hadoop分布式文件系统。运行在普通商用硬件上并具有高容错率的文件系统,为应用程序数据提供了很高的吞吐量,适合处理大量数据的应用程序。第15页,共37页。2.2、分布式数据库分布式数据库是一个数据集合,这些数据在逻辑上属于同一个系统,但物理上却分散在计算机网络的若干站点上,并且要求网络的每个站点具有自治的处理能力,能执行本地的应用。两个重要特点

11、:分布性和逻辑相关性。依据存储的数据结构不同,可分为分布式关系型数据库和分布式非关系型数据库。第16页,共37页。2.2.1、关系型数据库Federated PostgreSQLOracleFederated MySQLOracle ExadataIngresSybaseInformix GreenplumIBM DB2第17页,共37页。2.2.2、非关系型数据库(1)文档数据库MongoDB;CounchDB;Couchbase;RavenDB;(2)图数据库Neo4j;InfiniteGraph;AllegroGraph;第18页,共37页。(3)键值数据库Riak;Redis;Dyna

12、mo;Oracle NoSQL Database;Voldemort;Aerospike;(4)列式储数据库Cassandra;HBase;Amazon SimpleDB;Apache Accumulo;Hypertable;第19页,共37页。(5)内存数据网络Hazelcast;Oracle Coherence;Terracotta BigMemory;GemFire;Infinispan;GridGain;第20页,共37页。3、大数据分析与挖掘技术主要涉及传统的数据分析与挖掘方法、大数据分析与挖掘方法、大数据分析与挖掘框架第21页,共37页。3.1、传统数据分析与挖掘方法1、分类分析,

13、通过对已知类别训练集的分析,从中发现分类规则,从而来预测新数据的类型。包括逻辑回归;贝叶斯;支持向量机;感知器;神经网络;随机森林;有限玻耳兹曼机等第22页,共37页。2、聚类分析,能在无先验信息的条件下,探测数据在特征空间中的分布或类别结构,从而提供潜在有价值的信息。包括K均值;期望最大化聚类;均值漂移聚类;层次聚类;谱聚类等第23页,共37页。3、关联规则,即发现大量数据中数据项之间的相关联系。包括Apriori算法;FP-Tree算法;4、回归分析,是确定两种或两种以上变量之间相互依赖的定量关系的一种统计分析方法,即通过规定因变量和自变量来确定变量之间的因果关系。包括局部加权线性回归和主

14、成分回归分析法。第24页,共37页。3.2、大数据分析与挖掘方法1、布隆过滤器一种多哈希函数映射的快速查找算法,具有很好的空间和时间效率,被用来非常快速地判定某个元素是否在一个集合之外。2、哈希算法3、字典树4、深度学习第25页,共37页。3.3、大数据分析与挖掘框架第26页,共37页。1、批处理分布排序;Web访问日志分析;反向索引构建;文档聚类;机器学习;基于统计的机器翻译等;对实时性要求不高的大规模数据处理工作 。2、流式数据分析数据采集;搜索引擎;广告精准推荐;商业智能;金融领域的风险管理;社交网络;智能交通等。典型应用第27页,共37页。3、交互式数据分析搜索引擎;电子邮件;即时通信

15、;社交网络;微博;博客等;需要人机交互并实时反馈结果的应用场景。4、图数据分析自然科学领域;交通领域;互联网领域等,各个领域得到了广泛的应用。第28页,共37页。4、大数据应用与展现技术大数据应用与展现技术是利用大数据分析与挖掘的结果,为用户提供辅助决策,发掘潜在价值的过程。第29页,共37页。4.1、大数据应用1、以盈利为目标的商业大数据应用,主要以Facebook、Google、淘宝、百度等公司为代表。2、不以盈利为目的,侧重于为社会公众提供服务的大数据应用,如搜索引擎公司提供的诸如流感趋势预测、春运客流分析、紧急情况响应、城市规划、路政建设、运营模式等方面。第30页,共37页。4.2、大

16、数据可视化1、数据可视化2、信息可视化3、科学计算可视化第31页,共37页。附1:大数据产业现状第32页,共37页。大数据产业现状第33页,共37页。附2:大数据在行业应用案例第34页,共37页。大数据在行业应用案例第35页,共37页。附3:大数据时代的重要术语第36页,共37页。46凡事不要说我不会或不可能,因为你根本还没有去做!47成功不是靠梦想和希望,而是靠努力和实践48只有在天空最暗的时候,才可以看到天上的星星49上帝说:你要什么便取什么,但是要付出相当的代价50现在站在什么地方不重要,重要的是你往什么方向移动。51宁可辛苦一阵子,不要苦一辈子52为成功找方法,不为失败找借口53不断反

17、思自己的弱点,是让自己获得更好成功的优良习惯。54垃圾桶哲学:别人不要做的事,我拣来做!55不一定要做最大的,但要做最好的56死的方式由上帝决定,活的方式由自己决定!57成功是动词,不是名词!28、年轻是我们拼搏的筹码,不是供我们挥霍的资本。59、世界上最不能等待的事情就是孝敬父母。60、身体发肤,受之父母,不敢毁伤,孝之始也; 立身行道,扬名於后世,以显父母,孝之终也。孝经61、不积跬步,无以致千里;不积小流,无以成江海。荀子劝学篇62、孩子:请高看自己一眼,你是最棒的!63、路虽远行则将至,事虽难做则必成!64、活鱼会逆水而上,死鱼才会随波逐流。65、怕苦的人苦一辈子,不怕苦的人苦一阵子。66、有价值的人不是看你能摆平多少人,而是看你能帮助多少人。67、不可能的事是想出来的,可能的事是做出来的。68、找不到路不是没有路,路在脚下。69、幸福源自积德,福报来自行善。70、盲目的恋爱以微笑开始,以泪滴告终。71、真正值钱的是分文不用的甜甜的微笑。72、前面是堵墙,用微笑面对,就变成一座桥。73、自尊,伟大的人格力量;自爱,维护名誉的金盾。74、今天学习不努力,明天努力找工作。75、懂得回报爱,是迈向成熟的第一步。76、读懂责任,读懂使命,读懂感恩方为懂事。77、不要只会吃奶,要学会吃干粮,尤其是粗茶

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论