大数据技术生态概述_第1页
大数据技术生态概述_第2页
大数据技术生态概述_第3页
大数据技术生态概述_第4页
大数据技术生态概述_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据技术生态概述技术创新 变革未来主要内容Hadoop生态系统概述1Hadoop分布式计算系统2Spark分布式计算系统3总结4主要内容Hadoop生态系统概述1Hadoop分布式计算系统2Spark分布式计算系统3总结4Hadoop生态系统介绍主要内容Hadoop生态系统概述1Hadoop分布式计算系统2Spark分布式计算系统3总结4Hadoop生态系统MapReduceMapReduce使用方式Hadoop提供了三种编程方式;Java(最原始的方式)Hadoop Streaming(支持多语言)Hadoop Pipes(支持C/C+)Java编程接口是所有编程方式的基础;不同的编程接口

2、只是暴露给用户的形式不同 而已,内部执行引擎是一样的;不同编程方式效率不同。MapReduce实例wordcountWordcount实例Mapperwordcount实例ReducerHadoop生态系统MahoutMahout是什么基于MapReduce开发的数据挖掘/机器学习库良好的扩展性和容错性充分利用了MapReduce和HDFS的扩展性和容错性属于Hadoop生态系统重要组成部分Apache Software License 2实现了大部分常用的数据挖掘算法聚类算法分类算法推荐算法2324Mahout提供的算法RegressionRecommendersClusteringClas

3、sificationFreq. Pattern MiningVector SimilarityNon-MR AlgorithmsSee /confluence/display/MAHOUT/AlgorithmsDimension ReductionEvolution25Mahout中的分类算法Logistic Regression逻辑回归Bayesian贝叶斯分类算法Support Vector Machines支持向量机Perceptron and Winnow感知器算法Neural Network神经网络Random Forests随机森林Restricted Boltzmann Mach

4、ines有限波尔兹曼机Online Passive AggressiveBoostingHidden Markov Models隐式马尔科夫链26Mahout中的聚类算法Canopy ClusteringK-MeansFuzzy K-Means模糊K-MeansExpectation MaximizationEM算法Mean Shift均值漂移Hierarchical Clustering层次聚类Dirichlet Process Clustering狄里克雷过程聚类Latent Dirichlet AllocationLDASpectral Clustering谱聚类Minhash Clus

5、teringTop Down Clustering自上而下聚类27Mahout中的其他算法Pattern MiningParallel FP GrowthRegressionLocally Weighted Linear RegressionDimension ReductionSVDStochastic SVD with PCAPCAIndependent Component AnalysisGaussian Discriminative AnalysisEvolution AlgorithmsGenetic AlgorithmsRecommendersNon-distributed rec

6、ommenders (“Taste”)Distributed Item-Based Collaboration FilteringCollaboration Filtering using a parallel matrix factorizationSlope One28Mahout中的其他算法Vector SimilarityRowSimiliarityJob (MR)VectorDistanceJob (MR)OtherCollocationsNon-MapReduce algorithmsHadoop生态系统HiveHive是什么?由facebook开源,最初用于解决海量结构化的日志数

7、 据统计问题;ETL(Extraction-Transformation-Loading)工具构建在Hadoop之上的数据仓库;数据计算使用MR,数据存储使用HDFSHive 定义了一种类 SQL 查询语言HQL;类似SQL,但不完全相同通常用于进行离线数据处理(采用MapReduce);可认为是一个HQLMR的语言翻译器。Hadoop生态系统PigPig是什么Hadoop上的数据流执行引擎读写HDFS上的目录和文件利用MapReduce并行处理数据使用Pig Latin语言表达数据流Pig Latin是一种新的数据流语言Pig将Pig Latin语句转化为MapReduce作业Pig Lat

8、in比MapReduce程序更易编写Pig与Hive异同相同点运行在Hadoop之上设计动机是为用户提供一种更简单的Hadoop上 数据分析方式不同点Hive要求待处理数据必须有Schema,而Pig则无 此要求;编程语言不同,SQL与Pig LatinSQL:得到什么样的结果,Pig Latin:如何处理数据SQL:过程化语言,Pig Latin:数据流语言Hadoop生态系统Hive2(Stinger)Stinger下一代Hive被称为“Stinger”,其底层的计算引擎将由Tez替 换MapReduce;Tez是一个DAG计算框架,在MapReduce基础上发展起来的,目前是Apache

9、顶级项目;Tez相比于MapReduce具有众多优势:提供了多种算子(比如Map、Shuffle等)供用户使用;将多个作业合并成一个作业,减少磁盘读写IO;充分利用内存资源。官方首页:/Hadoop生态系统ImpalaImpala底层计算引擎不再采用MR,而是使用与商用并行关系数据库 类似的分布式查询引擎;Impala可直接处理存储在HDFS上的数据,并将结果集再次写 入HDFS;具有良好的扩展性和容错性;适合快速交互式查询Hadoop生态系统OozieOozie产生背景目前计算框架和作业类型繁多:MapReduce Java、Streaming、HQL、Pig等如何对这些框架和作业进行统一管

10、理和调度:不同作业之间存在依赖关系(DAG);周期性作业定时执行的作业作业执行状态监控与报警多种解决方案:Crontab自己设计调度系统直接使用开源系统【作业流调度系统】Oozie基本功能对常见作业类型进行调度MapReduce(Java、Streaming等)作业Hive作业Pig作业Shell .根据需要对作业进行调度按周期调度定时调度支持容错与报警可视化作业流运行过程主要内容Hadoop生态系统概述1Hadoop分布式计算系统2Spark分布式计算系统3总结4背景介绍MapReduce框架局限性仅支持Map和Reduce两种操作迭代计算效率低(如机器学习、图计算等)不适合交互式处理(数据

11、挖掘)不适合流式处理(点击日志分析)MapReduce编程不够灵活尝试scala函数式编程语言背景介绍现有的各种计算框架各自为战批处理:MapReduce、Hive、Pig流式计算:Storm交互式计算:Impala能否有一种灵活的框架可同时进行批处理、流式 计算、交互式计算等?Spark设计目标在一个统一的框架下,进行批处理、流式计算、 交互式计算Spark生态系统Spark核心概念RDDRDD:Resilient Distributed Datasets,弹性分布 式数据集分布在集群中的对象集合可以存储在磁盘或内存中(多种存储级别)通过并行“转换”操作构造失效后自动重构RDD两种操作Tra

12、nsformation(转换)可通过Scala集合或者Hadoop数据集构造一个新的RDD通过已有的RDD产生新的RDD举例:map, filter,groupByAction(行动)通过RDD计算得到一个或者一组值举例:count,collect,saveShark以Spark为计算引擎的交互式查询引擎与Hive完全兼容重用了Hive的HQL解析、词法分析、语法分析模块效率远优于Hive基于Spark的图计算和数据挖掘库Graphx:基于Spark的图计算框架提供了图存储结构以及常见的图算法,比如pagerank、图合并、图分解等。MLBase:基于Spark的机器学习库与Mahout类似,但是基于Spark实现的,而不是M

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论