




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop大数据解决方案进阶应用Hadoop讲师:迪伦(北风网版权所有)YARN支持的计算框架(6)Spark的优势Spark与Hadoop对比Spark生态系统Spark核心概念—RDD课程目标Spark的优势轻Spark0.6核心代码有2万行Spark很好地利用了Hadoop和Mesos的基础设施快Spark对小数据集能达到亚秒级的延迟灵Spark提供了不同层面的灵活性巧巧在借势和借力Spark与Hadoop对比Spark的中间数据放到内存中,对于迭代运算效率更高Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的抽象概念Spark提供多种数据集操作类型Transformations
包括map,filter,flatMap,sample,groupByKey,reduceByKey,union,join,cogroup,mapValues,sort,partionBy等Actions
包括Count,collect,reduce,lookup,save等编程模型比Hadoop更灵活,用户可以命名,物化,控制中间结果的存储、分区Spark不适用那种异步细粒度更新状态的应用可用性容错性
Spark生态系统
Shark(HiveonSpark)Shark基本上就是在Spark的框架基础上提供和Hive一样的HiveQL命令接口Shark使用了Hive的API来实现queryParsing和LogicPlangeneration通过配置Shark参数,Shark可以自动在内存中缓存特定的RDD,实现数据重用,进而加快特定数据集的检索Shark通过UDF用户自定义函数实现特定的数据分析学习算法,使得SQL数据查询和运算分析能结合在一起Sparkstreaming构建在Spark上处理Stream数据的框架Spark的低延迟执行引擎(100ms+)可以用于实时计算相比基于Record的其它处理框架(如Storm),RDD数据集更容易做高效的容错处理基本原理是将Stream数据分成小的时间片断(几秒),以类似batch批量处理的方式来处理这小部分数据使得它可以同时兼容批量和实时数据处理的逻辑和算法Spark核心概念--RDD为什么会产生RDD?解决传统MapReduce迭代计算式要进行大量的磁盘IO操作RDD:ResilientDistributedDataset弹性分布数据集RDD是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用RDD是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编程操作集合的方式,进行各种并行操作RDD可以cache到内存中,每次对RDD数据集的操作之后的结果,都可
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 下城区营销方案设计公司
- 电池及电池系统维修保养师适应性考核试卷及答案
- 聚甲基丙烯酸甲酯(PMMA)装置操作工岗位操作技能考核试卷及答案
- 刨花板工技术考核试卷及答案
- 果蔬汁无菌包装市场需求预测分析报告
- 鸿基岸芷汀兰营销方案
- 村级事务管理汇报
- 企业培训咨询加盟方案
- 施工方案是哪个单位出具
- 活动现场咨询答疑方案
- 2025年江西省高考物理试卷真题(含答案及解析)
- 高三励志课件
- 河南省人民医院2025年护士规范化培训招生考试参考题库及答案解析
- 绿色交通系统无人驾驶车辆示范项目可行性研究报告
- 企业科技创新管理办法
- GB/T 37507-2025项目、项目群和项目组合管理项目管理指南
- 矿山机械公司生产制造质量管理方案(参考)
- 男生青春期健康教育(我)
- 建设银行员工劳动合同
- 施工总包合同范本(费率版)
- 大钢模模板施工方案
评论
0/150
提交评论