版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Spark简介和Mllib机器学习库入门目录RDD特性前言示例Spark简介算子谢谢!目录RDD特性前言示例Spark简介算子谢谢!你能区分么?1数据挖掘数据分析数据研发???Hive、数据仓库、多维分析等Mapreduce离线处理、storm流处理等机器学习库〔sklearn、mahout、Mllib等〕和其他目录RDD特性前言示例Spark简介算子谢谢!目录RDD特性前言示例Spark简介算子谢谢!功能组件库:SparkStreamingDataFramesandSQLMllib〔MachineLearning〕GraphX〔GraphProcessing〕Bagel〔PregelonSpark〕SparkR〔RonSpark〕支持语言:ScalaJavaPythonRBDAS——伯克利数据分析协议栈可以直接读取hdfs等分布式文件系统上存储的数据Sparkvs.MapReduce迭代计算。在这个场景下,Hadoop需要屡次读写HDFS〔磁盘〕,造成了大量的IO和序列化、反序列化等额外开销。此外,每次写HDFS都需要备份,因此造成了备份方面的开销。HDFS同批数据的多维度查询。对HDFS同一批数据做成百或上千维度查询时,Hadoop每次做一个独立的query,也就是每次都要从磁盘读取这个数据。因为每次都从磁盘中读取同一组数据,效率显然可以继续提高。而在这两种场景中,Spark可以使用内存缓存中间/常用数据,从而在防止磁盘IO开销的同时,还将大幅度提高性能。Hadoop写数据时,默认备份几份?RDD特性示例Spark简介算子谢谢!前言目录目录RDD特性前言示例Spark简介算子谢谢!RDD的产生RDDscanonlybecreatedthroughdeterministicoperationsoneither(1)datainstablestorageor(2)otherRDDs.
例如:RDD:narrow/wide
dependenciesnarrowdependencies,whereeachpartitionoftheparentRDDisusedbyatmostonepartitionofthechildRDD;widedependencies,wheremultiplechildpartitionsmaydependonit.Question:NarrowWideRDD容错首先,narrowdependencies可以支持在同一个clusternode上以管道形式执行多条命令,例如在执行了map后,紧接着执行filter。相反,widedependencies需要所有的父分区都是可用的,可能还需要调用类似MapReduce之类的操作进行跨节点传递。其次,那么是从失败恢复的角度考虑。narrowdependencies的失败恢复更有效,因为它只需要重新计算丧失的parentpartition即可,而且可以并行地在不同节点进行重计算。而widedependencies牵涉到RDD各级的多个ParentPartitions。以下图说明了narrowdependencies与widedependencies之间的区别:RDD包含信息asetofpartitions,whichareatomicpiecesofthedatasetasetofdependenciesonparentRDDsafunctionforcomputingthedatasetbasedonitsparentsmetadataaboutitspartitioningschemeanddata
placement
目录前言示例Spark简介算子谢谢!RDD特性目录RDD特性前言示例Spark简介算子谢谢!transformationmapflatMapfilterreduceByKeyaction无输出:foreachHDFS:saveAsTextFile、saveAsObjectFileScala集合和数据类型:collect、count、reducereduce:reduce将RDD中元素两两传递给输入函数,同时产生一个新的值,新产生的值与RDD中下一个元素再被传递给输入函数直到最后只有一个值为止。例子:目录前言示例Spark简介算子谢谢!RDD特性目录RDD特性前言示例Spark简介算子谢谢!
Talkischeap,showmethecode.wordcountQuestion:Wordcount中首先要对每一行文字按照分隔符分开,根据前面讲的transform算子,需要用map还是flatMap?即:Vallines=sc.textFile(file://......)Valwords=lines.map(_.split(“”))还是Valwords=lines.flatMap(_.split(“”))?
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 26年壶腹周围癌随访管理细则
- 产品设计核心要素
- 创意主题活动课件设计规范
- 创立公司流程
- 教育大数据体系构建与应用研究
- 小班科学教育特点探究与实践
- 护理健康教育方法与实践
- 2025宪法教育实施纲要
- 思维导图设计排版规范
- 初中工业流程基础解析
- 2026年pcb维修主管测试题及答案
- 2026年无人机植保技术考试题库及答案
- 2026浙江杭州市西湖区第四次全国农业普查领导小组办公室招聘2人笔试备考试题及答案详解
- 中核集团校招测评题
- 2024新版2026春人教版英语八年级下册教学课件:Unit6第2课时(Section A 3a-3d)
- 银川市、石嘴山市、吴忠市三市2026年高三年级学科教学质量检测 政治+答案
- 2025年港澳台华侨生入学考试高考物理试卷真题(含答案详解)
- DL-T 1476-2023 电力安全工器具预防性试验规程
- (必练)宜宾学院辅导员招聘笔试备考核心题库(含详解)
- 个人身份调查表
- 五笔二级简码表格模板及常用1500字编码
评论
0/150
提交评论