Spark简介和Mllib库入门_第1页
Spark简介和Mllib库入门_第2页
Spark简介和Mllib库入门_第3页
Spark简介和Mllib库入门_第4页
Spark简介和Mllib库入门_第5页
已阅读5页,还剩24页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Spark简介和Mllib机器学习库入门目录RDD特性前言示例Spark简介算子谢谢!目录RDD特性前言示例Spark简介算子谢谢!你能区分么?1数据挖掘数据分析数据研发???Hive、数据仓库、多维分析等Mapreduce离线处理、storm流处理等机器学习库〔sklearn、mahout、Mllib等〕和其他目录RDD特性前言示例Spark简介算子谢谢!目录RDD特性前言示例Spark简介算子谢谢!功能组件库:SparkStreamingDataFramesandSQLMllib〔MachineLearning〕GraphX〔GraphProcessing〕Bagel〔PregelonSpark〕SparkR〔RonSpark〕支持语言:ScalaJavaPythonRBDAS——伯克利数据分析协议栈可以直接读取hdfs等分布式文件系统上存储的数据Sparkvs.MapReduce迭代计算。在这个场景下,Hadoop需要屡次读写HDFS〔磁盘〕,造成了大量的IO和序列化、反序列化等额外开销。此外,每次写HDFS都需要备份,因此造成了备份方面的开销。HDFS同批数据的多维度查询。对HDFS同一批数据做成百或上千维度查询时,Hadoop每次做一个独立的query,也就是每次都要从磁盘读取这个数据。因为每次都从磁盘中读取同一组数据,效率显然可以继续提高。而在这两种场景中,Spark可以使用内存缓存中间/常用数据,从而在防止磁盘IO开销的同时,还将大幅度提高性能。Hadoop写数据时,默认备份几份?RDD特性示例Spark简介算子谢谢!前言目录目录RDD特性前言示例Spark简介算子谢谢!RDD的产生RDDscanonlybecreatedthroughdeterministicoperationsoneither(1)datainstablestorageor(2)otherRDDs.

例如:RDD:narrow/wide

dependenciesnarrowdependencies,whereeachpartitionoftheparentRDDisusedbyatmostonepartitionofthechildRDD;widedependencies,wheremultiplechildpartitionsmaydependonit.Question:NarrowWideRDD容错首先,narrowdependencies可以支持在同一个clusternode上以管道形式执行多条命令,例如在执行了map后,紧接着执行filter。相反,widedependencies需要所有的父分区都是可用的,可能还需要调用类似MapReduce之类的操作进行跨节点传递。其次,那么是从失败恢复的角度考虑。narrowdependencies的失败恢复更有效,因为它只需要重新计算丧失的parentpartition即可,而且可以并行地在不同节点进行重计算。而widedependencies牵涉到RDD各级的多个ParentPartitions。以下图说明了narrowdependencies与widedependencies之间的区别:RDD包含信息asetofpartitions,whichareatomicpiecesofthedatasetasetofdependenciesonparentRDDsafunctionforcomputingthedatasetbasedonitsparentsmetadataaboutitspartitioningschemeanddata

placement

目录前言示例Spark简介算子谢谢!RDD特性目录RDD特性前言示例Spark简介算子谢谢!transformationmapflatMapfilterreduceByKeyaction无输出:foreachHDFS:saveAsTextFile、saveAsObjectFileScala集合和数据类型:collect、count、reducereduce:reduce将RDD中元素两两传递给输入函数,同时产生一个新的值,新产生的值与RDD中下一个元素再被传递给输入函数直到最后只有一个值为止。例子:目录前言示例Spark简介算子谢谢!RDD特性目录RDD特性前言示例Spark简介算子谢谢!

Talkischeap,showmethecode.wordcountQuestion:Wordcount中首先要对每一行文字按照分隔符分开,根据前面讲的transform算子,需要用map还是flatMap?即:Vallines=sc.textFile(file://......)Valwords=lines.map(_.split(“”))还是Valwords=lines.flatMap(_.split(“”))?

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论