Apache Spark入门攻略(9)_第1页
Apache Spark入门攻略(9)_第2页
Apache Spark入门攻略(9)_第3页
Apache Spark入门攻略(9)_第4页
Apache Spark入门攻略(9)_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、成本,这个look-up table就可以作为Broadcast Variables。 akuntamukkalalocalhost/temp$ cat packagesToShip.txt ground express media priority priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapStrin

2、g,Int = Map(ground - 1, media - 2, priority - 5, express - 10) scala val bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadcast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipTyp

3、e=(shipType,1).reduceByKey(_+_). mapcase (shipType,nPackages)=(shipType,nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看/wp-content/uploads/2012/06/matei-zaharia-amp-camp-2012-advanced-spark.pdf。 八、Spark SQL 通过Spark Engine,Sp

4、ark SQL提供了一个便捷的途径来进行交互式分析,使用一个被称为SchemaRDD类型的RDD。SchemaRDD可以通过已有RDDs建立,或者其他外部数据格式,比如Parquet files、JSON数据,或者在Hive上运行HQL。SchemaRDD非常类似于RDBMS中的表格。一旦数据被导入SchemaRDD,Spark引擎就可以对它进行批或流处理。Spark SQL提供了两种类型的ContextsSQLContext和HiveContext,扩展了SparkContext的功能。 SparkContext提供了到简单SQL parser的访问,而HiveContext则提供了到Hiv

5、eQL parser的访问。HiveContext允许企业利用已有的Hive基础设施。 这里看一个简单的SQLContext示例。 下面文本中的用户数据通过“|”来分割。 John Smith|38|M|201 East Heading Way #2203,Irving, TX,75063 Liana Dole|22|F|1023 West Feeder Rd, Plano,TX,75093 Craig Wolf|34|M|75942 Border Trail,Fort Worth,TX,7jumped over the lazy dogand went away成本,这个look-up ta

6、ble就可以作为Broadcast Variables。 akuntamukkalalocalhost/temp$ cat packagesToShip.txt ground express media priority priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapString,Int = Map(gro

7、und - 1, media - 2, priority - 5, express - 10) scala val bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadcast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipType=(shipType,1).

8、reduceByKey(_+_). mapcase (shipType,nPackages)=(shipType,nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看/wp-content/uploads/2012/06/matei-zaharia-amp-camp-2012-advanced-spark.pdf。 八、Spark SQL 通过Spark Engine,Spark SQL提供了一个便捷的

9、途径来进行交互式分析,使用一个被称为SchemaRDD类型的RDD。SchemaRDD可以通过已有RDDs建立,或者其他外部数据格式,比如Parquet files、JSON数据,或者在Hive上运行HQL。SchemaRDD非常类似于RDBMS中的表格。一旦数据被导入SchemaRDD,Spark引擎就可以对它进行批或流处理。Spark SQL提供了两种类型的ContextsSQLContext和HiveContext,扩展了SparkContext的功能。 SparkContext提供了到简单SQL parser的访问,而HiveContext则提供了到HiveQL parser的访问。H

10、iveContext允许企业利用已有的Hive基础设施。 这里看一个简单的SQLContext示例。 下面文本中的用户数据通过“|”来分割。 John Smith|38|M|201 East Heading Way #2203,Irving, TX,75063 Liana Dole|22|F|1023 West Feeder Rd, Plano,TX,75093 Craig Wolf|34|M|75942 Border Trail,Fort Worth,TX,7成本,这个look-up table就可以作为Broadcast Variables。 akuntamukkalalocalhost/

11、temp$ cat packagesToShip.txt ground express media priority priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapString,Int = Map(ground - 1, media - 2, priority - 5, express - 10) scal

12、a val bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadcast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipType=(shipType,1).reduceByKey(_+_). mapcase (shipType,nPackages)=(ship

13、Type,nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看/wp-content/uploads/2012/06/matei-zaharia-amp-camp-2012-advanced-spark.pdf。 八、Spark SQL 通过Spark Engine,Spark SQL提供了一个便捷的途径来进行交互式分析,使用一个被称为SchemaRDD类型的RDD。SchemaRDD可以通过已有RDD

14、s建立,或者其他外部数据格式,比如Parquet files、JSON数据,或者在Hive上运行HQL。SchemaRDD非常类似于RDBMS中的表格。一旦数据被导入SchemaRDD,Spark引擎就可以对它进行批或流处理。Spark SQL提供了两种类型的ContextsSQLContext和HiveContext,扩展了SparkContext的功能。 SparkContext提供了到简单SQL parser的访问,而HiveContext则提供了到HiveQL parser的访问。HiveContext允许企业利用已有的Hive基础设施。 这里看一个简单的SQLContext示例。 下

15、面文本中的用户数据通过“|”来分割。 John Smith|38|M|201 East Heading Way #2203,Irving, TX,75063 Liana Dole|22|F|1023 West Feeder Rd, Plano,TX,75093 Craig Wolf|34|M|75942 Border Trail,Fort Worth,TX,7For in that sleep of death what dreams may come成本,这个look-up table就可以作为Broadcast Variables。 akuntamukkalalocalhost/temp$

16、 cat packagesToShip.txt ground express media priority priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapString,Int = Map(ground - 1, media - 2, priority - 5, express - 10) scala val

17、 bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadcast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipType=(shipType,1).reduceByKey(_+_). mapcase (shipType,nPackages)=(shipType,

18、nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看/wp-content/uploads/2012/06/matei-zaharia-amp-camp-2012-advanced-spark.pdf。 八、Spark SQL 通过Spark Engine,Spark SQL提供了一个便捷的途径来进行交互式分析,使用一个被称为SchemaRDD类型的RDD。SchemaRDD可以通过已有RDDs建立,或

19、者其他外部数据格式,比如Parquet files、JSON数据,或者在Hive上运行HQL。SchemaRDD非常类似于RDBMS中的表格。一旦数据被导入SchemaRDD,Spark引擎就可以对它进行批或流处理。Spark SQL提供了两种类型的ContextsSQLContext和HiveContext,扩展了SparkContext的功能。 SparkContext提供了到简单SQL parser的访问,而HiveContext则提供了到HiveQL parser的访问。HiveContext允许企业利用已有的Hive基础设施。 这里看一个简单的SQLContext示例。 下面文本中的

20、用户数据通过“|”来分割。 John Smith|38|M|201 East Heading Way #2203,Irving, TX,75063 Liana Dole|22|F|1023 West Feeder Rd, Plano,TX,75093 Craig Wolf|34|M|75942 Border Trail,Fort Worth,TX,7成本,这个look-up table就可以作为Broadcast Variables。 akuntamukkalalocalhost/temp$ cat packagesToShip.txt ground express media priorit

21、y priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapString,Int = Map(ground - 1, media - 2, priority - 5, express - 10) scala val bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadc

22、ast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipType=(shipType,1).reduceByKey(_+_). mapcase (shipType,nPackages)=(shipType,nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看http:/ampcamp.berkele

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论