版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、成本,这个look-up table就可以作为Broadcast Variables。 akuntamukkalalocalhost/temp$ cat packagesToShip.txt ground express media priority priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapStrin
2、g,Int = Map(ground - 1, media - 2, priority - 5, express - 10) scala val bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadcast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipTyp
3、e=(shipType,1).reduceByKey(_+_). mapcase (shipType,nPackages)=(shipType,nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看/wp-content/uploads/2012/06/matei-zaharia-amp-camp-2012-advanced-spark.pdf。 八、Spark SQL 通过Spark Engine,Sp
4、ark SQL提供了一个便捷的途径来进行交互式分析,使用一个被称为SchemaRDD类型的RDD。SchemaRDD可以通过已有RDDs建立,或者其他外部数据格式,比如Parquet files、JSON数据,或者在Hive上运行HQL。SchemaRDD非常类似于RDBMS中的表格。一旦数据被导入SchemaRDD,Spark引擎就可以对它进行批或流处理。Spark SQL提供了两种类型的ContextsSQLContext和HiveContext,扩展了SparkContext的功能。 SparkContext提供了到简单SQL parser的访问,而HiveContext则提供了到Hiv
5、eQL parser的访问。HiveContext允许企业利用已有的Hive基础设施。 这里看一个简单的SQLContext示例。 下面文本中的用户数据通过“|”来分割。 John Smith|38|M|201 East Heading Way #2203,Irving, TX,75063 Liana Dole|22|F|1023 West Feeder Rd, Plano,TX,75093 Craig Wolf|34|M|75942 Border Trail,Fort Worth,TX,7jumped over the lazy dogand went away成本,这个look-up ta
6、ble就可以作为Broadcast Variables。 akuntamukkalalocalhost/temp$ cat packagesToShip.txt ground express media priority priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapString,Int = Map(gro
7、und - 1, media - 2, priority - 5, express - 10) scala val bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadcast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipType=(shipType,1).
8、reduceByKey(_+_). mapcase (shipType,nPackages)=(shipType,nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看/wp-content/uploads/2012/06/matei-zaharia-amp-camp-2012-advanced-spark.pdf。 八、Spark SQL 通过Spark Engine,Spark SQL提供了一个便捷的
9、途径来进行交互式分析,使用一个被称为SchemaRDD类型的RDD。SchemaRDD可以通过已有RDDs建立,或者其他外部数据格式,比如Parquet files、JSON数据,或者在Hive上运行HQL。SchemaRDD非常类似于RDBMS中的表格。一旦数据被导入SchemaRDD,Spark引擎就可以对它进行批或流处理。Spark SQL提供了两种类型的ContextsSQLContext和HiveContext,扩展了SparkContext的功能。 SparkContext提供了到简单SQL parser的访问,而HiveContext则提供了到HiveQL parser的访问。H
10、iveContext允许企业利用已有的Hive基础设施。 这里看一个简单的SQLContext示例。 下面文本中的用户数据通过“|”来分割。 John Smith|38|M|201 East Heading Way #2203,Irving, TX,75063 Liana Dole|22|F|1023 West Feeder Rd, Plano,TX,75093 Craig Wolf|34|M|75942 Border Trail,Fort Worth,TX,7成本,这个look-up table就可以作为Broadcast Variables。 akuntamukkalalocalhost/
11、temp$ cat packagesToShip.txt ground express media priority priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapString,Int = Map(ground - 1, media - 2, priority - 5, express - 10) scal
12、a val bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadcast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipType=(shipType,1).reduceByKey(_+_). mapcase (shipType,nPackages)=(ship
13、Type,nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看/wp-content/uploads/2012/06/matei-zaharia-amp-camp-2012-advanced-spark.pdf。 八、Spark SQL 通过Spark Engine,Spark SQL提供了一个便捷的途径来进行交互式分析,使用一个被称为SchemaRDD类型的RDD。SchemaRDD可以通过已有RDD
14、s建立,或者其他外部数据格式,比如Parquet files、JSON数据,或者在Hive上运行HQL。SchemaRDD非常类似于RDBMS中的表格。一旦数据被导入SchemaRDD,Spark引擎就可以对它进行批或流处理。Spark SQL提供了两种类型的ContextsSQLContext和HiveContext,扩展了SparkContext的功能。 SparkContext提供了到简单SQL parser的访问,而HiveContext则提供了到HiveQL parser的访问。HiveContext允许企业利用已有的Hive基础设施。 这里看一个简单的SQLContext示例。 下
15、面文本中的用户数据通过“|”来分割。 John Smith|38|M|201 East Heading Way #2203,Irving, TX,75063 Liana Dole|22|F|1023 West Feeder Rd, Plano,TX,75093 Craig Wolf|34|M|75942 Border Trail,Fort Worth,TX,7For in that sleep of death what dreams may come成本,这个look-up table就可以作为Broadcast Variables。 akuntamukkalalocalhost/temp$
16、 cat packagesToShip.txt ground express media priority priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapString,Int = Map(ground - 1, media - 2, priority - 5, express - 10) scala val
17、 bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadcast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipType=(shipType,1).reduceByKey(_+_). mapcase (shipType,nPackages)=(shipType,
18、nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看/wp-content/uploads/2012/06/matei-zaharia-amp-camp-2012-advanced-spark.pdf。 八、Spark SQL 通过Spark Engine,Spark SQL提供了一个便捷的途径来进行交互式分析,使用一个被称为SchemaRDD类型的RDD。SchemaRDD可以通过已有RDDs建立,或
19、者其他外部数据格式,比如Parquet files、JSON数据,或者在Hive上运行HQL。SchemaRDD非常类似于RDBMS中的表格。一旦数据被导入SchemaRDD,Spark引擎就可以对它进行批或流处理。Spark SQL提供了两种类型的ContextsSQLContext和HiveContext,扩展了SparkContext的功能。 SparkContext提供了到简单SQL parser的访问,而HiveContext则提供了到HiveQL parser的访问。HiveContext允许企业利用已有的Hive基础设施。 这里看一个简单的SQLContext示例。 下面文本中的
20、用户数据通过“|”来分割。 John Smith|38|M|201 East Heading Way #2203,Irving, TX,75063 Liana Dole|22|F|1023 West Feeder Rd, Plano,TX,75093 Craig Wolf|34|M|75942 Border Trail,Fort Worth,TX,7成本,这个look-up table就可以作为Broadcast Variables。 akuntamukkalalocalhost/temp$ cat packagesToShip.txt ground express media priorit
21、y priority ground express media scala val map = sc.parallelize(Seq(“ground”,1),(“med”,2), (“priority”,5),(“express”,10).collect().toMap map: scala.collection.immutable.MapString,Int = Map(ground - 1, media - 2, priority - 5, express - 10) scala val bcMailRates = sc.broadcast(map) 上述命令中,我们建立了一个broadc
22、ast variable,基于服务类别成本的map。 scala val pts = sc.textFile(“/Users/akuntamukkala/temp/packagesToShip.txt”) 在上述命令中,我们通过broadcast variable的mailing rates来计算运输成本。 scala pts.map(shipType=(shipType,1).reduceByKey(_+_). mapcase (shipType,nPackages)=(shipType,nPackages*bcMailRates. value(shipType).collect() 通过上述命令,我们使用accumulator来累加所有运输的成本。详细信息可通过下面的PDF查看http:/ampcamp.berkele
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届国家管网集团高校毕业生招聘笔试备考题库(浓缩500题)附答案详解(培优b卷)
- 2026国网河北省电力公司高校毕业生提前批招聘笔试参考题库浓缩500题带答案详解
- 2026国家管网集团甘肃公司秋季高校毕业生招聘25人考试参考题库(浓缩500题)及参考答案详解ab卷
- 2026国网重庆市电力公司高校毕业生提前批招聘笔试参考题库浓缩500题及答案详解(有一套)
- 2026国网吉林省电力公司高校毕业生提前批招聘笔试参考题库浓缩500题及答案详解(有一套)
- 2026秋季国家管网集团福建公司高校毕业生招聘考试备考试题(浓缩500题)及答案详解参考
- 2026秋季国家管网集团云南公司高校毕业生招聘考试参考试题(浓缩500题)含答案详解(a卷)
- 2026广西北部湾投资集团有限公司高校毕业生校园招聘考试参考试题(浓缩500题)及答案详解【各地真题】
- 2026国家管网集团广西公司秋季高校毕业生招聘笔试参考题库(浓缩500题)附答案详解(培优)
- 2026届国家管网集团高校毕业生招聘笔试备考试题(浓缩500题)含答案详解(预热题)
- 一般塑胶产品成品生产工艺流程图
- 麻醉科工作制度汇编
- GB/T 10000-1988中国成年人人体尺寸
- GA/T 452.1-2021居民身份证打印技术规范第1部分:打印质量要求
- 纪委书记政治画像
- 雅思词汇一本全(打印珍藏版)
- 2023统编版高中历史必修中外历史纲要上重点知识点归纳总结(复习必背)
- 高速磁浮大跨度桥梁设计关键技术介绍
- 子宫颈癌课件最新版
- 【教学课件】沪科版数学9上:22.1 第3课时比例的性质和黄金分割参考教学课件
- 生态系统服务功能与生态保护
评论
0/150
提交评论