版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 大数据应用人才培养系列教材大数据实践张 燕总主编袁晓东主编黄必栋副主编 大数据应用人才培养系列教材6 .1 SparkSQL简介6 .2 分布式SQL引擎6 .3 使用Data FrameAPI处理结构化数据习题第六章 Spark SQL6 . 1SparkSQL简介第六章 Spark SQLSpark的结构化数据处理模块提供分布式SQL查询引擎提供处理结构化数据的编程接口DataFrame6 . 1SparkSQL简介第六章 Spark SQLSpark支持的结构化数据源6 . 1SparkSQL简介第六章 Spark SQL分布式SQL引擎的使用场景(1) JDBC/ODBC(2) 命令
2、行6 . 1SparkSQL简介第六章 Spark SQLDataFrame编程接口的使用6 . 1SparkSQL简介第六章 Spark SQL与S pa r k 程序无缝集成在Spark程序中使用DataFrame API或SQL处理结构化数据统一的数据访问方法DataFrame API与SQL类似,提供了一种操作结构化数据的标准方法Spark SQL特性兼容H i ve兼容Hive的数据、查询、用户定义函数多数据源支持HDFS、Hive、HBase、Parquet等6 . 1SparkSQL简介第六章 Spark SQLSpark SQL架构6 . 1SparkSQL简介第六章 Spar
3、k SQLSpark SQL原理 Catalyst优化器 大数据应用人才培养系列教材6 . 1SparkSQL简介6 .2 分布式SQL引擎6 .3 使用Data FrameAPI处理结构化数据习题第六章 Spark SQL6.2分布式SQL引擎第六章 Spark SQLSpark SQL环境配置在第五章Spark集群中增加MySQL元数据库和Thrift JDBC/ODBC Server机器名Spark角色Hadoop角色IP地址cloud1MasterNameNode SecondaryNameNode ResourceManager192.168.100.10cloud2SlaveMyS
4、QL元数据库DataNode NodeManager192.168.100.11cloud3SlaveThrift JDBC/ODBCServerDataNodeNodeManager192.168.100.126.2分布式SQL引擎第六章 Spark SQL MySQL元数据库搭建(1) 准备MySQL数据库(2) 创建数据库用户 sparksql(3) 创建元数据库 hiveMetastore MySQL-connector的配置(1) 下载mysql-connector-java-5.1.41-bin.jar(2) 配置conf/spark-env.sh(3) 配置hive-site.x
5、ml6.2分布式SQL引擎第六章 Spark SQL 使用Spark SQL CLI(1) 启动Spark SQL CLIcd /spark-2.1.0-bin-hadoop2.7./bin/spark-sql6.2分布式SQL引擎第六章 Spark SQL 使用Spark SQL CLI(2) 使用SQL操作数据常用数据操作SQL创建数据库create database mytestdb查看数据库show databases指定当前数据库use mytestdb创建表create table test_tbl(id int, name string, value int)查看表定义desc
6、test_tbl列出所有表show tables插入数据insert into table test_tbl values(0,blue,10)查询数据select * from test_tbl where value15删除表drop table test_tbl删除数据库drop database mytestdb6.2分布式SQL引擎第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试(1) 启动Thrift JDBC/ODBC Server./sbin/start-thriftserver.sh查看日志, 检查是否启动成功:使用netstat命令查看
7、thrift server的端:6.2分布式SQL引擎第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试(2) 使用Beeline测试Thrift JDBC/ODBC Server启动beeline./bin/beeline连接Thrift JDBC/ODBC Server!connect jdbc:hive2:/cloud3:100006.2分布式SQL引擎第六章 Spark SQL Thrift JDBC/ODBC Server的搭建与测试(3) 使用SQL操作数据查看数据库:指定当前数据库:use mytestdb6.2分布式SQL引擎第六章 Spar
8、k SQL Thrift JDBC/ODBC Server的搭建与测试(3) 使用SQL操作数据查看数据库中的表:查询数据: 大数据应用人才培养系列教材6 . 1SparkSQL简介6 .2 6 . 3分布式SQL引擎使用Data FrameAPI处理结构化数据习题第六章 Spark SQL6.3使用Data FrameAPI处理结构化数据第六章 Spark SQL 准备工作(1) 准备多行Json数据格式文件test.json(1) 上传文件至Hadoop hdfs中./bin/hadoop fs -put ./test.json /testdata/6.3使用Data FrameAPI处理
9、结构化数据第六章 Spark SQL 使用Spark Shell编写程序(1) 启动 Spark Shell./bin/spark-shell(2) 读取json文件(1) 过滤选择数据6.3使用Data FrameAPI处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序(4) 选择字段(4) 输出结果6.3使用Data FrameAPI处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序(6) 通过Spark Web查看Spark SQL的执行情况6.3使用Data FrameAPI处理结构化数据第六章 Spark SQL 使用Spark S
10、hell编写程序DataFrame转换流程6.3使用Data FrameAPI处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序分析后的逻辑计划优化后的逻辑计划6.3使用Data FrameAPI处理结构化数据第六章 Spark SQL 使用Spark Shell编写程序物理计划 大数据应用人才培养系列教材6 . 1SparkSQL简介6 .2 分布式SQL引擎6.3习题使用DataFrame API处理结构化数据第六章 Spark SQL 习题: 1. . SparkSQL作为分布式SQL引擎有哪几种使用方法?2. . SparkSQL中的Data Frame与RDD有何区别? 3 . Data FrameAPI 支持哪些数据源? 请列举3 个。4 . Catalyst优化器对Data Frame操作优化吗?5 . SparkSQLCLI的元数据库和数据默认情况下分别存在什么地方? AIRack人工智能实验平台一站式的人工智能实验平台DeepRack深度学习一体机开箱即用的AI科研平台BDRack大数据实验平台一站式的大数据实训平台云创公众号推荐看未来深度学习世界云计算头条中国大数据云创大数据订阅号云创大数据服务号高校大数据与人工智能微信号:data_AI微信号:cstorfw微信号:cStor_cn微信号:dl-world
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 塔吊需求计划
- 密码密钥管理员岗位责任制
- 突发公共卫生事件信息报告管理办法
- 年度工作总结不足之处及改进措施
- 年产1万吨中链甘油三酸酯MCT搅打奶油粉及2万吨粉末油脂项目可行性研究报告模板-备案审批
- 托管业务治理架构建设标准
- MCN机构主播招募管理规范
- 2026年农业科技行业智能种植报告及未来十年创新方向报告
- 小学数学思维导图在问题解决能力发展中的应用研究课题报告教学研究课题报告
- 新能源领域2025年高端精密模具研发生产项目技术可行性研究
- 健康膳食解码智慧树知到期末考试答案章节答案2024年佳木斯大学
- 磁生电教案(大赛一等奖作品)
- 部编版小学五年级语文下册第六单元综合测试卷(含答案)
- 货币银行学智慧树知到答案章节测试2023年上海财经大学浙江学院
- GB/T 18742.3-2002冷热水用聚丙烯管道系统第3部分:管件
- GB/T 18601-2001天然花岗石建筑板材
- GA/T 1133-2014基于视频图像的车辆行驶速度技术鉴定
- 第五章配送中心规划
- 教育学基础第七章-课堂教学课件
- 数字电子技术基础-余孟尝-课后答案(全)课件
- 四年级二班崇尚科学反对邪教主题班会
评论
0/150
提交评论