版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER数据的存储(1)5.1目录5.1.1旧知回顾5.1.2探究新知5.1.3实操演练5.1.4小试牛刀5.1.5点评与总结Hive安装配置表操作SparkSQL基础为新能源汽车大数据存储分析奠定技术基础5.1.1旧知回顾PARTONE5.1.1旧知回顾Hadoop分布式系统基础架构HDFSMapReduce5.1.1旧知回顾HDFS分布式文件系统,主从架构NameNode管元数据DataNode存数据块适合TB级大文件“一次写入、多次读取”MapReduce分布式计算模型Map(并行处理数据提键值对)Reduce(汇总中间结果)支撑海量数据处理5.1.2探究新知PARTTWO5.1.2探究新知实践任务在Hadoop集群基础上安装Hive;用HiveSQL建库、建外部表并关联HDFS数据;开发SparkSQL程序全量、增量同步Mysql表数据到Hive。5.1.2探究新知Hive概述SQL人员需查询HDFS结构化数据时Hive可解决这一需求解析HiveSQL并转成MapReduce任务执行让懂SQL但不懂MapReduce编程的人员也能使用Hadoop降低大数据处理门槛5.1.2探究新知Hive与关系型数据库关键区别应用场景Hive查延时大适合海量离线数据统计数据更新默认不支持更新删除多用于不常更新的数仓数据插入生产环境不建议直接用insert每次insert等价一次MapReduce5.1.2探究新知Hive架构MetaStoreHiveDrive存表结构等元数据依赖MySQL/OracleSQL解析器优化器5.1.2探究新知Hive架构Yarn集群HDFS执行MapReduce存表数据5.1.2探究新知Hive架构JDBC/ODBC驱动ThriftServer提供访问接口映射HDFS文件为表转SQL为MapReduce执行返回结果5.1.2探究新知Hive3.1.3安装实操5.1.2探究新知Hive实操实操5.1.2探究新知数据加载方式加载本地文件loaddatalocalinpath“/root/student.csv”intotablestudent将本地CSV文件导入表5.1.2探究新知数据加载方式insert插入insertintostudentvalues(“lig13”,“803427”,30)insert本质是执行MapReduce耗时较长5.1.2探究新知介绍SparkSQLSpark核心组件支持SQL分析核心对象:DataFrameSchema组织二维表Spark2.X用DataSet<Row>表示操作DSLSQL5.1.2探究新知介绍SparkSQL临时视图会话(仅当前会话访问)全局(所有会话访问)调用createTempView创会话临时视图用sparkSession.sql执行SQL语句课程总结Hive安装1表操作2SparkSQL基础3是新能源汽车大数据存储的核心支撑课程总结Hive与HDFS的关联SQL到MapReduce的转换逻辑e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER数据的存储(2)5.1目录5.1.1旧知回顾5.1.2探究新知5.1.3实操演练5.1.4小试牛刀5.1.5点评与总结5.1.3实操演练PARTTHREE5.1.3实操演练核心任务HDFS车辆动态明细数据MySQL车型销售信息同步到Hive,构建数据仓库ODS层5.1.3实操演练分步实操掌握数据同步关键流程夯实新能源汽车大数据存储基础5.1.3实操演练实操课程总结创建数据库1实现多源数据的统一存储ODS层构建关联HDFS数据2同步MySQL数据3课程总结关键要点包括外部表的安全使用分区配置的数据组织作用全量与增量同步的场景适配为新能源汽车大数据的清洗与分析提供支撑e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER数据的存储(3)5.1目录5.1.1旧知回顾5.1.2探究新知5.1.3实操演练5.1.4小试牛刀5.1.5点评与总结通过三道练习题检验知识掌握程度系统梳理本小节核心内容巩固Hive与SparkSQL知识点形成完整的技术认知框架5.1.4小试牛刀PARTFOUR5.1.4小试牛刀问题一在Hive中,以下哪个命令用于查看表的结构信息?()解析:DESCRIBETABLE(或简写为DESCTABLE)是Hive中查看表结构的标准命令,能显示字段名、数据类型及注释等基础元数据;A选项SHOWTABLES用于查看数据库中的表列表,C、D选项并非Hive的标准命令,因此排除。A.SHOWTABLESB.DESCRIBETABLEC.LISTSTRUCTURED.DISPLAYSCHEMAB5.1.4小试牛刀问题二关于SparkSQL的描述,以下哪项是错误的?()A.支持通过DataFrameAPI操作结构化数据CB.Catalyst优化器可优化查询
计划C.仅能处理存储在HDFS上的
数据D.兼容Hive语法并支持查询Hive表解析:SparkSQL支持多种数据源,不仅限于HDFS,还可直接处理Hive表、Parquet、JSON、JDBC数据库(如MySQL)、本地文件系统等;A、B、D选项描述均符合SparkSQL的特性。5.1.4小试牛刀问题三在SparkSQL中,DataFrame
的核心特性是什么?()A.仅支持单一数据类型CB.是不可变的分布式数据集C.二维表格结构且每列可含不同数据类型D.必须手动指定行索引和列索引解析:DataFrame
的核心是二维表格结构,每列可包含不同数据类型,支持多类型混合列;A选项错误,因其支持多数据类型;B选项是RDD与DataFrame
共有的特性,并非DataFrame
核心;D选项错误,行/列索引由Spark自动管理,无需手动指定。5.1.5点评总结PARTFIVE5.1.5点评总结Hive相关知识包括概述安装流程配置hive-site.xml替换guava包基本使用建库建表加载数据元数据与表真实数据的存放地址元数据存于MySQL/Oracle表数据存于HDFS指定目录Hive相关知识5.1.5点评总结Hive内部表与外部表的差异内部表外部表VS删表时仅删除元数据原始数据保留元数据与表数据会同时删除选择时结合数据是否已存在的场景判断,避免数据误删。5.1.5点评总结SparkSQL相关知识SparkSQL相关知识包括01概述02DataFrame
概述二维表格结构多数据类型列03基本使用04关键应用场景5.1.5点评总结SparkSQL相关知识读取MySQL数据并存储到Hive,具体实现两种同步方式:全量同步SaveMode.Overwrite
模式覆盖数据增量同步MAX(sales_id)动态获取最大ID仅同步新增数据5.1.5点评总结核心实践目标构建数据仓库ODS层通过Hive
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 健康照护师常识强化考核试卷含答案
- 安全防范系统安装维护员测试验证知识考核试卷含答案
- 2026年湖南常德市高三一模高考数学试卷试题(含答案详解)
- 抗生素酶裂解工岗前班组考核考核试卷含答案
- 自然保护区巡护监测员安全培训评优考核试卷含答案
- 桥梁基础知识培训
- 酒店客房服务规范与操作流程优化制度
- 车站人员考勤管理制度
- 济南冬天课件创作说明
- 经支气管镜封堵儿童支气管胸膜瘘
- 空调安装应急预案
- 木屋架维修施工方案
- 人工智能+技术体系变革智能物流研究报告
- 借用别人公司账户协议书
- 春节期间驾驶员安全教育
- 西湖龙井采购合同范本
- 集团公司职业技能等级认定管理办法
- 2025年紫金矿业ai面试题目及答案
- 复发性丛集性头痛
- HY/T 0437-2024海洋生物资源碳增汇计量和监测技术规范大型藻类(筏式养殖)
- 下肢动脉硬化闭塞症介入治疗讲课件
评论
0/150
提交评论