《大数据存储技术》课件-项目五：指标计算与数据分析

上传人：青*** IP属地：福建上传时间：2026-03-05 格式：PPTX 页数：145 大小：88.97MB 积分：15 举报 版权申诉

已阅读5页，还剩140页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER数据的存储（1）5.1目录5.1.1旧知回顾5.1.2探究新知5.1.3实操演练5.1.4小试牛刀5.1.5点评与总结Hive安装配置表操作SparkSQL基础为新能源汽车大数据存储分析奠定技术基础5.1.1旧知回顾PARTONE5.1.1旧知回顾Hadoop分布式系统基础架构HDFSMapReduce5.1.1旧知回顾HDFS分布式文件系统，主从架构NameNode管元数据DataNode存数据块适合TB级大文件“一次写入、多次读取”MapReduce分布式计算模型Map（并行处理数据提键值对）Reduce（汇总中间结果）支撑海量数据处理5.1.2探究新知PARTTWO5.1.2探究新知实践任务在Hadoop集群基础上安装Hive；用HiveSQL建库、建外部表并关联HDFS数据；开发SparkSQL程序全量、增量同步Mysql表数据到Hive。5.1.2探究新知Hive概述SQL人员需查询HDFS结构化数据时Hive可解决这一需求解析HiveSQL并转成MapReduce任务执行让懂SQL但不懂MapReduce编程的人员也能使用Hadoop降低大数据处理门槛5.1.2探究新知Hive与关系型数据库关键区别应用场景Hive查延时大适合海量离线数据统计数据更新默认不支持更新删除多用于不常更新的数仓数据插入生产环境不建议直接用insert每次insert等价一次MapReduce5.1.2探究新知Hive架构MetaStoreHiveDrive存表结构等元数据依赖MySQL/OracleSQL解析器优化器5.1.2探究新知Hive架构Yarn集群HDFS执行MapReduce存表数据5.1.2探究新知Hive架构JDBC/ODBC驱动ThriftServer提供访问接口映射HDFS文件为表转SQL为MapReduce执行返回结果5.1.2探究新知Hive3.1.3安装实操5.1.2探究新知Hive实操实操5.1.2探究新知数据加载方式加载本地文件loaddatalocalinpath“/root/student.csv”intotablestudent将本地CSV文件导入表5.1.2探究新知数据加载方式insert插入insertintostudentvalues(“lig13”,“803427”,30)insert本质是执行MapReduce耗时较长5.1.2探究新知介绍SparkSQLSpark核心组件支持SQL分析核心对象：DataFrameSchema组织二维表Spark2.X用DataSet<Row>表示操作DSLSQL5.1.2探究新知介绍SparkSQL临时视图会话（仅当前会话访问）全局（所有会话访问）调用createTempView创会话临时视图用sparkSession.sql执行SQL语句课程总结Hive安装1表操作2SparkSQL基础3是新能源汽车大数据存储的核心支撑课程总结Hive与HDFS的关联SQL到MapReduce的转换逻辑e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER数据的存储（2）5.1目录5.1.1旧知回顾5.1.2探究新知5.1.3实操演练5.1.4小试牛刀5.1.5点评与总结5.1.3实操演练PARTTHREE5.1.3实操演练核心任务HDFS车辆动态明细数据MySQL车型销售信息同步到Hive，构建数据仓库ODS层5.1.3实操演练分步实操掌握数据同步关键流程夯实新能源汽车大数据存储基础5.1.3实操演练实操课程总结创建数据库1实现多源数据的统一存储ODS层构建关联HDFS数据2同步MySQL数据3课程总结关键要点包括外部表的安全使用分区配置的数据组织作用全量与增量同步的场景适配为新能源汽车大数据的清洗与分析提供支撑e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER数据的存储（3）5.1目录5.1.1旧知回顾5.1.2探究新知5.1.3实操演练5.1.4小试牛刀5.1.5点评与总结通过三道练习题检验知识掌握程度系统梳理本小节核心内容巩固Hive与SparkSQL知识点形成完整的技术认知框架5.1.4小试牛刀PARTFOUR5.1.4小试牛刀问题一在Hive中，以下哪个命令用于查看表的结构信息？（）解析：DESCRIBETABLE（或简写为DESCTABLE）是Hive中查看表结构的标准命令，能显示字段名、数据类型及注释等基础元数据；A选项SHOWTABLES用于查看数据库中的表列表，C、D选项并非Hive的标准命令，因此排除。A.SHOWTABLESB.DESCRIBETABLEC.LISTSTRUCTURED.DISPLAYSCHEMAB5.1.4小试牛刀问题二关于SparkSQL的描述，以下哪项是错误的？（）A.支持通过DataFrameAPI操作结构化数据CB.Catalyst优化器可优化查询

计划C.仅能处理存储在HDFS上的

数据D.兼容Hive语法并支持查询Hive表解析：SparkSQL支持多种数据源，不仅限于HDFS，还可直接处理Hive表、Parquet、JSON、JDBC数据库（如MySQL）、本地文件系统等；A、B、D选项描述均符合SparkSQL的特性。5.1.4小试牛刀问题三在SparkSQL中，DataFrame

的核心特性是什么？（）A.仅支持单一数据类型CB.是不可变的分布式数据集C.二维表格结构且每列可含不同数据类型D.必须手动指定行索引和列索引解析：DataFrame

的核心是二维表格结构，每列可包含不同数据类型，支持多类型混合列；A选项错误，因其支持多数据类型；B选项是RDD与DataFrame

共有的特性，并非DataFrame

核心；D选项错误，行/列索引由Spark自动管理，无需手动指定。5.1.5点评总结PARTFIVE5.1.5点评总结Hive相关知识包括概述安装流程配置hive-site.xml替换guava包基本使用建库建表加载数据元数据与表真实数据的存放地址元数据存于MySQL/Oracle表数据存于HDFS指定目录Hive相关知识5.1.5点评总结Hive内部表与外部表的差异内部表外部表VS删表时仅删除元数据原始数据保留元数据与表数据会同时删除选择时结合数据是否已存在的场景判断，避免数据误删。5.1.5点评总结SparkSQL相关知识SparkSQL相关知识包括01概述02DataFrame

概述二维表格结构多数据类型列03基本使用04关键应用场景5.1.5点评总结SparkSQL相关知识读取MySQL数据并存储到Hive，具体实现两种同步方式：全量同步SaveMode.Overwrite

模式覆盖数据增量同步MAX(sales_id)动态获取最大ID仅同步新增数据5.1.5点评总结核心实践目标构建数据仓库ODS层通过Hive外部表关联HDFS的车辆数据SparkSQL将MySQL的车型、销售数据同步到Hive形成多源数据统一存储的ODS层为后续数据清洗、分析奠定基础课程总结旧知回顾1探究新知2实操演练3习题检测4总结梳理5Hive与SparkSQL的核心技术新能源汽车大数据存储到ODS层的关键流程课程总结开展数据仓库更高层级的构建与分析工作e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER数仓的建设(1)5.2从ODS层延伸至DWD、DWS层，逐步揭开数据仓库构建的奥秘，探索数据加工与整合的逻辑目录5.2.1旧知回顾5.2.2探究新知5.2.3实操演练5.2.4小试牛刀5.2.5点评总结e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.2.1旧知回顾PARTONEDWS层DWD层5.2.1旧知回顾ODS层

基于Hive和SparkSQL完成ODS层搭建

通过SparkSQL实现数据从ODS到DWD

再到DWS的流转，构建更有价值的数据资产e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.2.2探究新知ODS层表设计DWD层的事实表和维度表PARTTWODWD层表设计DWS层的主题宽表5.2.2探究新知ODS层数据做清洗、转换数据存到DWD层对应的事实表和维度表DWD层数据做汇总分析存到DWS层的主题宽表里5.2.2探究新知

数据仓库的基础概念主题的相对稳定的集成的反映历史变化的ADS层DWS层DWD层5.2.2探究新知ODS层操作型数据存储层明细数据层汇总数据层应用数据层5.2.2探究新知ODS层

原始数据存储层对接业务系统保留数据原貌5.2.2探究新知ODS层

设计保持结构和字段基础ETL操作维护数据贴源建模维护数据轻量清洗数据粒度细源系统保持一致5.2.2探究新知DWD层

明细数据层对ODS数据

清洗

标准化

主题化5.2.2探究新知DWD层

特点最细粒度的数据关联事实表和维度表原则统一字段命名维度冗余到事实表里，减少后续关联维护数据星型/雪花模型维护数据一致性维护数据维度退化维护数据单笔订单记录5.2.2探究新知DWS层

汇总数据层基于DWD做轻度聚合预计算日销售额、用户留存率等指标提升查询性能5.2.2探究新知DWS层

数据组织宽表设计围绕业务场景存储成本与效率维护数据主题维护数据主题驱动维护数据适度冗余销售用户5.2.2探究新知ADS层

应用数据层面向业务场景高度聚合数据BI工具直接支撑报表5.2.2探究新知设计物化视图、索引指标定义一致快速响应业务决策维护数据性能优先维护数据口径统一ADS层

5.2.2探究新知数仓建模的两大经典模式星型模型雪花模型中心事实表直接关联维度表查询快，适合OLAP维度表规范化存储高效但关联多适合维度复杂场景5.2.2探究新知数仓的“灵魂组合”事实表含外键关联维度维度表主键关联事实表围绕事实表展开支持层次结构销售额订单量产品客户信息e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER数仓的建设(2)5.2从ODS层延伸至DWD、DWS层，逐步揭开数据仓库构建的奥秘，探索数据加工与整合的逻辑e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.2.3实操演练PARTONE

实现DWD层与DWS层的搭建5.2.３

实操演练ODS层DWD层DWD层DWS层清洗、转换、统计与分析SparkSQL程序5.2.３

实操演练创建DWD层Hivecreatedatabasedwd数据库dwd5.2.３

实操演练两张事实表与一张维度表string、array<string>采集时间collect_time车架号vin车型idveh_type_idint5.2.３

实操演练主键IDveh_type_id车型veh_type清洗车型信息统一日期格式veh_type_id车型信息维度表5.2.３

实操演练车辆销售事实表处理sales_id类型改为bigintvehicle_id重命名为vin编码0映射为“现金全款”1映射为“分期”订单IDsales_id车架号vin5.2.３

实操演练CREATETABLEIFNOTEXISTSdwd.dwd_fact_can_data(...)分区存储dt日期分区格式PARQUETSNAPPY压缩5.2.３

实操演练车辆信息维度表采用PARQUET存储格式SNAPPY压缩CREATETABLE5.2.３

实操演练车辆销售事实表存储格式与压缩方式DWD层核心表创建完毕5.2.３

实操演练数据处理程序开发dwd_dim_veh_type表com.dw.etl.dwd.DwdDimVehTypedw-etl项目ODS层ods_veh_type表数据进行清洗SparkSQLdwd_dim_veh_type表结果开发SparkSQL程序com.dw.etl.dwd.DwdFactCanData创建读取ODS层ods_can_data增量分区数据读取dwd_dim_veh_type表数据读取5.2.３

实操演练5.2.３

实操演练Hive>select*fromdwd.dwd_fact_can_datalimit10vin、veh_type_id、speed前10行数据5.2.３

实操演练改为vin、sales_id转为bigint类型vehicle_id“现金全款”和“分期”0和1com.dw.etl.dwd.DwdFactVehSales5.2.３

实操演练查询dwd_fact_veh_salessales_id为42、43记录现金全款分期5.2.３

实操演练搭建DWS层“createdatabasedws;”Hive中创建dws库5.2.３

实操演练用户画像宽表每日车辆综合分析宽表5.2.３

实操演练用户画像宽表用于整合客户购车与车辆使用数据每日车辆综合分析宽表用于统计每日车辆运行指标Vin客户ID销售日期Vin车速日期5.2.３

实操演练dws_customer_profile表每日车辆综合分析宽表执行CREATETABLE语句按dt分区存储格式与压缩存储配置与前者一致5.2.３

实操演练com.dw.etl.dws.DwsCustomerProfile创建dwd_fact_can_data与dwd_fact_veh_sales表数据读取DWD层5.2.３

实操演练com.dw.etl.dws.DwsVehAnalysis1d类DWD层dwd_fact_can_data表采集时间为日期格式后vin与collect_date转换读取创建分组e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER数仓的建设(3)5.2e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.2.４

小试牛刀PARTTWOe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9检验对数据仓库分层职责模型设计等核心知识的掌握程度，巩固内容５.2.4小试牛刀第一题５.2.4小试牛刀在数据仓库的分层架构中，哪一层的主要职责是对原始数据进行清洗、标准化和主题化整合，并保留明细粒度（如单笔订单记录）？()A.结合数仓分层的核心职责分析B.DWD层作为明细数据层C.DWS层基于DWD层数据进行轻度汇总D.ADS层面向应用提供高度聚合的数据B５.2.4小试牛刀第二题以下关于星型模型和雪花模型的描述中，哪一项是正确的？()A.雪花模型通过非规范化设计减少表连接，查询性能优于星型模型B.星型模型的维度表可能存在冗余，但查询时只需一次表连接，适合OLAP分析C.雪花模型适合简单维度层次，而星型模型适合复杂维度层次D.星型模型的存储效率更高，因为维度表完全规范化B第二题A.雪花模型通过非规范化设计减少表连接，查询性能优于星型模型雪花模型通过规范化设计（拆分维度表为多级子表）减少冗余会增加表连接次数查询性能通常低于星型模型５.2.4小试牛刀第二题C.雪花模型适合简单维度层次，而星型模型适合复杂维度层次雪花模型适合复杂维度层次（如国家→省份→城市）星型模型适合简单扁平维度５.2.4小试牛刀第二题D.星型模型的存储效率更高，因为维度表完全规范化星型模型因非规范化设计存在数据冗余，存储效率较低雪花模型通过规范化节省存储空间５.2.4小试牛刀第二题B.星型模型的维度表可能存在冗余，但查询时只需一次表连接，适合OLAP分析星型模型由中心事实表和多个直接连接的维度表组成，维度表可能存在冗余但查询时只需一次表连接，性能较高５.2.4小试牛刀适合OLAP分析和报表场景５.2.4小试牛刀第二题以下关于星型模型和雪花模型的描述中，哪一项是正确的？()A.雪花模型通过非规范化设计减少表连接，查询性能优于星型模型B.星型模型的维度表可能存在冗余，但查询时只需一次表连接，适合OLAP分析C.雪花模型适合简单维度层次，而星型模型适合复杂维度层次D.星型模型的存储效率更高，因为维度表完全规范化Ｂe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.2.５

点评总结PARTONE5.2.5课程总结数仓DWD层和DWS层从ODS层到DWD层从DWD层到DWS层5.2.5课程总结基本概念与分层思想关键模型概念具体职责和基本设计原则数据加工和汇总方法第一部分第二部分第三部分第四部分e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER指标的计算（1）5.3e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9数据仓库实现有效存储与分析新能源汽车大数据的存储及分析新能源汽车大数据关键环节指标的计算e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9大数据存储及分析技术至关重要车辆性能监控用户行为分析大数据成为推动行业进步的重要力量目录目录5.3.1旧知回顾5.3.2探究新知5.3.3实操演练5.3.4小试牛刀5.3.5测评总结e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.3.1旧知回顾PARTONE5.3.1旧知回顾DWS层DWD层ODS层新能源汽车大数据仓库数据接收清洗转换统计汇总5.3.1旧知回顾ODS层数据仓库的源头汽车运行状态用户行为信息充电记录5.3.1旧知回顾DWD层ODS层的数据进行清洗和转换准确性一致性处理缺失值、异常值数据转换和字段的重命名5.3.1旧知回顾DWS层对数据进行汇总和统计更高级别指标和报表车辆性能用户行为e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.3.2探究新知PARTONE5.3.2探究新知数据仓库ADS层构建与应用的关键要点ADS层的概念、作用、特点与设计原则设计ADS层的表结构根据现有的DWS层数据，基于SparkSQL开发ETL任务，将结果存储到ADS层根据ADS层需求，优化调整DWS层，使ADS数据简单、高效5.3.2探究新知常用存储ADS层数据的数据库关系型数据库对数据准确性和处理有较高要求时ADS层的数据量不是很大MySQL5.3.2探究新知常用存储ADS层数据的数据库金融、电信等行业客户信用评级数据用户套餐使用数据数据安全机制稳定性5.3.2探究新知常用存储ADS层数据的数据库内存数据库Redis快速读写数据电商平台的热门商品信息社交平台的在线用户状态提高响应速度满足实时性需求5.3.2探究新知ETL任务的常用工具ApacheAirflowPython编写DAG编排、调度和监控ETL动态生成任务创建和调度任务流程丰富的插件生态扩展各种功能依赖管理和可视化界面5.3.2探究新知ETL任务的常用工具海豚调度国产开源任务调度平台多租户同一平台上独立使用管理需求资源隔离功能，资源互不干扰支持拖拽式DAG设计弹性扩缩容和任务优先级调度5.3.2探究新知ETL任务的常用工具Crontab+Shell

简单直接无需部署其他平台缺乏依赖管理和可视化监控功能更适合周期性执行的基础ETL任务5.3.2探究新知SparkSQL程序读取student.json文件MySQL的bigdata库的student表SparkSQL与MySQL进行交互e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER指标的计算（2）数据仓库的搭建是个层层递进的过程指标的计算是数据仓库应用层构建的核心环节5.3e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.3.3实操演练PARTONE5.3.3实操演练1.业务需求与总体思路提供API接口的方式业务需求dws库重要主题宽表来开展工作总体思路5.3.3实操演练2.创建ADS并新增字段创建ads数据库ads数据库useadsdrive_days_30d整型字段5.3.3实操演练计算30天内开车天数的统计逻辑3.修改类行为特征数据维度5.3.3实操演练4.新增当日高速行驶占比字段并重构5.3.3实操演练5.ads库建用户驾驶行为表5.3.3实操演练6.编写SparkSQL同步DWS数据到ads.use_drive表e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9ENTER指标的计算（3）5.3

customer_idSTRING;ALTERTABLEsalesREPLACECOLUMNS(idSTRING,amountDOUBLE,customer_idSTRING);e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.3.4小试牛刀第一题在Hive中，如果要在分区表sales的末尾添加一个新字段customer_id（类型为STRING），并确保所有历史分区都能识别该字段，应该使用以下哪个命令？()对分区表结构调整添加新字段时仅使用ALTERTABLEsalesADDCOLUMNS(customer_idSTRING);表结构被更新，历史分区中的数据不会自动包含这个新字段导致查询时出现数据不一致的问题e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.3.4小试牛刀第一题在Hive中，如果要在分区表sales的末尾添加一个新字段customer_id（类型为STRING），并确保所有历史分区都能识别该字段，应该使用以下哪个命令？()ALTERTABLEsalesADDCOLUMNS(customer_idSTRING);ALTERTABLEsalesADDCOLUMNS(customer_idSTRING)CASCADE;ALTERTABLEsalesCHANGECOLUMNcustomer_id

customer_idSTRING;ALTERTABLEsalesREPLACECOLUMNS(idSTRING,amountDOUBLE,customer_idSTRING);Be7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.3.4小试牛刀第一题在Hive中，如果要在分区表sales的末尾添加一个新字段customer_id（类型为STRING），并确保所有历史分区都能识别该字段，应该使用以下哪个命令？()BB.ALTERTABLEsalesADDCOLUMNS(customer_idSTRING)CASCADE;确保所有历史分区都会同步更新元数据，识别新添加的字段能正确显示新字段的值，避免数据不一致的风险历史数据回溯数据迁移保证数据完整性和一性e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.3.4小试牛刀问题二在使用SparkSQL将DataFrame

写入JDBC数据库时，以下哪种保存模式会覆盖目标表如果表已存在？()A.SaveMode.AppendB.SaveMode.IgnoreC.SaveMode.ErrorIfExistsD.SaveMode.Overwritee7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB95.3.4小试牛刀问题二在使用SparkSQL将DataFrame

写入JDBC数据库时，以下哪种保存模式会覆盖目标表如果表已存在？()A.SaveMode.Append在表的末尾追加数据，不会对原有数据进行覆盖使用这个模式就只是把新数据加在后面，不会改变原有数据不符合覆盖的要求e7d19552306

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

《大数据存储技术》课件-项目五：指标计算与数据分析

文档简介

温馨提示

最新文档

评论

《大数据存储技术》课件-项目五：指标计算与数据分析

文档简介

温馨提示

最新文档

评论

相关文档