《大数据存储技术》课件-项目四:数据处理与ETL流程_第1页
《大数据存储技术》课件-项目四:数据处理与ETL流程_第2页
《大数据存储技术》课件-项目四:数据处理与ETL流程_第3页
《大数据存储技术》课件-项目四:数据处理与ETL流程_第4页
《大数据存储技术》课件-项目四:数据处理与ETL流程_第5页
已阅读5页,还剩103页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9指标分析(1)收集、处理和分析车间设备运行数据4.1提升生产效率、优化资源配置以及实现智能化管理ENTERe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9指标分析(1)收集、处理和分析车间设备运行数据4.1提升生产效率、优化资源配置以及实现智能化管理ENTERe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9目录4.1.1旧知回顾4.1.2探究新知4.1.3实操演练4.1.4小试牛刀4.1.5总结点评e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9目录掌握数据分析技能

打下工作基础车间设备运行数据的指标分析方法e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9目录课程结构设计紧凑而全面循序渐进的方式逐步掌握车间设备运行数据指标分析e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.1.1旧知回顾PARTONE4.1.1课程回顾ETL流程中的关键环节工业大数据场景数据的质量直接影响到后续分析的准确性和有效性4.1.1课程回顾根据业务主键去除重复记录避免数据冗余去重处理保留原始分区字段为数据分析和问题排查提供便利分区管理将timestamp类型统一yyyy-MM-ddHH:mm:ss格式时间格式标准化添加数据操作相关的字段数据提供上下文信息补充字段e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.1.2探究新知PARTTWO4.1.2探究新知高级的数据分析技术挖掘车间设备运行数据价值4.1.2探究新知窗口函数允许在数据集上进行分组排序,并计算每组的记录数中位数统计学的集中趋势度量指标,反映数据的中心位置4.1.2探究新知时间计算日期格式化4.1.2探究新知窗口函数对数据集的灵活分组和排序计算车间的设备运行时长的中位数4.1.2探究新知中位数计算方法依赖于数据的奇偶性记录数为奇数时,中位数就是中间的值记录数为偶数时,取中间两个值的平均值中位数能够更准确地反映数据的中心趋势4.1.2探究新知日期格式化时间计算处理时间序列数据unix_timestamp函数date_format函数计算时间差按月分组计算时间戳格式化日期4.1.2探究新知聚合计算对数据进行汇总和统计比较逻辑casewhen语句允许根据特定条件对数据进行分类和比较avg()函数计算设备平均运行时间,子查询计算平均值比较工厂平均值与全局平均值,判断工厂生产效率4.1.2探究新知类型转换技术处理不同类型的数据cast()函数允许数据从一种类型转换为另一种类型将字符串类型的时间戳转换为日期类型e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9指标分析(2)收集、处理和分析车间设备运行数据4.1提升生产效率、优化资源配置以及实现智能化管理ENTERe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.1.3实操演练PARTTHREE4.1.3实操演练理论知识实践能力挑战性和实践性4.1.3实操演练工业大数据分析优化生产流程的关键工业大数据平台完成三项指标计算4.1.3实操演练设备运行时长中位数月平均运行时长对比设备最近第二次状态贴合工业生产实际需求数据的抽取、清洗、转换到最终的分析计算掌握环节操作要点,大数据技术实际应用为工业数据中数据分析工作打下坚基础4.1.3实操演练工业大数据分析通过对海量数据的处理与分析优化生产流程提升设备效率智能化管理4.1.3实操演练Scala语言和Spark技术MySQL数据库中抽取数据导入到Hive的ODS层数据据处理的起点,确保获取到准确、完整的数据数据清洗和转换操作存储到DWD层数据的质量有效保障,为指标计算与分析奠定了良好基础去除错误信息,转换格式课程小结设备运行模式和状态变化规律在特定的时间段内进入运行状态另一时间段内停止运行设备的运行计划存在某种内在逻辑课程小结分析运行计划的原因和合理性设备使用需求生产任务安排课程小结避免不必要的空闲或过度使用优化生产流程和设备调度,提升整体生产效率,降低生产成本调整运行计划提高设备利用率e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9指标分析(3)收集、处理和分析车间设备运行数据4.1提升生产效率、优化资源配置以及实现智能化管理ENTERe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.1.4小试牛刀PARTFOUR4.1.4小试牛刀选择题紧密围关键知识点和技能点像是尺子衡量对知识的理解深度和运用能力帮助巩固所学知识,提升分析问题的能力为工作中应对数据挑战奠定坚实的基础4.1.4小试牛刀问题一在设备运行时长中位数统计任务中,当设备状态记录数为偶数时,处理方式是:解析:当设备状态记录数为偶数时,正确的处理方式是取中间两个值的平均值。这是统计学中标准的中位数计算方法,能够更准确地反映数据的中心位置。A.取中间两个值的平均值B.随机选择其中一个中间值C.两条数据原样保留输出D.不进行中位数计算4.1.4小试牛刀问题二计算月平均运行时长对比时,如果某设备的change_end_time为空,应该:解析:如果某设备的change_end_time为空,说明设备可能仍在运行中。此时正确的处理方式是使用当前时间作为结束时间,以更准确地计算设备的运行时长。A.使用当前时间作为结束时间B.该状态不参与计算C.默认按0秒计算D.使用同类型设备的平均值替代4.1.4小试牛刀问题三在设备最近第二次状态展示任务中,如果一个设备只有一条状态记录,系统会:解析:如果一个设备只有一条状态记录,系统应该返回该唯一状态。这是合理的处理方式,因为没有足够的数据来展示第二次状态。A.返回空值B.返回该唯一状态C.报错提示数据不足D.返回相邻设备的状态4.1.4小试牛刀全方位的知识大检阅以高度的专注和认真的态度对待目和任务实践视为提升自己数据分析能力的宝贵机会巩固所学知识,让数据分析能力提升实践中不断探索和创新,发现更多信息e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.1.5点评总结PARTFIVESparkSQL编写Scala代码4.1.5点评总结多表关联查询复杂聚合操作结果存储到MySQL验证数据正确性4.1.5点评总结未来的数据分析工作提供有力支持

在数据的战场上所向披靡4.1.5点评总结实践中运用所学知识提升数据分析能力为企业的发展贡献智慧和力量4.1.5点评总结车间设备运行数据的存储及分析指标分析运用知识解决实际问题提升数据分析能力e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9数据抽取(1)数据已经成为企业竞争力的核心要素之一4.2数据驱动决策,优化生产流程,提高设备运行效率ENTERe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9目录4.2.1旧知回顾4.2.2探究新知4.2.3实操演练4.2.4小试牛刀4.2.5点评总结复习相关工具和语言数据抽取的概念、关键步骤以及注意事项用Spark和Scala语言抽取数据,存储到Hive数据库对数据抽取流程的理解回顾课程学习内容e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.2.1旧知回顾PARTONE4.2.1旧知回顾功能强大的集成开发环境(IDE)JavaJVM语言代码功能编辑项目管理调试版本控制高效编写和管理代码4.2.1旧知回顾开源项目管理和构建自动化工具Java项目的构建依赖管理文档生成数据抽取项目管理项目所需的依赖库确保项目顺利进行4.2.1旧知回顾运行在Java虚拟机上的多范式编程语言设计目标创建简洁、高效且可扩展的语言保持与Java的互操作性强大功能高效处理数据4.2.1旧知回顾基于Hadoop的数据仓库熟悉SQL的用户进行大数据处理提供SQL的查询语言(HiveQL)数据存储到Hive数据仓库中数据的存储、查询和分析进行后续的数据分析和处理4.2.1旧知回顾开源的分布式计算系统为大规模数据处理和分析而设计强大的分布式计算引擎处理大规模数据集Spark作为主要数据处理工具e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.2.2探究新知PARTTWO4.2.2探究新知完整性准确性时效性一致性数据抽取不是简单的数据复制和粘贴4.2.2探究新知数据抽取车间设备运行运行状态生产记录故障信息数据分散在不同的数据源中数据抽取技术整合到数据仓库中数据分析数据处理4.2.2探究新知数据抽取数据抽取的关键步骤连接数据源数据读取与转换数据存储到Hive验证数据抽取结果使用Spark和ScalaJDBC读取存储后分区管理确保数据正确抽取和存储SparkSQL创建临时视图优化数据存储和查询性能4.2.2探究新知数据抽取一致性完整性性能优化确保抽取的数据准确无误避免数据源更新后不一致优化抽取过程以提高性能JDBC读取数据SparkSQL数据处理设置合理的抽取时间窗口解决通过设置分区策略优化查询语句4.2.2探究新知数据抽取实现数据驱动决策的基础关系型数据库Hive数据库Hive的分布式存储和查询能力数据分析数据处理4.2.2探究新知数据抽取能源行业抽取设备运行数据

实时运行参数和历史维护记录

数据存储到Hive数据仓库中

按时间分区,快速查询和分析4.2.2探究新知健康数据分析支持临床决策医疗行业数据仓库中的数据数据抽取e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9数据抽取(2)数据已经成为企业竞争力的核心要素之一4.2数据驱动决策,优化生产流程,提高设备运行效率ENTERe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.2.3实操演练PARTTHREE4.2.3实操演练SparkScala从关系型数据库中抽取数据Spark存储到Hive数据仓库4.2.3实操演练数据抽取是数据驱动决策的关键步骤MySQL数据库抽取车间设备运行相关数据存储到Hive数据仓库的ODS层设备变更记录基础设备信息生产记录设备数据抽取日期分区,便于数据分析与处理4.2.3实操演练4.2.3实操演练车间设备运行数据设备运行状态生产记录故障信息从数据源中抽取存储到数据仓库4.2.3实操演练完整性准确性时效性一致性数据抽取e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9数据抽取(3)数据已经成为企业竞争力的核心要素之一4.2数据驱动决策,优化生产流程,提高设备运行效率ENTERe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.2.4小试牛刀PARTFOUR4.2.4小试牛刀选择题检验大家对数据抽取流程的理解程度希望积极参与,通过答题巩固所学知识问题一在制造业的数字化转型中,数据抽取的主要目的是?解析:在制造业的数字化转型中,数据抽取的主要目的是为了收集和整合来自不同来源的数据,以便进行深入分析和洞察,从而支持基于数据的决策制定。A.提高生产速度B.实现数据驱动决策C.减少人工操作D.增加设备数量4.2.4小试牛刀4.2.4小试牛刀问题二以下哪项不是数据抽取过程中需要考虑的因素?解析:因素主要包括数据的完整性、时效性和安全性。数据的一致性是在数据抽取之后,在数据整合和处理阶段需要考虑的因素,以确保不同来源的数据在格式和内容上保持一致。A.数据的完整性B.数据的时效性C.数据的安全性D.数据的一致性4.2.4小试牛刀问题三在本任务中,使用哪种技术从关系型数据库中抽取数据?解析:任务使用Spark和Scala语言从关系型数据库中抽取数据。Spark具备强大的数据处理能力,能够高效地处理大规模数据集,支持从关系型数据库等多种数据源进行数据抽取。A.HadoopB.SparkC.KafkaD.Flink4.2.4小试牛刀问题四在Hive中创建表时,哪个选项不是必须指定的?解析:在Hive中创建表时,必须指定字段的数据类型、可以指定分区字段、需要指定存储格式,但不需要指定数据源地址。数据源地址通常在加载数据到表时指定。A.数据类型B.分区字段C.存储格式D.数据源地址4.2.4小试牛刀问题五在SparkSQL中,以下哪个命令用于显示表的分区信息?解析:在SparkSQL中,SHOWPARTITIONS命令用于显示表的分区信息,列出表中所有分区的详细信息。A.SHOWTABLESB.SHOWPARTITIONSC.DESCRIBED.SELECT*e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.2.5点评总结PARTFIVE4.2.5点评总结使用Spark和Scala从关系型数据库中抽取数据数据存储到Hive数据仓库数据抽取的概念、关键步骤、注意事项数据抽取过程中需要注意的关键点数据抽取过程中需要注意的关键点

实操演练将理论知识应用于实践中

数据的完整性和一致性数据抽取过程中需要注意的关键点分区策略以及通过行业案例应用知识4.2.5点评总结

数字化转型中的数据抽取

保持学习态度,紧跟技术发展数据抽取e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9数据清洗(1)数据就像是企业发展的基石4.3车间设备运行数据的存储及分析中重要环节ENTERe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9目录4.3.1旧知回顾4.3.2探究新知4.3.3实操演练4.3.4小试牛刀4.3.5总结点评建立知识之间的联系拓宽我们的视野理论知识转化为实际能力检验学习效果梳理所学内容,加深记忆e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.3.1旧知回顾PARTONE4.3.1旧知回顾数据抽取数据处理流程第一步数据清洗、转换和加载4.3.1旧知回顾数据抽取数据源提取目标数据库项目任务关系型数据库中抽取车间设备数据存储到Hive数据仓库中4.3.1旧知回顾数据抽取完整性准确性时效性一致性e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.3.2探究新知PARTTWO4.3.2探究新知ETL流程中的关键环节核心目标提升数据质量符合后续分析需求数据清洗4.3.2探究新知数据清洗工业大数据场景去重处理时间格式标准化字段补充空值处理4.3.2探究新知数据清洗根据业务主键去除重复记录去重处理保留原始分区字段以确保数据可追溯分区管理将timestamp类型统一为特定格式时间格式标准化添加数据操作相关的字段补充字段数据清洗的核心操作4.3.2探究新知数据清洗数据清洗的技术要点数据读取、转换和写入SparkSQL操作Hive表,支持分区写入Hive集成时间处理函数4.3.2探究新知零售业客户数据整合清洗案例全国性连锁超市分散的会员数据中央数据仓库客户分析精准营销4.3.2探究新知基本信息格式混乱案例问题联系方式不规范地址信息不完整重复注册问题无效数据问题解决方案标准化处理,统一姓名格式为“姓氏+名字”手机号统一为11位数字,去除所有非数字字符补全缺失省市区字段,基于现有信息推断填充识别重复客户,保留激活记录,合并客户信息直接进行删除处理4.3.2探究新知金融业交易数据清洗案例金融行业交易数据风险控制客户行为分析交易记录不完整案例问题与解决措施必填缺失字段标注“未知”而非空值关联账户信息补全部分交易对手信息数据格式不一致统一金额为数值型,去除货币符号转换所有时间戳为UTC标准时间4.3.2探究新知4.3.2探究新知异常交易数据案例问题与解决措施建立金额合理规则,标记可疑交易时间不同步统一时间标准,消除时区差异建立业务代码映射表,统一业务编码业务代码冲突e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9数据清洗(2)数据就像是企业发展的基石4.3车间设备运行数据的存储及分析中重要环节ENTERe7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB94.3.3实操演练PARTTHREE4.3.3实操演练

赋予动手实操的机会

深化数据清洗流程理解与掌握工业大数据分析数据质量准确性和可靠性决定能否做出科学合理的决策4.3.3实操演练实际操作体验数据清洗的步骤数据分析数据处理4.3.3实操演练原始数据层(ODS层)是“数据杂货铺”冗余记录缺失值格式不统一数据若直接用于分析引入大量噪声影响分析结果的精确度4.3.3实操演练ODS层数据进行清洗去除重复记录规范时间格式补充必要字段结果存储到DWD层指标计算和分析提供数据基础时间处理4.3.3实操演练将ODS库中的相应表数据全量抽取至Hive的DWD库中对应表中确保时间数据均按照既定格式进行标准,不记录毫秒数数据中仅包含年月日信息的情况,在时分秒的位置补全零值e7d195523061f1c09e9d68d7cf438b91ef959ecb14fc25d26BBA7F7DBC18E55DFF4014AF651F0BF2569D4B6C1DA7F1A4683A481403BD872FC687266AD13265C1DE7C373772FD8728ABDD69ADD03BFF5BE2862BC891DBB79E29A9EA08C41FBAAAEBA9838744021BA1A549F215E22F9DF55A2786735D9CE05356CBEF0EA947A60887D8B18533B9D50651C047EA81072EB9数据清洗(3)数据就像是企业发展的基石4.3车间设备运行数据的存储及分析中重要环节ENTERe7d195523061

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论