数据采集与预处理电子教案 P5-T1-用Kettle进行数据预处理_第1页
数据采集与预处理电子教案 P5-T1-用Kettle进行数据预处理_第2页
数据采集与预处理电子教案 P5-T1-用Kettle进行数据预处理_第3页
数据采集与预处理电子教案 P5-T1-用Kettle进行数据预处理_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据采集与预处理课程教案课程思政版·理实一体化课程名称数据采集与预处理课程类型专业核心课(理实一体化)教案编号P5-T1授课周次第周章节项目5数据预处理实践本次学时4学时(180分钟)课题任务1用Kettle进行数据预处理授课类型理论+实践授课地点计算机实训室授课班级授课日期年月日授课教师教室/实训室计算机实训室一、教学目标目标维度具体内容🎯课程思政目标(价值塑造)通过本任务的学习,培养学生:①精益求精的工匠精神和严谨细致的工作态度;②遵守职业规范、保护数据安全的职业道德意识;③团队协作、共同解决技术问题的合作精神。📚认知目标(知识传授)①了解用Kettle进行数据预处理的基本概念和原理。②熟悉相关工具的基本使用方法。💪能力目标(技能培养)①学会使用Kettle进行数据预处理。②学会使用pandas进行数据预处理。③学会使用FlumeInterceptor进行日志数据预处理。二、教学重点与难点(核心知识点)类别内容教学重点1.学习Kettle的相关基础知识。2.使用Kettle实现数据的预处理。3.熟悉Kettle的相关基础知识。4.学会使用Kettle完成数据的预处理。5.无编码、拖动方式开发教学难点1.学习Kettle的相关基础知识。2.使用Kettle实现数据的预处理。3.熟悉Kettle的相关基础知识。三、教学过程设计(180分钟理实一体化)教学环节时间教学内容与活动课程思政融入课程导入10分钟1.情景导入:展示用Kettle进行数据预处理在实际项目中的应用案例2.回顾上节课的知识点,建立知识联系3.提出本节课的学习问题:如何实现用Kettle进行数据预处理?4.明确本次任务目标和学习路径创设真实应用情境,激发学习兴趣,潜移默化融入思政元素,引导学生思考技术与社会的关系。理实一体化78分钟Pan组件与Kitchen组件在概念和用法上都非常相近,命令的参数也基本相同,也是Kettle的命令行执行程序,用于执行转换。(4)Carte组件Carte组件是轻量级的Web服务器,它接收包含要运行的转换和执行配置的XML(使用一个小servlet),允许远程监控、启动和停止在Carte服务器上运行的转换和作业。Kettle的核心概念如下。(1)转换转换负责数据的输入、转换、校验和输出等工作。Kettle中使用转换完成数据ETL的全部工作。转换由多个步骤(Step)组成,如文本文件输入、过滤输出行、执行SQL脚本等。各个步骤使用跳(Hop)来连接。跳定义了数据流通道,即数据由一个步骤流(跳)向下一个步骤。在Kettle中数据的最小单位是数据行(Row),数据流中流动的其实是缓存的行集(RowSet)。①步骤。步骤的关键特性如下所示。每个步骤需要一个名称,名称在同一个转换范围内必须是唯一的。每个步骤除了“生成记录”的步骤仅有写操作外,其余步骤都会进行读、写数据行操作。步骤将数据写到与之相连的一个或多个输出跳,再传到跳的另一端的步骤。大多数步骤都可以有多个输出跳,一个步骤中的数据发送可以被设置成分发(目标步骤轮流接收数据)和复制(目标步骤同时接收数据)。当一个步骤连接两个及以上步骤时,会提示选择分发或复制。②跳。跳就是步骤之间带箭头的连线,定义了步骤之间的数据通路。跳实际上是两个步骤之间的被称为行集的数据行缓存,行集的大小可以在转换的设置里定义。当行集满时,向行集写数据的步骤将停止写入,直到行集里又有空间。当行集空时,从行集读取数据的步骤将停止读取,直到行集里又有可读的数据行。(2)作业通过数据预处理技术的学习,培养学生发现问题、解决问题的数据思维,以及科学严谨的实验态度。理实一体化77分钟|调用DB存储过程|调用数据库存储过程转换|字段选择|选择需要的字段,过滤不需要的字段,也可进行数据库字段映射|去除重复记录|从输入流中去除重复的数据,需要注意输入流中的数据必须已排序|排序记录|使数据根据某个字段值进行排序|值映射|数据的映射|增加常量|增加需要的常量字段脚本|执行SQL脚本|扩展功能,编写SQL脚本,对数据进行相应处理|Java代码|扩展功能,编写Java脚本,对数据进行相应处理|JavaScript代码|扩展功能,编写JavaScript脚本,对数据进行相应处理应用|替换NULL值|使用指定内容替换所有字段的NULL值|设置值为NULL|根据设定条件将字段的值设置为NULL映射|映射(子转换)|子转换的作用是在一个转换中引用另一个转换来进行数据处理,相当于调用函数或模块|映射输入规范|映射输入规范是输入字段,由调用的转换输入|映射输出规范|映射输出规范是向调用的转换输入所有列,不做任何处理流程|空操作|不做任何操作通过独立实践操作,培养学生自主探究能力和解决实际问题的技术应用能力,强调规范操作和数据安全意识。课堂总结15分钟1.梳理本次课程的核心知识点2.对比总结用Kettle进行数据预处理的关键操作步骤3.布置课后作业:完成课后练习题,预习下一任务4.预告下一次课程内容归纳总结知识要点,强化职业规范意识,鼓励学生持续学习、精益求精,以工匠精神要求自己。四、课后作业①复习并整理本次课程的核心知识点,撰写不少于200字的学习心得。②完成教材项目5数据预处理实践中与用Kettle进行数据预处理相关的课后练习题。③拓展练习:自行查阅资料,尝试将用Kettle进行数据预处理应用到一个新的场景中,记录

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论