《数据采集与预处理》教学教案—09用Kettle进行数据预处理_第1页
《数据采集与预处理》教学教案—09用Kettle进行数据预处理_第2页
《数据采集与预处理》教学教案—09用Kettle进行数据预处理_第3页
《数据采集与预处理》教学教案—09用Kettle进行数据预处理_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据采集与预处理教 案NO. 9教师姓名授课班级授课形式理实一体化授课时间年 月 日第周授课时数4授课章节名称任务2用Kettle进行数据预处理教学目的(1)熟悉 Kettle的相关基础知识。(2)学会使用 Kettle完成“北京公交线路信息”数据的预处理。教材分析教学重点使用 Kettle完成“北京公交线路信息” 数据的预处理教学难点使用 Kettle完成“北京公交线路信息” 数据的预处理更新、补充、删节内容课外作业积极动手实践,熟练完成相关任务的实施操作教学提示教学过程一、知识准*:Kettle的中文名称为水醯g在数据处理中.Kettle是一个ETL工具并, 它可以管理来自不同数据库的数据

2、,通过提供一个团形化的用户环境来描 述想做什么,而不是怎么做。Kettle中有两种脚本文件:Transfonnation和 Jobo其中,Transfoimation用于完成针对数据的基础转换.而Job用于完成 整个工作流的控制。1. Kettle的三大模块(1) Spoon转换/工作设计工具(GUI方式)。(2) Kitchen一一工作执行器(命令行方式)。(3) Pan转换执行器(命令行方式)。2. Kettle的组件创戏一个新的Transfoimation, Kettle中Transformation文件的默认后 级名为ktro创延一个新的Job, Kettle中Job文件的默认后缀名为

3、kjbo(1) Transformation 组件树 Main Tree:列出了一个Transformation的基本属性,可以通过各个 节点进行直看。DB 连接:显示当前 Transfonnation中的数据库连接,每一个 Transformation的数据库连接都需要单独配趋。Steps: 一个Transfoimation中应用到的环节列表。 Hops: 一个Transformation中应用到的节点连接列表°核心对顼菜单列出的是 Transformation中可以调用的环节列表,可以 通过限标拖动的方式对环节进行添加。(2) Job组件树 Main Tree:列出了一个Job的

4、基本属性,可以通过各个节点进行 查看。 DB连接:显示当前Job中的数据库连接,每一个Job的数据库连 接都需要单独配理。Job Entries:即作业项目一个Job中引用的环节列表。核心对顼菜单列出的是Job中可以调用的环节列表,可以通过限标拖 动的方式对环节进行添加。每一个环节都可以通过限标拖动操作被添加到 主街口中,并可通过“Shift”键+鼠标拖动,实现环节之间的连接。二、佳务实施:1.修改数据库默认字符集并创建数据库数据存入 MySQL时会出现中文乱码问题,因此需要将 MySQL数据 库的默认字符条设为UTF-8。具体操作如下。(1)进入默认 MySQL安装目录.查看 f文件,如画4

5、-4所示。:S cd "tc/"八:,$ 川。gedtt fThe MySOi ddxatnse server coZtquraron nu.Y8 can copy this to one of: ,/etc/r,sql/Ff to set gloAl options. */.r»f' to st user-jpectfU opMx$(x* can v辑 all long options that the xwm suwrxs.Aun q69rs with -*h«lp to get a of watlabl。opttOAt and withpr

6、tnt-defaults to see 扁Ich It would actually understdod and use.Pr expUn«tton5 seehttp:/d<v.ny5ql.ccn/<Joc/Hyiql/en/>«rver-5yMen-verk«be>.htR IrtPORTAM: Additional settings that cae override those frow this file!The files nust erd Mtth '.ent*. othen/tsc they'll be Ig

7、nored.IlMludMlr /式。雨,81/0«干“ IU<lud«dtr.conf.d/国4-4 查有 f文件从图4-4可以看出f文件弓I用了 conf.d与 mysql.conf.d两个目录 中的文件。(2)绢辑conf.d目录中的f文件。(3)修改 mysql.conf.d 目 录中的 f 文件,在mysqld中 添力口acharacter-set-server=utf8(4)进入 MySQL 数据库,执行 ashow variables like,%char%,;v 命令, 查看数据库字待集。2 .创延数据表进入student数据库,创延bus info数

8、据表,用于存储执行数据清洗 操作后的数据。3 .创延 Transformations(1)进入/usr/local/kettle 目录,执彳亍 “./spoon.sh”命令,启动 Kettle。(2) Transformationso首先,新建一个 Transfonnations (双击 Transformations 图标即可)。其次,选择“Design”选项卡,先后将“Input”节点中的"Text file input”、 aTransformv 节点中的 “Unique rows"、"Utility”节点中的 “If field value is null

9、"及“Output”节点中的“Table output”拖动到工作区中。最后,按住 “Shift” 键,拖动 “Text file input” 图标到 “Unique rows” 图标,进行连线,以此操作实现各个环节间的连线,如图4-16所示。(3)设五 “Text file input”。双击uText file inputv图标.进入“Text file input”承受界面,如困 4-17所示。在“Text file input”界面中单击“Browse”按钮,设近目录为“公 交线路数据”所在目录,并选中要清洗的资源文件 “bus info.csv",单 击“确定”

10、按钮。在“Text file input”界面中单击“Add”按钮,导入 资源文件,如图4-18所示。选择“Content”选项卡,设受Separator为(Separator表示文件分 隔符),设近Format为“mixed”,设理Encoding为“UTF-8”(这里设五 的字符集绢码要和文件字符窠的编码一致),如图4-19所示,设竞完毕后 单击“OK”按钮°选择“Fields”选项卡,并单击“Get Fieldsv按钮,在弹出的对话框 中设竞获取数据的行数,这里设受为“100”,设再完毕后单击“OK”按 钮。再次选择“Content”选项卡,单击“Preview rows”按钮

11、,预览数据. 查看完毕后单击“Close”按钮,随后单击“OK”按钮,如由4-21所示。(4)设趋“Unique rows”的相关参数g双击 “Unique rows”图标,进入 “Unique rows”设置界面.Unique rows 组件的功能是去里.单击“Get”按钮,获得字段名,设比完毕后单击“OK” 按钮。(5)双击 “If field value is null” 图标,进入 aReplace null valuev 设 近界面.设近 “If field value is niill”相关内容,将 “Replace by valuev 设 近为“空值”(即将数据中所有的空数据坡充

12、为“空值”)。(6)双击“Tableoutput”用标,进入“Tableoutput” 3殳4界面,设五 “Table output” 相关参数。4 .运行任务单击宙口左上方的按钮,弹出“Run Options”对话框,单击“Run” 按钮,运行数据清洗任务。此时,进入保存程序文件界面,设苴保存的文件名称和保存位K,单 击“确定”按钮。执行数据洗洗操作,并将清洗后的数据批势导入到数据库中。更新打开一个终端,进入MySQL,进入student数据库,检验清洗后的数 据是否正确导入数据库,如图 4-5所示。如已经正确导入,则数据库的 busjnfo表中会有数据存在q:/$ nysql -uroot

13、 -pEnter password: welccwe to the MySQL monitor. Cowwnds end with ; or g. Your MySQL connecttofi td U 22Server version: S.7.23-8ubuntu (Ubuntu)Copyright (c) 2638. 2618, Oracle and/or Its affiliates. All rights reserved.Oroclc is o registered trodenark of Oracle Corporation ond/or its afftlUtes. Other names zy be trademarks of thetr respective owners.Type 'help:' or ,h, for help. Type 'c' to clear the current Input statement.y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论