《ETL数据预处理技术》课件-任务6Kettle数据加载技术_第1页
《ETL数据预处理技术》课件-任务6Kettle数据加载技术_第2页
《ETL数据预处理技术》课件-任务6Kettle数据加载技术_第3页
《ETL数据预处理技术》课件-任务6Kettle数据加载技术_第4页
《ETL数据预处理技术》课件-任务6Kettle数据加载技术_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ETL数据预处理技术任务6-1全量加载01.数据加载机制02.目录全量加载CONTENTS数据的预处理过程,除了包括数据抽取、数据本身的清洗与检验以及数据转换操作,还包括数据加载操作。数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。数据加载基础数据安全不容忽视党的二十大报告提出“以新安全格局保障新发展格局”,体现了统筹发展和安全的根本要求,明确了构建新安全格局的战略任务。互联网时代,数据的内涵和外延、本质和特征都发生了深刻的变化,数据安全也成为事关国家安全与经济社会发展的重大课题从技术角度来说,全量加载比增量加载的操作要简单很多,即只需要在数据加载之前,将目标数据表进行清空,再将源数据表中的数据全部加载到目标表中。通过Kettle工具将数据表full_source中的数据全量加载到数据表full_target中。任务要求假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。数据表full_source和full_target的内容如图所示。数据表full_source数据表full_target数据准备打开Kettle工具,创建转换使用Kettle工具,创建一个转换“全量加载”,并添加执行SQL脚本控件、表输入控件、表输出控件以及Hop跳连接线,具体如图所示。1配置执行SQL脚本控件双击“执行SQL脚本”控件,进入“执行SQL语句”界面,具体如图所示。22配置执行SQL脚本控件单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置;在SQL框中编写删除数据表full_target中数据的SQL语句,如图所示。3双击“表输入”控件,进入“表输入”配置界面,在SQL框中编写查询full_source数据表的SQL语句,如图所示。配置表输入控件3配置表输入控件单击【预览】按钮,查看full_source数据表的数据是否成功从MySQL数据库中抽取到表输入流中,如图所示。4配置表输出控件双击“表输出”控件,进入“表输出”配置界面;单击目标表处的【浏览】按钮,选择输出的目标表,即数据表full_target,这里不需要新建数据库连接,只需要选择已创建的数据库连接即可,如图。4配置表输出控件双击“表输出”控件,进入“表输出”配置界面;单击目标表处的【浏览】按钮,选择输出的目标表,即数据表full_target,这里不需要新建数据库连接,只需要选择已创建的数据库连接即可,如图。5运行转换full_load单击转换工作区顶部的按钮,运行创建的转换full_load,实现将数据表full_source中的数据全量加载到数据表full_target中,如图所示。6查看数据表full_target中的数据通过SQLyog工具,查看数据表full_target是否已成功加载到数据,查看结果如图所示。小结全量加载先删,增量加载只针对变化数据数据加载机制结合实际案例讲述操作步骤全量加载任务6-2批量加载01.目录批量加载案例CONTENTS通常情况下,对于几千条甚至几十万条记录的数据迁移而言,采取DML(即数据操纵语言)的INSERT语句能够很好地将数据迁移到目标数据库中。然而,当数据迁移量过于庞大时,就不能使用INSERT语句,因为执行INSERT、UPDATE以及DELETE语句的操作都会生成事务日志,事务日志的生成会减慢加载的速度,故需要针对数据采取批量加载操作。通过Kettle工具将文件weibo_user.csv中的数据批量加载到数据表weibo_user中。案例介绍数据准备假设,现有一个CSV格式的微博用户信息文件weibo_user.csv,其中包含了用户id、用户名称、用户性别、用户简介等字段,文件weibo_user.csv的具体内容如图所示(这里只截取了部分数据)。打开Kettle工具,创建转换1使用Kettle工具,创建一个转换“批量加载”,并添加执行CSV文件输入控件、表输出控件以及Hop跳连接线,具体如图所示。2配置CSV文件输入控件双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,具体如图所示。2配置CSV文件输入控件在“文件名”处单击【浏览】按钮,选择要抽取的CSV文件weibo_user.csv;单击【获取字段】按钮,让Kettle自动检索CSV文件,并对文件中字段的类型、格式、长度、精度等属性进行解析,具体如图所示。2配置CSV文件输入控件单击【预览】按钮,查看CSV文件weibo_user.csv的数据是否抽取到CSV文件输入流中,具体如图所示。3配置表输出控件双击“表输出”控件,进入“表输出”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。数据库连接的配置,具体如图所示。3配置表输出控件单击目标表右侧的【浏览】按钮,选择输出的目标表,即数据表“微博信息”(该表需提前创建,且表结构需根据文件weibo_user.csv中数据的字段和数据类型进行创建,这里不作演示);勾选“指定数据库字段”的复选框,用于将微博信息数据表的字段与weibo_user.csv文件中的字段进行匹配;勾选“使用批量插入”的复选框,用于批量加载数据至目标表中,如图所示。3配置表输出控件选择“数据库字段”选项卡,单击【输入字段映射】按钮,弹出“映射匹配”对话框,3配置表输出控件依次选中“源字段”选项框的字段和“目标字段”选项框的字段,再单击【Add】按钮,将一对映射字段添加至“映射”选项框中,具体如图所示。3配置表输出控件单击映射匹配对话框的【确定】按钮,“表输出”界面最终显示的效果,具体如图所示。4运行转换运行转换“批量加载”,实现将CSV文件weibo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论