JQ_ETL久其ETL数据集成工具用户手册(更新至2.8.1).doc_第1页
JQ_ETL久其ETL数据集成工具用户手册(更新至2.8.1).doc_第2页
JQ_ETL久其ETL数据集成工具用户手册(更新至2.8.1).doc_第3页
JQ_ETL久其ETL数据集成工具用户手册(更新至2.8.1).doc_第4页
JQ_ETL久其ETL数据集成工具用户手册(更新至2.8.1).doc_第5页
免费预览已结束,剩余198页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

u北京久其软件股份有限公司总机真箱:技术支持:01088551199-2公司网址:目录第 1 章概述11.1什么是ETL11.2名词定义2第 2 章系统基础32.1系统结构32.2客户端登录32.3授权52.3.1获取机器码52.3.2安装授权62.4建模客户端一览62.4.1视图72.4.2菜单92.4.3工具栏16第 3 章快速入门173.1创建ETL方案183.1.1新建方案183.1.2数据连接193.1.3创建控制流223.1.4新建数据流233.1.5数据流验证293.2方案执行29第 4 章系统功能304.1方案管理304.1.1ETL方案管理304.1.2数据连接管理324.1.3参数管理454.1.4控制流管理514.1.5方案刷新534.2控制流设计534.2.1工具箱544.2.2基本任务564.2.3常用工具654.2.4Oracle任务774.2.5流程结束任务814.2.6控制流场景举例824.3数据流设计834.3.1工具箱834.3.2输入874.3.3转换1174.3.4业务规则1504.3.5输出1624.4公式体系1794.4.1公式向导1794.4.2语法规则运算符1824.4.3数值函数1834.4.4逻辑函数1844.4.5日期函数1844.4.6字符函数1864.4.7字符串函数1884.4.8二进制函数1894.4.9其他函数1894.5服务器管理1914.5.1计划任务1924.5.2日志管理1954.5.3参数配置1964.5.4修改密码1994.5.5退出系统200Error! No text of specified style in document. Error! No text of specified style in document.第 1 章 概述1.1 什么是ETLETL是Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据(如关系数据、平面数据文件等)抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。在企业数据集成、BI系统、数据仓库等项目中,项目成败的关键往往取决于ETL实施的成功与否。ETL技术从产生至今,大概经历了三个阶段的演化:第一代ETL原始的数据接口阶段这一阶段是企业信息化的早期阶段,业务系统之间的数据交互通常都是以定制开发接口的方式进行,期间产生了一些辅助的代码生成工具,但都需要研发人员参与,且生成的代码或工具只能应用于某一特定平台。在这一阶段项目的实施成本通常较高,产品灵活度不够,难以满足企业逐渐增长的数据集成需求。第二代ETLETL引擎形成期随着数据接口开发经验的积累,一些独立的ETL引擎逐渐开始出现,这些引擎归纳和整理了以往开发数据接口的经验,把一些常用的数据提取和清洗方式进行抽象,形成了一套相对独立的ETL体系。这一阶段的ETL引擎已经独立于来源和目标的数据平台,简化了实施和维护的工作量,但这一阶段的产品大都专注于记录行内的数据清洗,功能有限;并且由于实现技术简单,对大数据量和高并发的情况支持不足。第三代ETL企业级ETL技术的成熟期随着近年来各个BI厂商的兴起,对ETL技术的研究也越来越深入,像并行计算、海量数据加载、动态语言、数据缓冲等技术相继引入到ETL产品中,同时也提出了从E-TL模式向E-LT模式的转变,结合数据仓库自身进行优化处理,极大的提高了ETL产品的处理能力。ETL技术发展到这一阶段,才真正达到了产品的成熟期。1.2 名词定义l ETL:Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。l 控制流:将ETL数据处理过程分解为多个独立的执行过程,对这些过程进行调度和管理,并处理过程间的依赖和先后关系,是一个简化的工作流模型。l 数据流任务:简称为数据流,是一种特殊的任务类型,能够独立完成一次数据的提取、清洗、转化和加载过程,实现数据的流转控制,是ETL的核心功能之一。数据流由输入适配器、转换适配器、输出适配器和数据路径构成。l 数据清洗:Data Cleaning,对数据仓库系统无用的或者不符合数据格式规范的数据称之为脏数据。清洗的过程就是清除非法数据的过程。数据清洗是一个减少错误、不一致性和解决对象识别的过程。l 任务:任务是控制流构成的基本单位,是一个可以独立执行的数据提取过程,能够完成数据的整理、准备、提取等操作。l 适配器:在ETL中能够处理一定业务规则的功能元件,主要作用是接口转换器。适配器是封装了一定业务功能的ETL组件,可以是输入、输出、转换接口或其它功能的任务处理器。ETL方案主要由多个适配器协作构成。适配器可以二次开发扩展,是一个ETL产品开发期的概念,最终用户不需要了解此概念。l ODS:全称为Operational Data Store,即操作型数据存储,是面向主题的、集成的、可变的、反映当前数据值的和详细数据的集合,用来满足企业综合的、集成的以及操作型的处理需求。ODS是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征。1第 2 章 系统基础2.1 系统结构久其ETL数据集成工具采用传统的三层架构实现,客户端建模工具提供用户建模和配置操作,服务器端提供ETL计划任务的执行和监控,服务器和客户端之间通过Web Service进行数据通信;服务器控制ETL控制流或数据流执行,实现数据从来源到目标的转换和加载。在ETL实施过程中,也可以根据需要构建ODS中间存储进行数据的处理后再加载到目标中。如图:图 2.11 系统结构2.2 客户端登录1、 登录到服务器登录到服务器模式必须有ETL后台服务,使用ETL做的方案都存于数据库,并且可以对ETL方案进行计划任务。双击打开ETLDisiner.exe图标,输入服务器地址如http:/IP:PORT。输入用户名和密码,点击登录。默认用户名/密码为admin/admin,如图:图 2.21 登录服务器窗口勾选记住密码单选框,下次登录的时候用户名和密码会随服务器地址而带出,直接点击“确定”按钮即可登录ETL客户端。2、 本地存储模式本地存储模式用于配置和执行ETL方案,方案信息均存于本地,不能对ETL方案进行计划任务,必须要手动执行。主要用于ETL工具的学习以及一次性方案的制作。双击打开ETLDisiner.exe图标,点击“本地存储模式”页签,如图:图 2.22 本地存储模式窗口点击“浏览”按钮,可以选择ETL本地存储模式时方案存储的位置。点击“确定”按钮,打开“久其ETL建模平台”界面。如图:图 2.23 久其ETL建模平台2.3 授权ETL授权控制,以向用户提供授权文件的方式来进行控制,ETL授权的控制点主要体现在“功能”和“数据流数目”两方面。2.3.1 获取机器码1. 登录ETL客户端,点击菜单“窗口/选项”,进入首选项对话框。2. 点击左边的“授权”节点,在右侧的界面中显示机器码。3. 点击“复制”按钮,复制机器码给久其ETL技术支持人员,获取相应的授权文件(*.licence)。2.3.2 安装授权在上述的授权界面中,点击“安装授权文件”,选择*.licence文件,授权成功。授权后在授权对话框中显示授权基本信息和授权功能信息,如图:图 2.31 授权界面重启ETL客户端,被授权的机器所有功能均可使用。! 注:对ETL使用服务器模式,进行授权后,所有连接到此服务器服务的ETL客户端均可以获得相同的授权,不需要另作授权。! 注:ETL本地模式使用时,每台机器都需要单独授权。2.4 建模客户端一览建模客户端一览主要介绍客户端界面的菜单功能、工具栏功能以及各视图的功能及包含的内容。2.4.1 视图ETL建模客户端包括服务器视图、ETL编辑器视图、大纲视图、缩略图视图、属性视图、问题视图和控制台视图。如图:图 2.41 主界面各视图1. 服务器视图管理ETL方案。主要包括ETL方案的新增、修改、删除;数据连接的新增、修改、删除;参数的新增、修改、删除;以及控制流的新增、修改、删除。2. 工具箱包括控制流的工具箱和数据流的工具箱,主要用于各种任务和适配器的添加及任务转移和适配器的路径设计。其中控制流的工具箱包括 、基本任务(如:数据流任务、SQL任务、邮件任务等)、oracle任务(如:sql loader、oracle备份等)、EFDC任务;数据流的工具箱包括 、输入(SQL输入、文本输入、Excel浮动行、CI直连输入等)、转换(计算字段、查找、表关联、过滤等)、输出(BI输出、文本输出、数据库输出等)。3. ETL编辑器管理控制流和数据流。对于控制流主要用于编辑ETL控制任务并设置控制任务的转移方向,对于数据流主要用于编辑ETL数据流的输入、转换、输出适配器并设计各适配器的路径。ETL编辑器中支持右键功能,包括编辑、剪切、复制和删除。功能描述编辑等同于ETL编辑器中使用双击功能,用于编辑和设置编辑器中的内容。剪切用于剪切控制流任务或适配器,快捷键为ctrl+x。复制用于复制控制流任务或适配器,快捷键为ctrl+c。删除删除编辑器中的内容,快捷键为Delete。4. 问题视图用于实时检测在ETL编辑器中配置控制流和数据流出现的错误和警告信息,双击错误和警告信息时,焦点会自动对应到控制流任务或出错的适配器。5. 控制台视图用于查看控制流或数据流在执行的过程中产生的信息。主要包括时间信息、执行过程中各适配器的信息、异常信息、执行结果信息等。控制台视图中支持右键功能,包括剪切、复制、粘贴、全部选中、查找/替换、打开链接和清除。功能描述复制用于复制控制台视图中输出的控制信息,快捷键为ctrl+c。全部选中用于全部选中控制台视图中的控制信息,快捷键为ctrl+a。清除用于清空控制台视图中的控制信息。6. 大纲视图查看ETL编辑器中控制流和数据流的大纲,以树型结构的形式展现。点击树型节点,可以定位到相应的任务或适配器上。7. 缩略图视图查看ETL编辑器中控制流和数据流的缩略图,对于控制流和数据流比较复杂适配器较多的情况下,方便定位到ETL编辑器的各个位置。8. 属性视图用于编器各种任务、适配器和转移的属性信息。一般包括X坐标、Y坐标、标题、描述、名称、错误处理、单次提交记录数、数据连接等信息。属性视图中支持右键功能,包括复制和恢复缺省值。l 复制:用于复制属性视图中的信息,复制信息中包括属性和属性值。l 恢复缺省值:用于恢复属性视图中属性的缺省值。2.4.2 菜单ETL客户端的菜单栏包括文件、编辑、控制流、窗口和帮助菜单。1. 文件菜单功能描述新建可以新建方案、新建数据连接、新建参数、新建控制流、新建文件夹。其中在服务器视图中选择的节点不同,菜单中可用的菜单项也不同。如选中数据连接节点,则在下拉菜单中只有新建方案和新建数据连接为可用菜单项,其余均被禁用。关闭关闭当前ETL编辑器页签,快捷键为ctrl+w。全部关闭关闭所有ETL编辑器页签,快捷键为ctrl+shift+w。保存保存当前方案,快捷键为ctrl+s。全部保存保存ETL客户端中的所有方案,快捷键为ctrl+shift+s。导出导出所选的控制流方案,文件格式为*.ETL。导入导入文件格式为*.ETL的控制流方案。切换存储目录用于设置存储ETL配置信息与本地方案。重启重启ETL客户端。退出退出ETL客户端。2. 编辑菜单功能描述剪切剪切控制流任务或适配器,快捷键为ctrl+x。复制复制控制流任务或适配器,快捷键为ctrl+c。粘贴粘贴控制流任务或适配器到指定的编辑器中,快捷键为ctrl+v。删除用于删除控制流任务或适配器,快捷键为delete。全部选中用于全部选择所有的控制流任务或所有适配器,快捷键为ctrl+a3. 控制流菜单功能描述运行控制流在本地运行控制流,快捷键为F4。运行数据流执行编辑器中的数据流,快捷键为F6。验证对控制流进行错误验证,快捷键为F7。维护维护控制流,用于服务器模式,维护后控制流可以被修改。被维护的控制流计划任务时不被执行,快捷键为F8。发布发布控制流,用于服务器模式,发布后控制流不可以被修改。被发布的控制流可以用于计划任务,快捷键为F9。4. 窗口菜单显示视图:打开“显示视图”对话框。选择需要显示的视图,点击“确定”按钮即可。如图:图 2.42 显示视图窗口重置布局:点击后ETL客户端所有的视图重新排列成初始化视图的样式。F 说明:因误操作关闭了某些视图而找不到,可以从显示视图中把视图加入ETL客户端或直接点击重置布局。选项:用于配置ETL选项。点击“窗口/选项”菜单,弹出“首选项”界面,默认显示帮助节点的选项信息。如图:图 2.43 首选项-帮助设定窗口帮助节点选项中用于设置指定帮助信息的显示方式和打开方式。l 指定帮助信息的显示方式:勾选“使用外部浏览器”,则点击“帮助/帮助内容”时的帮助信息以IE浏览器的方式显示,不勾选则默认以ETL帮助界面显示。l 打开方式:在“打开窗口上下文帮助”中选中“在动态帮助视图中”时,每个节点的帮助信息均在帮助界面的右侧窗口中显示;选中“在弹出信息中”时,点击帮助节点帮助信息以弹出对话框的形式显示。在“打开对话框上下文帮助”中选中“在对话框托盘中”时,点击帮助信息中的链接时直接显示在该对话框中;选中“在弹出信息中”时,点击帮助信息中的链接时显示在弹出新的对话框中。点击“常规”节点,显示常规选项。如图:图 2.44 首选项-常规设定窗口常规节点选项中用于设置是否显示内存使用情况、是否记住登录密码和限制打开的编辑器数目。l 显示内存使用情况:勾选“显示内存使用情况”,则在ETL客户端的右下脚显示内存的占用信息和分配内存的大小。鼠标放于此区域,提示出ETL客户端内存使用情况。方案正常执行时内存信息会自动清空,而方案执行出错或者非法执行方案时,需要点击来释放内存信息。l 记住登录密码:勾选“记住登录密码”,设置在登录ETL客户端时是否记住用户名对应的密码,只适用于服务器模式。l 限制打开的编辑器数目:勾选“限制打开的编辑器数目”,下面的为可编辑项,默认为64,可以手动输入数字或点击标签改变最多打开编辑器数目的值。点击“授权”节点,显示授权选项,参见2.3.1节。点击“控制台”节点,显示控制台选项。如图:图 2.45 首选项-控制台设定窗口控制台节点用于设置控制台视图选项,包括执行方案前是否自动清空控制台视图和控制台视图显示日志的级别。l 执行前自动清空:默认为不勾选,选中则在方案执行时自动清空控制台视图中的信息。l 日志级别:默认选中“一般”,包括详细、一般和关键三种日志级别,各级别显示的日志信息详细程度不一样。其中选中“详细”,方案执行时在控制台视图中显示详细的执行信息;选中“一般”,方案执行时在控制台视图中显示一般的执行信息;选中“关键”,方案执行时在控制台视图中只显示关键的执行信息。点击“编辑器”节点,显示编辑器选项。如图:图 2.46 首选项-编辑器设定窗口编辑器节点用于设置ETL编辑器视图选项,包括是否网格对齐、是否显示网格、是否自动检查错误。l 网格对齐:默认为不选中。设置在ETL编辑器视图中添加适配器时是否对齐网格,选中则在拖拽适配器时适配器的左边框和上边框必须与网格线重叠。l 显示网格:默认为不选中。选中此选项,在ETL编辑器视图中显示网格,网格大由控制,可编辑。l 自动检查错误:默认为选中。选中此选项,在设计ETL方案时,出现错误或警告信息会自动在问题视图中显示出来。5. 任务和适配器位置调整可以根据个人的使用情况调节各任务和各适配器的位置,重新打开ETL编辑器即可。6. 模板新建模板后,在SQL任务、脚本任务、脚本适配器等地方可以使用快捷键“alt+/”调用模板。7. 帮助菜单(暂不支持)帮助内容:打开ETL客户端的帮助界面,查看帮助信息。关于:点击查看“关于 久其ETL建模平台”信息,包括产品详细信息、插件详细信息和配置详细信息。2.4.3 工具栏ETL客户端的工具栏如下图所示:工具栏中各图标的功能如下:功能描述新建点击向下的小箭头可以新建方案、新建数据连接、新建参数、新建控制流、新建文件夹。其中在服务器视图中选择的节点不同,菜单中可用的菜单项也不同。如选中数据连接节点,则在下拉菜单中只有新建方案和新建数据连接为可用菜单项,其余均被禁用。保存点击后保存当前方案,快捷键为ctrl+s。全部保存点击后保存ETL客户端中的所有方案,快捷键为ctrl+shift+s。剪切用于剪切控制流任务或适配器,快捷键为ctrl+x。复制用于复制控制流任务或适配器,快捷键为ctrl+c。粘贴粘贴控制流任务或适配器到指定的编辑器中,快捷键为ctrl+v。删除用于删除控制流任务或适配器,快捷键为delete。执行控制流在本地运行控制流,快捷键为F4。执行数据流执行编辑器中的数据流,快捷键为F6。错误验证对控制流进行错误验证,快捷键为F7。维护维护控制流,用于服务器模式。维护后控制流可以被修改,快捷键为F8。发布发布控制流,用于服务器模式,发布后控制流不可以被修改,快捷键为F9。后退控制流和数据流间的导航,后退操作。Ctrl+放大放大编辑器中的数据流,快捷键为ctrl+ =。缩小缩小编辑器中的数据流,快捷键为ctrl+ -。比例缩放调整编辑器中的数据流比例,直接下拉框中选择。第 3 章 快速入门本部分针对业务人员介绍ETL的使用特征,以达到快速上手的目的。主要以ETL方案从文本中提取数据经过转换过程加载到数据库输出案例进行说明。首先点击“ETLDesigner.exe”,登录到ETL客户端,如图:图 2.47 ETL客户端初始界面3.1 创建ETL方案3.1.1 新建方案登录客户端后,首先需要新建ETL方案。选择“文件-新建”菜单,或者利用快捷工具栏中的新建按钮均可新建方案。新建ETL方案后,在服务器视图的方案节点下会自动生成数据连接、参数和控制流三个节点。ETL方案新建完成后可进行删除和编辑操作。如图:图 3.11 服务器视图3.1.2 数据连接本次ETL方案是从文本中提取数据经过转换过程加载到数据库输出,因此需要建立两个数据连接,分别为文本数据连接和数据库连接。右键点击新建方案中的“数据连接”节点,在右键菜单中点击“新建数据连接”。如图:图 3.12 新建数据连接弹出“新建数据连接”对话框,如图:图 3.13 新建数据连接窗口1. 新建文本数据连接选择文本数据连接,在对话框右侧显示出文本数据连接信息。点击“下一步”按钮,在“设置”页签中对各输入框连接名称、连接描述、文件夹、分隔符、封闭字符、标题行数中输入相应的信息,其中连接名称、文件夹、分隔符和标题行数是必填字段。如图:图 3.14 新建文本数据连接窗口其中文件夹路径和分隔符必须填写正确。l 连接名称:文本数据连接的名称,显示在服务器视图下面的数据连接节点中。l 连接描述:设置文本数据连接的描述信息。l 文件夹:设置文本数据的本地存储位置。l 分隔符:指文本文件中的数据以该字符分开,以分清文本中数据所对应的字段。l 封闭字符:用于控制文本数据提取时结束的位置,封闭字符后面的数据不被提取。l 标题行数:设置标题行数后,提取数据时从标题行数后面的数据开始提取。l 字符编码:用于读取不同编码格式的文本文件。系统默认为采用当前操作系统的默认编码,所能支持的编码格式也由操作系统来决定。2. 新建数据库连接选择数据库连接,在对话框右侧显示出数据库连接信息。点击“下一步”按钮,对各输入框连接名称、连接描述、数据库类型、主机名称、数据库名称、端口号、用户名和密码中输入相应的信息,其中连接名称、数据库类型、主机名称、数据库名称、端口号、用户名和密码为必填项。如图:图 3.15 新建数据库连接窗口其中数据库类型、主机名称、数据库名称、端口号、用户名和密码必须填写正确。l 连接名称:数据库数据连接的名称,显示在服务器视图下面的数据连接节点中。l 连接描述:设置数据库数据连接的描述信息。l 数据库类型:选择数据库为oracle的数据库类型。l 主机名称:数据库服务器的IP地址。l 数据库名称:数据库的SID。l 端口号:数据库的端口号,oracle数据库默认为1521。l 用户名/密码:登录数据库指定的表空间用户名和密码。配制完成数据库连接信息,点击“测试连接”,若数据库数据连接信息均正确,则弹出提示信息“测试数据连接成功”。或数据库连接信息不对,点击“测试连接”,弹出测试连接失败对话框。如图:图 3.16测试失败对话框点击“详细信息”按钮,查看出错详细信息。如图:图 3.17测试失败详细信息对话框3.1.3 创建控制流右键点击新建方案中的“控制流”节点,在右键菜单中点击“新建控制流”。如图:图 3.18 新建控制流弹出的“新建控制流”对话框中输入控制流名称,如图:图 3.19 新建控制流窗口点击“确定”后,该控制流被加入到服务器视图的控制流节点中。并自动打开新建的控制流,如图:图 3.110 控制流主界面3.1.4 新建数据流如上图,打开“etl_control”控制流,拖动基本任务中的“数据流任务”到ETL编辑器或点击“数据流任务”再点击ETL编辑器的空白处,即可添加数据流任务。如图:图 3.111 新建数据流任务双击“数据流任务1”,打开数据流任务界面,同时页签标题也修改为“*etl_control 数据流任务1”,如图:图 3.112 数据流主界面上图中,从工具箱中分别拖入文本输入适配器、计算字段转换适配器、数据库输出适配器,并用对各适配器进行连接。连接顺序为输入适配器连到转换适配器再连接到输出适配器或者输入适配器直接连到输出适配器,而不能从转换适配器连接到输入适配器或输出适配器连接到转换适配器和输入适配器。如图:图 3.113 连接数据流图中各适配器均有错误或警告图标,说明各适配器还有问题需要配置,其中问题和警告信息在问题视图中都已经被列出。图 3.114 问题视图数据流任务配置过程:1) 输入适配器l 指定数据连接:将3.1.2节中新建的文本数据连接拖拽到“文本输入1”适配器,或者点中“文本输入1”适配器,在属性视图中选择文本连接名称,完成适配器关联数据连接。同时,在问题视图中错误栏中减少一个错误信息“没有指定数据连接”。如图:图 3.115 文本属性视图l 指定文本文件并添加字段:双击“文本输入1”适配器,弹出“文本输入”对话框。输入文件名称如“文本.txt”,并点击按钮添加字段。如图:图 3.116 文本输入适配器窗口点击“完成”按钮,完成文本输入适配器的配置。! 注:“文件名称”输入框中所输入的文件名称必须是文本数据连接下面存在的文件名,否则文本输入适配器读取不到该文件。并且文本数据中每个数据的分隔符必须是新建数据连接时设定的分隔符“,”。! 忽略参数字段的描述请参见文本输入适配器描述2) 转换适配器双击“计算适配器”,点击按钮,在列表中增加了一行计算字段行,包括字段名称、字段标题、字段表达式和字段类型。在“字段表达式”列中输入计算公式或点击该单元格后面的按钮,打开“公式向导”对话框配置计算表达式。如图:图 3.117 计算适配器窗口点击“完成”按扭,完成对计算适配器的配置。 3) 输出适配器l 指定数据连接:将3.1.2节中新建的数据库数据连接拖拽到“数据库输出1”适配器,或者点中“数据库输出1”适配器,在属性视图中选择数据库连接名称,完成适配器关联数据连接。同时,在问题视图中错误栏中减少一个错误信息“没有指定数据连接”。如图:图 3.118 数据库输出属性视图指定输出表并映射字段:双击“数据库输出1”适配器,弹出“数据库输出”对话框。在目标表下拉框中选择目标表,并将输入字段拖拽到指定的输出字段上使两个字段映射。如图:图 3.119 数据库输出适配器窗口点击“完成”按钮,完成数据库输出适配器的配置。3.1.5 数据流验证配置完数据流任务,查看“问题视图”或点击工具栏上的按钮,查看是否还有错误或警告信息。其中有错误的适配器必须修改到错误没有为止,警告的信息可以主观判断是否需要进行修改,不影响数据流的执行。3.2 方案执行执行方案分为两种,执行控制流和执行数据流。 执行控制流:点击菜单栏“控制流/运行控制流”或点击工具栏上的或按快捷键F5均可执行控制流。 执行数据流:点击菜单栏“控制流/运行数据流”或点击工具栏上的或按快捷键F6均可执行数据流。执行方案的过程中若发生错误,可在“控制台视图”中查看错误信息,并根据错误信息修改方案,再执行。如此循环直到执行成功为止。第 4 章 系统功能4.1 方案管理4.1.1 ETL方案管理管理ETL方案,对ETL方案进行新建、修改和删除操作。 新建选择“文件-新建-新建方案”菜单,或者点击工具栏中的图标,在下拉菜单中点击“新建方案”。弹出新建方案对话框,如图:图 4.11 新建方案窗口输入方案名称,如“ETL方案”,“确定”按钮自动变为激活状态,点击完成方案的新建。此处新建的方案名称不能与已有的方案名称同名,则在输入框的下方会提示“名称已存在”,且确定按钮为置灰的状态,不能新建方案。ETL方案新建成功后,在服务器视图的方案节点下会自动生成数据连接、参数和控制流三个节点。如图:图 4.12 服务器视图 修改右键点击方案名称,在弹出的菜单中点击“编辑”项。打开“重命名方案”对话框,如图:图 4.13 重命名方案窗口输入重命名的方案名称,点击“确定”按钮,完成方案名称的重命名。此处如果重命名的方案名称与已有的方案名称同名,则在输入框的下方会提示“名称已存在”,且确定按钮为置灰的状态,不能重命名方案。 删除右键点击方案名称,在弹出的菜单中点击“删除”项。打开“删除方案”对话框,如图:图 4.14 删除方案窗口输入“ok”,点击“确定”按钮,完成ETL方案的删除。! 说明:ETL方案在整体的制作过程中比较复杂,而且里面涉及的内容也比较多,一旦删除将无法还原。因此在删除方案的时候需谨慎,程序在删除方案的时候做控制也是为了防止失误操作删除ETL方案。4.1.2 数据连接管理管理数据连接,对数据连接进行新建、修改和删除操作。 新建选中“数据连接”节点,点击“文件-新建-新建数据连接”菜单,或点击工具栏中的图标,在下拉菜单中点击“新建数据连接”,或右键点击数据连接节点选择“新建数据连接”。弹出新建数据连接对话框,如图:图 4.15 新建数据连接窗口1. SMTP数据连接选择“SMTP数据连接”,在对话框右侧显示出SMTP数据连接信息。点击“下一步”按钮,打开“新建SMTP数据连接”界面。输入SMTP数据连接内容,点击“完成”按钮完成SMTP数据连接的配置。如图:图 4.16 SMTP数据连接窗口其中:l 连接名称:设置SMTP数据连接的名称,显示在服务器视图下面的数据连接节点中。节点名称不能与已有数据连接节点名相同。l 连接描述:设置SMTP数据连接的描述信息。l SMTP服务器:设置SMTP服务器地址,如163邮箱的SMTP服务器地址为:。l 邮箱地址:设置发送邮件的邮箱地址,如:l 密码:输入发送邮件邮箱地址的密码。2. 文本数据连接选择文本数据连接,在对话框右侧显示出文本数据连接信息。点击“下一步”按钮,在“设置”页签中对各输入框连接名称、连接描述、文件夹、分隔符、封闭字符、标题行数中输入相应的信息,其中连接名称、文件夹、分隔符和标题行数是必填字段。如图:图 4.17 文本数据连接-设置窗口其中:l 连接名称:文本数据连接的名称,显示在服务器视图下面的数据连接节点中。节点名称不能与已有数据连接节点名相同。l 连接描述:设置文本数据连接的描述信息。l 文件夹:设置文本数据的本地存储位置。也可以点击“参数”按钮,选择参数到文件夹地址中,从而使文件夹目录可以随参数的修改而改变路径。l 分隔符:指各数据以该字符分开,以分清文本中数据所对应的字段。l 封闭字符:用于控制文本数据提取时结束的位置,封闭字符后面的数据不被提取。l 标题行数:设置标题行数后,提取数据时从标题行数后面的数据开始提取。l 字符编码:用于读取不同编码格式的文本文件。系统默认为采用当前操作系统的默认编码,所能支持的编码格式也由操作系统来决定。! 用户可以自定义自己的分隔符。本文数据连接有测试功能,主要用于测试文本是否适用于该数据连接。点击左上角的“测试”页签,如图:图 4.18 文本数据连接-测试窗口其中:l 选择文件:点击输入框后面的“浏览”按钮,选择需要测试的文本文件。l 显示行数:测试本次文本数据在列表中需要显示的行数,默认为10行。l 刷新:点击“刷新”按钮,在效果预览列表中显示测试结果。l 效果预览:列表中显示文本数据结果测试信息。若文本文件与文本数据连接对应,则文本数据中的各字段对应的数据会以二维表的形式显示在列表中,如图:图 4.19 文本连接设置正确若文本文件与文本数据连接设置的分隔符不对应,则文本数据连接不能判断出文本数据中各字段的分隔位置,使测试出来的文本数据都集中于一列,如图:图 4.110 文本连接设置不正确3. 数据库连接1) 基本数据库连接选择数据库连接,在对话框右侧显示出数据库连接信息。点击“下一步”按钮,对各输入框连接名称、连接描述、数据库类型、主机名称、数据库名称、端口号、用户名和密码中输入相应的信息,其中连接名称、数据库类型、主机名称、数据库名称、端口号、用户名和密码为必填项。包括信息页签和属性页签,信息页签如图:图 4.111 数据库连接窗口(信息)其中:l 连接名称:数据库数据连接的名称,显示在服务器视图下面的数据连接节点中。节点名称不能与已有数据连接节点名相同。l 连接描述:设置数据库数据连接的描述信息。l 数据库类型:选择数据库类型,如Oracle。l 主机名称:数据库服务器的IP地址。l 数据库名称:数据库的SID。l 端口号:数据库的端口号,oracle数据库默认为1521。l 用户名/密码:登录数据库指定的表空间用户名和密码。填写完成后点击“测试连接”按钮,如果输入的连接信息正确,弹出提示信息“测试数据连接成功”;如果输入的连接信息错误,则弹出提示信息“测试数据连接失败”。属性页签如图:图 4.112 数据库连接窗口(属性)输入数据库的属性键和属性值,如:键= useUnicode、值= UTF-8、键=user、值=sa等。! 如果在安装SQL Server数据库时没有选择默认的实例进行安装,那么在填写主机名称时不能只填写服务器地址,而是要采用如下格式“服务器地址”。2) 代理数据库连接首先需要部署ETL代理服务器,将teapoy.war文件部署到ETL服务器中,具体操作见JQ_ETL久其ETL数据集成工具部署指南.doc的第三节。部署完毕后,在新建数据库连接时的数据库类型选择“久其代理数据库”,如下图:图 4.113 代理数据库连接窗口配置完成代理数据库连接后,代理数据库连接与数据库数据连接作用一样。4. BI服务器选择“BI服务器”,在对话框右侧显示出BI服务器的信息。点击“下一步”按钮,打开“新建BI数据服务连接”界面。输入BI服务器连接内容,点击“完成”按钮完成BI服务器的配置。如图:图 4.114 BI数据服务连接窗口其中:l 连接名称:BI服务器连接的名称,显示在服务器视图下面的数据连接节点中。节点名称不能与已有数据连接节点名相同。l 连接描述:设置BI服务器连接的描述信息。l 服务器地址:连接BI服务器的地址,格式为http:/IP:PORT。l 用户名/密码:登录BI服务器的用户名及密码。l 方案:点击输入框右侧的下拉按钮,从下拉列表中选择方案。填写完成后点击“测试连接”按钮,如果输入的连接信息正确,弹出提示信息“测试BI服务器成功”;如果输入的连接信息错误,则弹出提示信息“测试BI服务器失败”。5. CI数据连接选择“CI数据连接”,在对话框右侧显示出CI数据连接信息。点击“下一步”按钮,打开“新建CI数据连接”界面。输入CI数据连接内容,点击“完成”按钮完成CI数据连接的配置。如图:图 4.115 CI数据连接窗口其中:l 连接名称:CI服务据连接的名称,显示在服务器视图下面的数据连接节点中。节点名称不能与已有数据连接节点名相同。l 连接描述:设置CI数据连接的描述信息。l 服务器地址:连接CI服务器的地址,格式为http:/IP:PORT。l 用户名/密码:登录CI服务器的用户名及密码。l 方案:点击输入框右侧的下拉按钮,从下拉列表中选择实例。填写完成后点击“测试连接”按钮,如果输入的连接信息正确,弹出提示信息“测试CI数据连接成功”;如果输入的连接信息错误,则弹出提示信息“测试CI数据连接失败”。6. 文件数据连接选择“文件数据连接”,在对话框右侧显示出文件数据连接信息。点击“下一步”按钮,打开“新建文件数据连接”界面。输入文件数据连接内容,点击“完成”按钮完成文件数据连接的配置。如图:图 4.116 文件数据连接窗口其中:l 连接名称:文件数据连接的名称,显示在服务器视图下面的数据连接节点中。节点名称不能与已有数据连接节点名相同。l 连接描述:设置文件数据连接的描述信息。l 文件夹:设置文本的本地存储位置。也可以点击“参数”按钮,选择参数到文件夹地址中,从而使文件夹目录可以随参数的修改而改变路径。7. SAP BW服务器选择“SAP BW服务器”,在对话框右侧显示出SAP BW服务器信息。点击“下一步”按钮,打开“新建SAP BW服务器”界面。输入SAP BW服务器内容,点击“完成”按钮完成SAP BW服务器连接的配置。如图:图 4.117 CI数据连接窗口其中:l 连接名称:SAP BW服务器连接的名称,显示在服务器视图下面的数据连接节点中。节点名称不能与已有数据连接节点名相同。l 连接描述:设置SAP BW服务器连接的描述信息。l 服务器地址:连接SAP BW服务器的地址,格式为http:/IP:PORT。l 用户名/密码:登录SAP BW服务器的用户名及密码。l 超时时间(毫秒):设置连接SAP BW服务器的最大超时时间。填写完成后点击“测试连接”按钮,如果输入的连接信息正确,弹出提示信息“测试SAP BW服务连接成功”;如果输入的连接信息错误,则弹出提示信息“测试SAP BW服务连接失败”。8. FTP服务器选择“FTP服务器”,在对话框右侧显示出FTP服务器信息。点击“下一步”按钮,打开“新建FTP服务器”界面。输入FTP服务器内容,点击“完成”按钮完成FTP服务器连接的配置。如图:图 4.118FTP连接窗口其中:l 连接名称:FTP服务器连接的名称,显示在服务器视图下面的数据连接节点中。节点名称不能与已有数据连接节点名相同。l 连接描述:设置FTP服务器连接的描述信息。l 服务器名称:连接FTP服务器的IP,如:。l 用户名/密码:登录FTP服务器的用户名及密码。填写完成后点击“测试连接”按钮,如果输入的连接信息正确,弹出提示信息“测试FTP服务器连接成功”;如果输入的连接信息错误,则弹出提示信息“测试FTP服务器连接失败”。! 匿名登录选项是用于匿名用户连接FTP服务器,不需要输入用户名与密码即可连接,前提是FTP服务器有匿名登录的权限。9. 匿名数据连接匿名数据连接主要用于数据连接过多,需要批量新建批量数据连接时,用参数的方式实现,很大的减轻实施的工作量。格式为:“”。新建参数,选择参数类型为数据连接,在默认值框中输入匿名数据连接的信息。如图:图 4.119参数窗口匿名数据连接其中:l 参数名称:显示在服务器视图下面的数据连接节点中。节点名称不能与已有参数节点名相同。l 参数标题:参数的标题,可以不填l 参数描述:参数的描述信息,可以不填。l 取值方式:分为常量和公式,常量即是一个常值直接赋值给参数,而公式是给参数赋一个公式,值是可以变化的。l 参数类型:选择数据连接。l 默认值:输入匿名数据连接的信息,如“”。当然也可以把ip、端口、sid等设置为参数,以迭代的方式传入参数,从而使一个匿名连接相当于多个数据库连接。填写完成后点击“完成”按钮,完成匿名数据连接的配置。修改右键点击需要修改的数据连接,在右键菜单中选择“编辑”。弹出修改数据连接对话框,修改相应的信息,点击“完成”按钮即可完成数据连接的修改。详细操作参见中的新建数据连接。 删除右键点击需要删除的数据连接,在右键菜单中选择“删除”。弹出删除数据连接对话框“是否删除选中的1个数据连接?删除方案中已经使用的数据连接可能会使方案无法运行!”,点击“确定”按钮,完成数据连接的删除。4.1.3 参数管理参数在ETL方案下,控制流和数据流中均可以使用。在不同地方建立的参数,其作用于也不相同。作用域越小的参数,优先级越高。也就是说,在控制流与方案下同有一参数name,若在该控制流下使用这个参数,则使用的参数是控制流下的而不是方案下的。参数管理用于对参数进行新建、修改和删除操作。 全局参数 新建选中“参数”节点,点击“文件-新建-新建参数”菜单,或点击工具栏中的图标,在下拉菜单中点击“新建参数”,或右键点击数据连接节点选择“新建参数”。弹出参数设置对话框,如图:图 4.120 新建参数窗口其中:l 参数名称:输入参数的名称,显示在服务器视图下面的参数节点中。参数名称不能与已有参数节点名相同。l 参数标题:输入参数标题,可不填。l 参数描述:输入参数描述,可不填。l 取值方式:包括常量和变量,二选一。l 参数类型:选择参数类型,包括布尔、日期时间、浮点、高精度浮点、整数、字符串、数据连接七种类型。l 默认值:显示各种参数类型的默认值。当取值方式为常量时:其中布尔参数类型的默认值为空,可选择true和false两个值;日期时间参数类型默认为当前日期,可以修改。浮点参数类型默认为空,可以输入数值;、整数参数类型默认为0,可以修改为数值;字符串参数类型默认为空,可以任意输入;数据连接参数类型默认为空,且禁止输入,直接从下拉列表中选择相应的数据连接。当取值方式为公式时可以在默认值中录入公式,公式的返回结果必须符合所选参数类型。 修改双击“参数”节点中的参数名称或右键点击参数,在打开的菜单中选择“编辑”。弹出“参数设置”对话框,按节中新建参数的方法修改参数内容,点击“确定”即可。 删除右键点击参数,在打开的菜单中选择“删除”。弹出“删除参数”对话框,点击“确定”按钮后删除该参数。如图:图 4.121 删除参数窗口 控制流&数据流参数控制流参数的范围只在本控制流之内影响各个任务或者适配器。控制流参数的新建方法为:在ETL编辑器视图的控制流页签下点击空白区域,在属性视图中,点击“参数”项的浏览按钮,在弹出的参数列表中新建参数,如下图所示:图 4.122 控制流参数数据流参数的作用范围只在数据流任务中。点击数据流任务适配器,在属性视图中击“设置参数”项的浏览按钮,在弹出的参数列表中新建参数,如下图所示:图 4.123 控制流参数! 参数的适用范围采用就近原则,即如果同时含有同名的全局、控制流、数据流参数,那么引用这个参数时,只有数据流参数起作用。如:分别新建一个同名的全局、控制流、数据流整形参数,分别设默认值为1,2,3,然后在数据流参数中引用这个同名参数并运行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论