DataStage培训经典.ppt_第1页
DataStage培训经典.ppt_第2页
DataStage培训经典.ppt_第3页
DataStage培训经典.ppt_第4页
DataStage培训经典.ppt_第5页
已阅读5页,还剩128页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DATASTAGE培训 内容提要 一 datastage介绍二 如何安装datastage三 配置datastage工程四 设计并运行datastage的job五 操作元数据六 操作关联数据七 操作约束条件及数据来源八 定义查找使用的哈希文件九 聚合数据十 job的运行及调试十一 创建Basic表达式 一 datastage的介绍 本章主要讲解ETL的概念 datastage的介绍 组成及主要功能 ETL概要 ETL包括数据抽取 Extract 数据转换 Transform 以及数据加载 Load 3个阶段 一般而言 这三个过程中有二次落地 生成中间文件 AscentialDataStage是一套专门对多种操作数据源的数据抽取 转换和维护过程进行简化和自动化 并将其输入数据集市或数据仓库目标数据库的集成工具 DataStage能够处理多种数据源的数据 包括主机系统的大型数据库 开放系统上的关系数据库和普通的文件系统 包括Oracle Sybase DB2 SQLServer Teradata FTP文件系统 文本文件等等 数据清洗 转换 加载都可以在图形化工具里完成 同样可以灵活的被外部系统调度 提供专门的设计工具来设计转换规则和清洗规则等 实现了增量抽取 任务调度等多种复杂而实用的功能 DS介绍 Datastage的组成 Datastage的服务器端和客户端 Datastage是C S软件 服务器端存储所有的ds项目和元数据 由关系型数据库 RDBMS 组成 客户端具有同服务端一样的软件接口 客户端运行于windows95或更高版本 服务端可运行于windowsNT4 0或windows2000版本 datastage的很多版本都支持unix DSAdministrator在服务端管理ds的项目和服务端操作 主要用于工程的参数调整 变量设置 及command操作 DSDesigner建立ds的job并且编译执行的程序 主要用于job的开发及编译 DSDirector运行和监控ds的job 主要用于job调试 DSManager允许编辑和查看在ds中存储的内容 主要用于项目管理或job的导入 导出 备份 DataStage中的Administrator 默认使用Administator来指定常规的服务端 用来增加或删除DataStage工程 并且可以设置工程的属性 Administator也对于总库提供命令接口 使用Administator的 ProjectPropertities 工程属性的窗口 可以进行1 在 General 页框中 设置Job监控的一些限制信息和Director中的其他信息 2 在 Permission 页框中 设置并分配开发人员组的权限 3 在 Tracing 页框中 设置或取消服务端进行跟踪 4 在 Schedule 页框中 设置调度时运行Job所用到的用户名和口令 5 在 Tunables 页框中 指定Hash文件Stage的读写的缓存大小 在DataStage中的Administrator设置常用服务器的默认值 1 改变Licence信息 2 设置服务端连接超时时间 DataStage中的Manager 使用DataStage中的Manager来存储和管理Job的元数据 使之可以在DataStage中的Designer中再度被使用 元数据包括表单和文件结构和导出数据的Routines的转换等等 Manager是DataStage存储的一个重要的部分 可以用来加入表单和文件的结构 在左侧分支树中显示Routines Transforms和Jobs 自定义的Routines和Transforms也在DataStage中的Manager里创建 DataStage中的Designer DataStage中的Designer允许使用熟练地拖拽图标和连线的方式来表示数据抽取 清洗 转换 整合和加载的过程 并将数据导入数据仓库的表单之中 Designer提供一个数据流程的模式 轻松将设置和Job的设计有机的组成 使用Designer 可以 1 指定数据如何抽取 2 指定数据的转换规则和进行转换 3 使用参考性质的LookUp到数据集市中编辑数据 a 例如 如果销售的记录集包括CustomerID 可以在CustomerMaster表中使用LookUp查找到Customer的名称 b 当需要连接数据集市并使用查询 可以快速的进行访问 4 对数据进行整合 5 在定义的约束条件中将基础数据分割成为多个输出的连接 在Tools菜单中可以轻松的于Director Designer和Manager之间切换 DataStage中的Director 使用Datastage的Director可以对设计的job进行验证 运行 任务调度和监控的工作 也可以针对job的运行查看运行的聚合统计情况 在Datastage中进行开发 在Administrator中定义全局的和项目属性 在Datastage中的Manager里导入定义源的元数据和目标的元数据 在Datastage中的Designer中验证和编译job 在Datastage中的Director中验证 运行 和监控job 1 定义工程的属性 在Administrator中 2 打开工程 3 导入元数据 在job中定义格式 读入或写入 在Manager中 4 设计job 在Designer中 a 定义数据的抽取 读取 b 定义数据流程 c 定义数据的集合 d 定义数据的转换 e 定义数据的约束条件 f 定义数据的加载 写入 g 定义数据的聚合 5 编译和调试job 在Designer中 6 运行和监控job 在Director中 Datastage的工程管理 所有的工作都在一个工程中 在安装过后 需要建立一个工程 这是安装必选的项目 在使用它工作之前 要登录这个工程 可以在工程间进行导入和导出Datastage的项目内容 多个用户可以在同一时间使用同一工程 但是不能同时编辑同一个项目 所有的工作都在Datastage的工程里进行 在做任何事之前 那些具有同样管理权限的人 都要先打开一个工程 即进行登录 在安装过程中 工程就要求创建 这是必须做的事情 可以在安装之后 在Administrator中的Project页框中另增加其它工程 一个工程关联着一个目录 这个工程目录用来存储jobs Datastage项目和元数据 在做任何操作前都要先打开这个工程 即登录这个工程 工程是自包含的很多的工程可以在同一时间被打开 在各自单独的环境打开 可以在它们之间导入或导出项目 多用户可以在同一时间使用一个工程中工作 但是Datastage禁止在同一时间由多个用户访问同一个job Datastage测试 问题一 Datastage的Designer是用来建立和编译job 用来进行数据的抽取 转换和加载即ETL Yes No 答案一 Yes Designer使用拖拽的方式将设计元素 习惯上叫stage 拖拽到设计区域中 经过建立和编译 Job就可以执行 用来进行数据的抽取 转换和加载 问题二 Datastage的Manager用来执行编译通过的Jobs Yes No 答案二 No Datastage的Manager是用来管理元数据的 如表单结构 内置和自定义Routines等的 使Datastage用来管理资源存储的 问题三 Datastage的Director用来执行编译通过的Jobs Yes No 答案三 Yes 使用Director来对编译通过的job进行验证或者运行 也可以在jobs运行过程中对其进行监控 问题四 Datastage的Administrator是用来定义全局变量和设置工程属性的 Yes No 答案四 Yes 可以在Administrator中设置工程中使用的全局变量和必要属性 如连接数据库超时 登录者权限等等 第二章如何安装Datastage 下面的讲解中 将可以了解到 在Windows系统中安装Datastage服务端 建立一个Datastage的工程 安装Datastage的客户端 Datastage的服务端要首先安装 之后才可以安装Datastage客户端 服务端能都安装在WinNT Windows2000或者UNIX系统中 这个模块将介绍在Windows环境下进行安装 系统的具体配置依赖于所要安装的Datastage版本 在安装盘上找到最接近的系统需求配置 安装Datastage服务端需要有哪些安装盘和服务端的许可 这个许可包含以下信息 1 注册号 序列号 2 工程数量 在Datastage服务端可以建立的最大工程数量 包括新建的工程 也包括对先前建立的工程进行加上升级 3 到期时间 4 授权代码 在许可信息中 这个信息必须被正确输入的 安装向导会指导通过以下步骤进行 1 输入许可信息 2 指定服务器的路径 3 选择程序的文件夹 4 创建一个新的工程或升级已经存在的工程 安装Datastage 首先安装DatastageServer端 鼠标点击软件会自动安装 安装过程中系统提示使用者选择安装路径和输入产品序列号 在DatastageServer安装的过程中会提示用户建立一个工程 在安装DatastageServer端以后 需要安装DatastageClient端 鼠标点击软件会自动进行安装 安装过程中系统提示使用者选择安装路径和输入产品序列号 Datastage的服务端 安装有Datastage服务端的机器 必须运行着 需要运行Datastage的客户端 打开Datastage的控制面板 来停止或启动服务端 当再次安装Datastage的时候 会停止服务端 为了保证Datastage客户端程序的正常运行 必须保证Datastage的服务器保持运行状态 在Windows2000的控制面板中打开Datastage的控制面板 可以启动或停止全部的Datastage服务 点击可以启动全部的服务或者停止全部的服务 在安装或重新安装Datastage的时候 这些服务一定要全部停止 安装Datastage客户端 在安装Datastage服务端之后 可以安装在WinNT Windows2000以及WinXP上 Datastage产品的许可用于安装Datastage的客户端 Datastage的操作许可只能用于安装Director和Administrator Datastage的客户端必须在Datastage的服务端安装过后才可以进行安装 客户端能够安装在Windows95 Windows98 WindowsNT Windows2000以及WindowsXP操作系统上 这里有俩个版本的Datastage 1 开发版本的Datastage 包含了解所有的客户端应用程序 2 操作员版本的Datastage只包含了需要用到的运行和监控Job的应用程序 即Director和Administrator 安装开发版本的Datastage 需要有Datastage开发版的许可 安装操作员版本的Datastage 需要有Datastage的Director的许可 许可包括以下几个信息 1 序列号2 用户限制3 到期时间4 授权认可代码这些信息必须是正确的数据 第三章配置Datastage工程 下面的讲解中 将可以了解到 在Datastage的Administrator中设置工程属性 在Datastage的Administrator中设置用户的权限 Datastage工程属性 建立或者删除Datastage工程 设置Datastage工程的默认属性 修改Datastage工程属性的方法 登录Datastage的Administrator 选择要修改属性的工程 Datastage中所有的开发工作都在一个Datastage的工程中 在安装Datastage服务端时 默认就已经建立了一个工程 可以使用Administrator进行工程的控制 每个工程都有其关联的目录 目录存储了在工程中建立的项目 如Jobs 元数据 自定义的Routines等等 在一个工程中工作之前 必须要先打开它 即进行登录 在使用Datastage的Administrator时 可以设置默认的工程属性 设置Datastage工程属性 选择要进行修改的工程 点击 Properties 工程属性的 General 页框 点击Datastage的Administrator的 Properties 按钮 打开工程属性的窗口 这里有5个页框 Mainframe 页框只有在许可支持大型机的Jobs的时候可用 默认打开的 General 页框 如果选择 EnablejobadministratorinDirector 的选择项 那么在不打开Administrator的情况下在Datastage的Director中可以运行一些管理级别的函数 在Director中运行一个Job的时候 事件被写入Jobs的运行的日志 例如 记录了何时开始运行Jobs 何时停止 何时终止 日志记录的事件增长量很大 Auto purpeofjoblog 选择框可以让指定用什么条件来筛选这些事件 可以限制记录时间的每天的数量或者运行Jobs运行的数量 工程属性的 Permissions 页框 使用这个页框可以设置访问和使用Datastage的用户组权限 所有的Datastage用户中 在登录Datastage之前 都必须拥有一个公认的 属于自己的用户角色 使之用来进行登录 这样可以用来防止匿名的方式使用Datastage工程 这里有三种Datastage用户角色 1 DatastageDeveloper 可以访问Datastage工程全部的范围 2 DatastageOperator 可以运行 释放 Datastage的Jobs 3 DatastageProductionManager 可以管理Datastage产品组件 工程属性的 Tracing 页框 在这个页面设置是否在Datastage服务端进行跟踪处理 Datastage服务端进行跟踪处理默认是无效的 当使其有效 Datastage客户端运行项目的时候 所有的记录信息都要在Datastage服务端进行监控 并写入监控文件 使用这些底层系统知识可以帮助找到Datastage客户端的问题所在 如果跟踪设置为有效 当调用一个Datastage的客户端的时候 用户会收到一些警告的信息 警告 跟踪会消耗Datastage服务器大量的系统资源 除非用户需要诊断重大的问题 一般不建议设置跟踪有效 工程属性的 Schedule 页框 使用 Schedule 页框 来指定在选择的项目中运行计划任务的jobs的用户名和口令 如果没有指定 Jobs会在当前系统的计划任务的用户名下运行 工程属性的 Tunables 页框 在 Tunable 页框中 可以指定当用来读取Hash文件记录时的缓存的大小 Hash文件大多数用于查找操作 这部分介绍会在下面的介绍中进行 第四章设计并运行Datastage的Job 下面的讲解中 将可以了解到 描述什么是Datastage的Job 一步步讲述如何建立DatastageJob 描述Link和Stage 识别不同类型的Stage 设计一个简单抽取和加载的Job 编译 验证和运行Job 监控Job的执行 什么是Job 一个Job就是一个Datastage的运行程序 在Datastage中 可以设计并运行Jobs 执行一些有用的数据仓库 包括数据的抽取 转换 聚合和数据加载等等 Datastage的Job是 1 在Designer中设计和编译 2 在Director中进行任务预定 调度和监控Jobs 3 全部在Datastage的控制下执行 Job开发的浏览 在Manager 导入数据源和目标数据库的数据结构定义 在Designer 加入Stage定义数据的抽取和加载 加入Transformer和其它的Stage来定义转换 从源数据到目的数据 加入Link来定义数据的流向 编译Job 在Director中 验证 运行和监控Job 在这个讲解中 将通过一个单一Job的过程第一步 着手定义元数据 Designer的工作区域 中间偏右是Datastage的设计区域 可以将Stage和Link从工具的板块上拖动过来放在上面 左边是 Repository 存储 窗口 显示的是Manager中的分支 Manager中的分支 就像Jobs和表定义一样可以直接拖拽到设计区域 点击 View Repository 来显示 Repository 窗口 点击 View PropertyBrowser 来显示 PropertyBrowser 窗口 显示在设计区选择的项目的属性 Designer的工具栏 工具栏中的一些图标可以快捷的调用一些Datastage的内部函数 更加方便进行Jobs的设计工作 Designer的Stage工具面板 工具面板中包含描述的图标 可以将其加入到Jobs设计当中 当安装Datastage的时候 很多的Stage都会自动地进行安装 也可以根据特定的目的安装另外的Stage 这些被叫做插件 例如 那个叫做 Sort 的插件就是用来对数据排序的 插件的介绍将在以后的讲解来介绍 下面将部分的Stage进行简单的说明 有些Stage在普通应用中并不常用 被动Stage和主动Stage 被动Stage的定义是用来读写数据源的Stage 被动Stage包括 Sequential Odbc Hash文件的Stage 主动Stage的定义是用来数据的筛选和转换部分的Stage 主动Stage包括 Transformer Aggregator和Sort的插件 这里有俩种类型的Stage 被动Stage 是用来读写数据源的数据的 包括Sequential Odbc Hash文件的Stage 等等 主动Stage 是用来筛选和转换部分的Stage 包括Transformer Aggregator和Sort的插件 等等 Datastage测试 问题一 SequentialStage是一个主动地Stage Yes No 答案一 No 由于SequentialStage可以用于读取数据源和写入数据 但是又不能对数据进行转换 所以不是主动的Stage 而是被动的Stage SequentialStage 导出数据或加载数据到一个Sequential文件 为Sequential指定完整的路径 指定文件的格式 定义宽度或者分隔符 指定列的定义 指定写的形式 覆盖 追加 Sequential文件时用来从一个Sequential文件导出或者加载到一个Sequential文件中 在修改Sequential文件的时候需要指定一下内容 1 文件的路径和名称 2 文件的格式 3 列的定义 4 如果SequentialStage被用作一个目标的话 指定写入动作时选择 覆盖已存在的文件或者在文件基础上进行追加 编辑目标端的一个Sequential文件Stage 定义一个Sequential的目标Stage类似于定义一个源的SequentialStage 在输入的Link中 定义数据导入到Stage的数据格式 从 InputBox 中输入Link的列表进行选择 定义一个文件的Job 定义文件被写入 如果文件不存在 Datastage将会自动建立 在 Updateaction 中指定数据文件是否覆盖或者追加 General 页框中的 FilterCommand 可以指定一个过滤程序 可以使用其在抽取数据的过程中进行数据的过滤 举例 在读取数据之前要有一个解压缩的过程 从中选择类型或者浏览从过滤程序中 在输入框中指定命令行 只有在 General 页框中的Stage页面中选择了 Stageusesfiltercommands 的选择框 这个输入框变为可用 如果指定了过滤命令 数据浏览没有定义 那么 ViewData 按钮不可用 在 Format 页框中 指定不同格式的目标文件 同指定源文件相同 如果目标文件不存在 在Jobs运行之后 才可以浏览数据 如果这时点击了 ViewData 按钮 Datastage将会返回一个 FailedtoOpen 的错误 在源数据的Stage里定义输出数据的列定义 同时定义目标Stage中的相应的输入Link 可以将Link想象成为一个通道 从一头流到另外一头 所以输入和输出的格式要保持一致 TransformerStage 很关键的主动Stage 使用TransformerStage可以定义条件 来源和字段的对应关系 输入的列和输出的列进行对应 在这个讲解中 我们将定义列的对应 TransformerStage是一个重要的主动Stage 其它主动地Stage执行很多指定类型的转换 在TransformerStage中可以指定 1 列的对应 2 数据的来源 3 过滤条件 字段对应是指输入字段和输出字段进行对应 从输入列到输出列数值直接通过 数据来源的值经过计算写入到输出的列 以输入列为基础 在引入的行将被写入到输出的列 约束指定的条件将有效 TransformerStage元素 Transformer有以下元素 在上方 左边的区域显示输入Link的列信息 如果有很多的输入Link 就会有许多的列显示 在上方 右边的区域显示的输出Link的内容 我们不能在这里定义字段 如果有很多的输出Link 就会有很多的列显示 现在 忽略右上方的 StageVariables 窗口 我们将在以后的讲解进行讲述 下方显示元数据的列定义 输入和输出的Link 如果有很多的输入和输出的Link 那么将出现很多的页框 AnnotationStage 使用它来在Job上增加文本注释 输入框有不同格式的设置 当Job打印的时候显示 描述注释的Stage将在下一节介绍 增加一个或多个 Annotation 的Stage就像一个文本数据框一样进行设置 可以通过在工具栏上的设置要求其是否进行显示 这里有俩个 Annotation 的Stage DescriptionAnnotationStage 将在下面一个讲解中进行讲述 编辑AnnotationStage 输入框内输入的是文本类型 指定的设置有 1 文本的字体和颜色 2 输入框的颜色 3 文字的横纵位置 编译Job 在运行Jobs之前 必须要对其进行编译 在服务端的机器上产生可以运行的编码 对于编译Jobs 点击 File Compile 或者在工具栏上点击 Compile 按钮 编译Jobs的窗口显示Jobs编译的情况 编译如果发生错误 点击 Showerror 来定位错误的位置 点击 More 来返回关于错误更多的信息 运行Job 从Datastage的Designer切换到Director 在Director的列表中 选择要运行的Job点击运行 选择运行的属性 验证这个Job 运行Job 并在日志浏览中监控Job运行的过程 就像知道的那样 在Datastage的Director中运行Job 可以从Designer中的 Tools 菜单中启动 Datastage的Director 可以通过这个方法在Director Manager和Designer之间进行切换 这里有俩种方法运行一个Job 1 直接运行 可以在Designer运行 也可以切换到Director中运行 2 在以后的时间或日期里调用计划任务执行 对于直接运行的Job 1 在列表中选择需要运行的Job 这个Job必须是经过编译的 2 点击Job菜单中的运行 或者点击工具栏中的运行 这是Job运行时的设置窗口会显示出来 DatastageDirector 在Director中显示Jobs状况的列表 运行一个Job 选择一个而后点击Job菜单中的运行 其它查看内容 1 Job的日志 从Job运行产生的数量 2 计划任务 预览在计划的时间或日期运行Job 运行参数设置 Director的日志浏览 在工具栏上点击Log按钮来查看Job的日志 Jobs日志集合了Jobs执行期间的所有事件信息 这些事件 包括 控制事件 如 开始 结束和中止 报告信息 警告信息 错误信息 和程序发生信息 当点击Job菜单中运行的时候 Job运行设置的窗口会显示出来 这个窗口允许用户在以下情况下停止Job的运行 1 指定行数 2 指定警告消息的数量 在运行Job之前可以将其验证 验证是保证Job运行成功地关键 包括 1 验证Link的数据源是否准备好 2 验证文件是否被打开 3 验证SQL是否可以查询数据 经过验证后点击Run运行Job 在Job运行时列的状况会显示出来 第五章操作元数据 下面的讲解中 将可以了解到 介绍DataStage的Manager的构成和功能 导入和导出Datastage的项目 从Sequential文件中导入元数据 加载元数据到SequentialStage中 什么是元数据 Datastage和Manager是一个图形化管理Datastage项目存储的工具 包括元数据和Datastage的其它构成 如Jobs和Routines等等 元数据是数据源和目标数据的描述的标准化 它包括诸如记录列和分割的通用信息 分割标志 还包括指定列的定义 等等 左边的包括工程的树 分了八大分支 但是可以在其下创建下一级文件夹 在工程树下选择一个文件夹显示它的组成 在这个例子中 在工程里一个命名为 WHBI 的文件夹下创建很多Job DataElements 分支 列出内置的和自定义的数据元素 数据元素是数据类型的扩展 将在下面讲述 Jobs 分支 显示在当前工程的Jobs列表 Routines 分支 先是内置和自定义的Routines Routines是DatastageBasic代码的一部分 可以引入到一个Job中 ShareContainers 分支 共享容器就是Datastage的一个单独的Satage的组成 StageType 分支 列出在一个Jobs中可用的Stage的类型 内置的Stage包括在Designer中的结果部分和转换部分的Stage TableDefinitions 分支 显示加载到一个Job的有效的表结构定义 Transformer 分支 先是内置和自定义的Transformer Transformer是可以用于Job的数据转换函数 Manager内容 数据源和目标数据的元数据描述 Datastage项目 Jobs Routines 表单 Datastage的Manager管理俩个不同类型的项目 数据源和目标数据的元数据描述 在Manager中叫做表单定义 Datastage表单定义用于描述各种类型源的列定义的格式 结果 有关的 Hash文件等等 可以在Manager或者Designer中创建表单的定义 可以从源或者目的导入其结构 Datastage的构成在Datastage中任何一个项目 Jobs Routines 表定义 等等 在Datastage中存储Manager是接口用来存储 Datastage组成包括整个项目 都可以从导出的文件中导入到Manager中 Import和Export Manager中的所有项目 都可以导出成为一个文件 导出整个工程 用于备份用于版本控制 用于Datastage的项目从一个工程到其它工程的移动 对于其它开发者 用于共享Datastage的Job和项目 Datastage中的项目包括整个工程 全部都在Manager进行存储 可以将其导出成为一个文件 这个导出的文件能够重新导入回Datastage 导入和导出能用作很多的目的 包括 备份Jobs和工程 维持不同Jobs或者工程的版本 从一个工程到另外一个工程 Datastage项目的移动 将导出的项目 移动到其它的工程 将其重新导入到新的工程里 在开发者之间共享Jobs和工程 导出的文件 当被压缩以后 变得很小 很容易从一个开发者到其他人之间传递 导出过程 在Manager中 点击 Export DatastageComponents 选择Datastage需要到导出的项目 指定导出的类型 dsx xml 在客户端机器上指定导出文件的路径 在Manager中点击 Export DatastageComponents 开始导出的过程 在Manager中任何的项目都可以将其导出成为一个文件 使用这个程序可以对工作进行备份或者将项目从一个工程移动到另一个工程中 选择导出文件的类型 可以选择整个工程或者在一个工程中的一部分项目 指定导出文件的类型 默认的 项目被导成一个文本格式的文件 默认的导出文件是 Dsx 格式的 也可以将项目导出成为 XML 格式的文档 导出的文件目录是在Datastage的客户端 而不是在服务器 Datastage测试问题一 可以将Datastage工程中的Jobs导出来 但是却不能将元数据导出 所以不能将元数据的定义导出成为一个文本 Yes No 答案一 No 元数据的定义的结构 都存在于 TableDefinitions 中 而表单的定义是可以通过导入导出流通于各个工程之间 问题二 Datastage工程导出的目的是存放在客户端 而不是存放在服务器 Yes No 答案二 Yes 导出Datastage的项目 在Datastage的Manager的菜单上点击 Export DatastageComponents 选择 WholeProject 或根据需要进行选择 而后进行导出 导入Datastage工程 在Manager中 点击 Import DatastageComponents 选择要导入的Datastage项目文件 选择要导入的文件 点击 ImportAll 开始导入或者 ImportSelect 从浏览的项目中选择一个导入 选择 OverwriteWithnotQuery 按钮来覆盖那些同名但没有警告的项目 导入元数据 从Sequential文件中导入格式和列的定义 导入关联表的列的定义 导入Hash文件的列的定义 导入的信息在 TableDefinitions 在Job中Stage可以将表定义进行加载进来 表格定义对于一些变化的数据文件和表单进行格式的定义 这些定义可以重复的是用于设计的Jobs 来指定数据的格式 举例 可以导入 Customers txt 文件的格式和列的定义 可以将其加载到源的 SequentialStage 中 表示Job是从 Customers txt 中抽取数据 可以加载这些相同的元数据到其它的Stage中 用来访问同样格式的数据 可以感觉到 元数据是可以再度使用的 它可以被用于格式相同的文件和数据上 如果需要的列定义很相似 可以编辑定义并将其保存在一个新的名字下面 也可以使用不同类型的数据相同的表单定义使用同样的格式 举例 可以导入一个表单定义从一个 Sequential 文件 并使其指定一个ODBC的表单的格式 可以清楚地看到元数据在格式定义上是宽松灵活的 可以导入和定义几个不同类型的表单定义 包括 Sequential 文件 ODBC数据源 Hash文件和全部的表单 Sequential文件导入过程 在DatastageManager中 点击 Import TableDefinitions SequentialFileDefinistions 选择指定的 Sequential 文件的目录和名称 选择Manager的分类 检查格式和列定义和编辑必要的信息 要开始导入 点击 Import TableDefinitions SequentialFileDefinitions ImportMetaData Sequential 窗体会出现 选择目录中包含的Sequential文件 在文件的列表中选择需要导入的文件 选择文件进行导入 选择指定的类别 即文件夹 进行导入1 格式为 类别 子类别 2 是在TableDefinitions下的第一级子目录 3 是在目录下的另外一层 在Manager中定义结构 在Manager中 选择 TableDefinition 的包含的类别 在 TableDefinition 上双击 打开 TableDefinition 的窗口 单击 Columns 的页框浏览和编辑列的定义 选择 Format 页框来编辑文件的格式说明 导入Sequential元数据过程 加载表结构定义 在导入了Sequential元数据结构后 可以将元数据的结构加载到 SequentialStage 中 第六章操作关联数据 下面的讲解中 将可以了解到 设置ODBC连接来关联数据库 导入关联的元数据 从关联表中抽取数据 加载数据到关联表 操作关联数据 在关联的源数据表单中抽取 过滤 转换数据 加载数据到关联表单中 通过ODBCStage来进行连接 支持用户定义SQL 可以对关系型数据执行就像对Sequential数据那样的任务 可以对关系型数据表进行抽取 过滤 转换数据 也可以向关系型表单中加载数据 虽然可以通过本机得到驱动来操作一些关系型数据库 但Oracle等 也可以使用ODBC来访问这些关系型数据库 使用ODBCStage 既可以指定在一个或多个表的关联查询 也可以定义查询 还可以粘贴已经存在的查询 设置一个ODBC连接 在通过ODBC来访问数据之前 一定要先定义一个ODBC的数据源 在Windows中 在控制面板中定义并使用32位的ODBC数据源 ODBC数据源控制 有好几个页框 对于DataStage 我们需要将数据源定义在 系统DSN 中 而不是 用户DSN 中 可以从dataStage安装盘中 安装更多的通用的关系型数据库系统的驱动 点击 添加 来定义一个数据源 点击 添加 后 会显示出一系列的驱动列表 选择适当的驱动而点击 完成 不同关系型数据库有不同的意图 在这个例子中 定义一个 MicrodoftAccess 作为数据源 1 在 数据源名称 输入框中定义数据源的名称 2 点击 选择 选择一个存在的数据库 定义一个连接 3 点击 创建 针对这个数据库定义一个连接 导入ODBC元数据 从ODBC数据中导入表单定义 类似于从 Sequntial 文件中导入结构定义 在Manager中点击菜单 Import TableDefinitions ODBCTableDefinitions 开始进行导入 DSN 列表显示出DataStage服务端定义的数据源 选择需要导入的数据源 如果需要 需要数据用户名和口令 这时 ImportMetadata 窗口显示出来 列表显示出数据库中所有可以用到的表单 可供导入 选择一个或多个表单核导入的列别 点击 OK 即可 抽取关系型数据 从关系型数据库表单中抽取数据 类似于从一个 Sequential 文件中抽取数据 除了使用ODBC的Stage代替了Sequential的Stage 在这个例子里 从一个关系型数据表单中抽取数据 加载到一个 Sequential 文件中 设置ODBC的Stage 在ODBCStage的 General 页框中 在 DataSourceName 输入框中指定ODBC数据源名称 或输入变量 可以点击 GetSQLInfo 按钮 重新从ODBC数据库中获得标志和分割符 显示表单列表 在 Outputs 页框中的 General 页框中 指定表单的名称 选择 GeneralQuery 来定义SQL的声明 在 Columns 和 Selection 页框中选择 User definedSQLQuery 来写自定义的SQL来连接数据库 加载列定义 在 Columns 页框iuazhong加载

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论