DataStage企业版产品白皮书之四_第1页
DataStage企业版产品白皮书之四_第2页
DataStage企业版产品白皮书之四_第3页
免费预览已结束,剩余12页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、统一数据交换池项目统一数据交换池项目etletl 工具软件及产品现场支持服务竞争性谈判工具软件及产品现场支持服务竞争性谈判提交文件之六提交文件之六. .二二. .四四profilestageprofilestage白皮书之一白皮书之一北京先进数通信息技术有限公司北京先进数通信息技术有限公司20042004 年年 1010 月月 2121 日日本文件涉及信息为北京先进数通信息技术有限公司专有信息,敬请视同机密文件处理。除因需要而得到授权的中国建设银行及本公司有关人员外,请勿以任何形式向他人或任何第三方透露。中国建设银行统一数据交换池项目-产品白皮书目目录录1.ascential 企业数据综合优势

2、 . 32.元数据的重要性. 43.手工处理的危险. 54.ascential profilestage 优势. 75.列分析. 96.表分析. 107.交叉表分析. 118.标准化. 119.转换映射编辑. 1210.11.12.对 etl 工具的支持. 12ascential profilestage 是任何数据综合项目的必要条件 . 12关于 ascential 软件. 14第2页中国建设银行统一数据交换池项目-产品白皮书1. 1. ascentialascential 企业数据综合优势企业数据综合优势在任何电子商务中心, 用户关系管理(crm) , 企业资源计划(erp) , 供应链管

3、理(scm) ,商业智能(bi) ,数据仓库或数据集市项目是数据综合的必要条件。软件供应商已经销售的多种产品使企业能够完成数据综合项目。 但是,一直没有单一供应商为端对端的企业数据综合项目提供功能完善的产品。用户必须依赖供应商拼凑的产品, 满足他们在数据概括,etl,数据质量和元数据管理上的技术需要。 现在用 ascential profilestage 工具, ascential 软件提供一个源自单个供应商的,功能完善的,具有易建立的、自动的、易使用的端对端的企业数据管理技术。 ascential profilestage 是 ascential 的数据概括软件,它使分析源数据和建立企业数据

4、管理系统的过程自动化、简单化。 ascential profilestage 使用复杂的逆向工程处理,允许用户把原始数据装进软件, 并且自动接收源数据的完整分析。ascential profilestage 软件逆转来自原始数据的工程师元数据。ascential profilestage 分析源数据、为目标数据库提出建议,例如主关键字,外关键字,表分裂,标准化,并观察数据。 然后,ascential profilestage 使用这些信息建造数据模型并且优化目标数据库定义。 ascential profilestage 靠全面理解元数据并且产生一个 ascential datastage et

5、l 处理合并数据,允许用户集成多个不同的系统。因为代码自动生成,实施速度戏剧性加快。 由于元数据基于实际源数据,准确性是 100%,避免了编码、装载、爆炸的现象。 因此避免了通常数据综合项目遇到的那些问题。元数据寻求从周围企业组合数据的所有信息技术项目都挣扎在同样的岩石上:元数据。元数据是技术术语,是用来描述数据怎样被使用和捕获的学问。元数据是数据的结构, 即所用域的类型,哪些域是关键字,域的长度,数据之间的相互关系,和数据的其他信息。 例如,在顾客服务部门的顾客电话(工作电话) 和在运送部门的顾客第3页中国建设银行统一数据交换池项目-产品白皮书电话(家庭电话)的元数据也许是不同的。由于 as

6、cential profilestage,项目能自动避免在数据库里存有错误的电话号码的问题。2. 2. 元数据的重要性元数据的重要性分析家研究显示超过百分之 75%的数据综合项目不是超出预算的限制就是彻底失败。这些项目或者不能提供必需的特性,超出预算,或者在完成之前被取消。为什么这么高的失败率? 在很大程度上, 传统的数据综合方法采取下列步骤:1) 分析用户的需求并且建立目标数据库说明书:在访问用户之后,为数据库模型设计主要方案,该方案将回答所有的、用户想要的目标应用要回答的问题。2) 分析可利用的数据源: 一套来自旧系统、操作系统、等等的数据,为了目标数据库,而被编辑分析,以确定他们的关联性

7、。 可能得不到数据源的文档,或者可能文档是不正确的。依据一系列涉及源数据的样品来识别数据的特性。3) 建立一套源数据到目标数据库的映射: 设计一个把各种各样的数据源转换成目标的计划。 通常,用 etl 工具或手编码程序来完成这步。4) 准备数据: 源数据被装载到集结地区,被整理、清洁,并转换为目标数据存储所需的形式。 为规范数据和连接纪录,数据质量软件可以部署在这个阶段。5) 装载数据: 数据从这个集结地区移进目标应用区域。 这步包括要报告的格式化数据。这手工方法的主要弱点在于它做了个假定,应用所必需的数据实际上可以从数据源中获得。 很多公司在数据综合项目上已经花费了数百万美元,仅仅发现源数据

8、不支持他们已经为目标数据库建立的模型。由于整个过程由一系列杂乱无章的、通常由程序员独立小组手工完成的步骤组成,而每步之间的不连续性经常导致灾难发生。公司通常在第 3 和第 4 步上花费他们的工程预算的 80%。 令人遗憾的是,详细说明一套源数据到目标数据的映射的实际结构,仅是集成多个数据源整体任务的一小部第4页中国建设银行统一数据交换池项目-产品白皮书份。实际工作是决策的智能过程:通常,几乎不了解源数据的性质,步骤 2 的成功可能很小,并且也妨碍了随后步骤的成功。大多数超出预算或完全失败的数据综合项目是由于缺乏对元数据的理解。如果没有自动化元数据逆向工程工具,开发者要亲自调查源数据。旧系统元数

9、据的文档通常是很不完全的或者根本就不存在。通常能解释数据的人员已经离开公司。对数据仅使用偶然的推测而不是内容完整的分析。这导致在开发周期中,综合源数据往往被错误地修改调整进入目标数据存储。元数据里的错误不是在设计阶段被发现而是反映在产品系统中。正如史蒂夫mcconnell 所指出的, . 如果一个瑕疵在早期(在需求或设计期间)未被发觉,在后期,则需花费 10 到 100 倍的时间去纠正。 (1) 在数据综合情况下, 对试图未真实了解源数据的性质就开始手工建立目标数据库处理数据的企业来说,这将产生重大的经济损失。难怪在 w .h. inmon 的书里论述数据仓库时说, 一般地,预计建立数据仓库的

10、 80%的工作是任务的提取、转换和装载。(2) 确实, 花在数据综合上的 50%的时间是设法了解源数据。(3) 缺乏能在早期查出 etl 处理过程中存在的问题的工具,就要花费企业数据仓库预算中的大部分资金。在源数据里确实存有什么?数据是怎样组织的?数据如何恰当的在目标数据库规划中表示?我们能怎样将这些源数据和目标数据对应起来?3. 3. 手工处理的危险手工处理的危险只要数据综合进程由许多独立步骤组成,这些工程的故障率和费用将保持一个高水平。 数据定义与数据可能不相配, 数据可能是无效的, 源数据文档可能确实不存第5页中国建设银行统一数据交换池项目-产品白皮书在,而且当设法把所有步骤集成到一个高

11、效的实践中时,问题经常出现。每当在某些源数据中有致命错误,一系列步骤必须被重复执行,这即费力又费钱。如果没有使用 ascential profilestage,数据综合项目有很多缺陷要克服,这是昂贵的并且能导致整个项目失败。 缺乏能发现潜在的集成问题并且能给出实际数据的准确说明的数据描述软件,经常导致企业花费他们项目预算中不必要的规模可观的资金,而 ascential profilestage 可避免该问题。例如:元数据与实际数据不匹配。 通过多种方法,数据已经与正确的元数据之间存在差异。 因此, 数据的描述是错误的, 但直到项目结尾的测试/调试阶段才发现这错误, 它是在规格设计时就发现问题所

12、需费用的 10 到 100 倍。现有的数据经常无效。例如,在新系统里日期域可能包含无效日期,譬如在mmddyy 和 yy yymmdd 之间的差别。源数据的文档不存在或者不准确。开发应用软件生成源数据的那些程序员已经离开公司。保证是独特的并且能被用作关键字的域已被复制并引起拒绝。保证是一定类型的域只输入了 98%的事例, 但 2%的例外事例却是真正合法的数据并能告诉我们某些域的真实含义。目标系统把与原始资料不同的数据类型用于数据元素。无效数据存在在旧系统里,但是没被表示为 null,而是作为空格或者零。以前两个单独系统合并,为代码值建立了相冲突的域值。 例如, 对未来期望值,公司使用 1- 1

13、0 的范围表示,公司 b 使用f 的范围表示,而新公司的文档指出这个域是数字并且具有 1-10 的数值。数据元素代码值在目标系统里不同。 例如,种族起源的旧代码可能被转换成新值。数据元素之间的关系在原来系统里不存在。这个问题由数据标准化而引起。例如,标准化。cobol 纪录也许要求综合多张表。这一过程的具体的例子将是把一个记录中的cobol 阵列移到一张单独的表里。假设依赖关系是不正确的。例如,发票和发票的部分之间的关系根据说明是一对第6页中国建设银行统一数据交换池项目-产品白皮书多的关系,但有很多发票没有相应的部分。原说明中声称是冗余的域而实际上却不是。例如, 用户可能告诉我们那两栏可能在数

14、据模型标准化期间消除, 但数据里的实际值表明存在一种关系,这与我们所理解的不相同。商业惯例已经改变了旧系统的定义,导致了不同的取值范围。目标数据库必须从基于源数据库的数据模型手工建造出来。这是容易出错的过程,可能导致缺少或丢失数据,同样,在再建立存在于源数据库的关系的过程中也容易出现错误。由于进度表的压力,在手工开发期间文档经常被忽略。这样在后续的周期中对数据综合进行修改将导致更多的错误出现。在确认设计的正确性时,由于缺乏文档依据,将导致知识丰富的最终用户和其他股东不能有效参与。 在后续的过程中,来自这部分数据的输入经常远离数据的正常值,在实用数据库里经常作为无效数据。当项目增加人员时,使用手

15、工方法做 etl 的范围巨大的大项目将产生不可避免的交流问题,导致生产力进一步损耗和开发进程的减缓。整个 etl 处理成为一系列循环,一再重复处理过程,调试结果数据库,而不是核实定义。综合项目的范围是未知的。一般使用最佳的预测,并且迅速被在测试调试阶段所要求的多次重复 etl 周期而超出。 由于超出限度,项目最终被取消,项目研究小组的努力没有任何成果。看起来可行的项目实际上比最初计划昂贵很多,该项目应及早取消,以节省大量资金,让项目研究小组工作在正确的轨道上。4. 4. ascential profilestageascential profilestage 优势优势ascential pro

16、filestage 不假定用户数据的内容。 用户只需要提供记录结构的说明。 ascential profilestage 能读任何源数据, 自动地分析并完全地描述出数据,以便准确无误的产生那些数据的特性(以及那些元数据) 。特性包括表,列,可能的关第7页中国建设银行统一数据交换池项目-产品白皮书键字和数据中的相互关系。 一旦知道并证实了这些特性,ascential profilestage 自动产生一标准化的目标数据库配置。 商业智能报告,和源数据到目标数据库的转换全部被自动指定为这目标数据库的解释部分。在理解源数据之后, 综合数据项目研究小组仍然面临令人生畏的挑战,使用有意义的规则把数据转换

17、到关系数据库里去。 使用传统的多级处理时,经常在生产系统里手工调试在项目设计里犯的错误。ascential profilestage 使这个过程自动化,为目标数据库提供建议,使用户能够灵活编辑修改以获得尽可能好最终结果。用 ascential profilestage,整个过程能很容易地加快。 ascential profilestage 方法由两项基本的活动组成:1.分析: 分析源数据; 从用户那里获得确认, 证实已经被推断了的源数据是正确的。建议目标规范化、标准化,为到达目标提供一个健康的环境。2.创建:自动为新数据库规划书和物理数据库产生映射和 ddl, 以及进行移植的 etl程序。 第

18、一部分分析在于为建立源数据存储库广泛地描绘出源数据。这描绘确定数 据 和 存 在 于 各 种 各 样 元 素 之 间 的 关 系 的 特 征 。分 析 的第一个类型被称为列分析。第8页中国建设银行统一数据交换池项目-产品白皮书5. 5. 列分析列分析列分析在源数据里提供详细的关于域的信息,包括:范围: 表明数据的实际范围,找到超出规定范围的数值。 例如,10 字符数字字段可转换成带符号的 2 字节整数,但是实际范围将需要 4 个储存字节。唯一值: 这个域是关键字候选域吗?隐含类型: 根据数据形式, 类型属于已知类型的一种,例如整数,浮点数,字符变量和多种日期格式类型。尺寸: 值的大小可能是未知

19、的,特别是在限定的输入数据的实例中。频率: 计算值在数据内出现的次数。 用于确定某一数值是否真是编码值。分布类型:值的分布表现形式。 某一确定数值超出 n 的标界,这是否违规了?能用多个数据表示一个代码值域。空/非空类型。 用 null、零还是空白表示空值? 有空值吗?用户建议转换类型。 求值时,用户可为源数据指定转换类型。例如,各种各样的日期元素可以被规范化。普通数据类型。 数据符合普通数据类型的模式吗?如电话号码,邮政编码,社会安全号码,等等。列分析是数据分析过程的重要阶段。 由于 ascentialprofilestage 用自动的方法运行详尽的列分析,显著减少了了解数据的必要时间,同时

20、消除了手工错误。 通过列第9页中国建设银行统一数据交换池项目-产品白皮书分析获得的信息以直接的、容易使用的方式提供给用户。用户能依据事实而不是臆想或异想天开地推测来确定假定数据的有效性。由于 ascential profilestage 掌握细节,经验丰富的最终用户和其他股东能被领入过程核实困难的项目。有关源数据的任何现有的有效文献可以被核实。列分析之后,在列里的元数据不再有疑问。 仅这一特性在最后的综合里就能显著减少水平瑕疵, 极大的节省成本。列分析展示了大量的潜在数据,但这只是冰山的一角。 当经常执行对源数据的完整数据库的列分析时,创建源数据的实例分析样本,用于下一个分析期间的分析。 通过

21、利用数据的分析样品,大量计算的运行性能被戏剧性的改进了。在列分析期间获得的信息将在随后各阶段中使用, 同样源数据的详细信息将装载到元数据贮藏库。 在列分析完成之后,用户将准备表分析。6. 6. 表分析表分析表分析是在一张表内找出列之间的关系。用这些关系计算功能的依赖性。mannila 和 raiha 定义功能的依赖性为:功能依赖性 x _ y 表明,对于被给定值与属性 x, 那里至多存在一个对应的值与属性 y 。用分析上的术语来说,列 c1 是功能地依赖,如果列 c1 的值唯一指向其他列 c2 x%, 其中 x 是用户定义值。 通过利用用户指定值,用户能消除某些噪音,这些噪音是在继续推断有用的

22、关系时由脏数据引起的。这些功能的依赖性来自那些真实的源数据,而不是来自问题文档或是猜测出来的。 通过利用表分析的结果,ascential profilestage 能推断项目单元(例如关键字,标准化参考者,和获得的列) 。 这信息能用来测试用户对在数据内包含的关系的理解。 数据内的事务规则可以被推断。 ascential profilestage 利用这些信息,以及来自用户的确认,在后续的处理过程中产生规范化的目标数据库。从 3 个建立数据轮廓建立数据轮廓阶段获取的信息储存在 ascential profilestage 元数据仓库里, 数据库包括项目里有关所有元数据的信息。 这个仓库提供依据

23、,为产生数据轮廓报告、标准化、目标数据库的数据模型、以及源到目标的映射。第10页中国建设银行统一数据交换池项目-产品白皮书数据轮廓数据轮廓报告能用来详细描述来自 建立数据轮廓建立数据轮廓阶段的信息。 以这些报告为依据,可以估计项目的范围, 可以从最终用户和股东那里获得签字,还可以调查源数据的真实结构。 报告能输出到用户的屏幕、打印机、文件、或者到 html。7. 7. 交叉表分析交叉表分析表分析提供表内的那些关系信息, 交叉表分析提供横跨表的列之间的关系信息。在横跨表的域之间,比较相同的区域,并且计算出交叉因数。 如果在两张不同的表的域之间的交叉数量达到某种阀值,在表之间就可能存在着某种关系。

24、交叉表分析的主要任务是提供必要信息,以便标准化横跨整套源数据的关系。确定横跨表的相同区域的值,并且对照在表分析时建立的依赖性检查这些信息,交叉表分析能确定那些被外关键字表示的关系。因此,ascential profilestage 能提示用户确认存在的外关键字。 如果这些关系并不意味着外关键字, 那么关系可能真是多余的,在标准化阶段将被删除。8. 8. 标准化标准化标准化包含计算目标数据库的第三范式的相关模型。 用户界面提供一标准化巫术师,指导用户通过目标数据库模式标准化的过程。 分析阶段获得的信息用来帮助用户在建设目标数据模型的过程中做智能判定。 当 ascential profilesta

25、ge 发现一个标准化候选者,就给用户提供一个标准化的建议。 用户可以接受标准化的建议,也可拒绝标准化,或者按他们的希望修改模型。例如,输入表调用 territories 显示包含地区和疆土的交叉项目表。 标准化巫术师提出两张带有父母和孩子记录的新表。 在疆土表的地区标识符中有关联地区表的外关键字。第11页中国建设银行统一数据交换池项目-产品白皮书9. 9. 转换映射编辑转换映射编辑因为 ascential profilestage 计算了在源数据库和最佳目标数据库之间的映射关系,ascential profilestage 能为数据综合产生映射公式。用户可使用映射环境修改那些源到目标的映射,这

26、些映射是被自动映射产生器定义的。来自 ascentialdatastage 的 etl 功能可被包括作为公式的一部分。 编辑器为源到目标之间的映射提供下拉式编辑环境。 这些映射可作为一份报告通过网络从其他用户那儿买进。10.10. 对对 etletl 工具的支持工具的支持如果进行标准化, 那么当一个非标准化的源数据库被作为一个完全规范化的目标数据库产生时,ascential datastage 的工作能包括那个目标数据库。 一旦映射被确认,为进行创造目标数据库创建的 etl 工作仅仅是按动一只按钮而已。 这方法以下拉式接口的方式支持从源到预定目标的映射。因 为 ascential profil

27、estage 方 法为 目标 数 据库 从被 存储在 ascentialprofilestage 元数据贮藏库的信息处获得数据模型,将自动计算源到目标的映射。ascential profilestage 为修改源到目标的映射提供一个直接并且有效的接口,包括附加专栏、转换和概要。 ascential profilestage 自动产生给 ascential datastage工作变换的代码。 上述例子把非标准化源数据库转变成完全标准化的目标数据库。程序员没有必要为这些基本的转变建立 ascential datastage 工作。数据定义语言 (ddl)和装 载目 标数 据库 的 ascentia

28、l datastage 工作 只是功 能强 大的 ascentialprofilestage 的一小部分。 ascential profilestage 也产生星型图解。为把数据从操作数据存贮区移到星型图解结构去,自动引发 etl 工作。11.11. ascential profilestageascential profilestage 是任何数据综合项目的必要条件是任何数据综合项目的必要条件通过用现有的工具进行严密的集成, ascential profilestage 为规则的建立和第12页中国建设银行统一数据交换池项目-产品白皮书etl 的产生提供环境。在用户确认源到目标的映射的正确性后

29、,ascentialprofilestage 自动产生一组工作启动 ascential datastage 处理。 数据能从多种源数据开始, 包括所有 odbc 适应的关系数据库, cobol 遗产数据(使用 iway 适配器),或只是 ascii 展开文件。最终过程产生 ascential datastage 工作去实际移动数据。很清楚, 由于来自元数据和一种稳定的交付环境的启发式推论的增加,通过把传统的步骤合并进综合的过程 ,避免了 传统的手 工过程的 缺陷。使用ascentialprofilestage 的一些优势包括:产生正确的元数据, 因为 ascential profilestag

30、e根据实际存在, 而不是从那些开发者的异想天开产生元数据。 ascential profilestage确保规则是被正确定义过的。通过源到目标数据仓库处理过程的规则,能在项目的早期发现并矫正无效数据。描述源数据的准确文档自动从系统里的报告生成、并由用户证实。 文档是作为一个副产品自动产生的,并能反映出存在于源系统的实际数据信息。并没有对开发了生成源数据的应用程序的程序员的依赖。 唯一需要的资源是对数据的使用权。第13页中国建设银行统一数据交换池项目-产品白皮书依据实际上存在的源数据推断出关键字。依据实际上存在的源数据推断出域的类型。确定编码域的值的真实范围并且映射为规则的一部分。自动生成规范化的目标数据库,并在数据模型里消除代价高昂的错误。依据实际上存在的源数据推断出依赖关系。自动生成目标数据库的定义,包括外关键字和主关键字、标准化、和正确的数据类型。ascential datastage 工作的产生大大降低了手工数据转换的任务。ascential profiles

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论