统一数据交换平台在国网中的应用【物联网开题报告外文翻译说明书论文】.zip
收藏
资源目录
压缩包内文档预览:(预览前15页/共39页)
编号:22399581
类型:共享资源
大小:1.95MB
格式:ZIP
上传时间:2019-10-16
上传人:小***
认证信息
个人认证
林**(实名认证)
福建
IP属地:福建
50
积分
- 关 键 词:
-
物联网开题报告外文翻译说明书论文
物联网开题报告
物联网的应用
论文开题报告
物联网论文开题报告
开题报告开题报告
应用开题报告
- 资源描述:
-
统一数据交换平台在国网中的应用【物联网开题报告外文翻译说明书论文】.zip,物联网开题报告外文翻译说明书论文,物联网开题报告,物联网的应用,论文开题报告,物联网论文开题报告,开题报告开题报告,应用开题报告
- 内容简介:
-
毕 业 设 计(论 文)任 务 书1本毕业设计(论文)课题应达到的目的: 通过本毕业课题的研究和设计,学生能够综合分析目前该课题的现状及成果,结合所学的专业技术知识,提出自己的观点以及解决问题的方案。学生能够通过所学的专业知识:如数据结构、JAVA语言程序设计、数据库设计等的综合应用,来提出问题的解决方案;在此过程中学生还应学会文献检索和阅读一般专业英文文献能力;此系列工作可以增强学生独立设计和开发软件以及解决问题的能力。另外通过毕业论文的撰写及修改可以锻炼学生科技写作以及排版等多方面能力。 2本毕业设计(论文)课题任务的内容和要求(包括原始数据、技术要求、工作要求等): 一、设计的内容统一数据交换平台主要提供了数据交换、数据处理、数据安全、数据质量、图形化/可视化开发等功能。其中数据交换功能提供了消息总线、批量数据总线功能,可完成消息型数据的准实时双向通信,可对数据库表、XML文件、文件夹等类型数据进行基于文件的批量数据交换,在数据交换过程中可以配置策略对数据进行处理加工(即ETL功能)。二、课题要求 1.软件要求系统运行环境:服务端操作系统:windows server 2008 数据库服务器:postgresql 客户端操作系统:windows server 2008 集成开发环境:eclipse 2.技术要求要求熟悉软件工程流程,了解ETL、数据库等相关知识,掌握JAVA编程语言及编程工具Eclipse。 3.设计要求本课题设计出的发布系统应具有一定的实用性,操作方便,界面简洁,易于维护。可以在解决复杂环境下、异构系统间企业数据孤岛问题。 4.开题要求学生必须在经过充分调研和查阅的基础上提出系统架构和主要功能,并认真详实的撰写开题报告,以此指导该设计顺利完成,最终的设计成果必须与开题预案一致。 毕 业 设 计(论 文)任 务 书3对本毕业设计(论文)课题成果的要求包括图表、实物等硬件要求: 1、开题报告一份,调研充分、论证合理,能够达到开题要求; 2、中英文翻译一份,要求译文语法正确、语句通顺,无错别字出现; 3、毕业论文大纲一份,明确论文结构及各部分主要内容; 4、毕业论文一份,要求主题明确、内容完整、字数及格式符合规范要求; 5、设计作品(打包软件及源代码)一份,要求运行正常; 6、软件使用说明书一份,详细介绍本系统的使用方法。 4主要参考文献: 1 美埃克尔.JAVA编程思想(第四版)M.机械工业出版社,2007. 2 明日科技.Java从入门到精通(第3版)M.北京:清华大学出版社,2012. 3 苗春义.Java项目开发全程实录M.北京:清华大学出版社,2008. 4 刘钊,王一平.基于JAVA高效数据库连接池访问技术J.网络安全技术与应用,2008. 5 美施瓦茨,扎伊采夫,特卡琴科.高性能MySQL(第三版)M.电子工业出版社,2013. 6 唐汉明,翟振兴,关宝军,王洪权,黄潇.深入浅出MySQL:数据库开发、优化与管理维护M.人民邮电出版社,2014. 7 黄缙华.MySQL入门很简单M.北京:清华大学出版社,2011. 8 李刚.Java程序员之旅-Java数据库技术详解M.化学工业出版社,2010. 9 美穆卡尔,劳尔,卡耐尔.Java数据库应用程序编程指南M.电子工业出版社,2002. 10 严冬梅.数据库原理M.北京:清华大学出版社,2011. 11 陈志泊.数据库原理及应用教程(第3版)M.人民邮电出版社,2014. 12 付森,石亮.MySQL开发与实践M.人民邮电出版社,2014. 毕 业 设 计(论 文)任 务 书5本毕业设计(论文)课题工作进度计划:2016. 01.1502.20 1、学生查阅相关文献,并在指导教师的指导下,撰写及修改开题报告、翻译专业原文资料; 2、指导教师根据具体的指导情况在毕业设计管理系统中实时填写指导记录。 02.2102.29 1. 学生2016年2月21日前提交开题报告、翻译原文及译文给毕业设计指导教师指导、审阅,定稿由指导教师给出评语;对开题未通过的学生下发整改通知书。 2、专业负责人审核开题报告。 02.2204.22 1、学生在指导教师的具体指导下进行毕业设计创作; 2、在此阶段,在指导教师的指导下,学生拟定论文提纲或设计说明书(下称文档)提纲; 3、指导教师根据具体的指导情况在毕业设计管理系统中实时填写指导记录; 4、在2016年3月31日学生要提交基本完成的毕业设计创作成果以及文档的撰写提纲,作为中期检查的依据。 04.2304.30 1、学生提交中期课题完成情况报告给毕设指导教师审阅。 2、各专业组织毕业设计成果验收及中期答辩。 3、 学院组织审核学生及指导教师提交的中期检查表,完成中期检查小结;对中期检查未通过的学生下发整改通知书。 04.2305.08 1、 学生在指导教师的具体指导下进行毕业设计论文、软件使用说明书; 2、指导教师根据具体的指导情况在毕业设计管理系统中实时填写指导记录; 3、2016年5月8日为学生毕业设计文档定稿截止日。 05.0905.11 指导教师通过毕业设计(论文)管理系统对学生的毕业设计以及文档进行评阅,包括打分和评语。 05.1205.15 1、2016年5月11日前,学院确定毕业设计(论文)交叉评阅教师名单; 2、评阅教师通过毕业设计(论文)管理系统对学生的毕业设计以及文档进行评阅,包括打分和评语。 05.1605.18 各专业答辩委员会审查学生答辩资格,确定答辩学生名单。 05.1905.22 1、2016年5月18日前,学院确定毕业设计(论文)答辩小组教师名单及分组答辩学生名单; 2、2016年5月21-22日按答辩小组进行小组答辩; 3、向学院推荐优秀毕业设计(论文)。 05.2305.25 根据答辩情况修改毕业设计(论文)的相关材料,并在毕业设计(论文)管理系统中上传最终稿,其论文最终稿最迟于2016年5月31日提交。 05.2305.25 对毕业设计(论文)不及格的学生组织再次答辩。 05.2605.28 2016年5月28日发布及报送毕业设计(论文)成绩;报送毕业设计(论文)信息表给教务处。 05.2305.27 根据毕业设计(论文)归档的工作要求和流程,归档材料分为纸质档案袋归档和电子档案归档: 1、纸质档案。由学生、指导教师、评阅教师以及答辩秘书分别从毕业设计(论文)管理系统中导出各归档材料、并进行排版、打印,由指导教师负责审核并提交学生毕业设计(论文)档案袋至毕业设计(论文)档案收集人。 2、电子档案。将所有材料按照一定的格式和规格要求打包提交到毕业设计(论文)档案收集人。 所在专业审查意见:通过负责人: 2016 年 1 月15 日 毕 业 设 计(论文) 开 题 报 告 1结合毕业设计(论文)课题情况,根据所查阅的文献资料,每人撰写不少于1000字左右的文献综述: 1.1 ETLETL是数据抽取(Extract)、转换(Transform)、装载(Load)的过程。是构建数据中心的重要手段,用户从多个数据源抽取出所需的数据,经过数据转换和清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据中心去。ETL作为BI/DW(Business Intelligence/Data Warehouse)的核心和灵魂,能够按照编写好的统一规则集成有效的数据并提高它们的分析价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施综合数据平台的重要步骤。如果说数据仓库的模型设计是一幅大型电网的设计蓝图,数据是电网中的电能的话,那么 ETL就是电网中输送电力的过程。在整个 BI 项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的 60%80%,这是国内外从众多实践中得到的普遍共识。1.2 ETL的作用电网企业内部积累了大量的电力历史数据。对这些相互独立、分散的数据进行统一处理以满足电网管理者和规划者的决策与分析需要,成为电力企业信息化建设面临的重大挑战。ETL工具主要作用在于对各类业务数据进行清理、标准化和汇总,为基于数据中心的决策分析应用提供高质量的数据。今天,越来越多的企业正在构建数据仓库来满足其战略决策需要,而采用ETL工具进行数据集成,也已成为企业实施数据仓库中心项目的首选方案。 1.3 ETL的优势 在以往的解决方案中,各自动化系统的数据交换,一般都是采用数据库存储过程同步来实施的。每种数据交换都要开发特定程序来解决特定问题。这样,当增加了一个新的系统,就需要重新编写连接代码把这个系统的数据同步到综合数据平台中。由于每个应用系统开发程序不一样,数据库和数据格式也不一样,这些新开发的应用在配套实施和接入综合数据平台的接口费用都非常昂贵,电网公司还要保持与不同技术开发商或解决方案提供商的密切联系。新增应用系统接入综合数据平台特别繁琐。采用ETL技术后,建立一个灵活独立的连接系统,系统管理员从新数据源(包含文件数据源)中抽取出所需的数据,经过简单数据清洗转换,最终按照预先定义好的数据仓库模型,将数据加载到综合数据平台的数据仓库中去,操作简单便捷,可扩展性强。 该ETL技术采用 JAVA 环境进行开发,满足了电网各个应用系统对不同种类操作系统跨平台使用的需求,兼容 UNIX、LINUX、WINDOWS 系统,该系统无论是在应用上和技术研究上,都具有比较高的价值。采用ETL技术后,电网综合数据平台将会有以下改进: 1)大幅降低后期接入综合数据平台的成本 以前都是重复的编写了大量代码来解决新应用系统的接入问题。使用该 ETL技术,不仅降低了系统的扩展难度,还可以节约人力,而且能减少开发和维护成本。 2)配置简单、灵活,方便管理 采用ETL技术后,系统管理员只要在ETL管理界面上进行简单配置后,即可完成新系统的数据交换需求,数据源包含多种数据库和多种文本格式。 3)满足E语言文件的数据交换 ETL技术在电网综合数据平台中的应用,不仅能把E格式文件转换后存入到数据库中,还能把多种数据库表中的数据输出成E格式文件,提供给其他系统使用。 4)满足电力二次系统安全防护后的数据交换需要 该技术最大特点是可以满足生产控制大区和管理信息大区的数据传输,虽然中间经过物理隔离设备只是某些格式的文件,但是可以间接实现基于数据库表的同步抽取,这对于系统管理员来说是透明的,管理员看到的效果直接就是一个数据库到另一个数据库的表与表的数据抽取。参考文献:1美埃克尔.JAVA编程思想(第四版)M.机械工业出版社,2007.2明日科技.Java从入门到精通(第3版)M.北京:清华大学出版社,2012.3苗春义.Java项目开发全程实录M.北京:清华大学出版社,2008.4刘钊,王一平.基于JAVA高效数据库连接池访问技术J.网络安全技术与应用,2008.5美施瓦茨,扎伊采夫,特卡琴科.高性能MySQL(第三版)M.电子工业出版社,2013.6唐汉明,翟振兴,关宝军,王洪权,黄潇.深入浅出MySQL:数据库开发、优化与管理维护M.人民邮电出版社,2014.7黄缙华.MySQL入门很简单M.北京:清华大学出版社,2011.8李刚.Java程序员之旅-Java数据库技术详解M.化学工业出版社,2010.9美穆卡尔,劳尔,卡耐尔.Java数据库应用程序编程指南M.电子工业出版社,2002.10严冬梅.数据库原理M.北京:清华大学出版社,2011.11陈志泊.数据库原理及应用教程(第3版)M.人民邮电出版社,201412付森,石亮.MySQL开发与实践M.人民邮电出版社,201413王丽珍等编著.数据仓库与数据挖掘原理及应用M.科学出版社,2009 14(美)金博尔等编著,唐富年 孙媛媛译.数据仓库生命周期工具箱M,2009 15潘华,项同德编著数据仓库与数据挖掘原理、工具、及应用M.中国电力出版社,2007 16陈志泊,韩慧等编著.数据仓库与数据挖掘M.清华大学出版社,2009毕 业 设 计(论文) 开 题 报 告 2本课题要研究或解决的问题和拟采用的研究手段(途径): 2.1 要解决的问题国家电网公司下属各单位地域分布较广,每个单位都建有局域网,各单位局域网通过广域网相连。为保证数据的安全性,各单位关键数据库都部署在核心区内,外部单位无法通过广域网直接访问。为了实现不同单位数据中心、业务系统之间的数据交换,数据交换平台必须采用分布式部署模式,并且每个单位只有数据交换平台的一个节点,数据中心、所有业务系统都通过本单位数据交换节点实现与外部单位的数据交换,既实现了资源共享,又简化了各单位的网络安全管理。根据数据交换平台的需求,上下级单位之间要实现双向数据交换,因此数据交换平台各节点必须具备相同的功能,即数据交换平台为分布式对称架构,总体架构如图 1 所示。2.2 解决方案数据交换平台在技术上采用 SOA 架构设计,运行于 J2EE 平台,各节点由管理控制层和传输层构成。管理控制层包括交换配置管理、交换核心组件、业务系统统一接口、统一监控和管理,完成数据交换的监控、配置、接入以及数据的处理;传输层完成交换双方之间多种方式的数据传输,包括JMS、Web Services 和其它传输方式。数据交换平台的功能如图 2 所示。2.3 研究手段2.3.1业务触发方式由于数据量和及时性要求不同,需提供同步和异步交换方式;由于调用者不同,需提供业务系统即时触发和自动交换 2 种方式;由于交换操作发起者不同,需提供发送和抽取 2 种方式。 1)同步/异步交换方式。当数据量较大时,受网络传输速度限制,短时间内无法完成交换,因此需要提供异步的交换方式,即业务系统提交一个交换任务后,不等待任务处理结果而继续其它的事务,由数据交换平台在后台完成交换;当数据量较小、及时性要求较高时,需提供同步的交换方式,即业务系统提交一个交换任务后阻塞等待,直到数据交换平台将数据送达对方并返回交换结果。 2)即时触发/自动交换方式。上下级单位数据中心间的数据交换通常是在无人值守的情况下按照预先设定的时间和周期执行,因此需要提供自动交换方式;而业务系统通常是根据业务需要随时交换数据,因此需要提供即时触发交换方式。 3)发送/抽取交换方式。数据交换的发起操作应既可以是数据发送方,也可以是数据接收方,如当下级单位准备好数据时,可以由下级单位执行发送,也可以由上级单位执行抽取。2.3.2 交换配置管理交换配置管理是为满足多种交换方式、多种交换格式的可配置、可管理而设计的,使得数据交换平台在不停止运行、不影响其它业务系统交换的情况下随时接入或退出业务系统,并随业务系统交换需求的变化,调整交换内容、交换方式及交换格式。主要提供了平台管理、数据交换标准管理、数据发送/抽取管理、作业调度管理等功能,是数据交换执行的基础,数据交换核心组件按照交换配置管理定义的参数执行交换。 1)平台管理。为实现对各业务系统的相关数据交换配置信息进行有效管理,设计了业务数据类管理;为保证数据交换平台管理的安全性,设计了用户管理、权限管理,防止非法用户访问。 2)交换标准管理。数据中心、业务系统、数据交换平台构成交换的主体,数据交换标准描述交换双方之间的数据格式,是进行数据交换的规则。当业务系统交换需求变更或新接入业务系统时,根据交换需求,利用交换标准管理功能,可定义每一类数据的交换格式,包括 XML 和 Excel 2 种格式,提高了数据交换平台的灵活性。 3)数据发送/抽取管理。该功能完成对数据发送/抽取过程执行时所需要的发送/抽取方式、格式及目标单位等信息的灵活配置。 4)作业调度管理。为实现自动交换,需要对交换周期和交换执行时间进行设置。数据交换平台根据该功能所配置的作业调度信息和系统时钟自动执行交换。2.3.3 周期性数据和非周期性数据从交换数据的时间特点分析,一般分为周期性数据和非周期性数据。数据的周期主要包括年度、半年度、季度、月度、周、日、分钟等,此类数据可按期别进行交换。对于非周期性数据,为减小数据传输量,应能实现增量交换。2.3.4 接口考虑到业务系统接入的方便性,接口采用 Web Services 方式实现;考虑到接口的稳定性和可扩展性,接口的参数采用 XML 格式,当接口参数发生变化时,只调整 XML中的结构,不影响接口;考虑到数据交换平台的安全性,设计安全访问验证,避免非法连接。2.3.5 数据交换平台数据交换平台是企业的基础信息平台,其稳定运行至关重要,因此必须提供监控和管理工具,以实现对其运行状况和资源分配情况进行监管。数据交换平台采用分布式部署,需要对所有节点进行集中监控,采用可缩放矢量图形(scalable vector graphices,SVG)技术,通过地图形式显示。数据交换平台异常通常由 2 类错误导致:一类为网络、服务器软硬件出现异常,另一类为数据交换节点配置信息不正确导致的异常。对于前者,采用定时扫描方式进行实时监控;对于后者,当平台的配置信息发生变更后,自动触发该功能进行验证。 为方便数据交换平台整体资源协调和日志分析,设置作业的统一管理功能,可实现对各单位自动交换作业统一调配,防止作业过度集中,影响数据交换平台的整体运行性能;设置日志管理功能,可实现交换日志的备份、删除、分析功能。毕 业 设 计(论文) 开 题 报 告 指导教师意见:1对“文献综述”的评语:该生查阅了较多的国网方面统一数据平台技术相关的文献材料,具有一定的文献资料检索与利用能力。该课题对ETL的概念、ETL的作用、ETL的优势进行了阐述。明确要解决的问题和解决问题的技术方案。2对本课题的深度、广度及工作量的意见和对设计(论文)结果的预测:本课题有一定的难度。统一数据交换平台在国网中有广泛的应用。本课题能锻炼学生的JAVA编程能力,熟悉数据交换平台的架构,熟悉分布式技术的应用。3.是否同意开题: 同意 不同意 指导教师: 2016 年 02 月 20 日所在专业审查意见:通过 负责人: 2016 年 02 月 22 日毕 业 设 计(论 文)外 文 参 考 资 料 及 译 文译文题目: 数据仓库ETL工具 学生姓名: 王昆 学号: 1205103024 专业: 软件工程 所在学院: 软件工程学院 指导教师: 徐秀云/黄伟 职称: 工程师/中级工程师 2016 年 1 月 28 日说明:要求学生结合毕业设计(论文)课题参阅一篇以上的外文资料,并翻译至少一万印刷符(或译出3千汉字)以上的译文。译文原则上要求打印(如手写,一律用400字方格稿纸书写),连同学校提供的统一封面及英文原文装订,于毕业设计(论文)工作开始后2周内完成,作为成绩考核的一部分。The Data Warehouse ETL ToolkitPractical Techniques for Extracting, Cleaning, Conforming, and Delivering DataRalph KimballJoe Caserta1.IntroductionThe Extract-Transform-Load (ETL) system is the foundation of the data warehouse. A properly designed ETL system extracts data from the source systems, enforces data quality and consistency standards, conforms data so that separate sources can be used together, and nally delivers data in a presentation-ready format so that application developers can build applications and end users can make decisions. This book is organized around these four steps.The ETL system makes or breaks the data warehouse. Although building the ETL system is a back room activity that is not very visible to end users, it easily consumes 70 percent of the resources needed for implementation and maintenance of a typical data warehouse. The ETL system adds signicant value to data. It is far more than plumbing for getting data out of source systems and into the data warehouse. Specically, the ETL system:1) Removes mistakes and corrects missing data 2) Provides documented measures of condence in data 3) Captures the ow of transactional data for safekeeping 4) Adjusts data from multiple sources to be used together 5) Structures data to be usable by end-user toolsETL is both a simple and a complicated subject. Almost everyone under- stands the basic mission of the ETL system: to get data out of the source and load it into the data warehouse. And most observers are increasingly appreciating the need to clean and transform data along the way. So much for the simple view. It is a fact of life that the next step in the design of the ETL system breaks into a thousand little subcases, depending on your own weird data sources, business rules, existing software, and unusual destination-reporting applications. The challenge for all of us is to tolerate the thousand little subcases but to keep perspective on the simple overall mission of the ETL system.2. Surrounding the Requirements2.1 The Mission of the Data WarehouseThe mission of the data warehouse is to publish the organizations data assets to most effectively support decision making. Building a comprehensive, reliable data warehouse is a signicant task that revolves around a set of standard components. The most important and fundamental components of the data warehouse are the back room and the front room.2.2 What the Data Warehouse Is Data warehousing is the process of taking data from legacy and transaction database systems and transforming it into organized information in a user-friendly format to encourage data analysis and support fact-based business decision making. The process that involves transforming data from its original format to a dimensional data store accounts for at least 70percentofthetime, effort, and expense of most data warehouse projects. After implementing many data warehouses, weve determined that a data warehouse should have the following denition:A data warehouse is a system that extracts, cleans, conforms, and delivers source data into a dimensional data store and then supports and implements querying and analysis for the purpose of decision making.2.3 The Mission of the ETLThe mission of the ETL at the highest level is to build the back room of the data warehouse. More specically, the ETL system must: 1) Deliver data most effectively to end user tools 2) Add value to data in the cleaning and conforming steps 3) Protect and document the lineage of data We will see that in almost every data warehouse the back room must support four keys steps: 1) Extracting data from the original sources 2) Quality assuring and cleaning data 3) Conforming the labels and measures in the data to achieve consistency across the original sources 4) Delivering data in a physical format that can be used by query tools, report writers, and dashboards.3. ETL Data StructuresThe back room area of the data warehouse has frequently been called the staging area. Staging in this context means writing to disk and, at a minimum, we recommend staging data at the four major checkpoints of the ETL data ow. The ETL team will need a number of different data structures to meet all the legitimate staging needs, and thus the purpose of this chapter is to describe all the types of data structures you are likely to need.3.1 To Stage or Not to StageThe decision to store data in a physical staging area versus processing it in memoryisultimatelythechoiceoftheETLarchitect.Theabilitytodevelopefcient ETL processes is partly dependent on being able to determine the right balance between physical input and output (I/O) and in-memory processing. The challenge of achieving this delicate balance between writing data to staging tables and keeping it in memory during the ETL process is a task that must be reckoned with in order to create optimal processes. The issue with determining whether to stage your data or not depends on two conicting objectives: 1) Getting the data from the originating source to the ultimate target as fast as possible 2) Having the ability to recover from failure without restarting from the beginning of the processThe decision to stage data varies depending on your environment and business requirements. If you plan to do all of your ETL data processing in memory, keep in mind that every data warehouse, regardless of its architecture or environment, includes a staging area in some form or another. Consider the following reasons for staging data before it is loaded into the data warehouse:1) Recoverability. In most enterprise environments, its a good practice to stage the data as soon as it has been extracted from the source system and then again immediately after each of the major transformation steps, assuming that for a particular table the transformation steps are signicant. These staging tables (in a database or le system) serve as recovery points. By implementing these tables, the process wont have to intrude on the source system again if the transformations fail.2) Backup. Quite often, massive volume prevents the data warehouse from being reliably backed up at the database level. Weve witnessed catastrophes that might have been avoided if only the load les were saved, compressed, and archived.3) Auditing. Many times the data lineage between the source and target is lost in the ETL code. When it comes time to audit the ETL process, having staged data makes auditing between different portions of the ETL processes much more straightforward because auditors (or programmers) can simply compare the original input le with the logical transformation rules against the output le.3.2 Designing the Staging AreaThe staging area stores data on its way to the nal presentation area of the data warehouse. Sometimes, data in the staging area is preserved to support functionality that requires history, while other times data is deleted with each process. When history is maintained in the staging area, it is often referred to as a persistent staging area. When data is deleted with each load, the area is considered transient. Its perfectly valid for the data-staging area to be a hybrid, composed of a mixture of persistent and transient staging tables.Regardless of the persistence of the data in the staging area, you must adhere to some basic rules when the staging area is designed and deployed. You must establish and practice the following rules for your data warehouse project to be successful:1) The data-staging area must be owned by the ETL team. The data-staging area, and all of the data within it, is off limits to anyone other than the ETL team.2) Users are not allowed in the staging area for any reason.3) Reports cannot access data from the staging area. The data-staging area is a work site. Tables are added, dropped, or modied by the ETL team without notifying the user community.4) Only ETL processes can write to and read from the staging area.The ETL group owns the data-staging area. That means that the ETL architectdesignsthetableswithinitanddecideswhetheratablebelongsin the database or, based on the requirements of its respective ETL processes, is best suited for the le system. When the staging area is initially set up, the ETL architect must supply the data base administrator(DBA)team and OS administrators with an overall data storage measure of the staging area so they can estimate the space allocations and parameter settings for the staging database, lesystems, and directory structures.3.3 Data Structures in the ETL SystemFlat Files In many cases, you wont need to stage your data within the connes of a DBMS. If you are not using a dedicated ETL tool and are doing all of the ETL tasks with SQL in your database, you need to create DBMS table structures to store all of your staging data.When data is stored in columns and rows within a le on your le system to emulate a database table, it is referred to as a at or sequential le. If your operating system is any avor of UNIX or Windows, data in your at les is in standardized character code known as American Standard Code for Information Interchange(ASCII).ASCII at les can be processed and manipulated by ETL tools or scripting languages just as if they were database tablesand in certain cases much faster!XML Data SetsXML is a language for data communication. Supercially, XML takes the form of plain text documents containing both data and metadata but no formatting information. XML is expressed with much the same notation as HTML but departs from the architecture of an HTML document. HTML, by contrast, contains data and formatting information but no metadata. Differences between XML and HTML are crucial to understanding how XML affects data warehousing. XML metadata consists of tags unambiguously identifying each item in an XML document.Relational Tables Staging data can optionally be stored within the connes of a relational DBMS. Using data base tables is most appropriate especially when you dont have a dedicated ETL tool.Independent DBMS Working Tables If you decide to store your staging data in a DBMS, you have several architecture options when you are modeling the data-staging schema. Designing tables in the staging area can be even more challenging than designing transaction or dimensional models.Third Normal Form Entity/Relation ModelsWe rarely model the staging area in third normal form. We have had cases where data elements of a hierarchy have come from disparate data sources at different levels of granularity, including some external data from nonrelational sources. In those cases, it makes sense to model the data in a way that removes redundancy and enforces integrity before it is loaded it into the dimensional data model.Nonrelational Data Sources A common reason for creating a dedicated staging environment is to integrate nonrelational data. Your data-integration tasks seem much less challenging when all data is under one roof(DBMS).Integrating heterogeneous data sources is a challenge that ETL developers must constantly confront as the data warehouse expands its scope to include more and more subject areas.In enterprise data warehouse projects, many of the data sources are from nonrelational data sources or relational data sources that are not necessarily related to each other. Nonrelational data sources can include COBOL copy books, VSAM les, at les, spreadsheets, and so on.Dimensional Data Models: The Handoff from the Back Room to the Front Room Dimensional data structures are the target of the ETL processes, and these tables sit at the boundary between the back room and the front room. In many cases, the dimensional tables will be the nal physical-staging step before transferring the tables to the end user environments.4. Extracting4.1 Part 1: The Logical Data MapDesigning Logical Before Physical Diving right into physical data mapping wastes precious time and excludes documentation. This section describes how to develop the logical ETL process and use it to map out your physical ETL implementation. Ensure the following steps are achieved before you start any physical ETL development:1) Have a plan.2) Identify data source candidates.3) Analyze source systems with a data-proling tool.4) Receive walk-though of data lineage and business rules.5) Receive walk-through of data warehouse data model.6) Validate calculations and formulas.4.2 Inside the Logical Data MapComponents of the Logical Data Map The logical data map is usually presented in a table or spreadsheet format and includes the following specic components: 1) Target table name. The physical name of the table as it appears in the data warehouse 2) Target column name. The name of the column in the data warehouse table 3) Table type. Indicates if the table is a fact, dimension, or subdimension (outrigger) 4) SCD (slowly changing dimension) type. For dimensions, this component indicates a Type-1, -2, or -3 slowly changing dimension approach. This indicator can vary for each column in the dimension. For example, within the customer dimension, the last name may require Type 2 behavior (retain history), while the rst name may require Type 1 (overwrite). These SCD types are developed in detail in Chapter 5. 5) Source database. The name of the instance of the database where the source data resides. This component is usually the connect string required to connect to the data base. It can also be the name of a le as it appears in the le system. In this case, the path of the le would also be included. 6) Source table name. The name of the table where the source data originates. There will be many cases where more than one table is required. In those cases, simply list all tables required to populate the relative table in the target data warehouse. 7) Source column name. The column or columns necessary to populate the target. Simply list all of the columns required to load the target column. The associations of the source columns are documented in the transformation section. 8) Transformation. The exact manipulation required of the source data so it corresponds to the expected format of the target. This component is usually notated in SQL or pseudo-code.4.3 Building the Logical Data MapThe success of data warehousing stems in large part from the fact that all data is in one logical place for users to perform cross-functional analysis. Behind the scenes, the ETL team integrates and transforms disparate, un- organized data seamlessly and presents it as if it has lived together since the beginning of time. A key criterion for the success of the data ware- house is the cleanliness and cohesiveness of the data within it. A unied data store requires a thorough insight of each of its source data systems. The importance of understanding the data in the data sources, and the systems of the sources themselves, is often overlooked and underestimated during the project-planning phase of the ETL. The complete logical data mapping cannot exist until the source systems have been identied and analyzed. The analysis of the source system is usually broken into two major phases: 1) The data discovery phase 2) The anomaly detection phase4.4 Integrating Heterogeneous Data SourcesWhen a dimension is populated by several distinct systems, it is important to include the unique identier from each of those systems in the target dimension in the data warehouse. Those identiers should be viewable by end users to ensure peace of mind that the dimension reects their data that they can tie back to in their transaction system.数据仓库ETL工具摘自The Data Warehouse ETL Toolkit前四章1.介绍抽取抽取-转换-加载(Extract-Transform-Load)系统是数据仓库的基础。一个设计良好的 ETL 系统能从源系统抽取数据,同时能高质量的对数据进行处理操作,并且执行的操作均符合一致性标准。执行数据质量和一致性标准,好的EDL系统还能然后规格化数据,从而使分散的源数据可以集中在一起使用,最终再以可以展现的格式提交数据,以便应用开发者可以创建应用系统,也使最终用户可以制定决策。该书围绕这四个步骤进行组织。ETL 系统既能成就数据仓库也能毁了它。因为虽然创建 ETL 系统是后台工作,对于最终用户并不可见,但是对于实施和维护一个典型的数据仓库系统来说,它所耗费的资源会很容易达到 70%。ETL 系统能使数据明显地增值,它的工作也绝不是简单的把数据从源系统抽取到数据仓库中。特别是,ETL 系统能够:1) 消除数据错误并纠正缺失数据 2) 提供对于数据可信度的文档化衡量 3) 为保护数据获取相互作用的数据流程 4) 把多个源数据整合到一起 5) 将数据进行结构化供最终用户使用 ETL 是个既简单又复杂的题目。几乎所有人都能理解 ETL 系统的基本作用:把源中的数据加载到数据仓库中。另外大多数人也都认为在这个过程中清洗和转换数据是必要的,这就是简单的观点。然而一个无法更改的事实是,紧接着的下一步就要根据数据源、业务规则、现存软件系统以及特定的报表应用系统的不同,将 ETL 系统分拆成成百上千的小的子过程。这带给我们的挑战是,既要耐心地对待这上千个子过程,同时又要保持对整个 ETL 系统主要目标的简单视角。2.一切围绕需求2.1 数据仓库的任务 数据仓库的任务是发布企业的数据资产,用于支持更加有效的决策制定。建设一个无所不包的、可靠的数据仓库是一件很有意义的任务,必须有一系列的标准组件来支撑。数据仓库最重要且基础的组件就是后台和前台。2.2 数据仓库是什么 数据仓库是将数据从原有交易系统数据库中提取出来,经过转换后形成有组织的信息的过程,它帮助进行数据分析,支持决策的制定。此过程包括从原始数据格式到目标数据仓库格式的转换,大多数数据仓库项目中这个转换过程至少要占去全部时间、人力和开销的 70%。经过多个数据仓库的实践,我们可以得到数据仓库的如下定义: 数据仓库是一个将源系统数据抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支撑与实现。2.3 ETL的任务。从最高层面讲,ETL的任务是建立数据仓库的后台。详细一些讲,ETL 系统必须: 1) 将数据更有效的提交到最终用户工具 2) 通过清洗和转换步骤增加数据的价值 3) 保护数据沿袭并进行文档化 我们可以看到在几乎每个数据仓库中后台必须支持如下关键步骤: 1) 从原始数据源抽取数据 2) 保证数据质量,清洗数据 3) 保证来自于各个数据源的数据一致性 4) 为查询工具,报表和仪表盘提交物理格式的数据。3.ETL数据结构数据仓库的后台部分经常被称为集结区(Staging Area)。在这里的上下文中,数据的集结过程指的是写入磁盘,并且我们建议在 ETL 数据流的四个主要检查点都要有数据集结。ETL 小组需要不同的数据结构来满足不同的数据集结需求。3.1是否集结数据是将数据存储在物理集结区还是在内存中直接处理?这个问题是 ETL 架构中最根本的选择之一。开发的 ETL 处理的效率很大程度上取决于能否很好地均衡物理 I/O 与内存处理。 能够在将数据写入集结表和保持在内存两种方法间取得理想的均衡是个很大的挑战,也是优化处理过程中必需考虑的问题。最终的决定取决于下面的两个彼此矛盾的目标: 1) 将数据以最快的速度从数据源获取到最终目标 2) 在处理过程发生错误时,能够进行恢复而无需从头开始根据环境和业务需求的不同,数据集结的策略会有很大的不同。如果计划在内存中处理所有的 ETL 数据处理,不要忘记任何一种数据仓库,无论其架构和运行环境如何,都包含了一个某种形式的集结区。之所以要在加载到数据仓库之前集结数据,主要是基于如下的考虑:1) 可恢复 在大多数的企业环境中,数据从源系统中抽取出来后,会进行一系列的重要的转换,假设对于某张表,其转换的工作量很大,那么根据我们的最佳实践,应该在数据一抽取完马上就进行集结。这些集结表(在数据库或者文件系统)可以作为恢复点。一旦转换过程发生错误,利用这些表,处理过程就无需再次访问源系统。2) 备份 通常,巨大的数据量使得在数据库级别上进行可靠的数据仓库备份变得不可行。只要加载文件已经进行了保存、压缩和归档,那么我们就可以避免数据库故障所带来的灾难。3) 审计 很多时候,源系统和目标系统之间的数据沿袭在 ETL 代码中丢失,当审计 ETL 流程时,数据集结区的存在使得对 ETL 流程中的不同阶段的直接比较成为可能,因为这时候审计人员(或者程序员)可以简单的比较原始的输入文件和输出文件来检查逻辑转换规则。当源系统覆盖了历史数据时,集结数据特别有用。3.2设计集结区 集结区按照自己的方式,为最终的数据仓库展示区来存储数据。有时候,保存集结区数据是为了支持那些需要历史数据才能完成的功能,而其它时候,集结区数据会在每个处理流程完成后就被删除。为维护历史信息而使用的集结区通常称为持久集结区(persistent staging area)。而临时集结区中的数据则在每次加载过程后被删除。大多数的数据集结区都使用混合模式,即同时使用临时和持久的集结表。除了考虑集结区数据的存储方式,还需要在设计和部署集结区时考虑如下的基本规则。为了数据仓库项目的成功,必须建立和实践下列规则:1) 数据集结区的所有者必须是 ETL 小组。数据集结区,以及其中的所有数据不应该对 ETL 小组外的用户开放。2) 无论任何原因,用户都不许进入数据集结区。3) 报表不能从集结区访问数据。数据集结区是一个工作站点,ETL 小组不需要通知用户就可以对表进行增、删、改操作。4) 只有 ETL 流程才能够读写集结区。ETL 组拥有数据集结区的完全权限。这意味着 ETL 架构师可以在这个集结区内设计表,并根据需求和相应的 ETL 流程来决定数据表应该建在数据库中,还是使用文件系统。一旦集结区创建完成,ETL 架构师必须将整个数据存储的容量估算结果提供给数据库管理员(DBA)小组和系统管理员,管理员根据这个结果为数据库、文件系统和目录结构计算空间分配和参数设定。3.3 ETL 系统中的数据结构平面文件在很多情况下,没有必要在 DBMS 中对数据进行集结。如果不是使用专门的ETL 工具而是在数据库中使用 SQL 完成所有的 ETL 任务,那么就需要创建 DBMS表来存储所有的集结数据。当集结数据像数据库表那样按照行和列存储在文件系统中的时候,我们称之为平文件(Flat File)或者顺序文件(Sequential File)。如果操作系统是 UNIX 或者 Windows 时,那么数据将按照标准化的 ASCII 编码进行存储。ETL 工具或者脚本语言可以像操作数据库表一样方便地操作 ASCII 平文件,而且在某些情况下处理速度会更快!XMLXML 是一种数据通信语言。表面看起来, XML 利用普通文本文档的形式来存储数
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人人文库网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。