版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章 数据仓库系统的体系构造与设计方法数据仓库系统的体系构造分布式对象技术监控器的设计转换器的设计集成器的设计元数据管理器的设计.数据仓库系统的构造最终用户可视化工具数据发掘工具多维分析工具多维数据数据仓库工具层数据仓库层.数据仓库系统的体系构造 数据仓库 可视化用户接口OLAP工具查询/报表工具数据发掘工具前端开发工具集成器集成器转换器转换器源数据源数据 元数据及其管理工具 数据仓库体系构造.数据仓库系统的体系构造源数据:数据仓库中的数据来源于多个数据源,它不仅可以是企业内部的关系型数据库,还包括非传统数据,如文件、HTML文档等。数据仓库管理系统:元数据库及元数据管理部件:元数据库用来存
2、储由定义部件生成的关于源数据、目的数据、提取规那么、转换规那么以及源数据与数据仓库之间的映射信息等。数据转换部件:该部件把数据从源数据中提取出来,依定义部件的规那么将不同数据格式的源数据转换成数据仓库的数据格式并装载进数据仓库。数据集成部件:该部件根据定义部件的规那么、一致各源数据的编码规那么,并净化数据,根据元数据中定义的数据组织方式对数据进展汇总、聚合计算。数据仓库管理部件:它主要用于维护数据仓库中的数据,备份、恢复数据以及管理数据的平安权限问题。.数据仓库系统的体系构造数据仓库前端工具集查询/报表工具:以图形化方式和报表方式显示数据,协助了解数据的构造、关系以及动态性。OLAP工具:经过
3、对信息的多种能够的察看方式进展快速、一致和交互性的存取,便于用户对数据进展深化的分析和察看。数据发掘工具:从大量数据中发掘出具有规律性的知识,以及数据之间的内在联络。前端开发工具:提供用户编程接口,便于在现有系统的根底上进展二次开发,加强系统的伸缩性。数据仓库:在数据仓库系统中,数据仓库是一个数据存储集合,它的存储方式通常有多维数据库,关系型数据库及其他存储方式。.分布式对象技术随着Internet的广泛运用,将运用扩展到局域网、广域网甚至Internet上已成为用户的普遍需求,分布式计算成了新的热点。分布式计算系统又称为中间件。从层次上看,它处于系统的中间层;从功能上看,向下它可以传送和处置
4、上层用户的各种恳求,向上它可以屏蔽下层的实现细节,提供各种效力。因此,分布式计算系统起到了承上启下的作用,为用户构造分布式运用系统提供强有力的支持。.分布式对象概述程序设计方法阅历了多次变革:从最初的功能分解法,到构造化程序设计方法,再到至今仍在广泛运用的面向对象程序设计方法。在80年代中期,国际规范化组织ISO推出了RPC(Remote Process Call,远程过程调用)规范,极大地推进了分布式处置技术的规范化的规范化。到1992年,开放软件基金会OSF公布了DCEDistributed Computing Environment,分布计算环境规范。在这个规范中,它不仅吸收了RPC作为
5、其远程调用的方式,而且对分布处置进展了笼统定义,是分布式计算技术开展过程中的一个里程碑。随着运用系统对可扩展性和可重用性的要求不断提高,面向对象的分析、设计和编程技术得到了广泛的运用。将面向对象的思想运用到分布式环境中,提出了分布式对象的概念。 .分布式对象的代表性观念组件对象是软件的根本量子。它具有一定的功能,可插用,同时又是要维护的。分布式对象那么是分布式环境中的组件对象,它封装了设计决策,并作为一个独立的单元处于分布式环境中。分布式对象是具有特定功能的,可以跨越进程的边境、实现网络、言语、运用程序、开发工具和操作系统的即插即用的独立对象。分布式对象是指任何可被分别出来,具有规范化的,可重
6、用的公开接口的软件。分布式对象经过接口对外提供效力。对象与对象之间,对象与客户之间同时经过接口进展交互。因此分布式对象一旦发布,它只能经过预定义的接口来提供合理的、一致的效力。这种接口定义的稳定性使客户运用开发人员可以构造出稳定的运用。一个分布式对象可以实现多个接口,同时一个特定的接口也可以被多个分布式对象来实现。除此之外,分布式对象还提供了对象位置的透明性,也就是说一台机器上的运用可以透明地访问其他机器上的分布式对象。.分布式对象的工业规范分布式对象的两种工业规范:COM/DCOM/COM+:Microsoft制定的以Windows为中心的开发环境。CORBACommon Object Re
7、quest Broker Architecture:由700多个厂商共同提倡的,公共对象恳求代理体系构造,是平台中立的分布式技术,CORBA可以执行于Windows,UNIX以及Linux等操作系统之中,但是目前成熟产品很少,并且支持的厂商不是非常普及。根据这两种分布式技术演进而产生的分布式对象技术:例如EJBEnterprise JavaBean等。.基于分布式对象的程序设计方法基于分布式对象的程序设计方法承继并开展了面向对象程序设计方法。它将对象技术运用于系统设计,对向对象程序设计的实现过程作了进一步笼统。分布式对象设计方法强调真正的软件重用和高度的可操作性。它偏重于分布式对象的产生和装配
8、,这两方面构成了分布式对象程序设计的中心。分布式对象的装配使得软件产品有能够用类似于“搭积木的方法快速地建立起来,不仅可以缩短软件产品的开发周期,同时也提高了系统的稳定性和可靠性。可重用的分布式对象库不同于对象库,分布式对象库保管的是一些经过测试的分布式对象。这些分布式对象服从规范或规范,并且分布式对象库也包括这些分布式对象的细节功能阐明文档。 .基于可重用的分布式对象库的软件开发方式的过程 组合过程定制过程检索过程标识过程验证过程分类过程 可重用组件库 软件开发环境.基于可重用的分布式对象库的软件开发方式的过程标识过程:标识一个可重用的分布式对象。验证过程:断定可重用分布式对象所声明的功能特
9、性和性能特性。分类过程:对已有分布式对象的功能、运用方法、适用范围、接口等进展阐明性的描画,以便日后可以高效准确地检索。检索过程:利用规范的方法根据指定的属性找到所需的分布式对象。定制过程:经过对检索到的分布式对象进展修正、裁剪和配置使其满足用户的需求。组合过程:将已定制好的分布式对象集成在一同构成运用系统。.COMCOM:即组件对象模型,是一种以组件为发布单元的对象模型,这种模型使各软件可以用一种一致的方式进展交互。COM既提供了组件之间进展交互的规范,也提供了实现交互的环境。由于组件对象之间交互的规范不依赖于任何特定的言语,所以COM也是不同言语协作开发的一种规范。COM的本质是这样一种协
10、议,它担任将一个软件模块同另一个衔接起来,而不再参与其他的事务。衔接建立后,两个模块可以经过一种称之为“接口的构造进展通讯。接口是一组逻辑上相关的函数集合,其函数也被称为接口成员函数。在同一个接口中的函数应该提供类似或相关的效力。.COM运用的组成部分COM接口:经过接口的一个对象暴露它能提供应COM客户的效力。每个COM对象为一组相关的属性和方法提供了一个接口。在COM中,每一个接口都由一个128位的全局独一标识符GUID,Global Unique Identifier来标识。客户经过GUID获得接口的指针,再经过接口指针,客户就可以调用其相应的成员函数。接口是COM对象提供效力的根本单元
11、,因此一个COM对象可以同时提供数个不同的接口,并且在不同的接口中提供不同的函数。COM效力器:它是一个模块,可以是EXE、DLL或是OCX,它们包含COM对象的实现代码。一个COM效力器由一个或多个COM对象组成,对象在效力器内部实现。一个COM效力器可以为多个客户提供效力,客户也可以衔接到不同的效力器。一个COM效力器就是一个向客户运用或库提供效力的运用或库如DLL。COM客户:经过接口向效力器恳求需求的效力。客户知道需求从效力器获得什么,但是客户不知道效力器内部的细节。 .COM的特性面向对象的特性和客户/效力器的特性。言语无关性:COM不依赖于特定的言语,只需可以生成符合COM规范的可
12、执行代码即可,该特性性为跨言语协作开发提供了一致规范。进程透明性:在客户/效力器的软件构造中,运转在客户端的代码和运转在效力器端的代码既可以在同一个进程中,也可以在不同的进程中。COM所提供的效力组件对象在实现时有两种进程模型:进程内对象和进程外对象。根据进程模型,COM效力器程序可以分为:进程内效力程序、本地效力程序和远程效力程序。进程内效力程序被加载到客户的进程空间,在Windows环境下通常以动态链接库DLL的方式实现;本地效力程序是一个独立的运用程序,它与客户程序运转在同一台机器上,通常它是一个EXE文件;远程效力程序运转在与客户不同的机器上,它既可以是一个DLL,也可以是一个EXE文
13、件。虽然COM对象有不同的进程模型,但对于客户程序来说是透明的。可重用性:由于COM规范是建立在二进制代码级的,因此COM对象的可重用性与普通的面向对象言语的重用过程不同。COM的重用性可建立在组件对象的行为方式上,而不是详细的实现上,因此它的可重用性不是源代码级的重用,而是二进制级的重用。.DCOMDCOMDistribute Component Object Model,分布式组件对象模型:是COM的扩展,它可以支持不同计算机上组件对象与客户程序之间或者组件对象之间的通讯,这些计算机可以在局域网内,也可以在广域网上,甚至经过Internet进展衔接。对于客户程序而言,组件程序所处的位置是透
14、明的,不用编写任何处置远程调用的代码。DCOM在COM根底上添加的主要特征创建远程对象的才干:客户只需调用OLE32.dll提供的库函数CoCreateInstance透明地创建组件,而不关怀组件的位置。跨网络的数据传送才干:由于远程对象和客户处于不同的地址空间,它们之间的数据传送不但能够要跨网络进展,还要处置数据格式等一系列调整。当客户和远程对象进展数据传送时,在客户端需对参数进展列集,位于客户端的代理对象完成这一义务,进展跨网络的数据传送。平安性和访问控制才干。.COM+COM+:并不是COM的新版本,而是COM的新开展,它是COM更高层次上的运用。COM+的底层构造依然以COM为根底,它
15、几乎包括了COM的一切内容。COM+倡导了一种新概念,把组件软件模型建立在运用层上,把一切组件的底层细节留给操作系统。COM+不再局限于COM的组件技术,它更加注重于基于分布式网络运用的设计与实现。COM+承继了COM几乎全部的优势,同时又防止了COM实现方面的一些缺乏。从COM的开展角度来看,COM最初作为桌面操作系统平台上的组件技术,主要为OLE效力。但是随着Windows NT与DCOM的发布,COM经过底层的远程支持组件技术延伸到了分布式运用领域,充分表达了COM的扩展才干以及构造模型的优势。MTS为COM增添了许多新的内容,弥补了COM和DCOM的一些缺乏,它注重于效力器一端的组件管
16、理和配置环境。COM+进一步把COM、DCOM和MTS一致同来,构成真正适宜于企业运用的技术。.分布式组件对象的特性伸缩性:随着用户数目的添加、数据量的不断增多,分布式运用系统的顺应才干反映了系统的优劣。运用COM/DCOM/COM+建立起来的运用系统能很好地顺应这种规模的变化,当用户数比较少、数据量不大时,系统显得小巧而快速;当运用规模增大时,系统也可以正常运转并且在保证性能的情况下不影响可靠性。DCOM的位置透明性保证了这种变化可以不用修正组件源程序。可配置性:安装和管理是分布式软件系统的两个重要环节。运用COM/DCOM/COM+建立的分布式软件系统可以很方便地对系统进展重新配置,包括效
17、力器的变化、客户程序的自动安装等特性。微软为DCOM提供了一个图形界面的配置工具程序DCOMCNFG.EXE,可使客户程序和组件程序在不改动代码的情况下顺应不同的网络环境。.分布式组件对象的特性平安性: DCOM运用了Windows NT提供的可扩展平安性框架,在非NT平台上实现的DCOM也包括了一个与NT兼容的平安提供器。DCOM实现的平安性分为访问平安性和激发平安性。访问平安性指定哪些用户可以调用分布式组件对象,激发平安性指定哪些用户可以在一个新进程中创建新的对象。协议无关性:在基于COM/DCOM/COM+的分布式运用系统中,并不要求专门的网络协议,所以这种分布式运用系统对网络有很强的顺
18、应才干。在Windows平台上,可以运用以下一些协议:TCP/IP、UDP、IPX/SPX以及NetBIOS。平台独立性: COM/DCOM/COM+把平台二进制规范和平台无关的规范隔分开来,并且,由于DCOM建立在DCE RPC的根底上,所以DCOM能很好地顺应不同的系统平台,目前曾经实现了DCOM的操作系统有:Windows、Apple Macintosh以及Unix的一些版本。.运用COM技术实现数据仓库的组件数据仓库是针对支持整个企业范围的主要业务来建立的。主要特点是,包含大量面向整个企业的综合信息及导出信息,所以系统本身处在一个分布式环境中,且必需具有极好的扩展性和灵敏性。COM/D
19、COM/COM+技术能顺应数据仓库运用的需求,能最大限制地提高灵敏性和可扩展才干。数据仓库的系统设计与开发是一个动态的反响和循环的过程。一方面数据仓库的数据内容、构造、粒度、分割以及其他物理设计根据用户所前往的信息不断地调整和完善,以提高系统的效率和性能;另一方面,经过不断地了解用户的分析需求,向用户提供更准确、更有用的决策信息。将数据仓库系统从功能上分为假设干个独立的对象,并运用COM技术实现,可以最大限制地重用这些对象。当用户的需求添加或发生变化时,只需求添加相应的COM对象或更新变化的COM对象。.运用COM技术实现数据仓库的组件经过将用户业务逻辑以DCOM对象的方式集中到中间层,系统就
20、获得了对业务逻辑的独立性。当用户需求改动时,开发人员可以迅速地在运用效力器上更新业务逻辑,而无需将更新后的运用递交到成千上万的桌面系统上去,从而使开发人员从维护众多客户端的繁重任务中解脱出来。仓库是一个大规模的工程工程,它开发周期长,而数据仓库的需求又是动态的,不确定的。假设数据仓库的开发周期过长,能够当系统完成后,用户的需求曾经发生了变化,从而呵斥开发资源的浪费;而且在当今猛烈的市场竞争中,谁越早进展决策,谁就在竞争中占得先机,所以数据仓库的开发周期越短,给企业带来的效益就越大。经过COM技术将数据仓库系统划分为不同的功能对象,可以使开发团队进展并行开发。开发人员只需求定义各个COM对象明确
21、的接口,彼此之间不需求了解各自的任务。.运用COM技术实现数据仓库的组件数据仓库的数据是从企业内部的各个操作型环境中提取出来的,所以数据仓库系统本身就处在一个分布式环境中。由于在数据仓库中数据的访问量非常大,所以提高系统性能的首要目的是尽量减少网络上的数据传送。可以将数据处置的各个组件以DCOM对象的方式存放在运用效力器上,所以,虽然能够存在着与运用效力器的多个甚至数百个的衔接,但运用效力器与数据库效力器之间的衔接却只需少数几个,从而到达减少网络上的数据传送量。数据分析运用中的计算、操作和数据过滤通常是很复杂的。假设在客户机上完成这些处置任务,不仅要求客户机必需具有足够强大的配置,而且对网络负
22、载才干也是一个考验。经过COM技术可以将执行此类处置任务的对象放在多个运用效力器上,利用COM+提供的负载平衡效力来提高数据仓库系统的可用性。由于数据分析时,每次查询涉及到的数据量宏大,所以往往会需求较长的呼应时间,特别在数据分布时呼应时间有时会让人难以忍受。COM+经过音讯队列组件提供了异步通讯功能,使得客户不用等待。.数据仓库体系构造的设计与实现设计思想:客户端经过提交描画要调用的方法和要传送的参数的XML文档进展调用。在运用效力器端实现所需效力的接口,当通讯组件接纳到XML文档后,创建XMLService组件并由XMLService组件根据XML文档调度效力,并将前往结果或错误信息封装成
23、XML文档传送给客户端。将数据仓库系统划分为假设干个独立的分布式对象,每个对象都可以独立地完成一项任务如数据转换、数据集成等。这些对象须运用开放的规范组件,它们具有可重用性高的特性。对象与对象之间经过XML文档进展通讯。由于采用开放的XML文档集成数据,所以大大提高了系统集成异构数据源、半构造化数据及非构造化数据的才干。对象与对象之间既可以相互协作共同完成创建数据仓库的义务,又可以独立地完成某个特定功能。这些分布式对象和用户前端界面以及后台数据构成了数据仓库的多层体系构造。 .数据仓库系统体系构造的设计客户端:可视化的用户界面客户端通讯组件运用效力器端:效力器端通讯组件XMLService调度
24、组件平安组件元数据管理器转换器集成器数据库效力器端源数据元数据库数据预备区数据仓库.数据仓库系统中的通讯XML概述XMLeXtensible Markup Language,可扩展的标志言语是国际组织W3C制定的在Web上对有格式的数据进展描画、传输、操作的通用言语。XML 是一套定义语义标志的规那么,这些标志将文档分成许多部件并对这些部件加以标识。它也是元标志言语,即定义了用于定义其他与特定领域有关的、语义的、构造化的标志言语的句法言语。XML定义了一套元句法,允许各种不同的专业开发与本人的特定领域有关的标志言语。 .基于XML的通讯运转机制运用效力器端通讯组件接纳到客户端传送来的XML字符
25、串,创建XMLService对象。将XML字符串以参数方式传送给XMLService对象的调度方法Run(),并调用Run方法;在Run方法中,解析XML字符串,获得客户端调用的方法;检查用户的权限,假设没有调用此方法的权限,前往错误信息;经过权限验证后,翻开存储在效力器端的FunctionMaps.xml文件,该文件中记录了方法和对象的映射关系,根据文件中记录的内容获得实现方法的对象名;根据获得的对象名创建对象;每个对象元数据管理器、转换器、集成器除了实现了用户所需求的效力外,还实现了一个调度本身效力的Run方法,XMLService调度对象那么经过调用这个Run方法来实现对对象效力的调度。
26、 .XML通讯组件表示图 .XML通讯组件客户端与效力器端的通讯机制启动效力器端管理程序,创建Application调度对象。用Application调度对象的StartNewService方法创建ServerDispatcher侦 听对象,并对客户端进展侦听。启动客户端运用程序,创建ClientTalker会话对象。调用ClientTalker会话对象的Connect方法,恳求衔接效力器。ServerDispatcher侦听对象接纳到客户端的衔接恳求后,创建ServerTalker对象并将它与ClientTalker会话对象衔接。假设活动的通讯会话对象数量到达了最大限制,新的衔接不能建立,相
27、关音讯将被记录到日志文件中。调用ServerTalker的Accept方法,然后等待客户端发送XML音讯;在收到客户端发送的XML音讯后,加载XMLService对象处置XML音讯,然后将处置结果发回客户端;假设过程中有错误发生,错误信息将被记录到日志文件中,同时,会话被以为终了;假设在上一次数据通讯后,在指定时间范围里没有通讯发生,系统以为超时,会话也将终了。.元数据管理器客户端登录:担任接纳客户端登录信息并进展用户权限检查元数据管理器的用户接口:以接口方式向用户提供对元数据 增、删、改、查的效力,包括:源数据信息、数据仓库信息、星型模型信息、维信息、维表字段信息、现实表字段信息、映射现实表
28、字段信息、映射维表字段信息、链接现实表与维表字段的信息;元数据的存储:元数据管理器中的元数据存储程序担任接纳由接口程序传送来的关于对元数据进展添加、修正和删除等信息,并根据所提供的参数执行存储过程,将元数据的有关信息保管于效力器端的元数据库中。.元数据管理器的设计与实现元数据的作用:定义数据仓库的作用,指明数据仓库中信息的内容和位置,描写数据的抽取和转换规那么,存储与数据仓库主题有关的各种商业信息。元数据基于Microsoft SQL Server2000的关系模型并存储在数据库效力器上,同时经过MetaManager组件提供了一系列接口运用户可以在一切运用中共享元数据在客户端提供图形化界面工
29、具。例如,用户想在多维模型中参与一维或者在某一维中参与维元素,不仅可以经过图形化界面工具完成而且可以在用户自已编写的运用程序中调用运用程序接口函数,修正后的结果将记入元数据库中。然后系统将根据元数据库中的新内容进展数据的追加。.元数据模型关于源数据的元数据:它是现有的操作型业务系统的数据源的描画信息,是对不同平台上的数据源的物理构造和含义的描画。包括:数据源中一切物理数据构造;一切数据项的业务定义;每个数据项更新的频率,以及由谁或哪个过程更新的阐明;每个数据项的有效值;其它系统中具有一样业务含义的数据项的清单。关于数据仓库多维模型的元数据规范维:由一张维表构成,规范的星型模型采用这种维和现实表
30、构成的。维表中的一个字段或多个字段构成了维的层次。雪花维:由相互关联的多个维表构成,每个维表中的字段构成了维的层次。经过多个维表的衔接最大限制地减少了数据存储量,添加了模型的灵敏性,但也使得查询变得复杂化。时间维:用来描画现实数据的时间属性。它通常只与源数据库中某个表的日期型字段相对应,所以时间维的层次不可以由维表的字段来表示。时间维的层次由高到低分别为Year、Quarter、Month、Day、Hour、Minute、Second,用户可以恣意选择几种构成时间维的层次。.元数据模型关于数据仓库映射的元数据:是数据源中的数据与数据仓库间数据的映射。当数据源中的一个数据项与数据仓库建立了映射关
31、系,就应该记下这些数据项发生的任何变换或变动,即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、集成过程。关于系统平安的元数据:描画了系统中用户、权限组及用户权限信息。每个用户可以属于多个权限组,每个权限组都有一定的权限。这些权限详细表现为可以执行的元数据管理器、转换器和集成器所提供的方法。.基于COM的元数据管理器MetaManager的运转机制用户程序首先启动客户程序,客户程序衔接运用效力器。客户程序创建一个128位的SessionID并将它与登录帐号、口令组成XML字符串传送给运用效力器,XML Service调度对象接纳到XML字符串后解析XML字符串,创建登录
32、对象并调用登录对象的相关方法。登录对象经过数据库中的用户及口令确定用户的合法身份,并保管SessionID,前往登录胜利的信息。客户程序收到登录胜利的信息后,以XML字符串方式向运用效力器发送XML命令数据包,命令数据包前加上包括SessionID的恳求报头。运用效力器收到客户的恳求数据包后将其解析,获得SessoinID,并根据SessionID检查用户的权限。如用户具有合法权限,那么由XML Service调度对象创建MetaManager对象并调用MetaManger的Run方法。MetaManager的Run方法根据客户传送的XML数据包调用相关的方法。返加的结果打成XML数据包并经过
33、通讯组件前往给客户程序。.转换器的设计与实现转换器的功能:数据构造转换和数据类型转换构造化数据的转换: 关系对应于对象类, 元组对应于对象实例, 关系属性对应于对象的属性值非构造化数据的转换: 利用对象的封装性实现对非构造化数据的处置自动化或半自动化的转换器生成技术:采用互操作性规范, 定义数据源与翻译器的接口从数据源中提取数据并转换格式的过程:先将各类数据库系统中不同格式的数据转换成文本文件,然后再利用批拷贝命令将数据导入目的系统中。以使数据仓库获得新的数据提供决策分析运用。.转换器的设计与实现数据预备区的运用:首先从源数据中提取数据,转换成数据仓库所要求的格式后存储在数据仓库的一个称为数据
34、预备区的缓冲区中。在该区域中,可以暂时存储原始数据,然后由集成器对数据进展清理、集成后再装载到数据仓库中。由于运用独立于数据源的数据预备区为数据仓库预备数据可提高管理数据仓库的效率,另外将数据预备区与数据仓库数据隔分开,可以维护数据仓库的完好性同时可以提高数据仓库的性能。在将数据从源数据提取到数据预备区的过程中,可借助于Microsoft的数据转换效力DTS包来实现。.源数据库、数据预备区和数据仓库之间的关系 源数据数据预备区数据仓库DTS 三者关系图.DTS概述DTS:是Microsoft SQL Server2000中提供的数据转换效力Data Transformation Service
35、s。DTS是一个组件对象,它提供一个组件的完好集。这些组件可在任何具有OLE DB、ODBC接口的数据库或规格化的文本文件间导入、导出和转换数据。包Package:导入、导出数据的过程定义并保管在包中。.转换器的实现转换器的流程图 创建数据预备区N开场读元数据检查数据预备区?执行DTS包更改元数据时间,数据形状终了胜利衔接元数据库创建DTS包Y.选择源数据的窗体 .数据转换在窗体上方的下拉列表中选择了数据源类型后,针对不同的数据源类型在窗体中会显示不同的界面,让用户输入衔接各种数据源的衔接字符串信息用户名、密码、数据库等。由于DTS借助OLE DB来存取不同数据源的数据,所以本系统中可选择的数
36、据源类型包括OLE DB支持的各种异质数据源。在窗体中单击下一步按钮后,将显示数据库中各对象信息让用户选择需求导入数据预备区的数据对象,然后创建并调用Microsoft 的DTS对象,完成数据转换任务。.调用DTS的过程创建DTS包,并初始化参数。向DTS的衔接集合中添加源数据衔接。检查数据预备区能否存在,如不存在首先创建数据预备区,假设数据预备区已存在那么直接向DTS的衔接集合中添加目的数据源衔接。读取相关元数据信息,如需求转换的表及字段的相关信息等。根据元数据信息,创建义务对象并参与义务集合。创建步骤对象,并将义务对象参与步骤对象。假设有多个义务,那么继续创建其他义务对象,并指定所属步骤对
37、象。执行DTS包。.集成器的设计与实现集成器的功能转换各种异质数据源的格式。断定一个记录能否可进展抽取处置。数据重新格式化。数据清理。从多个输入数据源中选取数据。多个输入文件重新排序。产生不同概括层次上的输出结果。提供缺省值。区分需求抽取的和不需求抽取的操作型数据。进展数据的汇总。对数据元素的重命名进展跟踪。不常见的或不规范的格式处置。指定转换逻辑和转换机制。了解并解开建立在旧的传统程序逻辑中的数据之间的关系。大容量数据的输入/输出如并行装载和并行读出。必需符合企业数据模型。 .集成器的设计与实现集成模型:根据元数据中记录的映射关系在星形模型的根底上以导游的方式提供集成模型的客户端工具。创建数
38、据仓库后,在元数据中记录数据仓库的根本信息,同时创建一个同名的关系型数据库。用户可以在窗体中的数据类型下拉列表中选择数据仓库的数据类型,由于数据仓库是一个海量数据的存储集合,所以选择的数据库管理系统必需具有并行处置才干及可伸缩性。 创建了物理数据库后,开场创建数据仓库模型,并装载数据。首先创建星型模型中的现实表。在树型构造中列出当前元数据库中描画的源数据库以及库中的表对象,用户可以选择其中一个表作为现实表;同时窗体的右边以列表方式显示了所选择表的字段信息。单击下一步后,用户可以在窗体中选择度量字段,并选择要保管的字段。将用户的信息记录在元数据库中,并根据该信息创建现实表。.集成器的设计与实现现实表创建后,那么开场创建星型模型的维。在前面的章节中我们讨论了星型模型的维分为:规范维、雪花维和时间维。完成上述的步骤后,已胜利创建了一个星形模型,然后再调用元数据管理器的相关方法更新元数据库中的数据。数据净化:当数据从源数据库中提取到数据预备区后,必需先进展数据净化才可以装载到数据仓库中去。数据净化主要指对数据字段的有效值检验。有效值的检验通常包括:范围检验、枚举字段取值和相关检验。范围检验要求数据保证落在预期的范围之内,通常对数据范围和日期范围进展检验,如对任何在指定范围之外的日期的发票都应删除。枚举字段取值指对一个记录在该字段的取值,假设不在指
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2020年全国硕士研究生入学考试政治真题
- 2026年中职法律实务技能大赛往届获奖选手私藏试题
- 2026年事业单位考试面试试题及答案解析
- 特色农产品精深加工项目使用林地可行性报告
- 石油储罐区火灾爆炸事故应急响应预案
- 2026年交安考试试题库及答案解析
- 2026财会专业面试题及答案
- 2025年云南省临沧市法官逐级遴选考试题及答案
- 模板工程作业指导书
- 2025吴忠市保安服务总公司招聘38人笔试历年备考题库附带答案详解
- 2026年浙江嘉兴南湖区社区工作者招聘考试-含答案解析
- 2026河南开封工程职业学院招聘57人备考题库及答案详解一套
- 2026年陕西榆林能源集团社会招聘(279人)笔试参考题库及答案详解
- 2026春苏教版五年级下册数学期末综合练习卷含参考答案 (三套)
- 2025年江苏镇江市初二学业水平地生会考考试试题及答案
- 2026版《国有企业领导人员廉洁从业规定》全文+新旧对比+高频考点+习题答案详解
- GB/T 47529-2026自助仓储运营管理规范
- 简易电子琴设计
- 发电机控制器MICS Telys操作说明书
- GB/T 24962-2010冷冻烃类流体静态测量计算方法
- 超声波测厚仪标准操作规程
评论
0/150
提交评论