《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第1页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第2页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第3页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第4页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1,第四章 数据仓库系统的体系结构与设计方法,数据仓库系统的体系结构 分布式对象技术 监控器的设计 转换器的设计 集成器的设计 元数据管理器的设计,2,数据仓库系统的结构,最终用户,可视化工具,数据挖掘工具,多维分析工具,多维数据,数 据 仓 库 工 具 层,数 据 仓 库 层,3,数据仓库系统的体系结构,4,数据仓库系统的体系结构,源数据: 数据仓库管理系统: 元数据库及元数据管理部件: 数据转换部件: 数据集成部件: 数据仓库管理部件:,5,(1)系列顺序码 (2)数值化字母顺序码 (3)层次码 (4)特征组合码 (5)矩阵码 (6)复合码,6,条码技术的发展,20世纪20年代,西屋实验室,john ermode 扫描器,边缘定位线圈,译码器 young 1949, norm woodland , bernard silver 1970, iterface machanisms led,微处理器,激光二极管:条码工业,7,常用条码简介,(商品)的基础 (超市) 工业,图书,票证 bar 医疗卫生,图书情报,物资,8,数据仓库系统的体系结构,数据仓库前端工具集 查询/报表工具: olap工具: 数据挖掘工具: 前端开发工具: 数据仓库:,9,分布式对象技术,随着internet的广泛应用,将应用扩展到局域网、广域网甚至internet上已成为用户的普遍需求,分布式计算成了新的热点。 分布式计算系统又称为中间件。,10,分布式对象概述,程序设计方法经历了多次变革: 在80年代中期,国际标准化组织iso推出了rpc(remote process call)标准。到1992年,开放软件基金会osf颁布了dce(distributed computing environment)标准,是分布式计算技术发展过程中的一个里程碑。 随着应用系统对可扩展性和可重用性的要求不断提高,将面向对象的思想应用到分布式环境中,提出了分布式对象的概念。,11,分布式对象的代表性观点,组件对象是软件的基本量子。 分布式对象是具有特定功能的,能够跨越进程的边界、实现网络、语言、应用程序、开发工具和操作系统的”即插即用”的独立对象。 分布式对象是指任何可被分离出来,具有标准化的,可重用的公开接口的软件。 分布式对象通过接口对外提供服务。,12,分布式对象的工业标准,分布式对象的两种工业标准: com/dcom/com+:microsoft制定的以windows为中心的开发环境。 corba(common object request broker architecture):由700多个厂商共同提倡的,公共对象请求代理体系结构,是平台中立的分布式技术. 根据这两种分布式技术演进而产生的分布式对象技术:例如ejb(enterprise javabean)等。,13,基于分布式对象的程序设计方法,分布式对象设计方法强调真正的软件重用和高度的可操作性。它侧重于分布式对象的产生和装配,这两方面构成了分布式对象程序设计的核心。 可重用的分布式对象库不同于对象库,分布式对象库保存的是一些经过测试的分布式对象。这些分布式对象遵从标准或规范,并且分布式对象库也包括这些分布式对象的细节功能说明文档。,14,基于可重用的分布式对象库的软件开发模式的过程,15,com/dcom/com+com,com:即组件对象模型,是一种以组件为发布单元的对象模型,这种模型使各软件可以用一种统一的方式进行交互。 com的实质是这样一种协议,它负责将一个软件模块同另一个连接起来,而不再参与其余的事务。,16,com应用的组成部分,com接口:在com中,每一个接口都由一个128位的全局唯一标识符(guid,global unique identifier)来标识。 com服务器: com客户:,17,interface account / 存款 void deposit(in float amount); /取款 boolean withdraw(in float amount); /查询余额 float getbalance(); ; / 帐户管理员 interface accountmanager / 查询指定名字的帐户,查无则新开帐户 account open(in string name); ;,18,com的特性,面向对象的特性和客户/服务器的特性。 语言无关性: 进程透明性: 可重用性:,19,dcom,dcom(distribute component object model,分布式组件对象模型):是com的扩展,它可以支持不同计算机上组件对象与客户程序之间或者组件对象之间的通信。 dcom在com基础上增加的主要特征 创建远程对象的能力:客户只需调用ole32.dll提供的库函数cocreateinstance透明地创建组件,而不关心组件的位置。 跨网络的数据传送能力: 安全性和访问控制能力。,20,com+,com+: com+倡导了一种新概念,把组件软件模型建立在应用层上,把所有组件的底层细节留给操作系统。,21,分布式组件对象的特性,伸缩性: 可配置性:微软为dcom提供了一个图形界面的配置工具程序(dcomcnfg.exe),可使客户程序和组件程序在不改变代码的情况下适应不同的网络环境。 安全性:,22,分布式组件对象的特性,协议无关性:tcp/ip、udp、ipx/spx以及netbios。 平台独立性: windows、apple macintosh以及unix的一些版本。,23,使用com技术实现数据仓库的组件,数据仓库是针对支持整个企业范围的主要业务来建立的。 com/dcom/com+技术能适应数据仓库应用的需要,能最大限度地提高灵活性和可扩展能力。 数据仓库的系统设计与开发是一个动态的反馈和循环的过程。将数据仓库系统从功能上分为若干个独立的对象,并使用com技术实现,可以最大限度地重用这些对象。当用户的需求增加或发生变化时,只需要增加相应的com对象或更新变化的com对象。,24,使用com技术实现数据仓库的组件,通过将用户业务逻辑以dcom对象的形式集中到中间层,系统就获得了对业务逻辑的独立性。 仓库是一个大规模的工程项目,它开发周期长,而数据仓库的需求又是动态的,不确定的。,25,数据仓库体系结构的设计与实现,设计思想: 客户端通过提交描述要调用的方法和要传递的参数的xml文档进行调用。在应用服务器端实现所需服务的接口,当通信组件接收到xml文档后,创建xmlservice组件并由xmlservice组件根据xml文档调度服务,并将返回结果或错误信息封装成xml文档传递给客户端。 将数据仓库系统划分为若干个独立的分布式对象。,26,数据仓库系统体系结构的设计,客户端: 可视化的用户界面 客户端通信组件 应用服务器端: 服务器端通信组件 xmlservice调度组件 安全组件 元数据管理器 转换器 集成器 数据库服务器端 源数据 元数据库 数据准备区 数据仓库,27,数据仓库系统中的通信xml概述,xml(extensible markup language)是国际组织w3c制定的在web上对有格式的数据进行描述、传输、操作的通用语言。 xml 是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。 xml定义了一套元句法,允许各种不同的专业开发与自己的特定领域有关的标记语言。,28,xml通信组件示意图,29,元数据管理器,客户端登录: 元数据管理器 的用户接口: 元数据的存储:,30,元数据管理器的设计与实现,元数据基于microsoft sql server2000的关系模型并存储在数据库服务器上,同时通过metamanager组件提供了一系列接口使用户可以在所有应用中共享元数据 在客户端提供图形化界面工具。,31,转换器的设计与实现,转换器的功能: 数据结构转换和数据类型转换 结构化数据的转换: 非结构化数据的转换: 自动化或半自动化的转换器生成技术: 采用互操作性标准, 定义数据源与翻译器的接口,32,连续文件,王一落 1月-今 五华区1街2号 李二进 2月-今 盘龙区2街3号 张三丰 1月-2月 石林区4街6号 3月份顾客表 王一落 江南区9街7号 新的连续文件 王一落 1月-2月 五华区1街2号 王一落 3月-今 五华区1街2号 李二进 2月-今 盘龙区2街3号 张三丰 1月-2月 石林区4街6号 考虑出错情况,33,2005/1,距离近的客户的购买数量占绝大部分,34,2005/7,距离远的客户的购买数量占绝大部分,35,36,主键 新地址 旧地址,37,主键 客户id 当前标记值 住址状况 日期,主键 客户id 当前标记值 住址状况 日期,38,转换器的设计与实现,从数据源中提取数据并转换格式的过程:先将各类数据库系统中不同格式的数据转换成文本文件,然后再利用批拷贝命令将数据导入目标系统中。以使数据仓库获得新的数据提供决策分析使用。,39,转换器的设计与实现,数据准备区的使用:在将数据从源数据提取到数据准备区的过程中,可借助于microsoft的数据转换服务(dts)包来实现。,40,货运通知,海关,进出口许可证,海关申报单,电子发票,定单确认,税务,保险,银行,运输,41,源数据库、数据准备区 和数据仓库之间的关系,42,任务集合的任务对象,任 务 对 象 描 述 executesqltask 执行一条或多条sql语句 datapumptask 从源数据拷贝数据并转换成目标数据 activexscripttask 执行activex脚本 executeprocesstask 执行一段外部程序 bulkinserttask 执行批量插入操作 sendmailtask 使用sql mail发送电子邮件 datadrivenquerytask 在数据存储之间执行高级转换 transfersqlserverobjectstask 将sql server的数据对象转换 为其他对象,43,转换器的实现转换器的流程图,44,选择源数据的窗体,45,集成器的设计与实现,数据仓库初始化和目录管理 接收监控器的变化通告, 并将变化反映到数据仓库中 数据的存在方式与转换算法复杂 多视图合并和集成产生重复和不一致性 采用时态数据库的历史数据管理技术,46,集成器的设计与实现,统一数据编码:本系统中编码转换主要包括: 日期格式转换:delphi中的formatdatetime函数来统一日期格式。 测量单位的转换:数据仓库中对于数值型字段应保持一致的单位。在元数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论