《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第1页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第2页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第3页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第4页
《数据仓库与数据挖掘》第四章 数据仓库系统的体系结构与设计方法(51P).ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 第四章第四章 数据仓库系统的体系结构与设计方法数据仓库系统的体系结构与设计方法 数据仓库系统的体系 结构 分布式对象技术 监控器的设计 转换器的设计 集成器的设计 元数据管理器的设计 2 数据仓库系统的结构 最终用户 可视化工具 数据挖掘工具 多维分析工具 多维数据 数 据 仓 库 工 具 层 数 据 仓 库 层 3 数据仓库系统的体系结构数据仓库系统的体系结构 数据仓库 可视化用户接口 olap工具查询/报表工具数据挖掘工具前端开发工具 集成器集成器 转换器转换器 源数据源数据 元数据 及其管理工具 数据仓库体系结构 4 数据仓库系统的体系结构数据仓库系统的体系结构 源数据: 数据仓库管理系统: 元数据库及元数据管理部件: 数据转换部件: 数据集成部件: 数据仓库管理部件: 5 (1)系列顺序码 (2)数值化字母顺序码 (3)层次码 (4)特征组合码 (5)矩阵码 (6)复合码 6 条码技术的发展条码技术的发展 20世纪20年代,西屋实验室,john ermode 扫描器,边缘定位线圈,译码器 young 1949, norm woodland , bernard silver 1970, iterface machanisms led,微处理器,激光二极管:条码工业 7 常用条码简介常用条码简介 (商品)的基础 (超市) 工业,图书,票证 bar 医疗卫生,图书情报,物资 8 数据仓库系统的体系结构数据仓库系统的体系结构 数据仓库前端工具集 查询/报表工具: olap工具: 数据挖掘工具: 前端开发工具: 数据仓库: 9 分布式对象技术分布式对象技术 随着internet的广泛应用,将应用扩展到 局域网、广域网甚至internet上已成为用 户的普遍需求,分布式计算成了新的热点。 分布式计算系统又称为中间件。 10 分布式对象概述分布式对象概述 程序设计方法经历了多次变革: 在80年代中期,国际标准化组织iso推出了 rpc(remote process call)标准。到 1992年,开放软件基金会osf颁布了dce (distributed computing environment)标准,是分布式计算技术发 展过程中的一个里程碑。 随着应用系统对可扩展性和可重用性的要求 不断提高,将面向对象的思想应用到分布式 环境中,提出了分布式对象的概念。 11 分布式对象的代表性观点分布式对象的代表性观点 组件对象是软件的基本量子。 分布式对象是具有特定功能的,能够跨越进程 的边界、实现网络、语言、应用程序、开发工 具和操作系统的”即插即用”的独立对象。 分布式对象是指任何可被分离出来,具有标准 化的,可重用的公开接口的软件。 分布式对象通过接口对外提供服务。 12 分布式对象的工业标准分布式对象的工业标准 分布式对象的两种工业标准: com/dcom/com+:microsoft制定的以 windows为中心的开发环境。 corba(common object request broker architecture):由700多个厂商 共同提倡的,公共对象请求代理体系结构,是平 台中立的分布式技术. 根据这两种分布式技术演进而产生的分布式 对象技术:例如ejb(enterprise javabean)等。 13 基于分布式对象的程序设计方法基于分布式对象的程序设计方法 分布式对象设计方法强调真正的软件重用和高 度的可操作性。它侧重于分布式对象的产生和 装配,这两方面构成了分布式对象程序设计的 核心。 可重用的分布式对象库不同于对象库,分布式 对象库保存的是一些经过测试的分布式对象。 这些分布式对象遵从标准或规范,并且分布式 对象库也包括这些分布式对象的细节功能说明 文档。 14 基于可重用的分布式对象库的基于可重用的分布式对象库的 软件开发模式的过程软件开发模式的过程 组合过程 定制过程 检索过程 标识过程 验证过程 分类过程 可重用组件库 软件开发环境 15 com/dcom/com+com/dcom/com+comcom com:即组件对象模型,是一种以组件为发 布单元的对象模型,这种模型使各软件可以 用一种统一的方式进行交互。 com的实质是这样一种协议,它负责将一个 软件模块同另一个连接起来,而不再参与其 余的事务。 16 comcom应用的组成部分应用的组成部分 com接口:在com中,每一个接口都由一个 128位的全局唯一标识符(guid,global unique identifier)来标识。 com服务器: com客户: 17 interface account / 存款 void deposit(in float amount); /取款 boolean withdraw(in float amount); /查询余额 float getbalance(); ; / 帐户管理员 interface accountmanager / 查询指定名字的帐户,查无则新开帐户 account open(in string name); ; 18 comcom的特性的特性 面向对象的特性和客户/服务器的特性。 语言无关性: 进程透明性: 可重用性: 19 dcomdcom dcom(distribute component object model,分布式组件对象模型):是com的扩 展,它可以支持不同计算机上组件对象与客户程 序之间或者组件对象之间的通信。 dcom在com基础上增加的主要特征 创建远程对象的能力:客户只需调用ole32.dll提 供的库函数cocreateinstance透明地创建组件, 而不关心组件的位置。 跨网络的数据传送能力: 安全性和访问控制能力。 20 com+com+ com+: com+倡导了一种新概念,把组件软件模型 建立在应用层上,把所有组件的底层细节留给 操作系统。 21 分布式组件对象的特性分布式组件对象的特性 22 分布式组件对象的特性分布式组件对象的特性 协议无关性:tcp/ip、udp、 ipx/spx以及netbios。 平台独立性: windows、apple macintosh以及unix的一些版本。 使用使用comcom技术实现数据仓库的组件技术实现数据仓库的组件 24 使用使用comcom技术实现数据仓库的组件技术实现数据仓库的组件 通过将用户业务逻辑以dcom对象的形式集中 到中间层,系统就获得了对业务逻辑的独立性。 仓库是一个大规模的工程项目,它开发周期长, 而数据仓库的需求又是动态的,不确定的。 25 数据仓库体系结构的设计与实现数据仓库体系结构的设计与实现 设计思想: 客户端通过提交描述要调用的方法和要传递的参数的 xml文档进行调用。在应用服务器端实现所需服务 的接口,当通信组件接收到xml文档后,创建 xmlservice组件并由xmlservice组件根据 xml文档调度服务,并将返回结果或错误信息封装 成xml文档传递给客户端。 将数据仓库系统划分为若干个独立的分布式对象。 26 数据仓库系统体系结构的设计数据仓库系统体系结构的设计 客户端: 可视化的用户界面 客户端通信组件 应用服务器端: 服务器端通信组件 xmlservice调度组件 安全组件 元数据管理器 转换器 集成器 数据库服务器端 源数据 元数据库 数据准备区 数据仓库 27 数据仓库系统中的通信数据仓库系统中的通信xmlxml概述概述 xml(extensible markup language )是国际组织w3c制定的在web上对有格式 的数据进行描述、传输、操作的通用语言。 xml 是一套定义语义标记的规则,这些标记 将文档分成许多部件并对这些部件加以标识。 xml定义了一套元句法,允许各种不同的专 业开发与自己的特定领域有关的标记语言。 28 xmlxml通信组件示意图通信组件示意图 29 元数据管理器元数据管理器 客户端登录: 元数据管理器 的用户接口: 元数据的存储: any geographical location application servers database server manufacturing financials any browser any desktop 30 元数据管理器的设计与实现元数据管理器的设计与实现 元数据基于microsoft sql server2000 的关系模型并存储在数据库服务器上,同时 通过metamanager组件提供了一系列接口 使用户可以在所有应用中共享元数据 在客户端提供图形化界面工具。 31 转换器的设计与实现转换器的设计与实现 转换器的功能: 数据结构转换和数据类型转换 结构化数据的转换: 非结构化数据的转换: 自动化或半自动化的转换器生成技术: 采用互操作性标准, 定义数据源与翻译器的接 口 32 连续文件连续文件 王一落 1月-今 五华区1街2号 李二进 2月-今 盘龙区2街3号 张三丰 1月-2月 石林区4街6号 3月份顾客表 王一落 江南区9街7号 新的连续文件 王一落 1月-2月 五华区1街2号 王一落 3月-今 五华区1街2号 李二进 2月-今 盘龙区2街3号 张三丰 1月-2月 石林区4街6号 考虑出错情况 33 2005/12005/1 距离近的客户的购买数量占绝大部分 住址离超市的 远近程度 客户数量购买总金额 近10010000 比较近502500 比较远20200 远550 34 2005/72005/7 距离远的客户的购买数量占绝大部分 住址离超市的 远近程度 客户数量购买总金额 近505000 比较近502500 比较远705200 远550 35 23东城区. 23东城区. 29西城区. 36 主键 新地址 旧地址 23西城区东城区 37 主键 客户id 当前标记值 住址状况 日期 3420当前东城区 2002/9/9 主键 客户id 当前标记值 住址状况 日期 2320以往东城区 2002/1/1. 2420以往东城区 2002/7/7. 2520以往东城区 2002/9/9 38 转换器的设计与实现转换器的设计与实现 从数据源中提取数据并转换格式的过程:先 将各类数据库系统中不同格式的数据转换成 文本文件,然后再利用批拷贝命令将数据导 入目标系统中。以使数据仓库获得新的数据 提供决策分析使用。 39 转换器的设计与实现转换器的设计与实现 数据准备区的使用:在将数据从源数据提取 到数据准备区的过程中,可借助于 microsoft的数据转换服务(dts)包来 实现。 40 货运通知货运通知 海关海关 进出口进出口 许可证许可证 海关申报单海关申报单 电子发票电子发票 定单确认定单确认 税务税务 保险保险 银行银行 运输运输 41 源数据库、数据准备区源数据库、数据准备区 和数据仓库之间的关系和数据仓库之间的关系 源数据 数据准备区 数据仓库 dts 三者关系图 42 任务集合的任务对象任务集合的任务对象 任 务 对 象 描 述 executesqltask执行一条或多条sql语句 datapumptask从源数据拷贝数据并转换成目标数据 activexscripttask执行activex脚本 executeprocesstask执行一段外部程序 bulkinserttask执行批量插入操作 sendmailtask使用sql mail发送电子邮件 datadrivenquerytask在数据存储之间执行高级转换 transfersqlserverobjectstask将sql server的数据对象转换 为其他对象 43 转换器的实现转换器的实现转换器的流程图转换器的流程图 创建数据准备区 n 开始 读元数据 检查数据准备 区? 执行dts包 更改元数据(时间,数据状态) 结束 成功 连接元数据库 创建dts包 y 44 选择源数据的窗体选择源数据的窗体 45 集成器的设计与实现集成器的设计与实现 数据仓库初始化和目录管理 接收监控器的变化通告, 并将变化反映到数 据仓库中 数据的存在方式与转换算法复杂 多视图合并和集成产生重复和不一致性 采用时态数据库的历史数据管理技术 46 集成器的设计与实现集成器的设计与实现 统一数据编码:本系统中编码转换主要包括: 日期格式转换:delphi中的 formatdatetime函数来统一日期格式。 测量单位的转换:数据仓库中对于数值型字段 应保持一致的单位。在元

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论