




已阅读5页,还剩86页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 4数据仓库模型设计 第一章数据仓库原理 1 4 1数据仓库模型设计方法概述1 4 2数据仓库设计的三级模型1 4 3数据仓库的概念模型1 4 4数据仓库的逻辑模型1 4 5数据仓库的物理模型1 4 6数据装载接口设计 1 4数据仓库模型设计 1 4 1数据仓库模型设计方法概述 数据仓库系统的设计与数据库系统设计的区别 第一章数据仓库原理 1 4 1数据仓库模型设计方法概述 数据仓库系统的设计可以分为数据仓库模型设计和数据装载接口的设计两大部分 其中数据仓库模型设计又包括概念模型设计 逻辑模型设计和物理模型设计三个部分 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 数据模型是数据仓库建设的基础 一个完整 灵活 稳定的数据模型对于数据仓库项目的成功起着如下重要的作用 1 数据模型是整个系统建设过程的导航图 2 有利于数据的整合 3 通过数据模型的建立 可以排除数据描述的不一致性 4 由于数据模型对现有的信息以及信息之间的关系从逻辑层进行了全面的描述 当未来业务发生变化或系统需求发生变化时 可以很容易地实现系统扩展 1 4数据仓库模型设计 第一章数据仓库原理 5 可以消除数据仓库中的冗余数据 数据仓库建模是数据仓库构建工作正式开始的第一步 正确而完备的数据模型是用户业务需求的体现 是数据仓库项目成功与否最重要的技术因素 目前较为流行的数据仓库设计模型是概念模型 逻辑模型和物理模型三级数据模型 1 4 2数据仓库设计的三级数据模型 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 一 概念模型 概念模型描述的是从客观世界到主观认识的映射 它是用于我们为一定的目标设计系统 收集信息而服务的一个概念性工具 在进行系统设计时 我们首先要将现实世界抽象为概念模型 然后再用计算机世界的模型和语言对客观世界中的具体问题进行描述 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 二 逻辑模型 目前数据仓库一般建立在关系数据库基础之上 因此 在数据仓库的设计中采用的逻辑模型就是关系模型 无论是主题还是主题之间的联系 都用关系来表示 逻辑模型描述了数据仓库的主题的逻辑实现 对于关系数据库来说 即每个主题所对应的关系表的关系模式的定义 它能直接反映出业务部门的需求 同时对系统的物理实施有着重要的指导作用 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 三 物理模型 物理模型是逻辑模型在数据仓库中的实现 如数据存储结构 数据索引策略 数据的存储策略以及存储分配优化等 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 四 三种模型之间的关系 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 五 高级模型 中级模型和低级模型 高级模型 即数据概念模型 用E R图表示 低级模型 即物理数据模型 中级模型 称为数据项 dis dataitemset 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 五 高级模型 中级模型和低级模型 dis是E R图的细分 E R图的每一个主题都与一个dis相对应 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 五 高级模型 中级模型和低级模型 每个dis中的数据分为4个组别 基本数据组 二级数据组 连接数据组和类型数据组 1 连接数据组主要用于本主题与其他主题之间的联系 体现E R图中主题之间的关系 一般情况下 连接数据组往往是一个主题的公共码键 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 五 高级模型 中级模型和低级模型 2 基本数据组基本数据组包含了本主题中固定的 基本不变的属性 3 二级数据组是本主题中有时会发生变化的数据 其稳定性低于基本数据组 4 类型数据组是本主题中经常改变的数据 其稳定性最低 1 4数据仓库模型设计 第一章数据仓库原理 1 4 2数据仓库设计的三级数据模型 五 高级模型 中级模型和低级模型 例 商品ID 客户ID姓名性别身份证号码 住址文化程度电话E mail 交易ID商品金额购买时间 交易ID商品金额购买时间 交易ID商品金额购买时间 电器 食品 床上用品 类型数据组 二级数据组 连接数据组 基本数据组 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 通过概念模型设计 可以确定数据仓库的主要主题及相互关系 进行概念模型设计所要完成的工作有 1 界定系统边界 即进行任务和环境评估 需求收集和分析 了解用户迫切需要解决的问题及解决这些问题所需要的信息 要对现有数据库中的内容有一个完整而清晰的认识 2 确定主要的主题域及其内容 即要确定系统所包含的主题域 然后对每一个主题域的公共码键 主题域之间的联系 充分代表主题的属性组进行较为明确的描述 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 数据仓库的概念模型设计可以采用两种方法 E R模型和面向对象的分析方法 一 E R模型 E R图描述的是主题以及主题之间的联系 用E R模型进行概念模型设计的过程如图 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 1 任务和环境的评估 2 需求的收集和分析 3 主题的选取 确定主题间关系主题选取的原则 1 优先实施管理者目前最迫切需求 最关心的主题 2 优先选择能够在较短时间内发生效益的决策主题 3 推后实施业务逻辑准备不充分的主题 4 推后考虑实现技术难度大 可实现性较低 投资风险大的主题 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 4 主题内容描述描述的内容包括 1 主题的公共码键 2 主题之间的联系 3 充分代表主题的属性组 5 E R图长方形 表示主题椭圆形 表示主题的属性组菱形 表示主题之间的联系 1 4数据仓库模型设计 第一章数据仓库原理 例1 假设有商品 客户和供应商三个主题 商品有如下属性组 商品固有信息商品库存信息商品销售信息商品采购信心客户有如下属性组 客户固有信息客户购物信息供应商有如下属性组 供应商固有信息供应商品信息则可得到如下E R图 1 4 3数据仓库的概念模型设计 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 例2 中医药方剂是中医治疗疾病的重要手段 方剂中蕴涵着中医博大 精深的理论 为了揭示蕴涵在方剂中的应用规律和内部的有机联系 推动传统医学的发展 加快新药产品的开发 要建立中医方剂数据仓库 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 方剂中的信息可以分为两个部分 一部分是药物的配比 即需要哪几味中药 每种药材各需要多少 另一部分则是其主治的病症 这两部分信息被方剂有机地联系在一起 药物的配比是由药理决定的 而病症的规则又是与病因和发展的机理密切联系 要分析方剂 就不可能不研究这两方面的信息 因此可以确定主要的主题为方剂 药物 病症 所需的数据为方剂数据 药物数据 病症数据 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 主题的描述 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 采用面向对象方法进行概念模型设计时 E R模型中的实体转化为面向对象系统中的类 E R模型中实体的属性对应面向对象系统中类的属性 E R模型中实体间的关系表现为面向对象系统中类间的关系 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 类常用的图形表示方法是类表 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 在面向对象的方法中 类之间存在三种关系 继承 包容和关联 1 继承 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 2 包容 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 3 关联 在面向对象方法中 除了包容和继承关系之外 类之间的其他关系都归入关联关系 因为类的动作反映的是类对自身或者其他类的作用 而关联关系是指类间的作用与反作用 所以关联关系可以通过类的动作来体现 1 4数据仓库模型设计 第一章数据仓库原理 1 4 3数据仓库的概念模型设计 二 面向对象的分析方法 例 中医数据仓库选择出三个类 药物类 方剂类 病症类 其中药物类可以派生出治感冒的药物 治脾胃的药物和治肠炎的药物三个子类 各类之间的关系如图 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 进行逻辑模型设计所要完成的主要工作有 1 系统数据量的估算 2 数据粒度的选择 3 确定数据分割策略 4 增加时间字段 5 去除纯操作型数据 6 进行合理的表划分 7 定义关系模式 8 增加导出字段 9 定义记录系统 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 一 系统数据量估算 数据仓库数据量级的一个简单估算方法是 设在概念模型中出现的表个数为N 这些表中应当不包括不会放进数据仓库的表 对于每个表i 0 i N 计算表的大小Si和表的主关键字大小Ki 然后估计每张表i在单位时间内最大记录数Lmax和最少记录数Lmin 则数据仓库的粗略数据量在如下范围 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 一 系统数据量估算 其中 T是数据在数据仓库中存在的周期 通常轻度综合的数据在数据仓库中存放的周期是5 10年 是考虑由于数据索引和数据冗余而使得数据量增大的冗余因子 通常可取1 2 2 上式的含义是数据仓库数据量 表记录的大小十主关键字大小 记录的数量 单位时间 存储时间 冗余因子 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 一 系统数据量估算 表i在单位时间内最大记录数Limax需要按照公司的客户数量或者市场的占用情况估算 比如对电信公司的计费表记录数量的估计 可以采用电信公司的客户数量 单位时间内平均通话的次数 每个存储时间来估计表的记录数量 以上方法估算的结果只能作为数据粒度选样和软硬件平台选取的参考数据 它同实际系统的数据量可能会有较大的出入 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 1 单一数据粒度的概念 直接存储细节数据并定期在细节数据基础上进行数据综合 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 2 双重粒度的概念 对于细节数据只保留近期的数据在数据仓库中 当保留周期到达时 将距离当前较远的数据导出到磁盘上 从而为最新的数据腾出空间 这样 数据仓库只保留在细节数据保留周期之内的数据 对于这个周期之后的信息 数据仓库只保留其综合数据 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 2 双重粒度的概念 续 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 2 双重粒度的概念 续 单一粒度和双重粒度的区别在于细节数据在数据仓库的高速存储设备中存储的时间长短不同 在使用双重粒度时 一个重要的参数是细节数据的保留周期 这个周期对于不同行业 不同需求可能有不同的答案 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 3 粒度的选择 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 二 数据颗粒度的选择 4 粒度层次划分 无论是单一粒度还是双重粒度 在数据仓库中都存在多重综合层次的数据 有几个因素会影响粒度层次的划分 1 要接受的分析类型 2 可接受的最低粒度 3 能存储数据的存储容量 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 三 表的分割 在确定粒度之后 需要考虑的是表的分割策略 常用的分割策略是按照时间进行如图所示 比如商品供应关系问题可以采用双重粒度 保留近6个月的细节数据 综合数据可以按照年进行分割 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 三 表的分割 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 四 增加时间字段 在数据粒度 分割策略确定之后 我们可以将表按照数据粒度 分割策略的需求定义新表 并为各个表增加合适的时间字段 比如在上图中的细节数据 我们使用的时间字段是 供货日期 按月综合数据使用的时间字段是 供货月份 时间字段实际上体现了数据粒度的信息 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 五 去除纯操作型数据 在将业务系统中的数据抽取到细节数据表或者综合数据表时 需要去除纯操作型数据 纯操作型数据就是与分析毫无关系的数据 这些数据字段通常是为了方便业务系统的运营而设立的 它们对于面向分析的数据仓库系统没有实际的意义 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 六 合理的表划分 通过增加合适的时间字段 去除纯操作型数据 我们的模型更进了一步 但是在实际的系统中 一张表的字段数目常常很多 如果直接存放字段数目很大的表 可能存在下列的问题 1 从数据的存储角度上看 表中有的字段更新较为频繁 因而对于这些数据字段数据仓库需要经常进行数据追加工作 而表中的其他字段的更新操作很少 对于这些字段 数据追加的工作较少 如果将变化很快的字段同变化很慢 很少 的字段放在一张表中 则将浪费大量的存储空间 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 六 合理的表划分 续 2 从数据的访问角度看 表中的部分字段是经常被访问的 而其他的字段访问较少 如果将所有字段放在一张表中 就使得表的体积增大 不能将经常需要使用的部分放在内存中 这样将影响访问的效率 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 六 合理的表划分 续 基于这样的原因 我们需要对表中的内容进行合理的划分 划分的方法可以按照数据的变化情况进行 也可以按照业务规则进行 1 按照数据的稳定性对表进行划分 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 六 合理的表划分 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 六 合理的表划分 2 按照业务规则进行表划分 W H Inmon在 BuildingtheDataWarehouse 中提出了DIS dataitemset 的设计方法 这种方法是将数据按照业务规则对共有数据和专有数据进行划分 DIS模型由初始数据 二次数据 连接数据以及不同数据 类型 组成 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 六 合理的表划分 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 六 合理的表划分 例 如图所示的是一个商品交易的DIS模型 将交易分成现金 信用卡 支票以及是否大客户等类型 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 六 合理的表划分 对于业务系统中记载的 345号顾客非大客户时间 2001 l l14 03购买商品 1付款方式 小量现金 368号顾客大客户时间 200l l 215 53购买商品 1付款方式 批量支票 两条记录 映射在DIS模型中 将生成6条记录 1 初始数据表中的两条记录用于记载仅出现一次的信息 比如交易号 商品号 顾客号 支付类型 是否批量等信息 2 在现金表中出现一条记录记载345号顾客的购买行为 在小量表中出现一条记录记载345号顾客的购买行为 在支票表中出现一条记录记载368号顾客的购买行为 在批量表中出现一条记录记载368号顾客的购买行为 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 六 合理的表划分 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 七 定义关系模式 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 八 增加导出字段 导出数据本身是冗余的 但是生成导出数据可以方便数据以后的使用 下图给出了供应关系按月综合表增加导出数据的例子 在按月综合表中 增加了 平均价格 供货总价值 供应总数量 等导出字段 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 九 记录系统的定义 记录系统的定义就是指明数据仓库中关系表各个字段来源于哪个业务数据库的哪张表的哪个字段 从数据库系统到数据仓库关系模式的记录系统定义 1 4数据仓库模型设计 第一章数据仓库原理 1 4 4数据仓库的逻辑模型设计 九 记录系统的定义 综合数据表也需要进行类似的工作 但是综合数据表的数据是从细节数据表中抽取 而不是从业务数据库中抽取 对于综合数据表中的导出字段 我们需要指出它同细节数据表字段的对应关系和计算方法 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 在数据仓库的物理设计中 主要解决如下问题 1 确定数据的存储结构 2 确定数据的索引策略 3 确定数据的存储策略 4 存储分配优化 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 一 确定数据的存储结构 数据仓库中包含巨量数据 为了提高数据的访问效率和可靠性 必须认真选择数据的存储结构 对于数据存储问题的解决 有两种可选的方式 分布存储方式和集中存储方式 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 一 确定数据的存储结构 数据分布式存储方式 数据分布式存储是采用磁盘阵列在多个节点间分布的方式来存储数据 集中式数据存储方式 数据集中存储是将现有的SAN或NAS系统作为服务器的存储部分 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 在数据仓库中由于数据量很大 需要对数据的存取路径进行仔细设计和选择 建立专用的复杂的索引 以获得最高的存取效率 在数据仓库中的数据是不常更新的 即每个数据存储是稳定的 索引一旦建立几乎不需要再维护 下面介绍几种索引技术 1 4数据仓库模型设计 第一章数据仓库原理 第一章数据仓库原理 1 B Tree索引 传统的数据库采用B Tree索引 它是一个高效的索引 如图所示 1 4 5数据仓库的物理模型设计 二 确定索引策略 1 4数据仓库模型设计 1 B Tree索引 1 4 5数据仓库的物理模型设计 二 确定索引策略 B Tree就具有一定的局限性 它存在以下的缺点 1 B Tree通常要求被索引的字段具有很好的选择性 2 B Tree索引对于从大表中选择少数的几个数据记录的查询工作是非常适合 3 B Tree的快速索引性能实际上是通过较大的代价换取的 1 4数据仓库模型设计 第一章数据仓库原理 2 位索引技术 1 4 5数据仓库的物理模型设计 二 确定索引策略 Sybase公司推出的数据仓库SybaseIQ 采用位索引技术 它在处理复杂的查询时 比传统数据库索引B Tree有了突破 位索引技术在存储数据的方式上与传统的关系数据库有所不同 它不是以 行记录 而是按 列 为单位存储数据 即对数据进行垂直分割 对于每一个记录的字段满足查询条件的真假值用1或0的方式表示 或者用字段中不同取值来表示 1 4数据仓库模型设计 第一章数据仓库原理 2 位索引技术 1 4 5数据仓库的物理模型设计 二 确定索引策略 一般DSS查询往往仅涉及大量数据记录中的少数列 因而不需要访问原始数据就能快速获得查询结果 显然 利用字段的不同取值也能快速进行数据聚类 分组 求最大值 求最小值及求平均值等 对于高度可选择的数 称高基数 如姓名或地址等可能有数万个选择值 用 1 0 真假值来索引是不合适的 1 4数据仓库模型设计 第一章数据仓库原理 2 位索引技术 1 4 5数据仓库的物理模型设计 二 确定索引策略 例 检索 美国加州有多少男性未申请保险 有两个满足条件的记录 1 4数据仓库模型设计 第一章数据仓库原理 2 位索引技术 1 4 5数据仓库的物理模型设计 二 确定索引策略 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 3 标识技术 使用标准的数据库技术来储存数据仓库是非常昂贵的 较好的替代方法是用基于标识的技术来储存数据仓库 这种技术根本不同于关系数据库技术 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 3 标识技术 例 有如下样本数据 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 3 标识技术 假设可以为此数据库中的每个实体创建一个标识 则有如下标识 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 3 标识技术 一旦建立标识后 数据库可被精简 如表所示 1 4数据仓库模型设计 第一章数据仓库原理 使用标识数据库技术时 有几项是非常有利的应用 大量压缩了数据 数据越多 标识数据比标准的 基于记录的数据更有利 因为数据被大量压缩 所以整个数据库可以存放在内存中 可以索引所有的行和所有的列 1 4 5数据仓库的物理模型设计 二 确定索引策略 3 标识技术 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 4 广义索引 对数据仓库的一个很广泛的应用问题是 这个月销售最好和最差的10种商品是哪些 可以设计这么一块 黑板 在上面标明当月销售最好和最差的10种商品的名称或者它们相关记录的存放地址 这块 黑板 就是人们所说的 广义索引 广义索引 对于处理最值问题时 其效果是非常明显的 也是较易于实现的 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 4 广义索引 在从操作型环境抽取数据并向数据仓库中装载的同时 就可以根据用户的需要建立许多这样的 广义索引 每次数据仓库装载时 就重新生成这些 广义索引 的内容 这样并不需要为了建立 广义索引 而去扫描数据仓库 而且这些索引都非常小 开销也是相当小 但它给应用所带来的便利却是显而易见的 对于一些经常性的查询 利用一个规模小得多的 广义索引 总比去搜索一个大得多的关系表方便得多 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 4 广义索引 但是 同时出现的问题就是 随着数据仓库 年龄 的增长以及数据仓库随时间变化的特性 这种 广义索引 的数目也就会成倍的增长 管理这些数目多 规模小 名目繁多的 广义索引 也就成为一件非常棘手的事情 这就需要在元数据中完整地定义说明这些 广义索引 应用需要时 首先去查找元数据 再去查找相应的 广义索引 或表 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 5 连接索引 连接索引是数据仓库中使用得最为广泛的索引之一 所谓连接索引 就是将事实表和维表中的索引项进行连接运算 然后将结果作为索引保留 由于索引项比整个记录条目要小 连接索引也比直接对事实表和维表进行连接的结果集合要小得多 因此 连接索引能够起到较好的索引作用 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 二 确定索引策略 5 连接索引 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 三 确定数据存储策略 1 表的归并 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 三 确定数据存储策略 1 表的归并 1 4数据仓库模型设计 第一章数据仓库原理 1 4 5数据仓库的物理模型设计 三 确定数据存储策略 1 表的归并 1 4数据仓库模型设计 第一章数据仓库原理 三 确定数据存储策略 1 表的归并 1 4 5数据仓库的物理模型设计 1 4数据仓库模型设计 第一章数据仓库原理 三 确定数据存储策略 1 4 5数据仓库的物理模型设计 2 分割表的存放 为了便于数据的访问 可以在逻辑设计中对大表进行分割 需要访问大表中某类数据时 只需访问分割后的对应小表从而提高访问效率 在某些情况需要对整个大表也就是分割后的所有小表进行访问 比如进行一次汇总计算 如果希望系统能够并行地读取多个小表 可以将分割后的表在物理上采用分布化的存储 从而达到并行读取的目的 1 4数据仓库模型设计 第一章数据仓库原理 三 确定数据存储策略 1 4 5数据仓库的物理模型设计 3 按列存储
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025版企业孵化器政策支持合作协议
- 2025福建罗源湾鲁能海港有限公司招聘3人考试备考试题及答案解析
- 2025广东佛山市顺德伦教翁祐实验学校招聘临聘教师备考题库及答案解析
- 2025广西北海银滩开发股份有限公司招聘人员5人笔试备考题库及答案解析
- 2025-2026学年广东深圳市教育局招募“柔性”援藏支教教师8人笔试备考试题及答案解析
- 2025福建厦门市集美区嘉誉实验幼儿园非在编人员招聘1人笔试备考试题及答案解析
- 2025广东清远市佛冈县人民医院招聘13人备考试题及答案解析
- 三年级英语听力测试分析及改进措施
- 2025福建福州闽侯县精神病医院招聘一类编外专业技术人员43人笔试备考试题及答案解析
- 2025广西防城港市总工会招聘编外人员1人笔试备考试题及答案解析
- 2023年6月英语六级考试真题及答案解析(全3套)
- 高中数学 人教A版 必修一 《集合与常用逻辑用语》 1.1集合的概念
- 深圳某电厂锅炉维修改造施工组织设计-new(常用版)
- GB/T 4950-2021锌合金牺牲阳极
- 中药调剂技术-课件
- 证券从业考试基础模拟卷二(题目+解析)
- 水轮发电机讲义课件
- 信息系统运维服务方案
- 化工试生产总结报告
- 导数与原函数的对称性 微专题课件-2023届高三数学一轮复习
- 刑法各论(第四版全书电子教案完整版ppt整套教学课件最全教学教程)
评论
0/150
提交评论