数-据-仓-库-设-计课件_第1页
数-据-仓-库-设-计课件_第2页
数-据-仓-库-设-计课件_第3页
数-据-仓-库-设-计课件_第4页
数-据-仓-库-设-计课件_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

OLAP的旋转功能平面数据的坐标轴转换。12.78.5-4.38.9差量%-4432225402-299531102差量35000030000069000350000计划30667732540266005381102现有其它汽车家具服装销售量199912.7-44322350000306677所有其他8.525402300000325402汽车-4.3-29956900066005家具8.931102350000381102服装差量%差量计划现有销售量1999数据仓库设计1.1系统设计的差异操作型数据库数据仓库面向应用面向分析确定的应用需求应用需求的收集和分析在系统设计前期确定;一旦确定,一般不再改变。不确定的分析需求数据分析需求的收集、分析和理解一般贯穿整个系统设计过程。事务处理性能数据的全局一致性数据来自于组织外部数据获取;存储数据;数据查询;数据更新;数据安全;数据有效。数据来自于系统内部数据转换、重组、综合;数据分析效率、准确性。1.2SDLC与CLDSSDLC——操作型环境中,业务过程和规则比较规范和固定。系统设计人员能够清晰地了解应用的需求和数据流程,系统的设计一般采取系统生命周期法

(SystemsDevelopmentLifeCycle)。

CLDS——分析型环境中,DSS分析对决策分析的需求不能预先作出规范说明,只能给设计人员一个抽象模糊的描述。设计人员必须在与用户不断的交流中,将系统需求逐步明确与完善。为了强调这种开发的不确定型,将此设计方法定名为CLDS方法(与SDLC相反)。收集应用需求系统实施系统测试应用编程构建数据库应用1应用B应用CDB分析应用需求SDLC方法DSS应用编程DBDB外部数据数据仓库建模理解需求数据获取与集成系统测试构建数据仓库DWCLDS方法“数据驱动”1.3“数据驱动”的系统设计思路识别出当前系统设计与已做工作的共同性;——出发点

从已有数据库系统出发,按照分析领域对数据及数据之间的联系重新考察,组织数据仓库中的主题;

利用数据模型有效识别原有数据库中的数据和数据仓库中主题的数据的共同性。——中心数据驱动系统设计方法的中心——数据模型操作型数据库设计数据仓库设计数据库数据仓库操作型数据库应用开发与设计DSS应用开发与设计数据模型2数据仓库设计的三级数据模型概念模型

现实世界到机器世界的中间层次——信息世界

E-R法(实体-联系法)逻辑模型

关系模型物理模型

逻辑模型在数据仓库中的实现。

物理存取方式、数据存储结构、数据存放位置以及存储分配等。数据模型——对现实世界进行抽象的工具。3提高数据仓库的性能粒度划分

——细节级、轻度综合级、高度综合级数据分割

——分割的标准:时间、业务领域、地理分布物理设计中的其他问题

—表合并

—引入冗余

—建立广义索引

—建立数据序列

—表的物理分割

—生成导出数据提高系统的物理I/O性能粒度划分粒度划分的决定性因素是表的总行数

数据存取是通过存取索引来实现的,索引是对应表的行来组织的。因此与表的数据量无关。估算数据仓库中数据的行数

对每一已知表

统计一年内数据行数的最大行数和最小行数;

统计五年内数据行数的最大行数和最小行数。根据估算出的数据行,决定是否要划分粒度一年105行左右细节级、综合级一年106行以上细节级、轻度综合级、高度综合级五年106行左右细节级、综合级五年107行以上细节级、轻度综合级、高度综合级表合并当查询涉及到分散在几个物理块的多个表的数据,表的存取和连接操作会影响系统的性能。

为了节省I/O开销,可以把这些表的数据混合存放在一起。

表的合并只是物理上的合并,并非逻辑上的合并ENCS3MABS2CSAS1系别D姓名N学号S#学生表CCC2S3BC1S3BC4S2BC1S2AC4S1BC3S1AC1S1成绩G#课程号C#学号S#学生选课表SCS1C4AS1ASAC3BS1C1AS3CS2BS2C1BS3C1BS2C4BS3C2C物理存储块处理最值问题的方法——广义索引。

这个月销售最差的十种商品是什么?从操作型数据库抽取数据并装载到数据仓库的同时,根据用户需要建立广义索引。引入冗余建立广义索引一些表的某些属性经常会被使用到,且不常更新,就可以将这些属性复制到多个表中,从而减少处理时被存取的表的个数。商品固定信息表(商品号、商品名、类别…)

商品销售表(商品名、销售量、销售日期…)

商品销售表(商品名、商品名、类别、销售量、销售日期…)数据序列1356472物理块1物理块2物理块31234567物理块1物理块2表的物理分割“数据分割”——表的逻辑分割。

将一个表按一定的分割标准分成两个或多个表。表的物理分割

依据数据的存取频率和数据的稳定性来进行;

将一张表按照各属性被存取的频率分成两个或多个表。事先在原始数据的基础上进行总结或计算,生成导出数据。

——减少了I/O的次数,免去计算和汇总的步骤;

——建立了公共数据源,避免了不同用户进行重复计算可能产生的偏差。生成导出数据4数据仓库设计步骤数据驱动的系统设计方法设计步骤

—概念模型设计

—技术准备工作

—逻辑模型设计

—物理模型设计

—数据仓库生成

—数据仓库运行与维护实例:商店的数据仓库设计2技术环境准备2确定主题域1技术评估1界定系统边界概念模型设计技术准备工作2数据分割策略4记录系统定义1粒度层次划分3关系模式定义1确定存储结构4确定存储分配2确定索引结构3确定存放位置逻辑模型设计物理模型设计数据仓库生成1设计接口2数据输入数据仓库运行与维护分析主题域,针对每一个当前实施的主题域数据类型分析数据仓库设计步骤源系统分析程序说明技术评估粒度分析编程数据装入数据仓库设计运行与维护技术环境准备1854327611109反馈循环主题域

分析IBMIBM

VisualWarehouse(VW)

Essbase/DB2OLAPServer5.0及管理器

IBMDB2UDB

HyperionWiredforOLAP/BusinessObjectsInformix

InformixFormation和InformixDataStage

InformixRedBrickWarehouse数据库

InformixMetaCubeOlAP服务器

InformixMetaCubeExploer/WebExplorerOracalOracal8i关系型数据库引擎OracleWarehouseBuilderingETL工具Express多维数据库引擎Discover关系OLAP查询工具Oracle数据挖掘套件其他厂商Microsoft——SQLServer

Plato和DataTransformationServicesSybaseSASNCR4.1.1界定系统边界——需求分析要做的决策类型由哪些?

决策者感兴趣的是什么问题?

这些问题需要些什么样的信息?

要得到这些信息需要包含原有数据库系统的哪些部分的数据?商品的营销策略顾客的购买趋势、商品供应市场的变化趋势、分析供应商信用等级商品销售数据、商品采购数据、商品库存数据、顾客信息、供应商信息销售子系统、采购子系统、库存子系统4.1.2确定主题域确定系统所包含的主题域

描述每个主题域的内容

—主题域之间的关系

—主题域的公共码键

—充分代表主题的属性组商品、供应商、顾客商品

供应商顾客商品供应关系商品销售关系E-R图表示主题的描述4.2.1技术评估:确定数据仓库的各项性能指标

—管理大数据量数据的能力

—进行灵活数据存取的能力

—根据数据模型重组数据的能力

—透明的数据发送和接受能力

—周期性成批装载数据的能力

—可设定完成时间的作业管理能力4.2.2技术环境准备考虑相关的问题:

—预期在数据仓库上分析处理的数据量有多大?

—如何减少或减轻竞争性存取程序的冲突?

—数据仓库的数据量有多大?

—进出数据仓库的数据通信量有多大?

……确定软硬件配置:

—直接存取设备(DASD)

—网络

—管理直接存取设备的操作系统

—进出数据仓库的界面(数据查询和分析工具)

—管理数据仓库的软件4.3.1粒度层次划分确定采用单一粒度还是多重粒度,以及粒度划分的层次。

商场数据仓库的粒度划分

—“商品”主题的数据量庞大,采用多重粒度

—商品销售记录的数据量最大,定义商品销售数据的层次要更丰富。

※周统计销售数据

※月统计销售数据

※季统计销售数据等等4.3.2数据分割策略数据量

是否需要数据分割,如何分割数据分析处理的要求

选择数据分割的标准简单易行

数据分割要易于理解,易于实施粒度划分策略

数据分割的标准与粒度划分层次相适应选择数据划分策略,需考虑的因素有:4.3.3关系模式定义表维商品固有信息商品表商品号,商品名,类别,颜色……细节级商品采购信息采购表1供应商号,供应价,供应日期,供应量……细节级采购表2商品号、时间段1,采购总量……时间段不等的综合表…………采购表n商品号、时间段n,采购总量……商品销售信息销售表1商品号,顾客号,售价,销售日期,销售量……细节级销售表2商品号、时间段1,销售总量……时间段不等的综合表…………销售表n商品号、时间段n,销售总量……商品库存信息库存表1商品号,库房号,库存量,日期……细节级库存表2商品号,库房号,库存量,星期……样本数据粒度形式…….…….库存表n商品号,库房号,库存量,年……其他导出数据…其他……其他…4.3.4定义记录系统数据来源于操作型数据库和外部系统

—系统的数据都是面向应用的,不能完整描述企业中的主题域;

—多个数据源的数据存在许多不一致。从数据仓库的概念模型出发,结合主题的多个表的关系模式,定义记录系统

—选择最完整、最及时、最准确、最接近外部实体源的数据作为记录系统;

—这些数据所在的表的关系模式最接近于构成主体的多个表的关系模式。商场面向应用的数据库采购子系统

—订单(订单号,供应商号,总金额,日期)

—订单细则(订单号,商品号,类别,单价,数量)

—供应商(供应商号,供应商名,地址,电话)销售子系统

—销售(员工号,顾客号,商品号,数量,单价,日期)

—顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)库存子系统

—领料单(领料单号,领料人,商品号,数量,日期)

—进料单(进料单号,进料人,收料人,数量,日期)

—库存(商品号,库房号,库存量,日期)

—库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统属性名数据源系统源表名源属性名商品号库存子系统商品商品号商品名库存子系统商品商品名类别库存子系统商品类别供应商号采购子系统订单供应商号供应日期采购子系统订单日期供应价采购子系统订单细则单价顾客号销售子系统顾客顾客号销售日期销售子系统销售日期单价销售子系统销售单价销售量销售子系统销售数量库存量库存子系统库存库存量日期库存子系统库存日期库房号库存子系统库房库房号商品主题的记录系统定义4.4物理模型设计全面了解所选用的数据库管理系统(特别是存储结构和存储方法);

了解数据环境、数据的使用频度、使用方式、数据规模以及相应时间要求等;

了解外部存储设备的特性(分块原则,块大小的规定,设备的I/O特性等)确定数据仓库实现的物理模型,要求设计人员必须做到以下几方面:物理模型设计确定数据存储结构

存取时间、存取空间利用率和维护代价确定索引策略

索引结构可以提高数据存储的效率,对各个数据存储建立专用的、复杂的索引确定数据的存放位置

按数据的重要程度、使用频率和对响应时间的要求进行分类,分别存储在不同的存储设备中确定存储分配

块的尺寸、缓冲区的大小和个数等4.5.1设计接口从面向应用和操作的环境生成完整的数据数据的基于时间的转换数据的凝聚对现有记录系统的有效扫描,以便以后进行追加数据库数据库数据库数据仓库接口编程的注意点保持高效性要保存完整的文档记录要灵活,易于改动要能完整、准确地完成从操作型环境到数据仓库环境的数据的抽取、转换与集成4.5.2数据装入确定数据装入的次序;清除无效或错误的数据;数据“老化”;数据粒度管理;数据刷新等运行接口程序,将数据装入到数据仓库4.6.1建立DSS应用DSS应用开发是从数据出发的;DSS应用的需求不能在开发初期明确了解;DSS应用开发是一个不断循环的过程,是启发式的开发。DSS应用不同于联机事务处理应用开发的显著特点:DSS应用的种类例行分析处理——重复进行的分析处理。属于部门级的应用,如部门统计分析,报表分析等等;启发式分析处理——企业经营者受到某种信息启发而进行的一些即席的分析处理。属于个人级的分析应用,随机性很大。DSS应用开发大致步骤确定所需数据编程抽取数据分析数据合并数据结果满足分析要求否?回答问题例行化?循环NY多个抽取源4.6.2维护数据仓库管理日常数据装入,包括刷新数据仓库的当前详细数据,将过时的数据转化成历史数据,清除不再使用的数据,管理源数据等。

如何利用接口定期从操作型环境想数据仓库追加数据,确定数据仓库的数据刷新频率等。商场的数据仓库设计了解商场经营状况,跟踪市场趋势,制定商品采购和销售策略。

各部门已建立一些分散的数据库:

人事、采购、库存、销售数据库。2.1E-R法E-R图描述的是实体以及实体之间的关系。长方形表示实体(主题、主题名

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论