版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第2章数据仓库开发模型,主讲人:孙,信息科学与工程学院副教授,数据仓库与数据挖掘技术,1,内容,数据仓库开发模型概述数据仓库概念模型,数据仓库逻辑模型,数据仓库物理模型,元数据模型,数据粒度与聚合模型概述,2,2.1数据仓库开发模型概述,它是实际系统的表示,向用户展示了重要的系统特性。同时,该模型通过消除与其目的无关的特征来简化显示。模型是抽象现实世界的工具。在信息管理中,为了处理和管理信息,现实世界中的事物及其相关特征需要转化为信息世界中的数据,因此有必要依靠数据模型作为这种转化的桥梁。设计一个能够真正支持用户进行决策分析的数据仓库并不是一件容易的事情。这需要经历一个从真实环境到抽象模型,从
2、抽象模型到具体实现的过程。有必要完成这一过程并建立各种数据模型。数据仓库模型设计包括概念模型设计、逻辑模型设计、物理模型设计和元数据模型设计。数据仓库的建模应该首先将现实的决策分析环境抽象成一个概念数据模型。然后,对概念模型进行逻辑化,建立逻辑数据模型。最后,逻辑数据模型应该转化为数据仓库的物理模型。元数据模型作为数据仓库的灵魂,自始至终伴随着数据仓库的开发、实现和使用。数据仓库的数据抽取模型解释了抽取什么数据,抽取哪个业务系统,以及对抽取的数据进行什么转换处理。数据仓库的数据建模技术如图2.1所示。图2.1数据仓库的数据建模技术5。现实世界是现实中存在的各种客观事物。概念世界是人们对现实的反
3、应。逻辑世界是一种计算机逻辑表示模式,目的是将一个人头脑中存在的概念模型转化为计算机中实际的物理存储过程。计算机世界是指现实世界中的事物在计算机系统中的实际存储方式。现实世界和其他模型之间的关系如图2.2所示。图2.2现实世界中的变化与其他模型之间的关系。6.数据仓库概念模型设计的目的是科学、全面地分析和抽象数据仓库所涉及的现实世界中的所有客观实体,并为构建数据仓库制定蓝图。在设计数据仓库的概念模型时,有必要确定数据仓库的主题及其相互关系。主题应该能够完整统一地描述分析对象中涉及的数据及其相互关系,并根据需求分析确定几个基本的主题领域及其维度。概念模型设计主要完成以下任务:1 .定义系统边界。
4、2.确定主要的主题领域。3.确定分析的维度和内容。2.2数据仓库的概念模型,7、1定义系统边界。也就是说,进行任务和环境评估、需求收集和分析,了解用户迫切需要解决的问题以及解决这些问题所需的信息,并对现有数据库中的数据有完整清晰的了解。2确定主要学科领域。清楚地描述了每个主题域的公钥、主题域之间的关系以及完全表示主题的属性。8、3确定分析的维度和内容。一旦主题划分清楚,就有必要细化分析的具体内容,并根据分析内容的性质确定分析维度。通常,维度元素对应于分析角度,而度量则对应于分析关心的特定指标。指标是否用作维度元素、度量或维度属性取决于特定的业务需求。通常,作为维度元素或维度属性,它通常是离散数
5、据,只允许有限的值;作为衡量标准,它是具有无限值的连续数据。如果必须使用连续数据作为维元素,则必须根据该值对其进行分段,分段后的值应作为实际的维元素。在判断一个分析指标是作为维度元素还是维度属性时,需要综合考虑该指标占用的存储空间和相关查询的使用频率。在对数据仓库建模之前,有必要对数据仓库的需求进行分析,这需要对许多领域的需求进行详细的分析。需求分析有两种方式:一是分析原始固定报表;第二是采访业务人员。原始固定报表能更好地反映原始业务对数据分析的需求,数据含义和格式也相对成熟和稳定,在模型设计中需要大量的参考。然而,在数据仓库的建设中,仅仅取代目前的手工报表是不够的。因此,我们应该通过商务面试
6、,进一步挖掘日常工作中潜在的更广更深的分析需求。只有这样,我们才能真正理解构建数据仓库模型所需的主题划分,这实际上直接关系到分析内容的范围。最终用户的需求体现在工作流分析、决策查询需求、报表需求、操作需求和数据需求等方面。2.2.1企业模型的建立,10、数据仓库的最终用户只能通过查询和报表工具以及数据仓库内部信息的一些映射关系来访问数据仓库的内部数据。对他们来说,数据仓库是一个黑匣子。最终用户指定数据分析的类型。这些数据分析操作主要是对数据项进行切片和剖析,以揭示更多的细节,并为企业的隐藏行为寻找数据挖掘。分析数据时,可以从二维或多维、电子表格、关系、报告、图表和操作样本数据进行分析。11、以
7、SQL Server 2005数据库引入的Adventure Works示例数据库为例,介绍了数据仓库的数据建模过程。SQL Server 2005数据库的示例基于一家名为“冒险工作循环”的虚拟公司,这是一家大型跨国生产公司。其产品主要包括生产金属和复合材料的自行车。该公司总部位于华盛顿的贝瑟尔,拥有500名员工。公司在世界各地建立了区域销售团队,产品远销北美、欧洲和亚洲。冒险工作循环目前的目标是专注于向高端用户提供产品,通过外部网站扩大产品销售渠道,通过降低生产成本降低销售成本。下面将介绍公司原材料采购、生产和销售的业务流程,并提出公司的数据仓库要求。12、1。原材料采购的业务流程。在公司内
8、部,采购部负责采购原材料,采购部有一名经理和几名采购员。每个采购员都需要了解原材料和供应商之间的关系,并负责采购各种原材料。一种原材料只能由一个买家购买,买家与商品之间存在一对多的关系;一种原材料有多个供应商,一个供应商可以提供多种原材料,原材料和供应商之间是多对多的关系;采购部经理需要管理员工,了解原材料的库存,以便确定要采购的货物,并为每位采购人员分配任务。库存业务流程在公司中,仓库管理部门管理原材料、产品和其他物料的信息。仓库管理部门由一名经理和几名仓库管理员管理多个仓库。每个仓库有几个仓库管理员,每个管理员只能在一个仓库工作。库管员需要知道原材料的种类、数量、储存时间、保存期以及原材料
9、进出仓库的时间。仓库可以储存各种材料。仓库管理部门的经理不仅需要处理仓库经理需要的数据,还需要了解仓库经理的基本信息,如家庭地址和联系电话。产品销售业务流程冒险工作周期的产品出口到北美、欧洲和亚洲市场。目前,公司有两个销售渠道:网上销售和批发商销售。因此,顾客也分为两类:个人消费者和商店。个人消费者是从网上商店购买产品的消费者,而商店是零售商店或批发商店,他们在从冒险工作周期销售代表处购买产品后转售产品。销售人员关心产品信息,包括价格、质量、颜色和规格,以便向客户销售相关产品。销售部门经理需要了解产品销售情况,以便在某一产品缺货时通知仓库管理部门发货;同时,他还需要了解每个销售人员的工作表现并
10、对每个销售人员进行评估,也就是说,销售部门经理需要了解商品、客户和部门员工。在设计数据仓库的数据模型时,我们应该从业务中包含的数据的角度来理解业务。从业务分析可以看出,不同的部门有不同的数据需求,同一部门的人也有不同的数据需求。如果管理人员和普通业务人员对数据有不同的要求,管理人员可能需要更全面或一般的数据,而普通业务人员需要详细的数据。因此,数据仓库项目需求的收集和分析应该从历史数据和用户需求两方面入手,采用“数据驱动用户驱动”的设计理念。16、2.2.2。关系模型是基于关系代数的二维表格数据模型。它是传统数据库中最常用的数据模型,其特点是将数据组织成二维表。实体和实体之间的关系都采用二维表
11、格。二维表的每一行称为关系的元组,每一列称为关系的属性。关系中每一列的值总是取自一个集合,这个集合称为域。关系模型可以用实体关系图来表示。E-R图可以通过定义数据之间的关系来消除数据冗余,简化操作处理,保证数据一致性。因此,关系模型在传统的操作数据库系统中取得了巨大的成功。范式是关系数据库模型设计的基本理论。关系模型可以从第一范式分解到第五范式,这也称为规范化。冒险工作周期的业务数据分为五个部分,如表2-1所示。表2-2显示了与这五种架构相关的表信息。续表的其他部分见p36、20、21、用于数据仓库设计的概念模型与实际设计中的业务数据处理系统的数据模型还有一定的差距。1.数据类型差距:数据仓库
12、的概念模型只包含用户感兴趣的分析数据、描述数据和细节数据。2.数据的历史变迁:数据仓库的概念模型扩展了关键字结构,并增加了时间属性作为关键字的一部分。3.数据泛化:数据仓库的概念模型还增加了一些从基础数据中派生出来的数据,用于管理决策分析,这在业务处理系统中是不存在的。数据仓库项目需求的收集和分析应从历史数据和用户需求两方面入手,采用“数据驱动用户驱动”的设计理念。根据当前业务数据的基础和质量,数据驱动是基于对数据源的分析建立数据仓库,而用户驱动是基于用户业务的方向性需求确定系统范围的需求框架。如图2.3所示,“两端挤压法”经常被用来找出数据仓库系统的真实需求。图2.3用户驱动和数据驱动相结合
13、的示意图23、在建立企业模型的过程中,与用户沟通时,需要确定数据仓库需要访问的相关信息。例如,为了在数据仓库中获得关于产品销售收入的详细统计信息,冒险工作循环公司的管理层可以确定其测量指标如下:1 .衡量指标:包括产品销售的实际收入、产品销售的预算收入和产品销售的预计收入。二维索引:包括已经销售的产品信息、销售地点和客户信息等。根据分析,可以建立冒险工作循环公司的企业数据模型,如图2.4所示。24、图2.4 adventure works cycles公司的企业数据模型,25、图2.2.3常见概念模型。在概念模型设计中,E-R图经常被用作描述工具。在E-R图中,长方体表示实体,即数据仓库的主题
14、域,主题域名写在盒子里;主题域的属性用椭圆表示,主题域及其属性用无向边连接。然后,用边来表示主题域之间的关系,主要包括一对一关系、一对多关系和多对多关系。主题是一个抽象的概念,它在更高的层次上综合、分类和分析业务数据,每个主题基本上对应于一个业务分析领域。在主题分析中,必须对分析对象数据形成完整一致的描述,并根据分析需求确定主题。主题域是通过分析主题确定的主题边界。主题域的确定通常由最终用户和数据仓库的设计者来完成。例如,冒险工作周期的管理可能需要分析供应商、商品、客户和库存等主题。其中,商品主题的内容包括记录各经销商商品的销售情况、公司商品的库存情况、商品中各组成材料的采购情况等。顾客主题包
15、括顾客购买商品;库存的主题分析主要包括货物的存储和仓库的管理。通过对主题和主题域的分析,我们可以得到冒险作品循环公司的主题和主题域结构,如图2.5所示。27、图2.5探险工程循环公司主题及主题域划分、28、然后通过建立包图进一步细化概念模型。包图是学科领域中学科分析的信息封装技术,它反映了数据聚合条件下多维数据在计算机中的存储方式,能够反映不同平台信息聚合的概念含义,主要包括定义指标、定义维度和定义类别。分组图方法,也称为用户信息需求表方法,描述了平面表上元素的多维特性,其中每个维度由平面表的一列表示,如时间、地点、产品和客户。包图定义了主题内容和主要性能指标之间的关系,其目标是在概念层次上满
16、足用户的需求。包图有三个重要的对象:度量指标、维度和类别。用包图设计概念模型就是要确定这三个方面。1确定测量指标。度量表明,在维度空间中度量业务信息的方法是访问数据仓库和用户最关心的信息的关键。成功的包可以确保用户能够从包中获得所需的性能指标参数。29、2确定尺寸。维度为用户提供了对数据仓库信息的访问,数据仓库信息对应于超立方体的每一侧,位于分组图第一行的每一列。3确定类别。类别在维度中定义,以提供详细的分类,其成员设置为识别和区分特定数据。它描述维度中包含的详细信息,维度中最低的可用分类也称为详细类别。例如,冒险工作循环公司销售分析主题的包装图如表2-4所示。注:指标包括实际销售额、计划销售额和计划完成率。虽然数据仓库的基础是标准化数据模型,但是标准化数据模型在数据仓库的实际应用中并不理想。关系模型在传统的操作数据库系统中取得了很大的成功,但是用E-R图表示的关系模型不适合基于查询的数据仓库系统。在完全标准化的环境中,由数据模型形成的数据表的数据量相对较小。为了完成这些“小”表的处理,应用程序有必要动态地互连这些表,这需要不同表之间的多个输入/输出操作。对于数据量巨大的数据仓库来说,这种多表连接操作的时间
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 云游戏自动化封装部署平台建设可行性研究报告
- 骨纤维瘤护理查房
- 太仓企业短视频运营方案
- 小红书家居账号运营方案
- 交城抖音商家运营方案
- 独立网站制作运营方案
- 大达人账号运营方案
- 宝珠直播运营方案
- 集市夜市运营方案
- 电商钢材运营方案
- 成都产业投资集团有限公司2026“蓉漂人才荟”城市行4月社会招聘笔试备考试题及答案解析
- 2026广东广州南方投资集团有限公司社会招聘49人备考题库及答案详解(真题汇编)
- 廉洁风险防范培训
- 2025年6月浙江省高考生物试卷真题(含答案及解析)
- 2024年全国高考数学真题及答案解析(新课标Ⅰ卷)
- 作物栽培学-水稻:水稻产量形成及其调控
- JJF 1151-2006车轮动平衡机校准规范
- GB/T 9065.6-2020液压传动连接软管接头第6部分:60°锥形
- 【乳品行业-乳品知识培训】课件
- 主厂房380V低压开关柜技术协议
- 海运提单-课件
评论
0/150
提交评论