《商业分析概论》商业数据分析环境的搭建_第1页
《商业分析概论》商业数据分析环境的搭建_第2页
《商业分析概论》商业数据分析环境的搭建_第3页
《商业分析概论》商业数据分析环境的搭建_第4页
《商业分析概论》商业数据分析环境的搭建_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商业分析概论商业数据分析环境的搭建目录数据仓库的数据组织数据仓库设计步骤数据集市及其应用商业信息仓储设计5.1数据仓库的数据组织数据综合35.1数据仓库的数据组织数据分割数据分割是指将数据分割到各自的物理单元以便能够独立处理,提高数据处理效率。数据分割后的数据单元称为分片,分片数据没有交叉。提高数据仓库性能的重要手段它将逻辑上是统一整体的数据分割成较小的、可以独立管理的物理单元进行存储。数据分割要考虑以下要素:数据量、数据分析处理的要求、简洁性以及粒度划分策略等。数据粒度是通过数据汇总减少数据量,但是无法解决统一粒度下由于过大导致的数据查询效率较低的问题。45.1数据仓库中的数据组织数据分割提高查询速度将数据库分区可提高其性能并易于维护。如果将大型表拆分为多个较小的表,则只访问部分数据的查询可以更快地运行,因为要扫描的数据变得更少。维护任务(例如,重新生成索引或备份表)也可以更快地运行。便于数据重组将数据按照一定的规则进行新的组合,例如将电信业务话单表分割成每月一张,用户能够按照一定的规则将月份分成几组,这样当查询某个组的数据时只要扫描族中月份对应的表,数据量相对较小。便于表维护通过数据分割,降低单表的数据量,减轻数据维护的工作量。增加系统并行性增加数据抽取和查询的并行性。55.1数据仓库中的数据组织分割时需要注意的问题数据分割尽量均匀选择数据分割的标准应尽量保证数据在各个分片中的分布较均匀。水平分割、垂直分割。用户的查询需要选择分割标准时应考虑用户的查询需求,以便将用户的大部分查询在一个分片内完成,达到提高系统性能的目的。如按照用户的所属地进行分割,因此,分割一般按照某个维度的层次进行,常用的维度有时间、地域和产品等。65.1数据仓库的数据组织数据组织形式简单直接文件连续文件定期综合文件75.2数据仓库设计总体设计分析(1)确定研究内容(2)研究主题(3)技术环境准备一般情况下,需要在这一步里确定的性能指标包括:·管理大数据量数据的能力;进行灵活数据存取的能力;根据数据模型重组数据的能力;透明的数据发送和接收能力;周期性成批装载数据的能力;可设定完成时间的作业管理能力。85.1数据仓库设计(3)技术环境准备预期在数据仓库上分析处理的数据量有多大?如何减少或减轻竞争性存取程序的冲突?数据仓库的数据量有多大?进出数据仓库的数据通信量有多大?软、硬件配置有:直接存取设备;网络;管理直接存取设备的操作系统;进出数据仓库的界面(主要是数据查询和分析工具);95.2数据仓库设计总体设计分析10数据仓库业务需求概念数据模型逻辑数据模型物理数据模型部署数据仓库数据仓库模型5.2数据仓库设计数据仓库的设计就是在概念模型、逻辑模型和物理模型的依次转换过程中实现的。作为数据仓库的灵魂——元数据模型则自始至终伴随着数据仓库的开发、实施与使用。数据粒度和聚集模型也在数据仓库的创建中发挥着指导的作用,指导着数据仓库的具体实现。企业模型概念模型逻辑模型物理模型数据仓库元数据模型数据粒度和聚集模型115.2数据仓库设计1.概念模型设计描述了从客观世界到主观认识的映射确定数据仓库的主题,主要是依据建立的企业模型确定数据仓库的各个主题,主题来源于企业模型中的实体,确定主题后,按照主题将企业模型划分成不同的部分,将这种划分映射到相应的数据库模型,作为逻辑模型设计的基础步骤:确定主题划定主题边界125.2数据仓库设计数据仓库概念模型的设计,首先对现有数据库系统进行分析和理解,了解现有数据库系统中有什么、怎样组织以及如何分布,然后考虑建立数据仓库系统的概念模型。概念模型设计是在较高抽象层次上的设计,因此概念模型设计时不用考虑具体技术的限制。概念模型,主要包含以下几个部分:抽取关键业务概念,并将之抽象化。将业务概念分组,按照业务主线聚合类似的分组概念。细化分组概念,理清分组概念内的业务流程并抽象化。理清分组概念之间的关联,形成完整的领域概念模型。135.2数据仓库设计(1)概念模型设计数据仓库是对原有数据库系统中的数据进行集成和重组而形成的数据集合,所以数据仓库的概念模型设计,首先要对原有数据库系统加以分析理解,看在原有的数据库系统中“有什么”、“怎样组织的”和“如何分布的”等,然后再来考虑应当如何建立数据仓库系统的概念模型。采用E-R模型和面向对象的分析方法。145.2数据仓库设计(2)逻辑模型设计按照企业的业务规则和流程将各种数据有机地集成在一个完整的逻辑数据模型中在这一步里进行的工作主要有:分析主题域,确定当前要装载的主题;确定粒度层次划分;确定数据分割策略;关系模式定义;记录系统定义逻辑模型设计的成果是,对每个当前要装载的主题的逻辑实现进行定义,并将相关内容记录在数据仓库的元数据中,包括:适当的粒度划分;合理的数据分割策略;适当的表划分;定义合适的数据来源等155.2数据仓库设计粒度层次划分数据粒度是指数据仓库中保存数据的细化或综合程度的级别提高查询效率,便于用户分析16粒度级别综合性数据细节低(如事务)高(如汇总)低高非常高中等到低5.2数据仓库设计数据粒度的划分第一步,是估算数据仓库中将来要使用的数据行数和所需的直接存取存储设备数。每一个表的存储空间,应该是每一个表的数据存储空间和索引存储空间之和。17一年数据五年数据数据量(行数)粒度划分策略数据量(行数)粒度划分策略10,000,0001,000,000100,00010,000多重粒度并仔细设计多重粒度仔细设计不考虑20,000,00010,000,0001,000,000100,000多重粒度并仔细设计多重粒度仔细设计不考虑5.2数据仓库设计3、物理模型设计数据仓库物理模型的设计是指在逻辑模型的基础上,使用DBMS提供的功能对逻辑模型进行物理上的优化,即根据数据仓库的特点和性能要求,将逻辑模型转化为数据物理设备上的存储结构与存取方法的过程,由项目经理和数据仓库架构师共同完成。物理模型设计因素:I/O存取时间、空间利用率和维护的代价。工作:全面了解所选用的数据库管理系统,特别是存储结构和存取方法。了解数据环境、数据的使用频率、使用方式、数据规模以及响应时间要求等。了解外部存储设备的特征。182.1数据仓库设计1)数据存储结构设计在物理设计时,常常要按数据的重要性、使用频率及对反应时间的要求进行分类,并将不同类型的数据分别存储在不同的存储设备中。重要性高、经常存取并对反应时间要求高的数据存放在高速存储设备上;存取频率低或对存取响应时间要求低的数据则可以存放在低速存储设备上。另外,在设计时还要考虑数据在特定存储介质上的布局。195.2数据仓库设计在设计数据的布局时要注意遵循以下原则:不要把经常需要连接的几张表放在同一存储设备上,这样可以利用存储设备的并行操作功能加快数据查询的速度。如果几台服务器之间的连接会造成严重的网络业务量的问题,则要考虑服务器复制表格,因为不同服务器之间的数据连接会给网络带来沉重的数据传输负担。考虑把整个企业共享的细节数据放在主机或其他集中式服务器上,提高这些共享数据的使用速度。不要把表格和它们的索引放在同一设备上。一般可以将索引存放在高速存储设备上,而表格则存放在一般存储设备上,以加快数据的查询速度。在对服务器进行处理时往往要进行大量的等待磁盘数据的工作,此时,可以在系统中使用RAID(RedundantArrayofInexpensiveDisk,廉价冗余磁盘阵列)。205.2数据仓库设计2)数据索引策略设计数据仓库的数据量很大,因而需要对数据的存取路径进行仔细地设计和选择。由于数据仓库的数据一般很少更新,所以可以设计索引结构来提高数据存取效率。在数据仓库中,设计人员可以考虑对各个数据存储建立专用的索引和复杂的索引,以获取较高的存取效率,虽然建立它们需要付出一定的代价,但建立后一般不需要过多的维护。按照数据的基数选择适当的索引数据仓库中的表通常要比联机事务处理系统(OLTP)中的表建立更多的索引,表中应用的最大索引数应与表格的规模成正比。数据仓库是个只读的环境,建立索引可以取得灵活性,对性能极为有利。如果表格过大,而且需要另外增加索引,那么可以将表进行分割处理。如果一个表中所有用到的列都在索引文件中,就不必访问事实表,只要访问索引就可以达到访问数据的目的,以此来减少I/O操作。215.3数据仓库设计3)确定存储分配数据仓库与其他业务系统不同,需要对数据容量进行估算。数据仓库的容量估算应该是可预见的,相关表的平均字段长度值*每年的记录数*每年预计的增长,再加上20%的冗余,以及磁盘预留的20%的冗余,即可得到数据仓库数据量的估算值。225.2数据仓库设计数据字典和元数据元数据(Metadata)是关于数据的数据。元数据是描述数据仓库中数据结构和构建方法的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库开发人员非常方便地找到他们所需的数据。应用元数据的意义:管理数据的需求系统分布、互通和重用的要求元数据重用、综合的需求235.2数据仓库设计24按照用途的不同分为技术元数据(TechnicalMetadata)和业务元数据(BusinessMetadata)两大类。(1)技术元数据存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它保证了数据仓库系统的正常运行;主要包括以下信息:数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)5.2数据仓库设计25按照用途的不同分为技术元数据(TechnicalMetadata)和业务元数据(BusinessMetadata)两大类。(2)业务元数据从业务角度描述数据仓库中的数据,它提供介于使用者和实际系统之间的语义层,使得数据仓库使用人员能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息.265.3数据集市及其应用数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;而数据集市则是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称之为部门级数据仓库(DepartmentalDataWarehouse)。数据集市有两种:

①独立的数据集市(IndependentDataMart)

②从属的数据集市(DependentDataMart)

两种数据集市结构⑴

从属数据集市所谓从属,是指它的数据直接来自于中央数据仓库。显然,这种结构仍能保持数据的一致性。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市,这样可以很好地提高查询的反应速度。⑵独立数据集市独立数据集市的数据直接来源于各生产系统,许多企业在计划实施数据仓库时,往往出于投资方面的考虑,最后建成独立数据集市,用来解决个别部门比较迫切的决策问题。从这个意义上讲,它和企业数据仓库除了在数据量大小和服务对象上有所区别外,逻辑结构并无多大区别,这是把数据集市称为部门数据仓库的主要原因。5.3数据集市及其应用5.3数据集市及其应用

数据源数据仓库客户端界面、分析工具从属数据集市

数据源独立数据集市客户端界面、分析工具从属数据集市和独立数据集市29数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,它没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。但是不同的主题数据仓库在设计时采用了同一企业数据模型,这就保证了不同主题数据仓库可以采用相同的字段结构、编码和关键字,可以保证不同主题数据仓库的联合查询。这种体系结构在数据仓库的设计中具有相当大的优越性.在完成整体的数据模型设计、数据抽取程序设计后,各个数据集市可以独立进行设计.从而加快了数据仓库的开发进度。数据集市的结构往往只能对策一主题进行操作.如果用户希望对两个以上主题进行操作,就要求用户对这两个主题的数据结构都了解,否则无法实现多主题的操作。多主题数据仓库结构中往往会产生大量的数据冗余。数据集市结构5.3数据集市及其应用关于数据集市的误区数据集市是一个数据分支子集,它可以从一个数据仓库中找到,或者是为支持一个单独业务部门的决策支持而建立的,甚至企业的大部分战略可以由数据集市来完成,在这个过程中制定行动方针。但是,在建立一个数据集市之前,企业应该知道几个关于数据集市的不切实际的看法。①单纯用数据量大小来区分数据集市和数据仓库②简单地理解数据集市容易建立③数据集市很容易升级成数据仓库5.3数据集市及其应用⑴单纯用数据量来区分数据集市和数据仓库用大小来判断一个企业是在实施数据仓库还是数据集市的做法是很片面的。一种定义认为数据量小于50GB

的数据仓库是数据集市,大于

50GB

的是数据仓库。事实上,数据集市集解决的是某一种业务功能的特殊需要,并且通过维持数据和数据模型来满足这种要求。尺寸大小不是数据集市的本质特征,真正的问题在于数据集市(它可能是一个数据仓库的子集)的数据模型一定是满足应用的特定需求的。5.3数据集市及其应用⑶数据集市很容易升级成数据仓库数据集市针对特殊的业务需要,不可能很容易地伸缩。它们采取特定应用的数据模型,如果没有事先建立能伸缩的数据模型,追加数据是非常困难的。而且,因为在实施数据集市时,忽略了很多结构问题,所以,当试图扩展数据宽度时很困难。

例如,一个数据集市可以很快地找到最畅销款式的鞋的销售数据,但是要增加关于这种鞋的信息,比如,新顾客的百分比,该数据集市的扩充就很困难。⑵简单地理解数据集市容易建立一个单一的数据集市的确比数据仓库的复杂性程度低一些,因为它只针对某一需要解决的特定的商业问题,但是围绕数据获取的很多复杂问题并没有减少。数据获取包括从可以使用的数据源中提取、确认和集成数据,并把它们输送到数据集市和数据仓库中。数据集市往往要从多个数据源中提取数据,这就需要一个可以从多个数据源提取数据的应用程序。这个过程很耗时,因为这个过程与建立一个数据仓库一样,需要相同的计划和管理,并且需要把数据模型化。5.3数据集市及其应用关于数据集市的误区数据集市是一个数据分支子集,它可以从一个数据仓库中找到,或者是为支持一个单独业务部门的决策支持而建立的,甚至企业的大部分战略可以由数据集市来完成,在这个过程中制定行动方针。但是,在建立一个数据集市之前,企业应该知道几个关于数据集市的不切实际的看法。①单纯用数据量大小来区分数据集市和数据仓库②简单地理解数据集市容易建立③数据集市很容易升级成数据仓库5.3数据集市及其应用⑴单纯用数据量来区分数据集市和数据仓库用大小来判断一个企业是在实施数据仓库还是数据集市的做法是很片面的。一种定义认为数据量小于50GB

的数据仓库是数据集市,大于

50GB

的是数据仓库。事实上,数据集市集解决的是某一种业务功能的特殊需要,并且通过维持数据和数据模型来满足这种要求。尺寸大小不是数据集市的本质特征,真正的问题在于数据集市(它可能是一个数据仓库的子集)的数据模型一定是满足应用的特定需求的。5.3数据集市及其应用5.4商业信息仓储设计1、自顶向下型“自顶向下”的开发策略是指对原来分散存储在企业各处的OLTP数据库中的有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论