第一章数据仓库基本概念及通用框架_第1页
第一章数据仓库基本概念及通用框架_第2页
第一章数据仓库基本概念及通用框架_第3页
第一章数据仓库基本概念及通用框架_第4页
第一章数据仓库基本概念及通用框架_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 MIS的应用海量信息产生了与传统数据库有很大差异的数据环境 如何从这些海量数据中获取专门的知识 1 基本概念 2 数据仓库的通用框架参考书第一章 数据仓库基本概念及通用框架1基本概念念1.数据仓库库的定义义数据仓库库(DW,Data Warehouse)是“一个面面向主题题的、集集成的、随时间间变化的的、非易易失性数数据的集集合,用用于支持持管理层层的决策策过程”。WilliamH.Inmon,1993面向主题题的:对应某一一个宏观观分析领领域,如,销售售。CH1上述概念念中涉及及到的“主题”:在一个较较高管理理层次上上,对信信息系统统中的数数据按照照某一具具体的管理对象象进行综合合、归类类

2、所形成成的分析对象象基于信息息管理的的角度;是一些数数据的集集合,这这些数据据集合对对分析对象象进行了比比较完整整的、一一致的描描述,这这种描述述不仅涉涉及到数数据自身身,还涉涉及到数数据间的的联系基于数据据组织的的角度。CH1因此,数数据仓库库的该特特性要求求: 抽取取主题按决策分分析过程程进行。 界定定数据确定所抽抽取的主主题包含含哪些数数据。 组织织数据如何组织织上述数数据(往往往使用用多维数数据库或或关系数数据库的的方式进进行组织织)。CH1例如:根据销售售管理要要考虑的的问题(如:哪哪些产品品销量大大/利润高?哪些客客户采购购量多?竞争对对手的哪哪些产品品对本企企业构成成威胁?),可

3、可以抽取取出“产产品”、“客户户”为主主题;为了描述述产品的的销售活活动,销销售业务务处理系系统中一一般包含含以下数数据:产品订单单、产品销售售明细、产品库存存、客户等在进行决决策分析析过程中中(如,哪些客客户采购购量多?),上上述数据据只有客户数据是可可用的,其它数数据仅用用于业务务操作;然而,仅仅有“客户”数据还还不足以以完成对对客户的分析,还要围围绕客户进一步组组织所有有相关数数据如,客户户产品采采购量、最后一一次采购购时间、采购竞竞争对手手产品量量(落在在外部系系统中)、客户户信誉(落在财财务系统统中)等等。集成的对分散在在各处的的数据源源进行抽抽取、筛筛选、清清理、综综合等加加工工作

4、作,然后后存放在在数据仓仓库中,可见,集成是是建立DW的关键步步骤。数据仓库库的数据据主要源源于各个个业务处处理系统统,由于于其用途各不相同同,因此此需上述述处理工工作。清理把各个数数据源的的单位、内容、字长等等统一起起来,消消除字段段名的同同名异义义、异名名同义等等现象。CH1 随时时间变化化的(时时变性)数据仓库库中的数数据,虽虽然不像像业务处处理系统统那样记记载的是是实时数数据,但但也要随着时间间的推移移补充与主主题相关关的、变变化了的的数据(快照),快照照的时间间间隔根根据决策策需求而而定(年年/月/天)。此此外还有有:删除过了了时的数数据;及及时更新新DW中的那些些概括数数据。为满足

5、时时变性进进行的所所有操作作统称为为数据仓库库的刷新新。CH1 非易易失的DW的非易失失性指的的是,数数据一旦旦进入数数据仓库库后,便便不进行行更新处处理(但但可以追追加新数数据),并且将将保持一一个相当当长的时时间。数据仓库库查询、分析业务处理理系统随时记记录发生生的业务务因此,DW中,可以以可以通通过索引引、预计计算等方方式来提提高查询询效率。CH1 集合合性事实上,“面向向主题的的”便要要求DW以主题的的某种数数据集合合的形式式存储数数据,其其形式为为以下三三种之一一:多维数据据库方式式关系数据据库方式式多维数据据库与关关系数据据库组合合方式显然,DW中,“集集合”是是否全面面决定了了数

6、据仓仓库应用用范围的的大小。CH1 支持持决策建立数据据仓库的的目的就就是支持持决策,其用户户可以是是高层/中层/基层管理理者,他他们可以以利用所所提供的的分析工工具,发发现DW数据中隐隐含的商商机,使使得管理理决策更更加科学学化。CH12.DW与传统DB的比较数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据。数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计

7、量以秒、分钟、甚至小时为计量单位CH13.数据仓库库的概念念结构数据仓库库的概念念结构包包含:数数据源、数据准准备区、数据仓仓库数据据库、数数据集市市/知识挖掘掘库以及及各种管管理工具具和应用用工具。业务系统数据源外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/ 知识挖掘库应用工具数据集市/ 知识挖掘库CH14.虚拟数据据仓库结结构虚拟数据据仓库利利用(描描述了业业务系统统中数据据位置和和抽取数数据算法法的)元元数据直直接从业业务系统统中抽取取查询的的数据进进行概括括、聚合合操作后后,将最最终结果果提供给给用户。思考:优优、缺点点?数据仓库查询管理服务器业务系统数据库CH15.数据

8、集市市结构数据集市市,或称称为主题结构构的数据仓库库是按照照主题进进行构思思所形成成的数据据仓库,它没有有一个独独立的数数据仓库库。系统统的数据据不存储储在同一一数据仓仓库中,每个主主题有自自己的物物理存储储区。思考:优优、缺点点?数据仓库查询管理服务器业务系统数据库主题1主题2CH16.单一数据据仓库结结构将所有的的主题都都集中到到一个大大型数据据库中的的体系结结构。数数据源中中数据被被按照同同一标准准抽取到到独立的的数据仓仓库中,用户在在使用时时再根据据主题将将数据仓仓库中的的数据发发布到数数据集市市中。思考:优优、缺点点?数据仓库查询管理服务器业务系统数据库数据仓库数据集市1数据集市2C

9、H17.分布式数数据仓库库结构各分公司司具有相相当大的的独立性性时,企企业总部部设置一一个全局局数据仓仓库,分分公司设设置各自自的局部部数据仓仓库。局局部数据据仓库主主要存储储各自的的未经转转换的细细节数据据,全局局数据仓仓库中主主要存储储经过转转换的综综合数据据。思考:优优缺点?局部数据仓库局部数据仓库局部数据仓库局部数据仓库全局数据仓库站点B站点D站点A站点CCH12数据仓库库的通用用框架框架把复杂的的事物分分为若干干细小的的易于理解的的构件的的形式。数据仓库库研究中中,常称称为通用框架架,或参考框架架。最初,DW的通用框框架被描描述为: 数据据集合(从运行行的DB中抽取); 软件件环境(

10、供用户户存取数数据); 应用用程序及及工具集集合(用用于复杂杂查询)。CH1为了有助助于理解解,并给给出DW实现过程程中所需需的更为为详细的的信息,对上述述框架进进行了进进一步细细化。右图给出出了细化化之后通通用框架架的顶层层结构。DW通用框架的顶层结构层层块数据管理理数据源DW结构数据站场结构DW存取使用元数据管管理传输基础结构构工具、技技术及角角色(附附加层)CH1若干说明明:框架由若若干层和和块组成成;数据管理理和元数据管管理层包括对数数据的抽抽取、加加载、更更新等操操作,以以不断为为DW和数据站站场提供供数据;传输层和基础结构构层对DW及数据站站场提供供通用服服务;附加层提供支持持DW

11、的方法(学),可按该该层的要要求构建建DW及相应的的工具。一般,数数据源块块、传输输层和基基础结构构层是企企业已有有的,其其他块、层均需需新建。具体应用用时,设设计者可可以从通通用框架架中选取取有用的的构件,没用的的可以忽忽略。CH11.数据源块块产品数据遗留数据内部办公系统外部系统数据源元数据产品数据据也称业务务数据,由生产产系统产产生,并并保存在在生产系系统的数数据库中中,且,该数据据库可以以是任意意类型的的(如,关系、层次、网络等等类型)。注意:产品数据据(业务务数据) 与数据仓库库模型之间的关关系。CH1遗留数据据脱机或档档案数据据,也称称历史数据据。特点: 可能能不支持持当前应应用程

12、序序; 用专专用的程程序输入入到DW中; 对DM很有用。内部办公公系统数据来源源之一,一般是是非商业业的,也也不存放放在当前前运行的的DB中,其形形式有以以下几种种:CH1非结构化化数据(如,非非电子的的); 结构构化数据据(报表表、文本本文档等等); 半结结构化数数据(年年度报表表等)。外部系统统有各种可可能的形形式,或或各种想想象得到到的形式式。数据源元元数据元数据是是关于数数据的数数据,如如:数据据的名称称、数据据内容的的定义、数据创创建的日日期、数数据的来来源等。CH1随着DW以及Internet的应用与与发展, 数据据源块中中又增加加了“Web数据”块块(如左左图所示示)。Web数据

13、,通通常是HTML方式的, 因此此,需要要转换才才能加载载进数据据仓库之之中。业务数据据历史数据据办公数据据外部数据据数据源元元数据Web数据CH12.DW结构块由求精、重构工工程和数数据仓库库构成。标准化过滤与匹匹配净化标明时间间戳的数据源源确认数据据质量集成与分分割概括与聚聚集预算与推推导翻译与格格式化转换与映映像元数据创创建元数据抽取与创创建建模概括集聚调整与确确认建立结构构化查询创建词汇汇表元数据浏览与导导航重构工程程数据仓库库求精CH1求精有的资料料中,把把“求精精”子块块称为“数据准准备区”,且与与“数据据源”等等并列列列出。标准化过滤与匹配净化标明时间戳的数据源确认数据质量元数据

14、抽取与创建统一处理理同名不不同内容容、同内内容不同同名、同同名同内内容但结结构不同同的数据据。对进入DW的数据进进行筛选选从数据源源删除用用户不需需要的数数据,留留下与用用户需求求相匹配配的数据据。对准备加加载到DW的数据进进行正确确性判断断把那些内内容、格格式或类类型不对对的数据据进行修修正。例例如如,DW中“邮政政编码”是字符符型的,则数据据源中所所有数值值型的“邮政政编码”均需先先行转换换。DW中,经常常要进行行数据的的概括等等计算,以分析析事物的的发展趋趋势。这这些工作作均要求求相应的的数据具具有明确确的时间间属性,因此,数据加加载到DW之前,要要完成其其时间戳戳的设置置。虽然“标标准

15、化”、“过程与与匹配”、“净净化”等等对数数据的质质量有了了一定的的保证,但加载载到DW前,还还要进行行“确认认数据质质量”的操作通常用手手工或软软件自动动检测方方式完成成。在数据求求精过程程中,同同时还要要根据数数据源确确定相应应数据的的元数据据,包括括名称、定义、创建者者、创建建时间等等。CH1重构工程程为了使DW更好地为为用户服服务所进进行的一一系列操操作。集成与分分割概括与聚聚集预算与推推导翻译与格格式化转换与映映像元数据创创建把一个表表的数据据分割为为多个数数据块(按日日期/地理位置置/时间); 把多多个数据据源的若若干数据据集合为为一块。概括与聚聚集就是按照照某一(组)属属性进行行

16、汇总根据建立立DW的需求,预先把把某些常常用的汇汇总求出出并存储储在DW中,以提提高DW的效率。对DW用户的常规操作作进行的预预设置,包括这这些操作作的结果果的存储储以及相相应算法法的存储储(做为为元数据据),其其目的也也是提高高将来DW的使用效效率。对来自于于不同数数据源的的数据进进行翻译和格格式化处理以便便于日后后的统一一处理。例如,客户的的性别不不同的数数据源中中可能有有不同的的表示值值,加载载到DW后,要统统一起来来。大多数数数据源是是关系模模型,DW一般采用用星形模模型或雪雪花模型型。转换与映映射就是连接接数据源源与DW的,它不不仅指明明了两者者数据间间的关系系,还消消除了其其模型间

17、间的差异异。参见下一一小节。CH1数据仓库库(创建建)数据仓库库的核心心功能块块。建模概括集聚调整与确确认建立结构构化查询创建词汇汇表元数据浏览与导导航设计数据据仓库的的数据模模型(一一般为星星形或雪雪花形模模型),包括数数据的分分割、主主题域和和粒度的的确认等等。根据用户户的需要要,从初初步的概概括中建建立高度度的数据据概括。概括的的程度与与用户使使用的时时间等因因素有关关。根据用户户的典型型查询需需求进行行聚集处处理。如如,可以以对产品品的地区区分布、品牌的的分布等等进行聚聚集处理理。对完成了了概括与与聚集的的数据进进行确认认,如果果效果不不好,则则需进行行调整直直至满意意为止。为了提高高

18、DW的使用效效率而预预定义一一些常用用的结构构化查询询,这些些查询及及其结果果均作为为元数据据存储起起来备用用。实际上每每个块都都具有该该功能(可称之之为元数据的的管理)。具体体包括元数据浏浏览与导导航、元数据创创建、创建词汇汇表等。CH13.数据站场场(集市?)结构块其构成如如下:过滤与匹配集成与分割概括与聚集预算与推导标明时间戳的数据源元数据抽取与创建建模概括集聚调整与确认建立结构化查询创建词汇表元数据浏览与导航求精与重构 工 程数据站场创 建CH1注:有了DW的单位,该块是是可选的的;数据站场场与数据仓库库功能上相相似。数据站场场的主要要功能: 过滤滤、匹配配从DW中抽取的的数据; 将D

19、W集成到新新的主题题域; 创建建新的概概括或聚聚集; 将DW中初步概概括的数数据进行行高度概概括; 导出出新数据据(对不不同时间间、来源源者)。CH14.DW存取与使使用块实现DW的最终功功能为用户提提供决策策分析和和知识挖挖掘的功功能。DW直接存取取数据集市市存取重构工程程转换为多维结构构创建局部部存储元数据抽取与创创建报表工具具分析工具具业务建模模工具DM工具新产品应用工具具元数据管理与报报表OLAP存取与检检索分析与报报表管理DW元数据CH1存取与检检索为用户提提供访问问DW或数据集集市的功功能。DW直接存取取数据集市市存取重构工程程转换为多维结构构创建局部部存储利用这些些功能,用户可可

20、以将检检索到的的数据转转变为多多维数据据并存储储到多维维数据库库中;可可以把DW或数据集集市的数数据“卸卸载”下下来以便便进行局局部分析析、数据据挖掘等等。CH1分析与报报表为用户提提供一组组利用DW或数据集集市进行行决策分分析或知知识挖掘掘的工具具。报表工具具分析工具具业务建模模工具DM工具新产品应用工具具OLAP包括:GIS,DM工具,OLAP,可视化化工具,EIS,4GL,统计工工具,Internet浏览器,元数据据浏览器器,GUI程序,电电子表格格,报表表生成器器,数据据访问工工具等。CH1元数据管管理元数据抽取与创创建元数据管理与报报表1.帮助用户户了解DW及数据集集市的名名称、描描

21、述说明明、数值值、价值值来源等等;2.了解数据据的名称称、数值值以及从从抽取到到存入DW或数据集集市的过过程等;3.了解数据据的定位位、数据据的可靠靠性以及及如何存存取和使使用数据据;4.帮助用户户掌握数数据的正正确内容容、信息息的粒度度、信息息的概括括程度、原始数数据的来来源和日日期等;5.帮助验证证数据源源的质量量、判断断数据的的可靠性性等。CH15.数据管理理层模块块该模块的的构成如如图所示示。数据抽取、查询与需求管理加载、存储、刷新、更新系统安全性与授权管理归档、恢复和净化系统1.从数据源源抽取数数据;2.需要时,追踪并并充实数数据;3.数据查询询中的并并行处理理的管理理等。1.完成数

22、据据的加载载;2.捕捉数据据的变化化并用以以充实数数据仓库库;3.根据用户户以及DW管理需求求更新DW等。1.禁止用户户进行非非法操作作;2.赋予用户户以不同同的操作作权限等等。1.定期地进进行归档档、备份份,以便便恢复系系统;2.对从数据据源抽取取的数据据进行筛筛选、数数据标准准及内容容的统一一、各种种求精重重构净化化等管理理。CH16.元数据管管理层模模块该模块的的构成如如图所示示。数据仓库库、数据据集市/知识挖掘库和和词汇表表管理利用词汇汇表管理理DW或数据集集市中的的逻辑数数据模型型和物理理数据模模型以及及与业务务和技术术相关的的数据说说明。在对数据据源进行行数据抽抽取、清清理、加加载等操操作中,同时要要进行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论