


版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据源是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于 RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;数据的存储与管理是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为)。
2、OLAP(联机分析处理)服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:(关系型在线分析处理)、(多维在线分析处理)和HOLAP (混合型线上分析处理)。ROLAP基本数据和聚合数据均存放在之中;MOLAP基本数据和聚合数据均存放于中;HOLAP基本数据存放于 RDBMS之中,聚合数据存放于多维数据库中。数据仓库系统的体系结构数据仓库系统通常是对多个异构数据源的有效集成,集成后按照主题进行重组,包含 历史数据。存放在数据仓库中的数据通常不再修改,用于做进一步的分析型数据处 理。数据仓库系统的建立和开发是以企事业单位的现有业务
3、系统和大量业务数据的积累为 基础的。数据仓库不是一个静态的概念,只有把信息适时的交给需要这些信息的使用 者,供他们做出改善业务经营的决策,信息才能发挥作用,信息才有意义。因此,把 信息加以整理和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。数 据仓库的开发是全生命周期的,通常是一个循环迭代的开发过程。一个典型的数据仓库系统通常包含数据源、数据存储和管理、OLAP服务器以及前端工具与应用四个部分。1、数据源数据源是数据仓库系统的基础,即系统的数据来源,通常包含企业(或事业单位)的各种内部信息和外部信息。内部信息,例如存于操作型数据库中的各种业务数据和办公 自动化系统中包含的各类文档数
4、据;外部数据,例如各类法律法规、市场信息、竞争 对手的信息以及各类外部统计数据及其它有关文档等。2、数据的存储与管理数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理、并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存 储结构,同时组织存储数据仓库的元数据(包括数据仓库的数据字典、记录系统定义、 数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围和存储规模,数据仓库可以分为企业级数据仓库和部门级数据仓 库。对数据仓库系统的管理也就是对其相应数据库系统的管理,通常包括数据的安 全、归档、备份、维护和恢复等工作。3、OLAP服务器OLA
5、PK务器对需要分析的数据按照多维数据模型进行重组,以支持用户随时从多角度、多层次来分析数据,发现数据规律与趋势。如前所述,OLAP服务器通常有如下3种实现方式:(1)ROLAP基本数据和聚合数据均存放在 RDBM之中(2)MOLAPS本数据和聚合数据存放于多维数据集中(3)HOLAP是 ROLA与MOLA的综合,基本数据存放于 RDBM之中,聚合数据存放于 多维数据集中。4、前端工具与应用前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种 基于数据仓库或数据集市开发的应用。其中,数据分析工具主要针对 OLAP服务器;报表工具、数据挖掘工具既可以用于数据 仓库,也可针对O
6、LAP服务器。数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:1、两层架构(gen eric two-level architecture )2、独立型数据集市(independent data mart )3、 依赖型数据集市和操作型数据存储(depe nde nt data mart and operatio nal data store)4、逻辑型数据集市和实时数据仓库(logical data mart and real-time data warehouse)独立的数据仓库体系结构通常的数据仓库是两层体系结构,如图所示,构造这种体系结构需要以下4个基本步骤:1、数据是
7、从各种内外部的源系统文件或数据库中抽取得到。在一个大的组织中,可能有几十个甚至几百个这样的文件和数据库系统2、不同源系统中的数据在加载到数据仓库之前需要被转换和集成。甚至可能需要发送一些事务信息到源系统中,以纠正在数据分段传输中发现的错误。3、建立为决策支持服务的数据库,即数据仓库,它通常会同时包括详细的和概括的 数据4、用户通常SQL查询语言谨分析工具访问数据仓库,其结果又会反馈到数据仓库和 操作型数据库中。数据仓库环境最重要的三个环节包括:抽取(extract )、转换(transform )、加载(load,把数据从源数据库系统加载到数据仓库),即ETL过程。抽取和加载通常是定期的,即每
8、天、每星期或每个月。因此,数据仓库常常没有或者 说不需要当前的数据。数据仓库不支持操作型事务处理,虽然它含有事务型数据(但更多的是事务的概括和变量状态的快照,如帐户余额和库存级别)。对大多数数据仓库应用来说,用户寻找的不是对个别事务的反应,而是寻求包括在整个数据仓库中的一个 特定的子集上的企业(或其它组织)状态的趋势和模式。例如,通常会有 5个季度以上 的财务数据保存在数据仓库中,以便识别趋势和模式。太陈旧的数据,如果确定对决 策分析已没有意义,也可被清除或者存档。基于独立的数据集市的数据仓库的体系结构一些企业或事业组织由于其特殊的业务需求或历史原因,刚开始时并没有建立数据仓 库,而是创建了许
9、多分离的数据集市。其实,每一个数据集市都是基于数据仓库技术 的,而不是基于事务处理的数据库技术。数据集市是范围受限的小型数据仓库,常适 用于特定终端用户群决策应用。在这种情况下,每个独立数据集市的内容都来自于独立的ETL处理过程。数据集市被设计用来优化定义明确的和可预测的使用性能,通常包括单个或一组针对某特殊应用 的查询功能,如市场数据集市、财务数据集市、供应链数据集市等。相对于其它数据仓库体系结构,独立型数据集市策略的一个明显的特征是:当需要访 问分离的数据集市的中的数据时,对终端用户来说具有相对的复杂性。这个复杂性不 仅来自于从分离的数据集市数据库访问数据,而且可能来自于不一致的数据系统产
10、生 的数据集市。如果有一个元数据集合跨越所有的数据集市,且数据集市上的数据通过数据分段传输 时保存一致(即数据分段传输中拥有“一致维”),那么,对用户来说复杂性就减小 了。另一方面是其ETL处理的复杂性,因为需要为每一个独立的数据集市创建一个抽 取、转换、加载过程。因为一个企业或事业组织集中于一系列的短期的业务目的,独立的数据集市经常被建 立。有限的短期目标同需要相对较低成本来实现更加独立的数据集市相兼容。然而, 从数据仓库体系结构 的角度来说,围绕一些不同的短期目标来设计整个数据仓库环 境,意味着失去了应用长期目标及业务环境变化的能力和灵活性。而这种应对能力对 决策支持来说是至关重要的。采用
11、这种体系结构的优点是其方便性,可快速启动,这种数据仓库架构可通过一系列 的小项目来实现。在一个大的企业或事业单位中,相对于使所有的下属组织在一个中 心数据仓库中形成一致视图来说,在组织上,政策上更容易拥有独立的,小型数据仓 库。另外,一些数据仓库技术在它们支持的数据仓库大小上有一定的局限性(或称为可扩展性),但是,如果在理解数据仓库业务需求之前就把自己局限在特定的数据仓库技 术上,则是由技术决定的数据仓库体系结构,而通常的情况是业务需求才是最关键的 技术架构决定因素。独立型数据集市架构的局限性包括如下方面:(1)为每一个数据集市开发一个独立的 ETL过程,它可能产生高代价的冗余数据和重 处理工
12、作(2)数据集市可能是不一致的,因为它们常常是用不同的技术来开发的。因此,不能 提供一个清晰的企业数据视图,而这样的数据视图可能涉及到重要的主题,如客户、 供应商和产品等。(3)没有能力下钻到更小的细节或其它数据集市有关的事实或共享的数据信息库,因 此分析是有局限性的。要想获得全面数据,则需要在不同数据集市的分离平台上做连 接,但跨数据集市的数据关联任务要由数据集市的外部系统来执行。(4)规模扩大的成本高,因为每一个新的应用创建了一个分离的数据集市,都要重复 所有的抽取和加载步骤。通常情况下,对批数据抽取来说,操作型系统有有限的时间 窗口(如每天的05点)。如果想让分离的数据集市一致,成本将会
13、更高。基于依赖型数据集市和操作型数据存储的数据仓库体系结构 解决独立数据集市架构局限性的方法之是是使用基于依赖型数据集市(depe ndent data mart )和操作型数据存储( operational data store,ODS )的数据仓库的的体系结构。 通过企业级数据仓库( Enterprise data warehouse,EWD )中加载依赖型数据集市,在 整个体系架构中只使用单一的ETL过程,确保了 ETL的效率和数据集市数据的一致性。 企业级数据仓库是一个集中的、集成的数据仓库,它拥有一致的数据版本,并可以对 数据作统一控制,对终端用户的决策支持也是可用的。依赖型数据集市
14、的主要目标就 是提供一个简单、高性能的数据环境,用户群可以访问数据集市、当需要访问其它数 据时,也可以访问企业数据仓库。另外,跨依赖型数据集市的冗余在控制之内,且冗 余的数据是一致的。因为每一个数据集市都是从一个共同的源数据以一种同步的方式 加载而来的。基于依赖型数据集市和操作型数据存储的数据仓库体系架构常常被称为“中心和辐 射”架构,其中企业级数据仓库是中心,源数据系统和数据集市在输入和输出的两 端。这种体系结构也被称为合作信息工厂( corporate information factory,CIF )。 在支持所有用户的数据需求中,它被认为是一个全面的企业级的数据视图。相对于一般的两层体
15、系结构而言,依赖型数据集市的的优势是它们可以处理各个用户 群的需求,甚至是探索性数据仓库的需求。探索性数据仓库是一种专门的数据仓库版 本,它使用先进的统计学、数学模型和可视化工具来优化,通常用于数据挖掘和商业 智能等业务模型应用的探索。独立型数据集市的主要优点是可以采用分段方法业开发数据仓库。事实上,分段方法 也可以在基于依赖型数据集市和操作型数据存储的体系结构中实现。ODS为所有的业务数据提供了一个集成的数据源,同时也解决了独立数据集市架构不 能下钻到更小细节的问题。ODS实际上是一个集成的、面向主题的、可更新的、当前 值的(但是可“挥发”的)企业级的、详细的数据库,也叫运营数据存储。一个O
16、DS是一个典型的关系数据库,像在务系统中的数据库一样被规范化,但它是面 向决策支持应用系统的,因此,如索引等其它关系数据库设计理念都是面向检索大量 数据的,而不是面向事务处理或者查询个别记录的情况。因为ODS有易变的、当前的数据,在ODSF的相同查询在不同的时间很有可能会产生不同的结果,这也称为ODS可“挥发性”。一个OD一般不包括历史数据,而EW而保存了企业或事业组织状态的 历史快照。一个OD测能来自于一个ERP应用数据库,也可能来自其它业务数据库,因 此,ODS通常是区别于ERP数据库的。ODS同样作为分段传输区域,为将数据加载到 EWDI供服务。OD列能立即接收数据或者有一定的延迟,无论
17、哪一种情况它的决策支 持需求都是可行的和可接受的。ODS存储的逻辑结构是企事业组织范围内所有相关业务系统的数据以全面、统一的关 系型实体来体现的;ODS中的数据是基于分析主题进行组织,而不是基于业务系统的 功能进行组织;ODS只是存储了当前的数据且数据是挥发性的,因此其数据的刷新很 快,过期的数据将要被挥发掉。因此, ODS勺存储量取决于业务接口数据的抽取和刷 新频率,取决于企业的服务客户的数量。从ODS勺作用和实现来说,ODS各各个孤立业务系统的运营数据集成起来,实现企业的 统一数据视图,同时也实现了 ODS勺数据共享。ODS扮演的是用于数据稽核与交互的角色,它反映了在一个时间切片瞬间。数据
18、仓库 系统和外围业务系统相互交换数据的集合,可用于数据仓库及其分析系统与外围业务 系统之间关键数据的一致性校验,以及分析系统对外围业务系统的决策支持数据的反 馈(如以客户扩展属性为主体的详细资料等反馈信息)。ODS据稽核功能是根据OD於与工作的实际情况建立相应的ODS并控制其权限。ODS 数据稽核主要涵盖下面的内容:界定关键数据稽核的项别与内容、获取数据稽核所需 数据、稽核据所需数据的完整性、数据稽核报告的存储和稽核数据的更正等过程。 0D瞰据交互的价值体现在数据仓库及其分析系统的高度综合数据向外围业务系统的 回流。如果从安全上考虑,回流数据的格式可以采用文本的方式,用户只需要登录到 分析系统
19、,进入0D熨据交互应用,下载文本即可。ODS据交互程序会自动在指定周 期,把预定义的内容上传到指定路径。但如果从实现的方便、快捷、可维护性考虑, 可以采用数据库方式,即外围业务系统与分析系统之间相互约定好数据格式,由外围 系统连到分析系统0D敎据库,直接把ODS勺高度综合数据导入到自己的数据库系统; 也可以选择由0D熨据交互调度模块自动在指定周期,把预定义的内容通过事先建立 的数据库连接,直接导入到外围数据库。基于逻辑型数据集市和实时数据仓库的体系结构逻辑型数据集市(logical data mart )和实时数据仓库体系结构 实际上只用于一些特 定环境的数据仓库系统,或使用一些高性能的数据仓
20、库技术时,例如 NCR Teradata系 统。这种系统结构具有如下特征:(1) 逻辑数据集市并不是物理上分离的数据库,而是在同一个物理数据库里的,稍微 有些不规范的关系数据仓库的不同关系视图(2) 数据被放到数据仓库而不是分离的分段传输区域中,利用数据仓库技术的高性能 计算能力来执行清洗和转换步骤(3) 新的数据集市可以非常快的创建,因为不需要创建或获得获得物理数据库或数据 库技术,且不需要书写加载驱动程序(4) 数据集市总是最新的,因为涉及到某个视图时,视图中的数据将被建立,如果用 户有一系列的查询和分析来清理数据集市中相同的实例,视图可以被物化。实时的数据仓库也叫动态数据仓库 (acti
21、ve data warehouse),它意味着源数据系统, 决策支持服务和数据仓库之间以一相接近实时的速度交换数据和业务规则。事实上, 有许多的分析系统需要快速响应系统当前的、全面的组织状况的描述。例如,一些分 析型CRMS统(特别是呼叫中心)的回答问题和日志记录问题,会需要客户最近的销售 信息、欠账和付款事务信息、维护活动和订单的有关信息描述。一个重要事件,如输 入一个新的产品订单,可以立即对客户和客户所在组织的最新状况有一个全面了了 解。一个有关客户的实时数据仓库分析系统可能的需求目标包括:(1) 在一个业务事件(发生什么)中获取客户数据,减少从事件到行为的延迟(2) 分析客户行为(为什么会发生)并且预言客户的可能行为及其反应(将发生什么)(3) 制定规则来优化客户的交互,规则包括适当的反应和达到最好的结果的途径(4) 为了使期望的结果发生,在适当的时间点对
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 低价收房装修合同范本
- 农村别墅砍价合同范本
- 虚拟现实隐私保护-洞察与解读
- 代理销售分成合同范本
- 公司出租授权合同范本
- 团队协作与个人管理培训课件
- 心理健康教育活动设计案例
- 2025至2030棉制裙行业发展趋势分析与未来投资战略咨询研究报告
- 三年级数学奥数题典型解析
- 锂电池基本知识培训内容课件
- 2025年中国肝细胞癌经动脉化疗栓塞治疗临床实践指南
- 可信度度量方法-洞察及研究
- 广告采购合同范本
- DBJ∕T15-83-2017 广东省绿色建筑评价标准
- 2025-2026学年人教版(2024)初中数学七年级上册教学计划及进度表
- 健康保险新政解读
- 腹腔穿刺技术规范教程
- 2025一建《建设工程经济》精讲课程讲义
- 民法典租赁合同实务讲座
- 人教版数学二年级上册第一单元 分类与整 理 综合素养测评A卷(含答案)
- 客户保护管理办法
评论
0/150
提交评论