版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章
数据集成技术3.1数据集成概论3.2数据采集技术3.3数据转换技术3.4数据存储技术3.5数据应用技术
3.1数据集成概论
3.1.1需求分析随着信息系统应用技术的发展,同一个组织内部应用了各种信息系统,构建了内部网络,建立了门户网址等。由于各系统建设时间的不一致、业务需求的不同、管理模式的变化等因素,致使相互之间不能进行信息共享,业务不能顺利进行和有效控制,形成了许多“信息孤岛”,数据分布在不同的物理空间与信息系统中,并以不同的格式表示和不同的介质存储,导致存在如下弊端:
(1)数据一致性问题。信息的多口采集、重复输入以及多头使用和维护,使信息更新的同步性差,从而影响了数据的一致性和正确性,并使信息资源拆乱分散,信息使用和管理效率低下且失去了准确的依据。
(2)数据重复管理问题。缺乏业务功能交互与信息共享,难以对业务过程及业务标准实施有效监控,同一业务数据被多个系统重复管理,进而带来了无效劳动、数据混乱、资源浪费等问题。
(3)数据共享使用问题。孤立的信息系统无法有效地提供部门跨系统的综合性信息,各类数据不能形成有价值的信息,局部的信息不能被提升为管理知识,无法形成决策支持。
3.1.2相关概念
1.异构数据的定义
异构数据通常是指数据结构、存取方式、形式不一样的多个数据集和数据源,包含关系型数据库(Oracle/SQLServer/MySQL等)、Excel文件、txt文本数据、XML数据等不同数据集或数据源。异构数据通常具备以下特性:
(1)异构性。
(2)分布性。
(3)各个数据源有很强的自治性,它们可以在不通知集成系统的前提下改变。
2.数据集成的定义
数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上进行有机集中,面向平台上运行的各种应用、系统、服务,提供完整、一致和安全的数据访问、信息查询及决策支持服务。数据集成主要是为了解决不同应用和系统间的数据共享和交换需求。
数据集成的核心任务是将互相关联的分布式异构数据源集成到一起,使整体上的数据保持一致性与完整性,为用户提供统一的数据源访问接口,执行用户对数据源的访问请求,使用户无须关心如何实现对异构数据源的访问,只关心以何种方式访问何种数据,如图3-1所示。图3-1数据集成系统模型
3.2数据采集技术
3.2.1数据采集应用数据采集需要将计算机系统、网络设备、通信设备、环境设备、数据库系统以及传感器设备等位置分散、动态产生的数据,通过各种通信手段(以太网接口、串行接口)进行收集,转换成信息系统能够处理的格式并采用各种物理介质保存起来,如图3-2所示。图3-2数据采集应用示意图
数据采集框架如图3-3所示,数据采集终端设备是一种具有现场实时数据采集处理功能的自动化设备,具备实时采集、自动存储、即时显示、即时反馈、自动处理、自动传输等功能。数据采集的方式包括人工采集、WiFi与以太网数据采集、设备传感数据采集、RFID(RadioFrequencyIdentification,射频识别)数据采集、条码数据采集、摄像头采集、麦克风语音采集等。数据采集阶段中要考虑的主要问题有与信息源的接口、原始数据格式、采集频率/粒度、通信协议以及数据丢失后如何拟合等。图3-3数据采集框架示意图
3.2.2采集系统设计
传感器是信息采集系统的首要部件。按照被测信息的不同,传感器分为物理量传感器、化学量传感器和生物量传感器等三类,如表3-1所示。
数据采集系统设计的主要工作是误差的合成与分配、系统结构的选择、硬软件的合理配置。设计数据采集系统时,首先根据被测信号的特点及对系统性能的要求,选择系统的结构形式。进行结构设计时,主要考虑被测信号的变化速率和通道数以及对测量精度、分辨率的要求等。数据采集系统比较适合采用分布式架构开展建设,一般由数据采集站、上位机及通信接口组成,如图3-4所示。图3-4数据采集系统设计示意图
3.3数据转换技术
3.3.1数据转换应用数据转换是将数据从一种格式/结构转换为另一种格式/结构的过程。数据转换对于数据集成和数据管理等活动至关重要。数据转换包含数据结构类型转换、删除空值数据、清理重复数据、丰富数据或执行聚合。数据迁移、数据集成、数据仓库和数据整理都涉及数据转换。数据转换过程中一般采用两种方法:一是借助专业的ETL(ExtractTransformLoad,抽取-转换-加载)工具,二是采用SQL编程方式。
3.3.2数据库转换方法
ETL过程即数据从异构的数据源经过抽取与转换,最终加载到目标数据源的过程,如图3-5所示。ETL负责对分布、异构的源数据进行抽取,按照预先设计的规则对不完整数据、重复数据以及错误数据等“脏”数据内容进行清洗,得到符合要求的数据,作为数据挖掘的基础。图3-5ETL转换方法原理图
需要对业务支撑系统的原始操作数据进行相应清洗转换,ETL技术就是解决该类问题的。
1.数据抽取
数据抽取是从各种原始的业务系统中将原始数据读取出来。在实际应用中数据源多采用的是关系数据库,从数据库中抽取数据有全量抽取和增量抽取两种方式。全量抽取是将数据源中的表或视图的数据原封不动地从数据库中抽取出来,增量抽取只抽取自上次抽取以来新增或修改的数据。
1)触发器
触发器是在要抽取的表上建立触发机制,一般要建立插入、修改、删除3个触发器。每当源表中的数据发生变化时,相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。触发器方式的优点是数据抽取的性能较高,缺点是要求业务表建立触发器,对业务系统有一定的影响。
2)时间戳
时间戳是一种基于快照比较变化数据的捕获方式,在源表上增加一个时间戳字段,在系统中更新修改表数据时,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来定位数据抽取内容。
3)全表比对
典型的全表比对的方式是采用MD5(MessageDigestAlgorithm5,信息-摘要算法)校验码方法。ETL工具事先为要抽取的表建立一个结构类似的MD5临时表,记录源表主键以及根据所有字段的数据计算出来的MD5校验码。每次进行数据抽取时,对源表和MD5临时表进行MD5校验码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新MD5校验码。MD5校验码方法的优点是对于源数据库,仅需要建立MD5临时表,对系统的侵入性较小。但是由于抽取时MD5临时表的建立涉及比较计算,导致抽取时性能较差,并且当表中没有主键或唯一列且含有重复记录时,MD5校验码方法的准确性较差。
4)日志对比
日志对比是通过分析数据库自身的日志来判断变化的数据。Oracle的数据改变捕获技术(ChangedDataCapture,CDC)是该方面的主流技术,通过识别从上次抽取之后数据的变化内容,对源数据表进行新增、修改、删除等操作,并且将变化的数据保存在数据库的变化表中。最终将发生变化的数据利用数据库视图的方式提供给目标系统。
2.数据转换
数据转换是将数据按照预先设计好的规则进行转换、清洗,处理一些冗余、歧义、不完整、违反业务规则的数据,统一数据的格式、内容与粒度。数据的转换和加工可以在ETL引擎中进行,也可以在数据抽取过程中利用关系数据库的特性同时进行。
数据转换的操作如下:
(1)直接映射:数据源字段和目标字段长度或精度相同,则无须做任何处理。
(2)字符串处理:从数据源的字符串字段中进行类型转换、字符串截取等操作,以获取特定信息作为目标数据库的某个字段。
(3)字段运算:将数据源的一个或多个字段进行数学运算而得到目标字段。
(4)空值判断:对数据源中的空值字段进行判断,并转换成特定的值。
(5)日期转换:对数据源字段的日期格式进行统一格式转换。
(6)聚集运算:对数据源一个或多个字段运用sum、count、avg、min、max等聚集函数得到目标数据库表中的一些度量字段。
(7)既定取值:对目标字段取一个固定的或依赖系统的值,而不依赖于数据源字段。
3.数据加载
数据加载是转换后的数据按照计划增量或全部导入到目标库中。一般来说有两种装载方式:
一是直接采用SQL语言进行新增、删除、修改等操作;
二是采用特有的批量装载工具或API(ApplicationProgramInterface,应用程序接口)。第一种方法由于进行了SQL命令的日志记录,具备一定的数据恢复性;第二种方法的批量装载工具易于操作使用,在装入大量数据时效率较高。
3.3.3ETL工具介绍
ETL工具根据其提供厂商分为两种:
一种是数据库厂商自带的ETL工具,典型的代表产品有Oracle的ODI、SQLServer的SSIS等;
另一种是第三方工具提供商,如InformaticaEnterpriseDataIntegration、Kettle等。
下面介绍四种常用的ETL工具。
(1) OracleDataIntegrator(ODI)。ODI是Oracle在2006年收购Sunopsis公司后整合推出的一款数据集成工具,现在是OracleFusionMiddleware的组件。ODI是一个全面的数据集成平台,涉及领域包括高容量、高性能、批处理、事件驱动的少量传送集成过程以及支持SOA的数据服务。与常见的ETL工具不同,ODI不是采用独立的引擎而是采用数据库管理系统进行数据转换。ODI是以图形模块设计工具和调度代理访问信息库为中心进行组织的。
(2) MicrosoftSQLServerIntegrationServices(SSIS)。SSIS的前身是MicrosoftSQLServer的DTS(数据转换服务),是用于生成企业级数据集成和数据转换解决方案的平台。SSIS具备许多现成的标准任务,如TransformData(数据转换)、ExecuteProcess(执行处理)、ActiveXScript(动态脚本)、ExecuteSQL(执行SQL)和BulkInsertTasks(块插入任务)。SSIS包含一组丰富的内置任务和转换、用于构造包的工具以及用于运行和管理包的服务。SSIS可以使用图形工具来创建解决方案,也可以对各种对象模型进行编程,通过编程方式创建包,并编写自定义任务以及其他包对象的代码。
(3) InformaticaEnterpriseDataIntegration。Informatica是Informatica公司旗下的数据集成与应用解决方案,包括InformaticaPowerCenter和InformaticaPowerExchange两大产品,具备数据集成工具、数据质量工具、元数据管理解决方案、主数据管理解决方案及企业级集成平台等系列解决方案。InformaticaPowerCenter是一个功能强大的数据整合引擎,具备数据清洗和匹配、数据屏蔽、数据验证、负载均衡、企业网格、元数据交换、下推优化、团队开发和非结构化数据等组件功能,不需要开发者手工编写这些过程的代码。
(4) Kettle。Kettle是Pentaho公司旗下的开源元数据驱动ETL工具软件。Kettle支持Windows、Linux等多个操作系统平台,具备无代码拖拽式构建数据管道、数据管道可视化、模板化开发数据管道、深度Hadoop支持、数据任务下Spark集群、支持数据挖掘与机器学习等特点。Kettle主要包含Spoon、Pan、Chef、Kitchen等四个工具。其中:Spoon是数据转换工作的图形化设计工具;Pan是由Spoon设计ETL转换的后台运行程序;Chef是任务管理工具,负责完成任务内容配置、转换与脚本设计;Kitchen是远程执行数据任务的服务调度程序。
上述四种ETL工具对比分析如表3-2所示。
3.4数据存储技术3.4.1数据库中间件技术在对编程语言与数据库种类版本的适配性问题,如图3-6(a)、(b)所示。对于不同编程语言与不同数据库版本,都需要使用不同的驱动程序,其API的调用方法都会存在差异性,增加了开发成本。为解决该问题,发展出了ODBC(OpenDatabaseConnectivity,开放数据库连接)、JDBC(JavaDatabaseConnectivity,Java数据库连接)、ADO(ActiveXDataObject,ActiveX数据对象)等数据库中间件技术。通过该技术打通异构数据库和应用系统的关系,向下协调各异构数据库系统之间的数据关联关系,向上为应用系统提供统一的API调用方法,从而可以屏蔽数据库的分布地点、平台版本、SQL扩展语句、特殊的本地API等差异,如图3-6(c)所示。图3-6数据库中间件技术示意图
1.ODBC连接件
ODBC是1992年Microsoft与Sybase、Digital等公司共同制定的中间件标准,进而发展为Windows开放服务结构(WindowsOpenServicesArchitecture,WOSA)中有关数据库的一个组成部分。它为应用程序开发提供了一组对数据库访问的标准API,并且具备对SQL语言的支持。使用ODBCAPI的应用程序可以与任何具有ODBC驱动程序的关系数据库进行通信,如图3-7所示。图3-7ODBC的总体结构
ODBC总体结构主要有以下6个组件:
(1)应用程序:执行处理并调用ODBCAPI函数,提交SQL语句并获得结果。
(2) ODBCAPI:ODBC的应用程序接口。
(3)驱动程序管理器(DriverManager):根据应用程序的开发语言及访问数据源的不同,选择性地加载/卸载驱动程序,处理ODBC函数调用。
(4) ODBC驱动程序:处理ODBC函数调用,提交SQL请求到一个指定的数据源,并把结果返回到应用程序。
(5)数据源:包括用户要访问的数据库管理系统。
(6) ODBC管理器:管理安装的ODBC驱动程序和管理数据源的工具软件。
2. OLEDB/ADO连接件
ODBC虽然已经是一个稳定并且执行效率良好的数据连接件,但是存在无法独立运行、不支持非结构化数据、无法支持脚本文件等缺点,因此,Microsoft开发了OLEDB、ADO等连接件,以满足不同需求,如图3-8所示。图3-8ADO、OLEDB以及ODBC之间的关系
3.JDBC连接件
JDBC是Java语言中客户端程序访问数据库的应用程序接口规范,可以为多种关系数据库提供统一访问,由一组用Java语言编写的类和接口组成。与ODBC数据库驱动需要高度规范化与定制化不同,JDBC数据库驱动的实现方式较为灵活,可以通过ODBC桥接、本地驱动与网络驱动等多种方式。
JDBC的设计在思想上沿袭了ODBC,总体结构类似于ODBC。JDBC除了具有ODBC的上述特点外,还支持硬件平台和操作系统的异构性。利用Java的平台无关性,JDBC应用程序拥有更好的跨平台特性,因而更适合异构环境的数据库应用。
3.4.2数据仓库方法
随着信息系统记录管理的数据越来越多,通过数据进行决策支持已经成为必然趋势。利用关系数据库进行联机处理分析仅能解决单一或局部的统计与分析问题。但对于整个领域或行业的宏观决策,涉及的数据和信息范畴较广,这就要同时启动大量数据库表,并且要将众多表中的数据按一定的规律拟合起来,形成针对某一主题的数据内容。如果利用关系数据库进行联机处理分析,则会出现三方面问题:一是数据分析处理会消耗大量计算资源,从而影响业务系统的业务处理效率;二是联机事务处理(On-lineTransactionProcessing,OLTP)缺少针对比较、趋势分析与预测等的数据处理模板,导致开发应用困难;三是会不断积累产生与业务无关的分析数据,影响关系数据库的性能。
因此,数据仓库技术就成为解决上述问题的良好方案。尹蒙(W.H.Inmon)于1993年在《构建数据仓库》(BuildingtheDataWarehouse)中系统地对数据仓库进行了定义:数据仓库是为决策支持服务的,是面向主题的、集成的、相对稳定的、随时间变化的数据集合。数据仓库具备以下特征:
(1)面向主题。传统的数据库是面向应用而设计的,按照业务处理流程来组织数据,一般依托关联关系来描述相关事务与应用,目的在于提高数据处理的速度。
(2)集成性。数据仓库的数据主要用于进行分析决策,要对来自多个应用系统的数据进行抽取、筛选、清理、综合。需要统一原始数据中的所有矛盾,如同名异义、异名同义、单位不统一等,而且要将这些数据统一到数据仓库的数据模式上,还要监视数据源的数据变化,以便扩充和更新数据仓库。
(3)相对稳定。数据仓库稳定性是指数据进入数据仓库以后将被长期保留。仓库内数据主要是为了分析决策,所涉及的数据操作主要是数据查询,一般情况下并不进行数据修改和删除操作。
(4)具备时间特性。由于数据仓库常用作趋势预测分析,因此需要保留足够长时间的历史数据,数据仓库中的数据时间期限远长于传统操作型数据系统中的数据时间期限。传统操作型数据系统中的数据含有“当前值”的数据,这些数据在访问时即使是有效的也能被更新,但数据仓库中的数据是一系列某一时刻生成的快照。传统操作型数据系统中可能包含也可能不包含时间元素,而数据仓库中一定会包含时间元素。
总之,数据仓库的概念可以从两个层次予以理解:首先,数据仓库用于支持决策,面向分析型数据处理,不同于传统操作型数据库;其次,数据仓库是对多个异构的数据源进行有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
1.数据仓库的体系结构
数据仓库一般采用三层结构,如图3-9所示。底层是数据仓库服务器,通过异构数据源的转换集成形成主题数据集;中间层是OLAP(On-lineAnalysisProcessing,联机分析处理)应用工具,针对主题数据集实现多维数据分析;顶层是前端工具,包括查询和报告工具、分析工具或数据挖掘工具。图3-9数据仓库的系统组成
(1)数据源:它来自现有的多项用户管理系统,即内部数据源,也可以来自其他数据源,如其他数据库、电子表格、文档、其他类型的信息库,还包括多种非结构化的数据信息,如业务规则和流程逻辑、整理归纳出的知识经验等。
(2)数据仓库服务器:它支持海量数据存储和快速检索。根据数据仓库的分析主题与处理需求,通过ODBC、OLEDB、ADO、JDBC等数据库中间件访问数据源,设计对数据源进行ETL的处理策略,对数据进行接收、分析、抽取、净化、汇总、变换、存储等操作,从而形成主题数据集。
(3) OLAP服务:OLAP是将预先设定的主题数据集通过各种分析操作,产生多维分析立方体供业务人员分析使用。
(4)前端工具:它面向用户的需求,将分析结果以方便用户理解的方式呈现给用户,以支持用户进行决策,包括各种报表工具、查询工具、数据分析工具、数据挖掘工具及各种基于数据仓库的开发工具。
2.数据仓库的建立
数据仓库的建立从分析业务需求出发,结合现有信息系统数据模型,设计ETL执行策略,形成主题数据库,根据业务分析需求构建OLAP数据处理策略,根据主题进行数据分析,更新数据仓库。建立数据仓库的具体步骤如下:
(1)确定分析的业务主题需求。
(2)设计硬件资源平台。
(3)设计主题数据库策略。
(4)选择商用平台工具。
(5)数据加载和清洗。
(6)根据主题进行数据分析。
(7)更新数据仓库。
3.数据集市
数据集市是完整的数据仓库的一个逻辑子集,而数据仓库正是由其所有的数据集市有机组合而成的。数据仓库是针对企业级的,能为整个企业各个部门的运行提供决策支持手段;数据集市是针对某个部门进行的、范围相对较小的数据仓库。
(1)自上而下的实施。首先在原始数据源的基础上导出数据,建立企业级数据仓库,然后根据需要导出部门和个人仓库。自上而下有利于保证各级数据仓库的一致性,但是周期长、费用高、难度大。在这种形式下,主题数据集和面向应用的数据环境共同构成一个多层次的体系化环境,可以进行从OLTP到决策支持系统的所有应用,如图3-10所示。图3-10自上向下的体系结构
(2)自下而上的实施。首先基于独立部门的定制化需求,建立小型的数据仓库,在此基础上不断进行扩充、完善,最后实现企业级的数据仓库。该方法面向特定需求和应用,规模小、投资小、见效快,可方便部门层次的使用。但需要注意的是,在建立数据集市时要具有全局观念,以便于以后的集成,如图3-11所示。图3-11自下向上的体系结构
3.4.3数据存储模型
数据仓库的数据组织方式可分为基于逻辑视图的虚拟存储、基于关系数据库的存储和基于多维数据库的存储等多种存储模型。
虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门的数据仓库来存储数据,根据用户的分析挖掘需求,设计多维数据库视图,在源数据库中关联所需要的数据表,完成多维分析。这种方式组织比较简单,硬件花费少,用户使用灵活,但是往往会受到源数据库中数据质量的限制,无法规避数据的冗余和冲突,很难为决策服务建立有效的数据支撑。
基于关系数据库的存储方式是将数据仓库的数据存储在关系型数据库的表结构中,在元数据的管理下完成数据仓库的功能。这种组织方式在建库时有两个主要过程,用于完成数据的抽取。首先要提供一种图形化的点击操作界面,使分析员能对源数据库的内容进行选择,定义多维数据模型;然后再编制程序把数据库中的数据抽取到数据仓库的数据库中。
多维数据库的数据组织是直接面向OLAP分析操作的数据组织形式。这种数据库产品比较多,其实现方法不尽相同。其数据组织采用多维数组结构文件进行数据存储,并有多维索引及相应的元数据管理文件,与数据相对应。
1.基于关系数据库的数据存储模型
1)星形模型
大多数基于关系数据库的数据存储模型采用星形模型。数据库中包括一张事实表,另外每一维都有一张维表。事实表中的每条元组都包括指向各个维表的外键和一些相应的测量数据。维表中记录的是有关这一维的属性,如图3-12所示。图3-12星形模型示意图
2)雪花模型
雪花模型是对星形模型的扩展。它对星形模型的维表进一步层次化,原有的各维表被扩展为小的事实表,形成局部的“层次”区域。它的优点是:最大限度地减少数据存储量以及联合较小的维表来改善查询性能。
雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性。但这种方式可以使系统进一步专业化和实用化,同时降低了系统的通用程度。使用数据仓库和OLAP查询工具完成一些简单的二维或三维查询,既满足了用户对复杂数据仓库查询的需求,又能够在无须访问过多数据的情况下完成一些简单查询功能,如图3-13所示。图3-13雪花模型示意图
2.基于多维数据库的数据存储模型
多维数据库的存储模型与多维数据库平台相关性较高,一般采用超立方结构模型。它是将用于分析的数据从关系数据库中抽取出来,存放到多维数据库的超立方结构中。图3-14是该数据存储结构的示例。图3-14多维数据库的数据存储结构示意图
这种多维体是以多维数组方式记录各测量数具体值的,如图3-15所示。图3-15多维数组方式记录各测量数具体值示意图
3.5数据应用技术
3.5.1多维数据分析数据分析技术可以分为联机事务处理OLTP和联机分析处理OLAP两类。OLTP是传统的关系型数据库的主要应用模式,主要面对基本的、日常的事务处理,如增加、删除、修改、查询等处理。但是传统的联机事务处理缺少针对比较、趋势分析与预测等的数据处理模板,无法支持用户对数据决策分析的处理需求,因此出现了OLAP技术。
1. OLAP的基本概念
在OLAP中有维、维的层次、维成员、多维数据集等基本概念。
(1)维。维是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维,如时间维、地理维等。
(2)维的层次。维的层次是人们观察数据的某个特定角度,即维还可以存在细节程度不同的各个描述方面,如时间维还可以分为日期、月份、季度、年等不同的细节。
(3)维成员。维成员是维的一个取值,是数据项在某维中位置的描述,如“某年某月某日”是在时间维上位置的描述。
(4)多维数据集。多维数据集也被称为数据立方体或超立方体,是决策支持的支柱,也是OLAP的核心。在多维数据集中有一组度量值,这些值是基于多维数据集中事实表的一列或多列,这些值应该是数字。度量值是多维数据集的核心值,是最终用户在数据仓库应用中所需要查看的数据。
2. OLAP的主要操作
OLAP的核心是多维分析。OLAP的多维分析使用户从多个角度、多个侧面去观察数据仓库。OLAP系统根据用户的分析需求有不同的操作,主要操作有切片、切块、钻取、旋转等。具体操作内容介绍如下:
(1)切片。切片是指在多维数组的某一维选定一个维成员的动作,如图3-16(a)~(c)所示。切片操作可以降低多维数据集的维度,使人们能将注意力集中在较少的维度上进行观察。
(2)切块。切块是指舍弃一些观察角度,在多维数组对两个及以上的维选定某一区间的维成员的动作,如图3-16(d)所示。切块也可以看成进行多次切片操作以后,将每次切片操作所得到的切片重叠在一起而形成的。图3-16切片与切块示意图
(3)钻取。钻取是改变维的层次,变换分析粒度的动作。钻取包含上钻和下钻。上钻操作通过维的概念分层向上攀升或者通过维规约在数据立方体上进行汇总,以获得概括性的数据。下钻是上钻的逆操作,由不太详细的数据得到更详细的数据。下钻可以沿用维的概念分层向下或引入新的维以及维的层次来实现,以获得细节性的数据,如图3-17所示。图3-17上钻和下钻操作示意图
(4)旋转。旋转是改变一个报告或页面显示的维方向的动作。旋转是一种视图操作,通过旋转可以得到不同视角的数据(如图3-18所示的季度和年的位置交换或层次变换),以用户容易理解的角度来观察数据。图3-18旋转操作示意图
3. MOLAP、ROLAP与HOLAP
OLAP有基于多维数据库的MOLAP(Multi-DimensionalOLAP)、基于关系数据库的ROLAP(RelationalOLAP)和兼顾上述两种方式的HOLAP(HybridOLAP)三种形式。
(1) MOLAP。MOLAP是基于多维数据库的OLAP,以多维数据库的组织方式为核心,数据存储模式使用“立方块(Cube)”结构。
(2) ROLAP。ROLAP是基于关系数据库的OLAP,以关系数据库为核心,以关系型结构进行多维数据的表示和存储。
(3) HOLAP。HOLAP是ROLAP和MOLAP的混合体,将细节数据保留在关系数据库的事实表中,但是聚合后的数据保存在多维数据库的“立方体”中。
4. OLAP与OLTP的特点
OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重于决策支持,并且提供直观易懂的查询结果。OLAP使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映企业特性的信息进行快速、一致、交互的存取与分析。OLAP具有系统反应速度快、可处理与应用有关的任何逻辑分析和统计分析、可提供多维视图与分析支持、稳定的报表性能、公共的数据存储与分析服务等特点。
OLAP的数据来源与OLTP一样来自底层的数据系统,但两者面对的用户群、数据的特点有所不同,如表3-3与表3-4所示。具体内容如下:
(1)应用模式。OLTP是面向基础业务的,用于用户和信息技术专业人员的事务和查询处理;而OLAP是面向决策支持的,用于领导和分析人员的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 生物标志物在药物安全性评价中的价值
- 生物标志物在药物临床试验中的临床意义
- 生物材料编程调控角膜再生的策略
- 生物支架引导的组织再生策略-1
- 生物化学虚拟实验操作标准与规范制定
- 生物制剂失应答的炎症性肠病个体化监测指标
- 生物制剂与免疫抑制剂联合方案
- 深度解析(2026)《GBT 20108-2017低温单元式空调机》
- 康师傅人力资源专员笔试内容大纲含答案
- 生活方式干预对IBD癌变风险的调控作用
- 初中生金融知识
- 流感相关知识试题及答案
- 高二物理《电容、电容器》题型含答案
- 后备干部考试题库及答案2025
- 述职报告个人优势劣势
- 燃气管网输配工程可行性研究报告
- 肉毒素除皱注射课件
- DB61-T5129-2025 陕西省房屋建筑与装饰工程工程量计算标准
- 神奇的加密术教学设计-2025-2026学年初中数学北师大版2024八年级上册-北师大版2024
- 光伏电站生产指标课件
- 转让专利权合同协议模板
评论
0/150
提交评论