BI技术白皮书.doc_第1页
BI技术白皮书.doc_第2页
BI技术白皮书.doc_第3页
BI技术白皮书.doc_第4页
BI技术白皮书.doc_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商业智能 技术白皮书 1 第一章、第一章、数据仓库技术数据仓库技术1 一、一、数据仓库的背景和历史数据仓库的背景和历史1 二、什么是数据仓库二、什么是数据仓库1 三、三、数据仓库的组织结构数据仓库的组织结构2 3.1、数据仓库的逻辑及物理结构.2 3.2、数据仓库系统.2 四、四、数据仓库的物理存储形式数据仓库的物理存储形式3 4.1、基于关系数据库的存储形式、基于关系数据库的存储形式.3 4.2、多维数据库存储形式、多维数据库存储形式.4 4.3、虚拟存储方式、虚拟存储方式.5 4.4、几种存储形式的比较、几种存储形式的比较.5 五、数据集市5 5.1、 数据集市的产生数据集市的产生.5 5.2、 数据集市的概念数据集市的概念.5 5.3、 数据集市的特征数据集市的特征.5 六、数据抽取、转换、清洗(六、数据抽取、转换、清洗(etl)6 6.1、etl的重要性及概念的重要性及概念6 6.2 etl阶段的问题阶段的问题6 第二章、第二章、联机分析技术联机分析技术(olap).8 一、什么是一、什么是 olap8 1.1 、olap的起源的起源8 1.2 、olap的概念的概念8 1.3、olap的分类的分类8 二、二、olap 的多维数据结构的多维数据结构9 2.1、olap的多维数据数据概念的多维数据数据概念9 2.2、olap的多维数据结构的多维数据结构9 三、三、olap 的特点的特点11 四、olap 的功能.11 第三章、第三章、数据挖掘技术数据挖掘技术12 一、什么是数据挖掘一、什么是数据挖掘12 二、数据挖掘的步骤二、数据挖掘的步骤13 三、数据挖掘的模式三、数据挖掘的模式13 四、数据挖掘的方法四、数据挖掘的方法14 第四章、各种技术的结合第四章、各种技术的结合.16 1 数据数据仓库仓库技技术术 一、一、数据仓库的背景和历史数据仓库的背景和历史 随着计算机技术的迅速发展,信息处理技术也得到了长足的发展。计算机系统的功能从数值计算扩 展到信息管理距今已有三十多年了,从 70 年代中期的 mis 系统发展到现代的数据仓库(data warehouse)技术,用辩证的眼光来看,实际上是信息管理的一种回归,是螺旋式的上升。 二十多年来,大量新技术、新思路涌现出来并被用于关系数据库系统的开发和实现,使得关系数 据库系统的处理能力毫不逊色于传统封闭的数据库系统, sql 的使用更使这一切成为不可阻挡的潮流, 加上近些年来计算机硬件的处理能力呈数量级的递增,关系数据库最终成为联机事务处理系统的主宰。 整个 80 年代直到 90 年代初,联机事务处理一直是数据库应用的主流。然而,应用在不断地进步。当联 机事务处理系统应用到一定阶段的时候,企业家们便发现单靠拥有联机事务处理系统已经不足以获得 市场竞争的优势,他们需要对其自身业务的运作以及整个市场相关行业的态势进行分析,而做出有利 的决策。这种决策需要对大量的业务数据包括历史业务数据进行分析才能得到。在如今这样激烈的市 场竞争环境下,这种基于业务数据的决策分析我们把它称之为联机分析处理比以往任何时候 都显得更为重要。 其实,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作 中,人们却发现要获得有用的信息并非如想像的那么容易:第一,所有联机事务处理强调的是密集的数 据更新处理性能和系统的可靠性,并不关心数据查询的方便与快捷。联机分析和事务处理对系统的要求 不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一 查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第 三,业务数据的模式针对事务处理系 统而设计,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。因此有人感叹: 20 年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们 设想专门为业务的统计分析建立一个数据中心,它的数据从联机的事务处理系统中来、从异构的外部数 据源来、从脱机的历史业务数据中来。这个数据中心是一个联机的系统,它是专门为分析统计和决策支 持应用服务的,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。 二、什么是数据仓库二、什么是数据仓库 数据仓库的概念在 90 年代初被提出来,以 prism solutions 公司副总裁 w.h.inmon 在 1990 年出版 的建立数据仓库(building the data warehouse)一书为标志。w. h. inmon 对数据仓库的定义为:数据仓 库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。这也就是说:数据仓库 就是一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问 题就是从数据库中获取信息的问题。 主题是数据仓库中数据归类的标准,每个主题对应一个客观分析领域,如客户、商店等,它可为辅 助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的 数据是极少更新的。 数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,首先要统一原始数 据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转变。数据仓库的稳定性是指数 据经加工和集成进入数据仓库后是极少或根本不修改的。数据仓库是不同时间的数据集合,它要求数据 仓库中的数据保存时限能满足进行决策分析的需要。 从数据组织的角度来说,数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据, 先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又可分为轻度综 合层和高度综合层)。其最根本的特点是物理地存放数据,但这些数据并不是最新的、专有的,而是来源 于其它数据库。数据仓库内的数据时限为 5 年至 10 年,主要用于进行时间趋势分析。数据仓库的数据量 很大,一般为 10gb 左右。它是一般数据库(100mb)数据量的 100 倍,大型数据仓库达到 tb 级。 三、三、 数据仓库的组织结构数据仓库的组织结构 3.1、数据仓库的逻辑及物理结构 数据仓库作为存储数据的一种组织形式,随着时间的推移,数据仓库的时间控制机制将当前基 本数据层转为历史数据层。可见数据仓库中逻辑结构数据由 3 层到 4 层数据组成,它们均由元数据 (meta data)组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式)和 基于关系数据库组织形式(由关系型事实表和维表组成)。以下是数据仓库的技术体系结构图 3.2、数据仓库系统 数据仓库系统(dws)由源数据、仓库管理和分析工具三部分组成。如下图: 信息目录模 块 数据仓库之 元数据 数据管理员 模块 数据仓库之 数据 数据获 取模块 数据传 递模块 中间件 模块 数据访 问模块 设计模 块 管理模块 外部元数据 源数据外部数据 源数据源数据仓库仓库管理管理 分析工具分析工具 源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种文档之类 的外部数据。 仓库管理:在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的 数据抽取、清理和转换过程,最后划分维数及确定数据仓库的物理存储结构。元数据是数据仓库的核心, 它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信息等。仓库管理包括对数据的安全、 归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统(dbms)的功能。 分析工具:用于完成实际决策问题所需的各种查询检索工具、多维数据的 olap 分析工具、数据开 采 dm 工具等,以实现决策支持系统的各种要求。 四、四、 数据仓库的物理存储形式数据仓库的物理存储形式 数据仓库中数据的物理存储形式分为:基于关系数据库存储形式(由关系型事实表和维表组成)、多 维数据库存储形式(空间超立方体形式)和虚拟存储形式。 4.1、基于关系数据、基于关系数据库库的存的存储储形式形式 基于关系数据库的存储形式就是将多维数据库的多维结构划分为两类表:一类是事实表,用来存储 数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信 息。维表和事实表通过主关键字和外关键字联系在一起,形成“星型模式”。对于层次复杂的维,为避免 冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为“雪花模式”。 星型模式(starschema)存在数据冗余、多维操作速度慢的缺点。但这种方式是主流方案,大多数数据 仓库集成方案都采用这种形式。如下图: 星型模式星型模式 雪花模式(snowflake schema)的优点是:通过最大限度地减少数据存储量以及联合较小的维表来改善 查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性。如下图: 雪花模型雪花模型 4.2、多、多维维数据数据库库存存储储形式形式 多维数据库(multidimesional database,mddb)存储形式就是以多维的方式存储数据,以多维的方 式来显示数据,即将数据存放在一个 n 维数组中,而不是像关系数据库那样以记录的形式存放。 “维”是人 们观察客观世界的角度,是一种高层次的类型划分。 “维”一般包含着层次关系。多维数据在存储中将形成 “超立方块(hypercube)”的结构。超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大, 数据的维数更少,并可加入额外的分析维。 当使用多维数据库作为数据仓库的基本数据存储形式时,其最主要的特点是:大大减少了以维为基 本框架的存储空间,针对多维数据组织的操作算法,极大地提高了多维分析操作的效率。 4.3、虚、虚拟拟存存储储方式方式 虚拟存储方式是虚拟数据仓库的数据组织形式。它没有专门的数据仓库来存储数据,只是把指针存 储于中心位置,而数据仍然在源数据库中,只是根据用户的多维需求及形成的多维视图,临时在源数据 库中找出所需要的数据,完成多维分析,数据源可以被实时地组合、传输和显示,而不必进行数据移动 和复制,对于数据源也无须做任何改变。它让用户既能实时地看到历史数据,同时也能实时地看到当前 数据,而不是像过去那样只看到历史数据。 4.4、几种存、几种存储储形式的比形式的比较较 多维数据库对多维概念表达清楚,占用的存储空间较小,而且数据的综合速度高,这些方面具有关 系数据库无法比拟的优势,它也存在一些缺点:一是多维数据库管理系统缺乏标准;另一个问题是多维 数据库管理大规模数据库的能力不够强大。 基于关系数据库的存储形式,在灵活性和处理大规模数据的能力上完全可以满足数据仓库的需要。 其不足在于数据库中存放了大量的细节数据和相对较少的综合数据,需要以牺牲效率为代价动态地综 合数据。 虚拟存储形式虽然较简单、花费少、使用灵活,但同时它也存在一个致命的缺点,即只有当源数据 库的数据组织比较规范、没有数据不完备及冗余,同时又比较接近多维数据模型时,虚拟数据仓库的多 维语义层才容易定义,在实际中这种方式很难建立起有效的决策服务数据支持。 由于多维数据库管理系统及虚拟数据仓库技术的相对不成熟,关系数据库系统的广泛应用 ,目前 在数据仓库市场上基于关系数据库的存储形式占据着主流地位。 五、数据集市 5.1、 、 数据集市的数据集市的产产生生 数据仓库的工作范围和成本常常是巨大的。信息技术部门必须针对所有的用户并以整个企业的眼光 对待任何一次决策分析。这样就形成了代价很高、时间较长的大项目。因此更紧凑集成的、拥有完整图 形接口且价格更具吸引力的工具即数据集市(data marts)应运而生。目前,全世界对数据仓库总投资的 一半以上均集中在数据集市上。 5.2、 、 数据集市的概念数据集市的概念 数据集市是一种更小、更集中的数据仓库,是为企业提供分析商业数据的一条廉价途径。它是具有 特定应用的数据仓库,主要针对某个具有战略意义的应用或具体部门级的应用,它支持客户利用已有的 数据获得重要的竞争优势或找到进入新市场的解决方案。 5.3、 、 数据集市的特征数据集市的特征 数据集市的特征包括:规模小;有特定的应用;面向部门;由业务部门定义、设计和开发;业务部门管 理和维护;能快速实现;购买较便宜;投资快速回收;工具集的紧密集成;提供更详细的、预先存在的、数 据仓库的摘要子集;可升级到完整的数据仓库。 六、数据抽取、转换、清洗(六、数据抽取、转换、清洗(etl) 6.1、 、etl 的重要性及概念的重要性及概念 我们可以这样给 etl 下个定义,即 etl 是数据抽取(extract)、转换(transform)、清洗(cleansing)、 装载(load)的过程。构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按 照预先定义好的数据仓库模型,将数据加载到数据仓库中去。它关系到数据仓库的持续发展问题,因为 当数据仓库进一步发展时,如果完善、精确、可预见的数据来源得不到保障的话,就将成为阻碍数据仓 库发展的最大的障碍。 6.2 etl 阶阶段的段的问题问题 整个数据仓库的建设如果按照其不同性质,可奖它分为三个截然不同的部分,分别是:源数据、数据 准备、以及数据呈现,而 etl 横跨数据源和数据准备,而我们常说的的 olap 分析和决策支持等,都是 属于数据呈现的部分。在 etl 阶段,需要经过许多步骤,如下图所示: 在 etl 阶段,有几个重要的问题: 数据的有效性数据的有效性检查检查 为避免数据冗余,要认识到数据装入数据仓库之前,应该对数据进行有效性检查,这是很重要的。 如果没有进行数据的有效性检查,就有可能破坏依赖于数据仓库的商务分析的完整性,帮助检查数据的 有效性的最好方法是源系统专家。源系统专家包括具有技术专业知识和非技术知识的人士。 清除和清除和转换转换数据数据 有效性检查是决定是否符合给定标准的过程。标准是依赖于制订的,为某个站点开发和执行的标准 可能在其他地方毫无意义。如果数据不在给定的界限之内,它就成为我们称作 scrubbing(清除)过程的对 象。清除数据包括对那些在给定范围之外的数据采取纠正措施。 数据仓库中的数据来自于多种业务数据源,这些数据源可能是在不同的硬件平台上,使用不同的操 作系统,因而数据以不同的格式存在不同的数据库中。如何向数据仓库中加载这些数量大、种类多的数 据,已成为建立数据仓库所面临的一个关键问题。 在转换结构中,确保能找出一种最好的方法保证数据从传统的数据存储器到数据仓库的同步。同步 结构应当把重点放在转换语言的标准化、数据移动平台、通信策略和支持策略方面。数据仓库与操作数 据存储器之间的同步过程能够采取不同的结构。 除寻找自动化转换操作的工具之外,还应估计数据转换的复杂性。大多数传统的数据存储方法缺乏 标准,常常有些不规则的东西让开发员摸不着头脑。工具正在不断改进以有助于转换过程的自动化,包 括复杂问题,如掩匿的数据、传统标准的缺乏及不统一的关键数据。 我们可以定义数据变换的几个基本类型,每一类都有自己的特点和表现形式: 简单变换简单变换 顾名思义,它是数据变换中最简单的形式,这些变换一次改变一个数据属性而不考虑该属性的背景 或与它相关的其他信息。包括数据类型转换,日期/时间格式的转换,字段解码。 清清洁洁和刷洗和刷洗 清洁和刷洗是两个可互换的术语,指的是比简单变换更复杂的一种数据变换。在这种变换中,要检 查的是字段或字段组的实际内容而不仅是存储格式。一种清洁是检查数据字段中的有效值。这可以通过 范围检验、枚举清单和相关检验来完成,重新格式化也是一个主要方法。 集成集成 要把从全然不同的数据源中得到的业务数据结合在一起,真正的困难在于将它们集成为一个紧密 结合的数据模型。这是因为数据必须从多个数据源中提取出来,并结合成为一个新的实体。这些数据来 源往往遵守的不是同一套业务规则,在生成新数据时,必须考虑到这一差异。 聚集和概括聚集和概括 大多数数据仓库都要用到数据的某种聚集和概括。这通常有助于将某一实体的实例数目减少到易 于驾驭的水平,也有助于预先计算出广泛应用的概括数字,以使每个查询不必计算它们。概括是指按照 一个或几个业务维将相近的数值加在一起。聚集指将不同业务元素加在一起或为一个公共总数。在数据 仓库中它们是以相同的方式进行的。 数据仓库中存放的最具体的数据不与业务系统中存放的细节数据一样聚集。这时,就有必要在变换 业务数据的过程中加入一些数据聚集功能。这可以减少存储在数据仓库中的行数。 聚集还可以去除数据仓库中的过时细节。在许多情况下,数据在一定时期内要以很具体的水平存放 着,一旦数据到了某一时限,对所有这些细节的需求就大大减弱了。此时,这些非常具体的数据应该传 送到离线存储器或近线存储器中,而数据的概括形式则可以存放在数据仓库中。 目前可以得到的数据刷洗工具中,许多都已内置了概括功能,尤其是在时间维上进行聚集的功能。 当然,不管如何做到这一点,重要的是用户能够轻松地访问元数据,了解生成总和数据所用的标准。 移移动动数据数据 将数据移出操作系统一般包括:在数据最终复制到数据仓库之前,将它们拷贝到一个中间位置。理 想状况下,拷贝数据的过程应该在操作系统不忙时进行。确保了解自己的商务及其支持系统。如果还未 完成大量的更新,就不应该移动数据。如果数据仓库中的数据来自多个相互关联的操作系统,就应该保 证在这些系统同步工作时移动数据。 1 联联机分析技机分析技术术(olap) 一、什么是一、什么是 olap 1.1 、 、olap 的起源的起源 联机分析处理(on-line analytical process olap)的概念最早是由关系数据库之父 e.f.codd 于 1993 年提出的。当时,codd 认为联机事务处理(oltp)已不能满足终端用户对数据库查询分析的需要,sql 对 大数据库进行的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计 算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此 codd 提出了多维数据库和多维分 析的概念,即 olap。 到 90 年代中期,数据仓库已经形成潮流。在美国,数据仓库已成为紧次于 internet 之后的又一技术 热点。随着数据仓库的发展,olap 也得到了迅猛的发展。数据仓库侧重于存储和管理面向决策主题的 数据;而 olap 则侧重于数据仓库中的数据分析,并将其转换成辅助决策信息。olap 的一个重要特点 是多维数据分析,这与数据仓库的多维数据组织正好形成相互结合、相互补充的关系。olap 技术中比 较典型的应用是对多维数据的切片和切块、钻取、旋转等,它便于使用者从不同角度提取有关数据。 olap 技术还能够利用分析过程对数据进行深入分析和加工。例如,关键指标数据常常用代数方程进行 处理,更复杂的分析则需要建立模型进行计算 1.2 、 、olap 的概念的概念 根据 olap 委员会的定义,olap 是使分析人员、管理人员或执行人员能够从多种角度对从原始数 据中转化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行快速、一致、交互地存取, 从而获得对数据的更深入了解的一类软件技术。olap 技术是对由语义动态对象建立的、以动态微立方 结构形式存储的表进行向下钻取、向上钻取、跨越钻取、切片和切块等操作。olap 的目标是满足决策支 持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此 olap 也可以说是多维数据 分析工具的集合,是数据仓库中大容量数据得以有效利用的重要保障。其基本思想是:企业的决策者应 能灵活地操纵企业的数据,以多维的形式从多方面和多角度来观察企业的状态、了解企业的变化。 1.3、 、olap 的分的分类类 可以在两个层面上对 olap 进行分类,按照存储方式的不同,可将 olap 分成 rolap、molap 和 holap;按照处理地点的不同,可将 olap 分成 server olap 和 client olap。 rolap 基于 codd 的 12 条准则,各个软件开发厂家见仁见智,其中一个流派,认为可以沿用关系 型数据库来存储多维数据,于是,基于稀疏矩阵表示方法的星型结构(starschema)就出现了。后来又演化 出雪花结构。为了与多维数据库相区别,则把基于关系型数据库的 olap 称为 relational olap,简称 rolap。代表产品有 informix metacube、microsoft sql server olap services.。rolap 采用“ 星型模式“ 来组织关系数据库数据很好地解决多维分析的问题。“星型模式“只不过是数据库设计中数据表之间的一 种关联形式,它的巧妙之处在于能够 找到一个固定的算法将用户的多维查询请求转换成针对该数据模 式的标准 sql 语句,而且该语句是最优化的。“星型模式“的应用为关系数据库在数据仓库领域大开绿灯。 是数据仓库处理大规模的数据提供了极大的伸缩性。 rolap 的优势:没有大小限制;现有的关系数据库的技术可以沿用;可以通过 sql 实现详细数据与 概要数据的储存;现有关系型数据库已经对 olap 做了很多优化,包括并行存储、并行查询、并行数据 管理、基于成本的查询优化、位图索引、sql 的 olap 扩展等大大提高了 roalp 的速度;可以针对 smp 或 mpp 的结构进行查询优化。 rolap 的缺点:一般比 mdd 响应速度慢;只读、不支持有关预算的读写操作;sql 无法完成部分 计算,主要是无法完成多行的计算,无法完成维之间的计算。 molap 严格遵照 codd 的定义,自行建立了多维数据库,来存放联机分析系统数据。arbor software,开创了多维数据存储的先河,后来的很多家公司纷纷采用多维数据存储。被人们称为 muiltdimension olap,简称 molap,代表产品有 hyperion(原 arbor software) essbase、showcase strategy 等。molap 在针对小型的多维分析应用有较好的效果,但它缺少关系数据库所拥有的并行 处理及大规模数据管理扩展性,因此难以承担大型数据仓库应用。 molap 的优势:性能好、响应速度快;专为 olap 所设计;支持高性能的决策支持计算;复杂的跨维 计算;多用户的读写操作;行级的计算。 molap 的缺点:增加系统复杂度,增加系统培训与维护费用;受操作系统平台中文件大小的限制, 难以达到 tb 级;需要进行预计算,可能导致数据爆炸;无法支持维的动态变化;缺乏数据模型和数据访 问的标准。 holap 鉴于 rolap 和 molap 都有这样那样的缺点,于是产生了 holap 这种 olap 模型,它 综合了 rolap 和 molap 的优点。它将常用的数据存储为 molap,不常用或临时的数据存储为 rolap,这样就兼顾了 rolap 的伸缩性和 molap 的灵活、纯粹的特点。 clientolap 又称 diskolap 相对于 server olap 而言。部分分析工具厂家建议把部分数据下载到 本地,为用户提供本地的多维分析。代表产品有 brio designer, business object.clientolap 提供了有别以 传统 olap 的实时性和极大的灵活. 二、二、olap 的多维数据结构的多维数据结构 2.1、 、olap 的多的多维维数据数据概念数据数据概念 多维结构是 olap 的核心。olap 展现在用户面前的是一幅幅多维视图。 1、 、维维 假定某某是个百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店或流通渠道,更具 体一点,如品牌、月份、地区等。对某一给定的商品,也许他想知道该商品在哪个商店和哪段时间的销售 情况。对某一商店,也许他想知道哪个商品在哪段时间的销售情况。在某一时间,也许他想知道哪个商 店哪种产品的销售情况。因此,他需要决策支持来帮助制定销售政策。 这里,商店、时间和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。维 就是相同类数据的集合,也可以理解为变量。而每个商店、每段时间、每种商品都是某一维的一个成员。 每个销售事实由一个特定的商店、特定的时间和特定的商品组成。 维有自己固有的属性,如层次结构(对数据进行聚合分析时要用到)、排序(定义变量时要用到)、计 算逻辑(是基于矩阵的算法,可有效地指定规则)。这些属性对进行决策支持是非常有用的。 2、多、多维维性性 人们很容易理解一个二维表(如通常的电子表格),对于三维立方体同样也容易理解。olap 通常将 三维立方体的数据进行切片,显示三维的某一平面。如一个立方体有时间维、商品维、收入维,其图形很 容易在屏幕上显示出来并进行切片。但是要加一维(如加入商店维),则图形很难想象,也不容易在屏幕 上画出来。要突破三维的障碍,就必须理解逻辑维和物理维的差异。olap 的多维分析视图就是冲破了 物理的三维概念,采用了旋转、嵌套、切片、钻取和高维可视化技术,在屏幕上展示多维视图的结构,使 用户直观地理解、分析数据,进行决策支持。 2.2、 、olap 的多的多维维数据数据结结构构 数据在多维空间中的分布总是稀疏的、不均匀的。在事件发生的位置,数据聚合在一起,其密度很 大。因此,olap 系统的开发者要设法解决多维数据空间的数据稀疏和数据聚合问题。事实上,有许多方 法可以构造多维数据。 1超立方超立方结结构构 超立方结构(hypercube)指用三维或更多的维数来描述一个对象,每个维彼此垂直。数据的测量值发 生在维的交叉点上,数据空间的各个部分都有相同的维属性。 这种结构可应用在多维数据库和面向关系数据库的 olap 系统中,其主要特点是简化终端用户的操 作。 超立方结构有一种变形,即收缩超立方结构。这种结构的数据密度更大,数据的维数更少,并可加入 额外的分析维。 2多立方多立方结结构构 在多立方结构(multicube)中,将大的数据结构分成多个多维结构。这些多维结构是大数据维数的子 集,面向某一特定应用对维进行分割,即将超立方结构变为子立方结构。它具有很强的灵活性,提高了 数据(特别是稀疏数据)的分析效率。 一般来说,多立方结构灵活性较大,但超立方结构更易于理解。终端用户更容易接近超立方结构,它 可以提供高水平的报告和多维视图。但具有多维分析经验的 mis 专家更喜欢多立方结构,因为它具有良 好的视图翻转性和灵活性。多立方结构是存储稀疏矩阵的一个更有效方法,并能减少计算量。因此,复 杂的系统及预先建立的通用应用倾向于使用多立方结构,以使数据结构能更好地得到调整,满足常用的 应用需求。 许多产品结合了上述两种结构,它们的数据物理结构是多立方结构,但却利用超立方结构来进行计 算,结合了超立方结构的简化性和多立方结构的旋转存储特性。 3 活活动动数据的存数据的存储储 用户对某个应用所提取的数据称为活动数据,它的存储有以下三种形式: ( (1)关系数据)关系数据库库 如果数据来源于关系数据库,则活动数据被存储在关系数据库中。在大部分情况下,数据以星型结 构或雪花结构进行存储。如下图: ( (2)多)多维维数据数据库库 在这种情况下,活动数据被存储在服务器上的多维数据库中,包括来自关系数据库和终端用户的数 据。通常,数据库存储在硬盘上,但为了获得更高的性能,某些产品允许多维数据结构存储在 ram 上。 有些数据被提前计算,计算结果以数组形式进行存储。如下图: ( (3)基于客)基于客户户的文件的文件 在这种情况下,可以提取相对少的数据放在客户机的文件上。这些数据可预先建立,如 web 文件。与 服务器上的多维数据库一样,活动数据可放在磁盘或 ram 上。 这三种存储形式有不同的性能,其中关系数据库的处理速度大大低于其他两种。 4 olap 数据的数据的处处理方式理方式 olap 有三种数据处理方法。事实上,多维数据计算不需要在数据存储位置上进行。 ( (1)关系数据)关系数据库库 即使活动的 olap 数据存储在关系数据库中,采用在关系数据库上完成复杂的多维计算也不是较好 的选择。因为 sql 的单语句并不具备完成多维计算的能力,要获得哪怕是最普通的多维计算功能也需 要多重 sql。在许多情况下,一些 olap 工具用 sql 做一些计算,然后将计算结果作为多维引擎输入。 多维引擎在客户机或中层服务器上做大部分的计算工作,这样就可以利用 ram 来存储数据,提高响应 速度。 ( (2)多)多维维服服务务引擎引擎 大部分 olap 应用在多维服务引擎上完成多维计算,并且具有良好的性能。因为这种方式可以同时 优化引擎和数据库,而服务器上充分的内存为有效地计算大量数组提供了保证。 ( (3)客)客户户机机 在客户机上进行计算,要求用户具备性能良好的 pc 机,以此完成部分或大部分的多维计算。对于日 益增多的瘦型客户机,olap 产品将把基于客户机的处理移到新的 web 应用服务器上 三、三、olap 的特点的特点 3.1 快速性快速性 用户对 olap 的快速反应能力有很高的要求。系统应能在 5 秒内对用户的大部分分析要求做出反应。 如果终端用户在 30 秒内没有得到系统响应就会变得不耐烦,因而可能失去分析主线索,影响分析质量。 对于大量的数据分析要达到这个速度并不容,因此就更需要一些技术上的支持,如专门的数据存储格式、 大量的事先运算、特别的硬件设计等。 3.2 可分析性可分析性 olap 系统应能处理与应用有关的任何逻辑分析和统计分析。尽管系统需要事先编程,但并不意味 着系统已定义好了所有的应用。用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以 用户理想的方式给出报告。用户可以在 olap 平台上进行数据分析,也可以连接到其他外部分析工具上, 如时间序列分析工具、成本分配工具、意外报警、数据开采等。 3.3 多多维维性性 多维性是 olap 的关键属性。系统必须提供对数据分析的多维视图和分析,包括对层次维和多重层 次维的完全支持。事实上,多维分析是分析企业数据最有效的方法,是 olap 的灵魂。 3.4 信息性信息性 不论数据量有多大,也不管数据存储在何处,olap 系统应能及时获得信息,并且管理大容量信息。 这里有许多因素需要考虑,如数据的可复制性、可利用的磁盘空间、olap 产品的性能及与数据仓库的 结合度等。 四、olap 的功能 4.1、 、 对对数据的多数据的多维维分析分析 多维观察是实际业务模型固有的要求,olap 应用能够从一种自然的、合乎人的思维心理的角度来 灵活地观察、访问多维数据,为对事情的分析处理提供良好的基础。产生多维数据报表的主要技术就是 “旋转”、 “切块”、 “切片”、 “上钻”和“下钻”等。 旋转(pivoting): 即将表格的横、纵坐标交换(x,y)(y,x),通过旋转可以得到不同视角的数据。 切片和切块(slice and dice): 主要根据维的限定做投影、选择等数据库操作从而获取数据。 上钻和下钻(roll up or drill down):钻取是用户获得详细数据的手段。它一般能回答为什么的问题。 一层一层的钻取使我们能快速而准确的定位到问题所在。钻取的深度与维所划分的层次相对应。 4.2、复、复杂杂的的计计算能力算能力 对分析过程来说,常需要对数据进行深入的加工,把数据简单陈列给管理人员是不够的。olap 系 统能够提供丰富多样、功能强大的计算工具,但同时方法又简单明了,并且是非过程(non-procedural)的, 从而可以及时完成系统的改变访问到即时信息。 4.3、 、时间时间智能智能 对任何分析应用程序来说,时间都是不可缺少的一个因素。时间只有一维,因为它只能从前往后延 伸。olap 系统能够很好的理解时间的这种序列特性。由于 olap 系统中对时间的智能管理,从而使得 不同年份的同期比较和同一年份的期间比较等,成为很容易定义的事情。 第三章、第三章、 数据挖掘技数据挖掘技术术 一、什么是数据挖掘一、什么是数据挖掘 1.1、数据挖掘的、数据挖掘的历历史史 近十几年来,人们利用信息技术生产和搜集数据的能力大幅度提高,千万万个数据库被用于商业管理、 政府办公、科学研究和工程开发等等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这 被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹 没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它 为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。因此,面对“ 人们被数据淹没,人们却饥饿于知识“的挑战。另一方面计算机技术的另一领域人工智能自 1956 年 诞生之后取得了重大进展。经历了博弈时期、自然语言理解、知识工程等阶段,目前的研究 热点是机器 学习。机器学习是用计算机模拟人类学习的一门科学,比较成熟的算法有神经网络、遗传算法等。用数 据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后的知识,这两者的结合促 成了数据库中的知识发现(kdd:knowledge discovery in databases)的产生,因此,数据挖掘和知识发现 (dmkd)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。 数据挖掘又称从数据库中发现知识(kdd)、数据分析、数据融合(data fusion)以及决策支持。kdd 一词首次出现在 1989 年 8 月举行的第 11 届国际联合人工智能学术会议上。随后在 1991 年、1993 年和 1994 年都举行 kdd 专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海 量数据分析算 法、知识表示、知识运用等问题。随着参与人员的不断增多,kdd 国际会议发展成为年 会。1998 年在美国纽约举行的第四届知识发现与数据 挖掘国际学术会议不仅进行了学术讨论,并且有 30 多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。 2.2 数据挖掘的概念数据挖掘的概念 从 1989 年到现在,kdd 的定义随着人们研究的不断深入也在不断完善,目前比较公认的定义是 fayyad 等给出的:kdd 是从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解模式的高级 处理过程。从定义可以看出,数据挖掘(data mining)就是从大量的、不完全的、有噪声的、模糊的、随机的 数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。人们把原始数据 看作是形成知识的源泉,就像从矿石中采矿一样。原始数据可以是结构化的,如关系数据库中的数据,也可 以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数 学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、 决策支持、过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门很广义的交叉学科,它汇聚了 不同领域的研究者,尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人 员。 特别要指出的是,数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查 询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解, 企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。 一般来说在科研领域中称为 kdd,而在工程领域则称为数据挖掘。 二、数据挖掘的步骤二、数据挖掘的步骤 kdd 包括以下步骤: 2.1、数据准数据准备备 kdd 的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不 适合直接在这些数据上面进行知识挖 掘,需要做数据准备工作,一般包括数据的选择(选择相关的数据) 、净化(消除噪音、冗余数据)、推测(推算缺失数据)、转换(离散值 数据与连续值数据之间的相互转换, 数据值的分组分类,数据项之间的计算组合等)、数据缩减(减少数据量)。如果 kdd 的对象是数据仓 库,那么这些工作往往在生成数据仓库时已经准备妥当。数据准备是 kdd 的第一个步骤,也是比较重 要的一个步骤。数据准备是否做好将影 响到数据挖掘的效率和准确度以及最终模式的有效性。 2.2、数据挖掘、数据挖掘 数据挖掘是 kdd 最关键的步骤,也是技术难点所在。研究 kdd 的人员中大部分都在研究数据挖 掘技术,采用较多的技术有决策树、分类、 聚类、粗糙集、关联规则、神经网络、遗传算法等。数据挖掘 根据 kdd 的目标,选取相应算法的参数,分析数据,得到可能形成知识的模式 模型。 2.3、 、评评估、解估、解释释模式模型模式模型 上面得到的模式模型,有可能是没有实际意义或没有实用价值的,也有可能是其不能准确反映数据 的真实意义,甚至在某些情况下是与事 实相反的,因此需要评估,确定哪些是有效的、有用的模式。评 估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。 这个步骤还包括把模式以 易于理解的方式呈现给用户。 2.4、巩固知、巩固知识识 用户理解的、并被认为是符合实际和有价值的模式模型形成了知识。同时还要注意对知识做一 致性检查,解决与以前得到的知识互相冲 突、矛盾的地方,使知识得到巩固。 2.5、运用知、运用知识识 发现知识是为了运用,如何使知识能被运用也是 kdd 的步骤之一。运用知识有两种方法:一种是 只需看知识本身所描述的关系或结果,就 可以对决策提供支持;另一种是要求对新的数据运用知识,由 此可能产生新的问题,而需要对知识做进一步的优化 三、三、数据挖掘的数据挖掘的模式模式 数据挖掘的任务是从数据中发现模式。模式是一个用语言 l 来表示的一个表达式 e,它可用来描述 数据集 f 中数据的特性,e 所描述的数据是集 合 f 的一个子集 fe。e 作为一个模式要求它比列举数据 子集 fe 中所有元素的描述方法简单。例如, “如果成绩在 81 90 之间,则成绩优良”可称 为一个模式, 而“如果成绩为 81、82、83、84、85、86、87、88、89 或 90,则成绩优良”就不能称之为一个模式。 模式有很多种,按功能可分有两大类:预测型(predictive)模式和描述型(descriptive)模式。 预测型模式是可以根据数据项的值精确确定某种结果的模式。挖掘预测型模式所使用的数据也都 是可以明确知道结果的。例如,根据各种 动物的资料,可以建立这样的模式:凡是胎生的动物都是哺乳 类动物。当有新的动物资料时,就可以根据这个模式判别此动物是否是哺乳动物。 描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组。描述型模式不 能直接用于预测。例如,在地球上,70 的表面被水覆盖,30 是土地。 在实际应用中,往往根据模式的实际作用细分为以下 6 种: 1、分、分类类模式模式 分类模式是一个分类函数( 分 类 器),能够把数据集中的数据项映射到某个给定的类上。分类模 式往往表现为一棵分类树,根据数据的 值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能 确定类别。 2、回、回归归模式模式 回归模式的函数定义与分类模式相似,它们的差别在于分类模式的预测值是离散的,回归模式的预 测值是连续的。如给出某种动物的特征,可以用分类模式判定这种动物是哺乳动物还是鸟类;给出某个 人的教育情况、工作经验,可以用回归模式判定这个人的年工资在哪个范围内,是在 6000 元以下,还是 在 6000 元到 1 万元之间,还是在 1 万元以上。 3、 、时间时间序列模式序列模式 时间序列模式根据数据随时间变化的趋势预测将来的值。这里要考虑到时间的特殊性质,像一些周 期性的时间定义如星期、月、季节、年 等,不同的日子如节假日可能造成的影响,日期本身的计算方法, 还有一些需要特殊考虑的地方如时间前后的相关性(过去的事情对将来有 多大的影响力)等。只有充分 考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。 4、聚、聚类类模式模式 聚类模式把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小。与分类模式不 同,进行聚类前并不知道将要划分成几 个组和什么样的组,也不知道根据哪一(几)个数据项来定义组。 一般来说,业务知识丰富的人应该可以理解这些组的含义,如果产生的模式无法理解或不可用,则该模 式可能是无意义的,需要回到上阶段重新组织数据。 5、关、关联联模式模式 关联模式是数据项之间的关联规则。关联规则是如下形式的一种规则:“在无力偿还贷款的人当中, 60的人的月收入在 3000 元以下。 ” 6、序列模式、序列模式 序列模式与关联模式相仿,而把数据之间的关联性与时间联系起来。为了发现序列模式,不仅需要 知道事件是否发生,而且需要确定事件 发生的时间。例如,在购买彩电的人们当中,60的人会在 3 个 月内购买影碟机 四、数据挖掘的方法四、数据挖掘的方法 4.1、多、多层层次数据次数据汇总归纳汇总归纳 数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合归纳成高概念层次信息 的数据挖掘技术被称为数据汇总(data generalization) 。概念汇总将数据库中的相关数据由低概念层抽 象到高概念层,主要有数据立方体和面向属性两种方法。 1、数据立方体(多维数据库)方法的主要思想是将那些经常查询、代价高昂的运算,如 count、sum、average、max、min 等汇总函数具体化,并存储在一个多维数据库中,为决策支持、知识发现 及其它应用服务。 2、面向属性的抽取方法用一种类 sql 数据采掘查询语言表达查询要求,收集相关数据,并利用属性 删除、概念层次树、门槛控制、数量传播及集合函数等技术进行数据汇总。汇总数据用汇总关系表示,可 以将数据转化为不同类型的知识,或将其映射成不同的表,并从中抽取特征、判别式、分类等相关规则。 面向属性抽取的概念层次树是指某属性所具有的从具体概念值到某概念类的层次关系树。概念层次可 由相关领域专家根据属性的领域知识提供,按特定属性的概念层次从一般到具体排序。树的根结点是用 any 表示最一般的概念,叶结点是最具体的概念即属性的具体值,例如属性 city 的概念层次树如图 4 所 示。概念层次为归纳分析提供有用信息,将概念组织为不同层次,从而在高概念层次上用简单、确切的公 式表示规则。 cai cencone 利用属性值的概念层次关系,提出了面向属性的树提升算法,并得到一阶谓词逻辑表示 的规则。面向属性的树提升方法主要是对目标类所有元组的属性值由低到高提升,使原来若干属性值不 同的元组成为相同元组,进行合并,直到全部元组不超过最大规则数,再将其转化为一阶谓词逻辑表示的 规则。 与面向元组的归纳方法相比,面向属性的归纳方法搜索空间减少,运行效率显著提高 ;对冗余元组的 测试在概括属性的所有值后进行,提高了测试效率;最坏时间复杂性为 o(n logp),n 为元组个数,p 为最终 概括关系表中的元组个数。处理过程可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论