




已阅读5页,还剩60页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据仓库的信息系统实现技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
abs t ract w wi t h t h e r a p i d d e v e l o p m e n t o f i n f r o m a t i o n t e c h n o l o g y a n d t h e w i d e l y a p p l i c a t i o n o f ma n a g e m e n t i n f o r m a t i o n s y s t e m( 叼 i s ) , m o r e a n d m o r e d a t a a r e d e p o s it i n t h e e n t e r p r i s e s d a t e b a s e . a l o t s o f i m p o rt a n t i n f o r m a t i o n a r e h i d e w it h i n t h e d a t a ,,i n o r d e r t o m a k e m o r e f a i r l y u s e o f t h a t d a t a , p e o p l e d e s i r e t o m a k e h i g h l e v e l a n l y s i s w it h i t . n o t o n l y t o r e a l i z e t h e f u n c t i o n ( i n p u t,m o d i f y,s t a t i s t i c s, s e a r c h. e t c ) i n t h e d a t a b a s e s y s t e m u s e d a t p r e s e n t , b u t a l s o t o f i n d o u t t h e r e l a t i o n s h i p a n d r e g u l a t i o n s e x i s t e i n t h e d a t a , a n d t h e n t o p r e d i c t t h e d e v e l o p t e n d e n c y a c c o r d i n g t h e d a t a a t h a n d , s o t h a t t o s u p p o rt t h e d e c i s io n m a k i n g o f t h e e n t e r p r i s e a n d m a k e t h e e n t e r p r i s e m o r e c o m p e t i t i v e -n o w a d a y s , m o s t s y s t e m u s e d i n t t h e e n t e r p r i s e a r e m a n a g e m e n t in f o r m a t i o n s y s t e m , w h i c h b a s e d o n a n o n 一i n e t r a n s a c t i o n p r o c e s s i n g ( o l t p ) s y s t e m w h i c h u s e d r e la t i o n s h i p d a t a b a s e , t h e y a r e n o t c a p a b l e t o o ff e r t h e d e c i s i o n m a k e s u p p o rt . f o r t h e d a t a w a r e h o u s e c a n o r g a n i z e a n d o f f e r d a t a i n m u t ip l e x f o r m , it c a n s a t i s f i e d v e r s a t i l e r e q u ir e m e n t o f d i ff e r e n t u s e r . t h a t k i n d o f s y s t e m c a l l e d o n we l i n e a n a ly t i c a l p r o c e s s i n g ( o l a p ) s y s t e m f ir s t l y , t h i s d i s s e rt a t io n i n t r o d u c e s t h e c o n c e p t o f o l a p a n d d a t a wa r e h o u s e , t h e c o n c e p t a n d c h a r a c t e r i s t i c o f d a t a c u b e ( w h i c h i s t h e m o s t i m p o rt a n t c o m p o n e n t p a rt o f o l a p ), t h e s y s t e m a t i c a l l y f r a m e w o r k o f o l a p a n d t h e m e t h o d h o w t o d e v i s e a n d r e a l i z e ol a p s e c o n d l y , u s e t h e ma n a g e m e n t i n f o r m a t io n s y s t e m o f t i a n j i n g a r m e n t i m p r o t s a n d e x p o rt s e n t e r p r i s e a s a n e x a m p l e , i n t r o d u c e s h o w t o d e v i s e a n d r e a l i z e o l a p t h i r d l y , u s e t h e i n t e r f a c e o f o l a p 田s o , a d o md , md x e t c .) t o r e a l i z e t h e o p e r a t i o n , a n d i m p l e m e n t t w o k i n d o f o l a p s y s t e m f i n a l l y , w e i n t r o d u c e s o m e m a j o r a lg o r it h m s o f d a t a mi n i n g ( a s s o c ia t i o n r u l e s , c l a s s i f i c a t i o n 人们对信息处理规律认识提高, 面对不断变化的 环境需求, 要求更高层次的系统来直接支持决策; 计算机应用技术的发展为d s s 提供了物质基础。 但是, d s s 在其产生的初期,并没有得到很好的运用,因为d s s 在实际应 用开发过程中暴露出许多问题,主要有以下3 个方面: 1 . d s s 使用的数据库 ( d b ) 只能对原始数据进行一般的加工和汇总, 致使 决策所需信息不足,难以满足d s s 的需要。 2 . 由于决策本身的动态性和复杂性, 针对不同的情况应有不同的处理方法, 而模型库提供的分析能力有限, 它所提供的模型独立于环境之外, 决策者和模型 交互很少, 模型参数固定不变, 不符合决策要求, d s s 所作出的决策常被有经验 的决策者一口否定,使决策者对d s s 产生不信任感。 3 .在实际开发d s s 过程中,人机接口部件占整个d s s 开发工作量的一半, 人的任何意图及系统对人的任何支持都要通过人机接口才能最终实现, 因此它在 整个系统中起着举足轻重的作用。现在人机接口开发得不理想,可以说是 d s s 实施中的一个瓶颈。 第 1页 绪论 ; 1 . 1 . 2 d s s 因 数据仓库而实现了突破 进入9 0 年代后,信息技术界悄然掀起数据仓库和o l a p技术及数据挖掘技 术的研究和开发热潮,这为克服传统 d s s存在的问题提供了技术上的支持,使 d s s的发展跃上一个新的台阶,也为 d s s开辟了一条新的途径。目 前开发的综 合d s s 是以数据仓库 ( d a t a wa r e h o u s e )技术为基础,以联机分析处理 ( o l a p ) 和数 据挖掘 ( d a t a lv fi n i n g ) 工具为 手段进行实施的 一整套解决 方案。 一般决策所需的数据总是与一些维( 每一维代表对数据的一个特定的观察视 角,如地区、时间等) 和不同级别 ( 如部门、单位、 地区和国家)的统计和计算 有关。以多维数据为核心的多维数据分析是决策的主要内容, 数据仓库的多维特 征满足 d s s对数据的分析要求,并且克服数据库的数据组织性差、利用率低的 缺点。 数据库不具有多维特征, 但却是数据仓库构建的基础。 在数据库多年的应 用中已经积累大量数据, 而且目前数据库的数量和规模还在迅速增加和扩大, 从 而出现“ 数据丰富、知识贫乏” 的问题。因此,从庞大的数据库中抽出有用的信息 己是当务之急,要成功地进行信息抽取首先要建立数据仓库。 1 . 2数据仓库的概念 ; 1 . 2 . 1数据仓库的定义 数据仓库概念始于本世纪8 0 年代中期, 首次出现是在号称“ 数据仓库之父” w i l li a m h .i n m o n 的 b u i ld in g t h e d a t a w a r e h o u s e ) f i一 书中 。 宽 松的 讲, 数 据仓 库是一个数据库, 它与组织机构的操作数据库分别维护。 数据仓库系统允许将各 种应用系统集成在一起, 为统一的历史数据分析提供坚实的平台, 对信息处理提 供支持。 随着人们对大型数据系统研究、管理、维护等方面的深刻认识和不断完善, 在总结、 丰富、 集中多种企业信息的经验之后, 为数据仓库给出了更为精确的定 义,即 “ 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、 不可修改的数据集合,o 1 . 2 . 2数据仓库的关键特征 w i l l i a m h i n m o n 给出的 数据仓库的定义体现了 数据仓库的四个关键特征, 进一步解释如下: 第 2页 绪论 1 .面向主题性 数据仓库围绕一个主题, 关注决策者的数据建模与分析, 而不是集中于组织 机构的日 常操作和事务处理。 如: 对于一个保险公司来说, 其应用问 题可能是汽 车保险、 健康保险、 人寿保险和意外伤亡保险; 设计数据仓库时, 我们应将其主 题设为顾客、保险单、保险费和索赔。 2 集成性 集成性是数据仓库最主要的特征。 通常, 构造数据仓库是将多个异种数据源 集合在一起,使用数据清理和数据集成技术, 确保命名约定、 编码结构、 属性度 量等的一致性。 如, 在多个异种数据源集合中, 性别可能被编码为“ m / # , 1 1 1 / 0 , “ 男 / 女” ,在它们进入数据仓库时,要进行转换,进行一致性处理 3 .时间相关性 数据存储是从历史的角度提供信息。 数据仓库中的关键结构, 隐式或显式地 包含时间元素。数据仓库随时间变化的特性表现在以下几个方面: ( 1 ) 数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期 限。操作型系统的时间期限一般是6 0 到9 0 天,而数据仓库中数据的 时间期限通常是5 到1 0 年。 p 1 ( 2 ) 操作型数据库中含有 “ 当前值”的数据,这些数据的准确性在访问时 是有效的,同样当前值的数据可能被更新。而数据仓库中的数据仅仅 是一系列某一时刻生成的快照。 ( 3 ) 操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、 日等。而数据仓库的键码总是包含某时间元素。 4 . 不可修改性 数据仓库与应用数据的源数据库是分离存放的, 不需要事务处理、 恢复和并 发控制机制。 通常的操作只有两种: 数据的初始化装入和数据访问。即数据仓库 一般是 “ 只读”的。 引. 3数据仓库对d s s 的支持 d s s 对数据的使用是非结构化的, 它的一次查询操作要涉及上百张表的上千 行数据, 复杂的表连接会严重影响系统的性能, 而且用户仅仅在分析的时候才查 找有关数据,查找条件是随机的,因此基于事务型数据库的d s s的数据分析能 力很有限。目 前,基于数据仓库的d s s 的决策技术包括联机分析处理 ( o l a p ) 和数据挖掘 ( d a t a m i n i n g ) , 在d s s 环境中 数据仓库直接为联机分析处理和数据 挖 掘 提 供 数 据能 力。 u o l 第 3页 1 . 3 . 1联机分析处理 ( o l a p ) o l a p 是针对特定问 题的联机数据访问 和数据分析而产生的一种技术, 它满 足d s s 从多种角度对数据进行快速、一致、交互地分析,克服传统d s s 交互能 力差的弊病, 使决策者能够对数据进行深入观察。 数据仓库服务器使用为用户预 定义的多维数据视图对数据仓库的信息进行统计分析处理, 为具有明确分析范围 和分析要求的用户提供高性能的决策支持。o l a p 将分析结果存储在信息库中, 便于决策者通过对比多种分析结果作出更好的决策。 此外, 信息库中还存放决策 准则、管理经验、常识等信息。 ; 1 . 3 . 2数据挖掘 数据挖掘是指从大量数据中发现潜在的、 有价值的及未知的关系、 模式和趋 势,并以易被理解的方式表示出来。在 d s s中通过进行数据挖掘用以发现数据 之间的复杂联系以及这种联系对决策的影响。 在数据仓库基础上挖掘的知识通常以图表、 可视化、 类自然语言等形式表示 出来, 但所挖掘的知识并不都是有意义的, 必须进行评价、 筛选和验证, 把有意 义的知识放到知识库中, 随着时间的推移将积累更多的知识。 知识库根据挖掘的 知识类型包括总结性知识、 关联性知识、 分类模型知识、 聚类模型知识, 这些知 识通过相应挖掘算法得到。 互 1 . 3 . 3基于数据仓库的d s s 决策可以解决的问题 d s s 可以解决4 个类型的问题: 1 .查询一组数据,可回答的问题如产品a的价格是多少? 2 .采用数理统计模型、 运筹模型进行定量分析,预测趋势,可回答的问题 如:某产品明年销售形势如何? 3 .采用o l a p方法,通过代数运算将有关信息抽取出来作为问题的答案, 如:某月某公司的销售怎样? 4 . 采用数据挖掘技术, 通过对数据进行逻辑运算,找出它们之间内在联系; 可回答的问题如:在某地影响某产品销售的因素是什么? 第 1 类和第2 类问 题在过去传统d s s 中得到一定解决, 现在的d s s 重点解 决第3 类和第4 类问题。 这些问题的提出与回答通过可视化工具在问题综合与交 第 4页 绪论 互系统中实现, 可视化工具提高人机接口 开发质量和效率, 使人机界面更加简洁、 标准化。另外, 可选用手写输入和声音输入工具软件, 便于决策者提出问题。该 系统根据对决策问题的判断, 在知识库和信息库中查找解决方案, 并以直观易理 解的形式呈现给决策者。 1 . 4论文的组织结构 本文系统探讨了实现企业信息管理的方法与技术, 介绍了数据仓库以及基于 数据仓库的o l a p 和o l a m技术, 给出o l a p 数据仓库的设计方法和实现步骤, 实现了基于数据仓库的o l a p应用系统。最后提出数据仓库基础上 o l a p与数 据挖掘的结合应用。为企业提供了统计、分析以 及决策的技术和手段。 本文整体结构如下: 第一章通过介绍决策支持系统所遇到的问题以及因数据仓库而实现的突破 引出数据仓库、o l a p 和数据挖掘的概念。 第二章介绍了o l a p技术的理论基础,分析了o l a p与o l t p的区别,讨 论了o l a p 数据立方体结构和o l a p 数据仓库系统结构。 第三章以天津市服装进出口公司信息系统为例, 论述o l a p 数据仓库的设计 目 标、设计方法、设计步骤以及o l a p 数据仓库中数据的管理与维护。 第四章提出o l a p 应用系统的内部软件方案, 使用数据仓库接口实现数据仓 库的操作,并提出服务器端和客户端的应用程序系统模型。 第五章将o l a p 技术与数据挖掘中常用的关联规则、 分类与预测规则结合使 用,实现联机分析挖掘 ( o l a m)系统。 第六章讨论了从o l t p , o l a p 和o l a m系统之间的联系和发展趋势, 总结 了 本文的研究内容, 提出了未来基于数据仓库的o l a p , o l a m技术与x m l等 技术结合的企业信息管理方向。 第 5页 第二章 o l a p 技术的基础理论 第二章 o l a p技术的基础理论 2 . 1 o l a p与o l t p 6 0 年代,关系数据库之父e .f .c o d d 提出了关系模型,促进了联机事务处理 ( o l t p ) 的发展( 数据以 表格的形式而非文件方式存储) 。 1 9 9 3 年, e .f . c o d d 提出了 o l a p 概念, 认为o l t p己 不能满足终端用户对数据库查询分析的需要, s q l 对 大型数据库进行的简单查询也不能满足终端用户分析的要求。 用户的决策分析需 要对关系数据库进行大量计算才能得到结果, 而查询的结果并不能满足决策者提 出的需求。因此, e .f . c o d d提出了多维数据库和多维分析的概念,即 o l a p . 2 . 1 . 1 o l a p 与o l t p的区别 操作数据库系统的主要任务是执行联机事务和查询处理, 称为联机事务处理 o l t p 系统。 数据仓库在数据分析和决策方面为用户提供服务, 这种系统称为联机分析处 理o l a p 系统。 o up 与o l a p 系统从内容到设计方法到使用用户等都有很大的却别, 表2 - 1 列出了这些区别的详细情况: 表2 - 1 o l t p与o l a p 的区别 特征 ol t pol ap 所面向的用 户和系统 面向顾客的,用于事务和查询处理面向市场的,用于数据分析 数据内容原始数据 细节性数据当前值数据可更新 一次处理的数据量小管理当前数据 导出数据综合性和提炼性数据 历史数据不可更新, 但周期 性刷新管理大量历史数据, 提供 汇总和聚集机制 数据库设计采用实体一 联系e r 模型和面向 应用的数据 库设计 采用星型或雪花模型和面向主 题的数据库设计 视图主要关注一个企业或部门内部的当前数 据,不涉及历史数据或不同组织的数据 与o l t p 正相反。 访问模式主要访问原子事务, 需要并行和恢复机制 系统的访问大部分是只读操作 第 6页 第二童 o l a p 技术的墓础理论 2 . 1 . 2 o l a p 与o l t p 分离的原因 分离操作数据库系统和数据仓库的主要原因是提高两个系统的性能。 操作数 据库系统是为己知的任务和负载设计的, 而数据仓库的查询通常是复杂的, 涉及 大量数据在汇总级的计算, 在操作数据库系统上处理o l a p 查询, 可能会大大降 低操作任务的性能。 2 . 2 o l a p 的相关概念 2 . 2 . 1 o l a p的定义 定义1: o l a p ( 联机分析处理 ) 是 针对特定问 题的 联机数据访问 和分析。 通 过对信息( 维数据) 的多种可能的观察形式进行快速、 稳定一致和交互性的存取, 允许管理决策人员 对数据进行深入观察。 12 1 定义2: o l a p ( 联机分析处理) 是使分析人员、 管理人员或执行人员能够从 多种角度对从原始数据中转化出来的、 能够真正为用户所理解的、 并真实反映企 业维特性的信息进行快速、 一致、 交互地存取, 从而获得对数据的更深入了解的 一 类 软 件 技 术。 ( o l a p 委员 会的 定 义 ) 19 10 l a p 的目 标是 满足 决 策 支 持或多 维 环 境特定的查询和报表需求, 它的技术核心是“ 维” 这个概念, 因此o l a p 也可以说 是多维数据分析工具的集合。 2 . 2 . 2 o l a p的特征 1 .快速性:用户对o l a p的快速反应能力有很高的要求。系统应能在5 秒 内对用户的大部分分析要求做出反应。 2 . 可分析性: o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 3 .多维性:多维性是o l a p的关键属性。系统必须提供对数据的多维视图 和分析,包括对层次维和多重层次维的完全支持。 4 . 信息性: 不论数据量有多大,也不管数据存储在何处,o l a p系统应能 及时获得信息, 并 且管理大容量 信息。 d l 第 7页 第二章 o l a i , 技术的基础理论 牟. 3 o l a p 的 多 维数据结 构 ; 2 . 3 . 1数据立方体维结构 数据仓库和o l a p 工具是基于多维数据模型的。 该模型将数据看作数据立方 体 ( d a t a c u b e ) 形式. 数据立方体允许以多维形式对数据建模和观察,由 维和事 实定义。 立方体数据结构 ( c u b e ) 立方体数据是由一系列的数据组合而成的, 一个立方体数据结构由很多数据 维组成,每个维都表示一类的数据。如图2 - 1 所示,图中最大的立方体即为一个 3 维的立方体结构。 维 ( d im e n s i o n ) 一般地, 维是关于一个组织想要记录的透视或实体, 是人们观察数据的特定 角度。例如:贸易公司经常会关心时间和销售地区以及销售商品种类三个因素, 并很有可能通过它们进行统计查询,就可以将时间、地区和商品种类建立成维。 ( 每个维都有一个表与之相联,该表称为维表) 维的 层次 ( h i e r a r c h y ) 一个数 据维 可以 包含一个或多 个层次 ( h i e r a r c h y ) , 层次是多 级结构中的 某 一级别与其下一层级别之间的 “ 父一 子”关系,位于层次顶部的是 “ 根级”( r o o t le v e l ) , 位于层次底部的是一个或多个“ 叶子”( l e a f ) 。 层次中的任何一级可以被 看作数据维里的一类数据。 例如: 时间维可以根据查询的要求分为“ 年” 、 “ 季度” 、 “ 月” 、 “ 星期” 、 “ 天, 、 “ 小时, 、 “ 分钟, 和 “ 秒钟, 几个级别。一般地, 可以用 a l l ” 来作为 “ 根级” 。 成员 ( m e m b e r ) 层次里某一级别的一个成员, 也被称为级别值 ( l e v e l v a l u e ) , 包含了由该级 别所表示的数据集合。 层次的顶部 ( 根级) 容纳了粗略划分的数据集合, 而在层 次的底部 ( 叶子)则包含了精细划分的数据集合。例如:在时间维的层次中,实 例2 0 0 2 年7 月就是一个成员。 度量 ( m e a s u r e ) 我们看到立方体结构中至少要包含一个数据维, 在一个数据维里又至少包含 一个层次,而一个层次又至少要包含一个级别。在一个级别里,拥有多个成员。 在事实表关键字与数据维成员交叉的地方, 每一个成员里至少有一个数据值出现 第 9负 第二章 o l a p 技术的基础理论 在该位置上。事实表成员的值被称为 “ 度量”( m e a s u r e ) ,它是进行数值分析时 所要寻找的数据信息。 例如: 2 0 0 2 年7 月天津地区西服的销售额就是一个度量。 数据点 ( d a t a p o in t ) 立方体数据结 构里的 一个数 据点 ( d a t a p o i n t ) , 也被称为 数据元 ( c e l l ) , 是 数据立方体数据结构的最小单位, 即叶结点, 与关系型数据库中一条记录的一个 属性项对应。 例如: 2 0 0 2 年7月1 日 天津地区 某商店销售一件西服的利润额就 是一个数据点。 0 - d( 顶点) 方体 北京 幻me 一四回四比 2 0 0 2 ,6 一 2 0 0 2 ,7 1 - d方体 2 - d方体 时间维 大衣西服 盯 . 葵 酥蔺 一 飞 3 - d( 基本)方体 t i m e , l o c a t i o n , i t e m 图2 - 1某销售数据的3 维立方体表示 图2 - 2某销售数据的3 维方体格表示 立方体结构还可以显示为如图2 - 2 所示的方式, 使用这种方式可以更好地表 现汇总信息。 存放最低层的方体称为基本方体,即图中的 给定维 t i m e , l o c a t i o n 和it e m的3 - d方体;0 - d方体存放在最高层的 汇总,称作顶点方体,通常用a l l 标记。 多维数据库模式的定义 正象关系数据库查询语言s q l可以用于说明关系查询一样,数据挖掘查询 语言d m q l也可以 用于说明数据挖掘任务. 数据仓库可以使用两种原语定义: 立方体和维的定义 定义立方体: d e fi n e c u b e s a l e s s t a r t i m e , it e m , b r a n c h , lo c a t i o n : d o ll a r s s o l d = s u m ( s a l e s i n es d o l l a r s ) , u n it s o l d = c o u n t ( * ) 定义维: d e f i n e d i m e n s i o n t i m e a s ( t i m e es k e y , d a y , d a y - o 仁 w e e k , m o n t h , q u a r t e r , y e a r ) 第 9页 第二章 o l a p 技术的 基础理论 2 . 3 . 2 多维数据库模式 关系型数据库的数据模型为实体一 联系模型,它适用于联机事务处理;数据 仓库需要简明的、面向主题的模式,便于联机数据分析,使用多维数据模型。 多维数据模型包括两种表:事实表和维表。 1 .事实表:由两部分组成,一部分存储度量 ( m e a s u r e ) ,另一部分存储各 个维的关键字。 2 .维表:对于每一个维,至少有一个表来保存该维的成员类别、层次等维 的描述信息。 根据事实表与维表的不同结构, 可以把多维数据模型分为三类: 星型、 雪花 型和事实星座模式。 1 .星型模式 ( s t a r s c h e m a ) :是最常见的模型规范,包含一个大的包含大批 数据和不含冗余的中心表 ( 事实表)和一组小的附属表 ( 维表) 。如图2 - 3 所示, 我们可以清楚看到星型模式的特点:每个维对应一张维表。 t i m e 维表 s a l e s 事实表i t e m维表 2 .雪花型模式 ( s n o w fl a k e s c h e m a ) :雪花模式是星型模式的变种,也是包 含一个数据表和多个维表, 但其中某些维表是规范化的, 因而把数据进一步分解 到附加的表中。 结果, 模式图形类似于雪花的形状。 例如, 维表中的数据进行分解, 重新创建c i t y 维表, 则获得如图 将星型模式中的lo c a t i o n 2 - 4 所示的雪花型模式。 第 1 0负 第二章 o l a p 技术的 基础理论 t i m e 维表 s a l e s 事实表i t e m维表 图2 - 4某数据仓库的雪花型模式 3 . 星座模式( f a c t c o n s t e l l a t i o n ) : 复杂的应用可能需要多个事实表共享维表。 这种模式可以 看作星型模式集,因 此也可以 称为星系模式 ( g a l a x y s c h e m a ) . 三种模式的比较: 雪花型和星型模式的主要区别在于,雪花模式的维表可能是规范化的形式, 以便减少冗余。 这种表易于维护, 并节省存储空间。 然而, 与巨大的事实表相比, 这种空间的节省可以忽略。 此外,由于执行查询需要更多的连接操作, 雪花结构 可能降低浏览的性能。 这样,系统的性能可能相对受影响。因此, 在数据仓库的 设计中, 雪花模式不如星型模式流行。 另外, 由于星型模式和雪花模式比较简单, 对于单一主题的数据仓库 ( 数据集市)的设计, 这两种模式更为流行和有效; 而 对于多主题的、企业范围的数据仓库,有时候必须使用星座模式。 2 . 3 . 3度量的分类和计算 数据立方体空间的多维点由维一 值对定义。数据立方体度量 ( m e a s u r e )是一 个数值函数,该函数可以对数据立方体的每一个点求值。通过对给顶点的各维- 值对聚集数据,计算该点的度量值。 度量可以根据其所用的聚集函数分为三类: 1 分布的 ( d i s t r i b u t i v e ) :设数据被划分为n 个集合,函数在每一部分上的 计算得到一个聚集值。 如果将函数用于n 个聚集值得到的结果, 与将函数用于所 有数据得到的结果一 样则该度量是 分布的, 如c o u n t q , s u m ) 等 第 日 页 第二章 0 1 a p 技术的基础理论 2 . 代 数的( a lg e b r a ic ) : 如 果 一 个 聚集函 数能 够由 一 个具 有m个 参 数的 代数 函数计算,且每个参数都可以用一个分布聚集函数求得。如 a v g ( ) 可以由 s u m o ) / c o u n t ( ) 计 算, 其中s u m o 和c o u n t o 是分 布聚集函 数。 3 . 整体的( a l g e b r a i c ) : 如 果一个聚集函 数无法用具 有m个参 数的 代数函 数 进行这一计算,则这个函 数称是整体的,如; a n d ( ) 等 许多度量可以 用关系的聚集操作计算, 如o u n t o , s u m o , a v g o , g r o u p b y , c o m p u t e 等 等。 例 如, 如 果 我 们 想计 算s a le s _ q u a n t it y , 也 可以 用如 下s q l 语 句 直接从关系数据库中得到结果: s e l e c t s u m ( s .n u m b e r we o f u n it s s o l d * s .p r i c e ), s u m ( s .n u m b e r o f u n it s s o l d ) f r o m t i me t , i t e m i , b r a n c h b , l o c a t i o n 1 , s a l e s s , wh e r e s .t i m e es k e y = t .t i m e es k e y a n d s . it e m 一e y = i .it e m k e y a n d s .b r a n c h k e y = b . b r a n c h es k e y a n d s . lo a t io n we k e y = l .l o c a t i o n k e y g r o u p b y s .t im e es k e y , s .it e m es k e y , s .b r a n c h es k e y , s . l o c a t i o n - k e y 2 . 3 . 4概念分层 概念分层 ( c o n c e p t h i e r a r c h y ) 定义了 一个映射 序列, 将底层概念映射到更 一般的高层次概念。 概念分层可能会隐藏在数据库模式中, 某个维的属性可能会 形成全序或偏序, 概念分层为数据库模式中的全序或偏序称作模式分层 ( s c h e m a h i e r a r c h y ) 例如: 全序相关, lo c a t i o n 维的属性是a r e a ,s t a t e , p r o v in c e 和c it y , 这 些属 性 按照 一 个 形成一个层次 c it y p r o v i n c e s t a t e a r e a . t i m e 维的属性是 d a y m o n t h y e a r , q u a rt e r , m o n t h , y ) = p ( y ix ) = 1 ( t : x u y c t , t e d ) i/ i t : x c t , t e d i 同时满足最小支持度闽值 ( m i n - s u p ) 和最小置信度闷 值 ( m i n - c o n f ) 的规则 称作强规则。一般,为了方便,利用 0 %与 1 0 0 %之间的值而不是用0到 1 之间 的值表示支持度和置信度。 项的集合称作项集 ( it e m s e t ) 。包含 k 个项的项集称为 k 一 项集。项集出现的 频率是包含项集的事务数, 简称为项集的频率、 支持计数或计数。 项集满足最小 支持度m i n - s u p , 如果项集的出 现频率大于或等于m i n - s u p 与d中事务总数的 乘 积。 如果项集 满足最小支持度, 则 称它为频繁项集 ( f r e q u e n t it e m s e t ) o 频繁 k - 项集的集合通常记作l k 关联规则的挖掘是一个两步的过程: 找出所有频繁项集: 根据定义, 这些项集出现的频繁性至少和预定义的最小 支持计数一样 由频繁项集产生强关联规则: 根据定义, 这些规则必须满足最小支持度和最 第 4 5页 第五童 o l a p 技术与数据挖掘的结合应用 小置信度。 ; 5 . 2 . 3关联规则挖掘的主要算法 a g r a w a l 等于 1 9 9 3 年首先提出了 挖 掘顾客交易 数据库中 项集间的 关联规则 问题, 其核心方法是基于频集理论的递推方法。 以后诸多的研究人员对关联规则 的挖掘问题进行了大量的研究。 他们的工作包括对原有的算法进行优化, 如引入 随机采样、并行的思想等,以提高算法挖掘规则的效率; 提出各种变体, 如泛化 的关联规则、周期关联规则等,对关联规则的应用进行推广。 核心算法 a g r a w a l 等 在1 9 9 3 年 设计了 一 个 基 本 算 法 4 1 , 提出 了 挖 掘关 联规 则的 一个 重 要方法 一 这是一个基于两阶段频集思想的方法, 将关联规则挖掘算法的设计可 以分解为两个子问题: 1 .找到所有支持度大于最小支持度的项集 ( i t e m s e t ) ,这些项集称为频集 ( f r e q u e n t i t e m s e t ) e 2 . 使用第1 步找到的频集产生期望的规则。 这里的 第2 步 相 对 简单 一点。 如 给 定了 一 个频 集y = i , i 2 . .i k , k ? 2 , i 1 c i , 产 生只包 含集合 i 1 2 , , i k 中的 项的 所有规 则( 最多k 条 ) , 其中 每一条规则的 右部 只 有一 项, ( 即 形 如 y - i ; = : i ; , d1-i-k), 这 里 采 用的 是 4 1 中 规 则的 定 义。 一 旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下 来。 对于规则右部含两个以上项的规则, 在其以后的工作中进行了 研究, 本文后 面考虑的是这种情况。 为了生成所有频集,使用了递推的方法。其核心思想如下: ( 1 ) l , = l a r g e 1 - i t e m s e t s ) ; ( 2 ) f o r ( k = 2 ; l k . , x (d ; k + + ) d o b e g i n ( 3 ) c k = a p r i o r i - g e n ( l k - , ) ; / 新的候选集 ( 4 ) f o r a ll t r a n s a c t i o n s t e d d o b e g i n ( 5 ) c t= s u b s e t ( c k , t ) ;/ 事务t 中 包含的候选集 ( 6 ) f o r a l l c a n d i d a t e s c e c , d o ( 7 ) c .c o u n t + + ; ( 8 ) e n d 第 4 6页 第五章 o l a p 技术与致据挖掘的结合应用 f ( 9 ) l k 0 c e c k jc .c o u n t z m in s u p ) ( 1 0 ) e n d ( 1 1 ) a n s w e r - v k l k ; 首先产生频繁1 一 项集l , ,然后是频繁2 一 项集l 2 , 直到有某个; 值使得4为 空,这时算法停止。这里在第k次循环中,过程先产生候选 k 一 项集的集合 c k , c k 中的每一个项集是对两个只有一个项不同的属于玩一 , 的频集做一个( k - 2 ) 连接 来产生的。 c k 中的项集是用来产生频集的候选集, 最后的频集l k 必须是c k 的一 个子集。c 、 中的每个元素需在交易数据库中进行验证来决定其是否加入 l k ,这 里的验证过程是算法性能的一个瓶颈。 这个方法要求多次扫描可能很大的交易数 据库,即如果频集最多包含 1 0 个项, 那么就需要扫描交易数据库 1 0 遍, 这需要 很大的v 0负载。 5 . 2 . 4基于数据仓库的关联规则的挖掘 随着数据仓库和o l a p技术研究的深入,可以预见大量的数据将经过整合、 预处理, 从而存入数据仓库之中。 在当前, 大多数的数据仓库的应用都是进行统 计、 建立多维以 及o l a p 的分析工作。 随着数据挖掘研究的深入, 己经有了o l a p 和 数 据 挖 掘相 结 合的 方 法。 卜6 首先一个有效的数据挖掘方法应该可以 进行探索性的数据分析。 用户往往希 望能在数据库中穿行, 选择各种相关的数据, 在不同的细节层次上进行分析,以 各种不同的形式呈现知识。 基于o l a p的挖掘就可以提供在不同数据集、 不同的 细节上的挖掘, 可以进行切片、切块、 展开、过滤等各种对规则的操作。 然后再 加上一些可视化的工具,就能大大的提高数据挖掘的灵活性和能力。 5 . 2 . 4 . 1事务分类 无论是对于支持度还是置信度的计算, 都需要进行大量的统计工作, 以得到 项集x . y所包含事务的总和,再进行概率的统计。 这样一来,必定要耗费大量 的时间用于统计。 引用o l a p的技术, 在数据立方体结构上对关联规则挖掘的两 个闭值进行计算将会节省大量的时间。 本文在o l a p 数据仓库的基础上, 对关联规则的算法做了改进: 首先, 对项 集x , y的上层作分类, 例如: 如果x为i n c o m e ( 5 0 k - 7 0 k ) , 那么我们可以 对i n c o m e 进行分类,那么其中必然包含 x ,同样,对 y的上层进行分类,不妨设 x . y 的上层项集为m. n。 然后,按照计算两个闽值, 最后判断是否为关联规则。具 第 4 7页 第五章 o l a p 技术与数据挖掘的结合应用 最为典型的分类方法是基于决策树的分类方法。 它是从实例集中构造决策树, 是 一种有指导的学习方法。 该方法先根据训练子集 ( 又称为窗口) 形成决策树。 如 果该树不能对所有对象给出正确的分类, 那么选择一些例外加入到窗口中, 重复 该过程一直到形成正确的决策集。 最终结果是一棵树, 其叶结点是类名,中间结 点是带有分枝的属性, 该分枝对应该属性的某一可能值。 最为典型的决策树学习 系统是1d 3 , 它采用自 顶向 下不回 溯策略,能保证找到一个简单的树。7 1 数据分类还有统计、 粗糙集 ( r o u g h s e t ) 等方法。 线性回 归和线性辨别分 析是典型的统计模型。为降低决策树生成代价,人们还提出了一种区间分类器。 最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。 预测型知识 ( p r e d i c t i o n ) 它根据时间序列型数据, 由历史的和当前的数据去推测未来的数据, 也可以 认为是以时间为关键属性的关联知识。 目 前, 时间 序列预测方法有经典的统计方法、 神经网 络和机器学习等。 1 9 6 8 年b o x 和j e n k i n s 提出了一套比较完善的时间序列建模理论和分析方法, 这些经 典的数学方法通过建立随机模型, 如自 回归模型、自 回归滑动平均模型、 求和自 回归滑动平均模型和季节调整模型等, 进行时间序列的预测。由于大量的时间序 列是非平稳的, 其特征参数和数据分布随着时间的推移而发生变化。因此, 仅仅 通过对某段历史数据的训练, 建立单一的神经网络预测模型, 还无法完成准确的 预测任务。为此, 人们提出了基于统计学和基于精确性的再训练方法,当发现现 存预测模型不再适用于当前数据时, 对模型重新训练, 获得新的权重参数, 建立 新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。 5 . 3 . 2 准备分类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 小学数学小数基础课堂教案范例
- 高校志愿服务活动方案示范
- 八年级数学动点问题专项训练与解析
- 房屋租赁合同法律条款简明版
- 财务人员税务申报流程操作手册
- 2025年教育学与教学法课程期末考试试题及答案
- 光伏电站运维中的关键技术难点
- 供暖管道PPR安装工艺全流程
- 企业房屋租赁合同标准格式
- 零售业店面灯光陈列设计方案
- 医院财务管理年度工作报告
- 灌溉水量平衡分析报告
- 高标准基本农田建设项目初步验收报告
- 2025年成人高考专升本医学综合真题及答案
- 输变电工程质量通病防治手册
- 居民公约工作总结
- 骨科疾病的深度学习研究
- 绿植租摆服务投标方案(完整技术标)
- 矿山安全培训课件-地下矿山开采安全技术
- 汪小兰版有机化学答案全
- DB32∕T 3751-2020 公共建筑能源审计标准
评论
0/150
提交评论