（计算机软件与理论专业论文）基于数据仓库的信息系统实现技术研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：65 大小：3.95MB 积分：0 举报 版权申诉

已阅读5页，还剩60页未读，继续免费阅读

（计算机软件与理论专业论文）基于数据仓库的信息系统实现技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

abs t ract w wi t h t h e r a p i d d e v e l o p m e n t o f i n f r o m a t i o n t e c h n o l o g y a n d t h e w i d e l y a p p l i c a t i o n o f ma n a g e m e n t i n f o r m a t i o n s y s t e m( 叼 i s ) , m o r e a n d m o r e d a t a a r e d e p o s it i n t h e e n t e r p r i s e s d a t e b a s e . a l o t s o f i m p o rt a n t i n f o r m a t i o n a r e h i d e w it h i n t h e d a t a ,，i n o r d e r t o m a k e m o r e f a i r l y u s e o f t h a t d a t a , p e o p l e d e s i r e t o m a k e h i g h l e v e l a n l y s i s w it h i t . n o t o n l y t o r e a l i z e t h e f u n c t i o n ( i n p u t，m o d i f y，s t a t i s t i c s， s e a r c h. e t c ) i n t h e d a t a b a s e s y s t e m u s e d a t p r e s e n t , b u t a l s o t o f i n d o u t t h e r e l a t i o n s h i p a n d r e g u l a t i o n s e x i s t e i n t h e d a t a , a n d t h e n t o p r e d i c t t h e d e v e l o p t e n d e n c y a c c o r d i n g t h e d a t a a t h a n d , s o t h a t t o s u p p o rt t h e d e c i s io n m a k i n g o f t h e e n t e r p r i s e a n d m a k e t h e e n t e r p r i s e m o r e c o m p e t i t i v e -n o w a d a y s , m o s t s y s t e m u s e d i n t t h e e n t e r p r i s e a r e m a n a g e m e n t in f o r m a t i o n s y s t e m , w h i c h b a s e d o n a n o n 一i n e t r a n s a c t i o n p r o c e s s i n g ( o l t p ) s y s t e m w h i c h u s e d r e la t i o n s h i p d a t a b a s e , t h e y a r e n o t c a p a b l e t o o ff e r t h e d e c i s i o n m a k e s u p p o rt . f o r t h e d a t a w a r e h o u s e c a n o r g a n i z e a n d o f f e r d a t a i n m u t ip l e x f o r m , it c a n s a t i s f i e d v e r s a t i l e r e q u ir e m e n t o f d i ff e r e n t u s e r . t h a t k i n d o f s y s t e m c a l l e d o n we l i n e a n a ly t i c a l p r o c e s s i n g ( o l a p ) s y s t e m f ir s t l y , t h i s d i s s e rt a t io n i n t r o d u c e s t h e c o n c e p t o f o l a p a n d d a t a wa r e h o u s e , t h e c o n c e p t a n d c h a r a c t e r i s t i c o f d a t a c u b e ( w h i c h i s t h e m o s t i m p o rt a n t c o m p o n e n t p a rt o f o l a p )， t h e s y s t e m a t i c a l l y f r a m e w o r k o f o l a p a n d t h e m e t h o d h o w t o d e v i s e a n d r e a l i z e ol a p s e c o n d l y , u s e t h e ma n a g e m e n t i n f o r m a t io n s y s t e m o f t i a n j i n g a r m e n t i m p r o t s a n d e x p o rt s e n t e r p r i s e a s a n e x a m p l e , i n t r o d u c e s h o w t o d e v i s e a n d r e a l i z e o l a p t h i r d l y , u s e t h e i n t e r f a c e o f o l a p 田s o , a d o md , md x e t c .) t o r e a l i z e t h e o p e r a t i o n , a n d i m p l e m e n t t w o k i n d o f o l a p s y s t e m f i n a l l y , w e i n t r o d u c e s o m e m a j o r a lg o r it h m s o f d a t a mi n i n g ( a s s o c ia t i o n r u l e s , c l a s s i f i c a t i o n 人们对信息处理规律认识提高，面对不断变化的环境需求，要求更高层次的系统来直接支持决策; 计算机应用技术的发展为d s s 提供了物质基础。但是， d s s 在其产生的初期，并没有得到很好的运用，因为d s s 在实际应用开发过程中暴露出许多问题，主要有以下3 个方面: 1 . d s s 使用的数据库 ( d b ) 只能对原始数据进行一般的加工和汇总，致使决策所需信息不足，难以满足d s s 的需要。 2 . 由于决策本身的动态性和复杂性，针对不同的情况应有不同的处理方法，而模型库提供的分析能力有限，它所提供的模型独立于环境之外，决策者和模型交互很少，模型参数固定不变，不符合决策要求， d s s 所作出的决策常被有经验的决策者一口否定，使决策者对d s s 产生不信任感。 3 .在实际开发d s s 过程中，人机接口部件占整个d s s 开发工作量的一半，人的任何意图及系统对人的任何支持都要通过人机接口才能最终实现，因此它在整个系统中起着举足轻重的作用。现在人机接口开发得不理想，可以说是 d s s 实施中的一个瓶颈。第 1页绪论 ; 1 . 1 . 2 d s s 因数据仓库而实现了突破进入9 0 年代后，信息技术界悄然掀起数据仓库和o l a p技术及数据挖掘技术的研究和开发热潮，这为克服传统 d s s存在的问题提供了技术上的支持，使 d s s的发展跃上一个新的台阶，也为 d s s开辟了一条新的途径。目前开发的综合d s s 是以数据仓库 ( d a t a wa r e h o u s e )技术为基础，以联机分析处理 ( o l a p ) 和数据挖掘 ( d a t a lv fi n i n g ) 工具为手段进行实施的一整套解决方案。一般决策所需的数据总是与一些维( 每一维代表对数据的一个特定的观察视角，如地区、时间等) 和不同级别 ( 如部门、单位、地区和国家)的统计和计算有关。以多维数据为核心的多维数据分析是决策的主要内容，数据仓库的多维特征满足 d s s对数据的分析要求，并且克服数据库的数据组织性差、利用率低的缺点。数据库不具有多维特征，但却是数据仓库构建的基础。在数据库多年的应用中已经积累大量数据，而且目前数据库的数量和规模还在迅速增加和扩大，从而出现“ 数据丰富、知识贫乏” 的问题。因此，从庞大的数据库中抽出有用的信息己是当务之急，要成功地进行信息抽取首先要建立数据仓库。 1 . 2数据仓库的概念 ; 1 . 2 . 1数据仓库的定义数据仓库概念始于本世纪8 0 年代中期，首次出现是在号称“ 数据仓库之父” w i l li a m h .i n m o n 的 b u i ld in g t h e d a t a w a r e h o u s e ) f i一书中。宽松的讲，数据仓库是一个数据库，它与组织机构的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。随着人们对大型数据系统研究、管理、维护等方面的深刻认识和不断完善，在总结、丰富、集中多种企业信息的经验之后，为数据仓库给出了更为精确的定义，即 “ 数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合，o 1 . 2 . 2数据仓库的关键特征 w i l l i a m h i n m o n 给出的数据仓库的定义体现了数据仓库的四个关键特征，进一步解释如下: 第 2页绪论 1 .面向主题性数据仓库围绕一个主题，关注决策者的数据建模与分析，而不是集中于组织机构的日常操作和事务处理。如: 对于一个保险公司来说，其应用问题可能是汽车保险、健康保险、人寿保险和意外伤亡保险; 设计数据仓库时，我们应将其主题设为顾客、保险单、保险费和索赔。 2 集成性集成性是数据仓库最主要的特征。通常，构造数据仓库是将多个异种数据源集合在一起，使用数据清理和数据集成技术，确保命名约定、编码结构、属性度量等的一致性。如，在多个异种数据源集合中，性别可能被编码为“ m / # , 1 1 1 / 0 , “ 男 / 女” ，在它们进入数据仓库时，要进行转换，进行一致性处理 3 .时间相关性数据存储是从历史的角度提供信息。数据仓库中的关键结构，隐式或显式地包含时间元素。数据仓库随时间变化的特性表现在以下几个方面: ( 1 ) 数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是6 0 到9 0 天，而数据仓库中数据的时间期限通常是5 到1 0 年。 p 1 ( 2 ) 操作型数据库中含有 “ 当前值”的数据，这些数据的准确性在访问时是有效的，同样当前值的数据可能被更新。而数据仓库中的数据仅仅是一系列某一时刻生成的快照。 ( 3 ) 操作型数据的键码结构可能包含也可能不包含时间元素，如年、月、日等。而数据仓库的键码总是包含某时间元素。 4 . 不可修改性数据仓库与应用数据的源数据库是分离存放的，不需要事务处理、恢复和并发控制机制。通常的操作只有两种: 数据的初始化装入和数据访问。即数据仓库一般是 “ 只读”的。引. 3数据仓库对d s s 的支持 d s s 对数据的使用是非结构化的，它的一次查询操作要涉及上百张表的上千行数据，复杂的表连接会严重影响系统的性能，而且用户仅仅在分析的时候才查找有关数据，查找条件是随机的，因此基于事务型数据库的d s s的数据分析能力很有限。目前，基于数据仓库的d s s 的决策技术包括联机分析处理 ( o l a p ) 和数据挖掘 ( d a t a m i n i n g ) ，在d s s 环境中数据仓库直接为联机分析处理和数据挖掘提供数据能力。 u o l 第 3页 1 . 3 . 1联机分析处理 ( o l a p ) o l a p 是针对特定问题的联机数据访问和数据分析而产生的一种技术，它满足d s s 从多种角度对数据进行快速、一致、交互地分析，克服传统d s s 交互能力差的弊病，使决策者能够对数据进行深入观察。数据仓库服务器使用为用户预定义的多维数据视图对数据仓库的信息进行统计分析处理，为具有明确分析范围和分析要求的用户提供高性能的决策支持。o l a p 将分析结果存储在信息库中，便于决策者通过对比多种分析结果作出更好的决策。此外，信息库中还存放决策准则、管理经验、常识等信息。 ; 1 . 3 . 2数据挖掘数据挖掘是指从大量数据中发现潜在的、有价值的及未知的关系、模式和趋势，并以易被理解的方式表示出来。在 d s s中通过进行数据挖掘用以发现数据之间的复杂联系以及这种联系对决策的影响。在数据仓库基础上挖掘的知识通常以图表、可视化、类自然语言等形式表示出来，但所挖掘的知识并不都是有意义的，必须进行评价、筛选和验证，把有意义的知识放到知识库中，随着时间的推移将积累更多的知识。知识库根据挖掘的知识类型包括总结性知识、关联性知识、分类模型知识、聚类模型知识，这些知识通过相应挖掘算法得到。互 1 . 3 . 3基于数据仓库的d s s 决策可以解决的问题 d s s 可以解决4 个类型的问题: 1 .查询一组数据，可回答的问题如产品a的价格是多少? 2 .采用数理统计模型、运筹模型进行定量分析，预测趋势，可回答的问题如:某产品明年销售形势如何? 3 .采用o l a p方法，通过代数运算将有关信息抽取出来作为问题的答案，如:某月某公司的销售怎样? 4 . 采用数据挖掘技术，通过对数据进行逻辑运算，找出它们之间内在联系; 可回答的问题如:在某地影响某产品销售的因素是什么? 第 1 类和第2 类问题在过去传统d s s 中得到一定解决，现在的d s s 重点解决第3 类和第4 类问题。这些问题的提出与回答通过可视化工具在问题综合与交第 4页绪论互系统中实现，可视化工具提高人机接口开发质量和效率，使人机界面更加简洁、标准化。另外，可选用手写输入和声音输入工具软件，便于决策者提出问题。该系统根据对决策问题的判断，在知识库和信息库中查找解决方案，并以直观易理解的形式呈现给决策者。 1 . 4论文的组织结构本文系统探讨了实现企业信息管理的方法与技术，介绍了数据仓库以及基于数据仓库的o l a p 和o l a m技术，给出o l a p 数据仓库的设计方法和实现步骤，实现了基于数据仓库的o l a p应用系统。最后提出数据仓库基础上 o l a p与数据挖掘的结合应用。为企业提供了统计、分析以及决策的技术和手段。本文整体结构如下: 第一章通过介绍决策支持系统所遇到的问题以及因数据仓库而实现的突破引出数据仓库、o l a p 和数据挖掘的概念。第二章介绍了o l a p技术的理论基础，分析了o l a p与o l t p的区别，讨论了o l a p 数据立方体结构和o l a p 数据仓库系统结构。第三章以天津市服装进出口公司信息系统为例，论述o l a p 数据仓库的设计目标、设计方法、设计步骤以及o l a p 数据仓库中数据的管理与维护。第四章提出o l a p 应用系统的内部软件方案，使用数据仓库接口实现数据仓库的操作，并提出服务器端和客户端的应用程序系统模型。第五章将o l a p 技术与数据挖掘中常用的关联规则、分类与预测规则结合使用，实现联机分析挖掘 ( o l a m)系统。第六章讨论了从o l t p , o l a p 和o l a m系统之间的联系和发展趋势，总结了本文的研究内容，提出了未来基于数据仓库的o l a p , o l a m技术与x m l等技术结合的企业信息管理方向。第 5页第二章 o l a p 技术的基础理论第二章 o l a p技术的基础理论 2 . 1 o l a p与o l t p 6 0 年代，关系数据库之父e .f .c o d d 提出了关系模型，促进了联机事务处理 ( o l t p ) 的发展( 数据以表格的形式而非文件方式存储) 。 1 9 9 3 年， e .f . c o d d 提出了 o l a p 概念，认为o l t p己不能满足终端用户对数据库查询分析的需要， s q l 对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果，而查询的结果并不能满足决策者提出的需求。因此， e .f . c o d d提出了多维数据库和多维分析的概念，即 o l a p . 2 . 1 . 1 o l a p 与o l t p的区别操作数据库系统的主要任务是执行联机事务和查询处理，称为联机事务处理 o l t p 系统。数据仓库在数据分析和决策方面为用户提供服务，这种系统称为联机分析处理o l a p 系统。 o up 与o l a p 系统从内容到设计方法到使用用户等都有很大的却别，表2 - 1 列出了这些区别的详细情况: 表2 - 1 o l t p与o l a p 的区别特征 ol t pol ap 所面向的用户和系统面向顾客的，用于事务和查询处理面向市场的，用于数据分析数据内容原始数据细节性数据当前值数据可更新一次处理的数据量小管理当前数据导出数据综合性和提炼性数据历史数据不可更新，但周期性刷新管理大量历史数据，提供汇总和聚集机制数据库设计采用实体一联系e r 模型和面向应用的数据库设计采用星型或雪花模型和面向主题的数据库设计视图主要关注一个企业或部门内部的当前数据，不涉及历史数据或不同组织的数据与o l t p 正相反。访问模式主要访问原子事务，需要并行和恢复机制系统的访问大部分是只读操作第 6页第二童 o l a p 技术的墓础理论 2 . 1 . 2 o l a p 与o l t p 分离的原因分离操作数据库系统和数据仓库的主要原因是提高两个系统的性能。操作数据库系统是为己知的任务和负载设计的，而数据仓库的查询通常是复杂的，涉及大量数据在汇总级的计算，在操作数据库系统上处理o l a p 查询，可能会大大降低操作任务的性能。 2 . 2 o l a p 的相关概念 2 . 2 . 1 o l a p的定义定义1: o l a p ( 联机分析处理 ) 是针对特定问题的联机数据访问和分析。通过对信息( 维数据) 的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入观察。 12 1 定义2: o l a p ( 联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取，从而获得对数据的更深入了解的一类软件技术。 ( o l a p 委员会的定义 ) 19 10 l a p 的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“ 维” 这个概念，因此o l a p 也可以说是多维数据分析工具的集合。 2 . 2 . 2 o l a p的特征 1 .快速性:用户对o l a p的快速反应能力有很高的要求。系统应能在5 秒内对用户的大部分分析要求做出反应。 2 . 可分析性: o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 3 .多维性:多维性是o l a p的关键属性。系统必须提供对数据的多维视图和分析，包括对层次维和多重层次维的完全支持。 4 . 信息性: 不论数据量有多大，也不管数据存储在何处，o l a p系统应能及时获得信息，并且管理大容量信息。 d l 第 7页第二章 o l a i ，技术的基础理论牟. 3 o l a p 的多维数据结构 ; 2 . 3 . 1数据立方体维结构数据仓库和o l a p 工具是基于多维数据模型的。该模型将数据看作数据立方体 ( d a t a c u b e ) 形式. 数据立方体允许以多维形式对数据建模和观察，由维和事实定义。立方体数据结构 ( c u b e ) 立方体数据是由一系列的数据组合而成的，一个立方体数据结构由很多数据维组成，每个维都表示一类的数据。如图2 - 1 所示，图中最大的立方体即为一个 3 维的立方体结构。维 ( d im e n s i o n ) 一般地，维是关于一个组织想要记录的透视或实体，是人们观察数据的特定角度。例如:贸易公司经常会关心时间和销售地区以及销售商品种类三个因素，并很有可能通过它们进行统计查询，就可以将时间、地区和商品种类建立成维。 ( 每个维都有一个表与之相联，该表称为维表) 维的层次 ( h i e r a r c h y ) 一个数据维可以包含一个或多个层次 ( h i e r a r c h y ) ，层次是多级结构中的某一级别与其下一层级别之间的 “ 父一子”关系，位于层次顶部的是 “ 根级”( r o o t le v e l ) ，位于层次底部的是一个或多个“ 叶子”( l e a f ) 。层次中的任何一级可以被看作数据维里的一类数据。例如: 时间维可以根据查询的要求分为“ 年” 、 “ 季度” 、 “ 月” 、 “ 星期” 、 “ 天，、 “ 小时，、 “ 分钟，和 “ 秒钟，几个级别。一般地，可以用 a l l ” 来作为 “ 根级” 。成员 ( m e m b e r ) 层次里某一级别的一个成员，也被称为级别值 ( l e v e l v a l u e ) ，包含了由该级别所表示的数据集合。层次的顶部 ( 根级) 容纳了粗略划分的数据集合，而在层次的底部 ( 叶子)则包含了精细划分的数据集合。例如:在时间维的层次中，实例2 0 0 2 年7 月就是一个成员。度量 ( m e a s u r e ) 我们看到立方体结构中至少要包含一个数据维，在一个数据维里又至少包含一个层次，而一个层次又至少要包含一个级别。在一个级别里，拥有多个成员。在事实表关键字与数据维成员交叉的地方，每一个成员里至少有一个数据值出现第 9负第二章 o l a p 技术的基础理论在该位置上。事实表成员的值被称为 “ 度量”( m e a s u r e ) ，它是进行数值分析时所要寻找的数据信息。例如: 2 0 0 2 年7 月天津地区西服的销售额就是一个度量。数据点 ( d a t a p o in t ) 立方体数据结构里的一个数据点 ( d a t a p o i n t ) ，也被称为数据元 ( c e l l ) ，是数据立方体数据结构的最小单位，即叶结点，与关系型数据库中一条记录的一个属性项对应。例如: 2 0 0 2 年7月1 日天津地区某商店销售一件西服的利润额就是一个数据点。 0 - d( 顶点) 方体北京幻me 一四回四比 2 0 0 2 ,6 一 2 0 0 2 ,7 1 - d方体 2 - d方体时间维大衣西服盯 . 葵酥蔺一飞 3 - d( 基本)方体 t i m e , l o c a t i o n , i t e m 图2 - 1某销售数据的3 维立方体表示图2 - 2某销售数据的3 维方体格表示立方体结构还可以显示为如图2 - 2 所示的方式，使用这种方式可以更好地表现汇总信息。存放最低层的方体称为基本方体，即图中的给定维 t i m e , l o c a t i o n 和it e m的3 - d方体;0 - d方体存放在最高层的汇总，称作顶点方体，通常用a l l 标记。多维数据库模式的定义正象关系数据库查询语言s q l可以用于说明关系查询一样，数据挖掘查询语言d m q l也可以用于说明数据挖掘任务. 数据仓库可以使用两种原语定义: 立方体和维的定义定义立方体: d e fi n e c u b e s a l e s s t a r t i m e , it e m , b r a n c h , lo c a t i o n : d o ll a r s s o l d = s u m ( s a l e s i n es d o l l a r s ) , u n it s o l d = c o u n t ( * ) 定义维: d e f i n e d i m e n s i o n t i m e a s ( t i m e es k e y , d a y , d a y - o 仁 w e e k , m o n t h , q u a r t e r , y e a r ) 第 9页第二章 o l a p 技术的基础理论 2 . 3 . 2 多维数据库模式关系型数据库的数据模型为实体一联系模型，它适用于联机事务处理;数据仓库需要简明的、面向主题的模式，便于联机数据分析，使用多维数据模型。多维数据模型包括两种表:事实表和维表。 1 .事实表:由两部分组成，一部分存储度量 ( m e a s u r e ) ,另一部分存储各个维的关键字。 2 .维表:对于每一个维，至少有一个表来保存该维的成员类别、层次等维的描述信息。根据事实表与维表的不同结构，可以把多维数据模型分为三类: 星型、雪花型和事实星座模式。 1 .星型模式 ( s t a r s c h e m a ) :是最常见的模型规范，包含一个大的包含大批数据和不含冗余的中心表 ( 事实表)和一组小的附属表 ( 维表) 。如图2 - 3 所示，我们可以清楚看到星型模式的特点:每个维对应一张维表。 t i m e 维表 s a l e s 事实表i t e m维表 2 .雪花型模式 ( s n o w fl a k e s c h e m a ) :雪花模式是星型模式的变种，也是包含一个数据表和多个维表，但其中某些维表是规范化的，因而把数据进一步分解到附加的表中。结果，模式图形类似于雪花的形状。例如，维表中的数据进行分解，重新创建c i t y 维表，则获得如图将星型模式中的lo c a t i o n 2 - 4 所示的雪花型模式。第 1 0负第二章 o l a p 技术的基础理论 t i m e 维表 s a l e s 事实表i t e m维表图2 - 4某数据仓库的雪花型模式 3 . 星座模式( f a c t c o n s t e l l a t i o n ) : 复杂的应用可能需要多个事实表共享维表。这种模式可以看作星型模式集，因此也可以称为星系模式 ( g a l a x y s c h e m a ) . 三种模式的比较: 雪花型和星型模式的主要区别在于，雪花模式的维表可能是规范化的形式，以便减少冗余。这种表易于维护，并节省存储空间。然而，与巨大的事实表相比，这种空间的节省可以忽略。此外，由于执行查询需要更多的连接操作，雪花结构可能降低浏览的性能。这样，系统的性能可能相对受影响。因此，在数据仓库的设计中，雪花模式不如星型模式流行。另外，由于星型模式和雪花模式比较简单，对于单一主题的数据仓库 ( 数据集市)的设计，这两种模式更为流行和有效; 而对于多主题的、企业范围的数据仓库，有时候必须使用星座模式。 2 . 3 . 3度量的分类和计算数据立方体空间的多维点由维一值对定义。数据立方体度量 ( m e a s u r e )是一个数值函数，该函数可以对数据立方体的每一个点求值。通过对给顶点的各维- 值对聚集数据，计算该点的度量值。度量可以根据其所用的聚集函数分为三类: 1 分布的 ( d i s t r i b u t i v e ) :设数据被划分为n 个集合，函数在每一部分上的计算得到一个聚集值。如果将函数用于n 个聚集值得到的结果，与将函数用于所有数据得到的结果一样则该度量是分布的，如c o u n t q , s u m ) 等第日页第二章 0 1 a p 技术的基础理论 2 . 代数的( a lg e b r a ic ) : 如果一个聚集函数能够由一个具有m个参数的代数函数计算，且每个参数都可以用一个分布聚集函数求得。如 a v g ( ) 可以由 s u m o ) / c o u n t ( ) 计算，其中s u m o 和c o u n t o 是分布聚集函数。 3 . 整体的( a l g e b r a i c ) : 如果一个聚集函数无法用具有m个参数的代数函数进行这一计算，则这个函数称是整体的，如; a n d ( ) 等许多度量可以用关系的聚集操作计算，如o u n t o , s u m o , a v g o , g r o u p b y , c o m p u t e 等等。例如，如果我们想计算s a le s _ q u a n t it y ，也可以用如下s q l 语句直接从关系数据库中得到结果: s e l e c t s u m ( s .n u m b e r we o f u n it s s o l d * s .p r i c e )， s u m ( s .n u m b e r o f u n it s s o l d ) f r o m t i me t , i t e m i , b r a n c h b , l o c a t i o n 1 , s a l e s s , wh e r e s .t i m e es k e y = t .t i m e es k e y a n d s . it e m 一e y = i .it e m k e y a n d s .b r a n c h k e y = b . b r a n c h es k e y a n d s . lo a t io n we k e y = l .l o c a t i o n k e y g r o u p b y s .t im e es k e y , s .it e m es k e y , s .b r a n c h es k e y , s . l o c a t i o n - k e y 2 . 3 . 4概念分层概念分层 ( c o n c e p t h i e r a r c h y ) 定义了一个映射序列，将底层概念映射到更一般的高层次概念。概念分层可能会隐藏在数据库模式中，某个维的属性可能会形成全序或偏序，概念分层为数据库模式中的全序或偏序称作模式分层 ( s c h e m a h i e r a r c h y ) 例如: 全序相关， lo c a t i o n 维的属性是a r e a ,s t a t e , p r o v in c e 和c it y ，这些属性按照一个形成一个层次 c it y p r o v i n c e s t a t e a r e a . t i m e 维的属性是 d a y m o n t h y e a r , q u a rt e r , m o n t h , y ) = p ( y ix ) = 1 ( t : x u y c t , t e d ) i/ i t : x c t , t e d i 同时满足最小支持度闽值 ( m i n - s u p ) 和最小置信度闷值 ( m i n - c o n f ) 的规则称作强规则。一般，为了方便，利用 0 %与 1 0 0 %之间的值而不是用0到 1 之间的值表示支持度和置信度。项的集合称作项集 ( it e m s e t ) 。包含 k 个项的项集称为 k 一项集。项集出现的频率是包含项集的事务数，简称为项集的频率、支持计数或计数。项集满足最小支持度m i n - s u p ，如果项集的出现频率大于或等于m i n - s u p 与d中事务总数的乘积。如果项集满足最小支持度，则称它为频繁项集 ( f r e q u e n t it e m s e t ) o 频繁 k - 项集的集合通常记作l k 关联规则的挖掘是一个两步的过程: 找出所有频繁项集: 根据定义，这些项集出现的频繁性至少和预定义的最小支持计数一样由频繁项集产生强关联规则: 根据定义，这些规则必须满足最小支持度和最第 4 5页第五童 o l a p 技术与数据挖掘的结合应用小置信度。 ; 5 . 2 . 3关联规则挖掘的主要算法 a g r a w a l 等于 1 9 9 3 年首先提出了挖掘顾客交易数据库中项集间的关联规则问题，其核心方法是基于频集理论的递推方法。以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算法进行优化，如引入随机采样、并行的思想等，以提高算法挖掘规则的效率; 提出各种变体，如泛化的关联规则、周期关联规则等，对关联规则的应用进行推广。核心算法 a g r a w a l 等在1 9 9 3 年设计了一个基本算法 4 1 ，提出了挖掘关联规则的一个重要方法一这是一个基于两阶段频集思想的方法，将关联规则挖掘算法的设计可以分解为两个子问题: 1 .找到所有支持度大于最小支持度的项集 ( i t e m s e t ) ，这些项集称为频集 ( f r e q u e n t i t e m s e t ) e 2 . 使用第1 步找到的频集产生期望的规则。这里的第2 步相对简单一点。如给定了一个频集y = i , i 2 . .i k , k ? 2 , i 1 c i ，产生只包含集合 i 1 2 , ， i k 中的项的所有规则( 最多k 条 ) ，其中每一条规则的右部只有一项， ( 即形如 y - i ; = : i ; , d1-i-k)，这里采用的是 4 1 中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。对于规则右部含两个以上项的规则，在其以后的工作中进行了研究，本文后面考虑的是这种情况。为了生成所有频集，使用了递推的方法。其核心思想如下: ( 1 ) l , = l a r g e 1 - i t e m s e t s ) ; ( 2 ) f o r ( k = 2 ; l k . , x (d ; k + + ) d o b e g i n ( 3 ) c k = a p r i o r i - g e n ( l k - , ) ; / 新的候选集 ( 4 ) f o r a ll t r a n s a c t i o n s t e d d o b e g i n ( 5 ) c t= s u b s e t ( c k , t ) ;/ 事务t 中包含的候选集 ( 6 ) f o r a l l c a n d i d a t e s c e c , d o ( 7 ) c .c o u n t + + ; ( 8 ) e n d 第 4 6页第五章 o l a p 技术与致据挖掘的结合应用 f ( 9 ) l k 0 c e c k jc .c o u n t z m in s u p ) ( 1 0 ) e n d ( 1 1 ) a n s w e r - v k l k ; 首先产生频繁1 一项集l , ，然后是频繁2 一项集l 2 ，直到有某个; 值使得4为空，这时算法停止。这里在第k次循环中，过程先产生候选 k 一项集的集合 c k , c k 中的每一个项集是对两个只有一个项不同的属于玩一，的频集做一个( k - 2 ) 连接来产生的。 c k 中的项集是用来产生频集的候选集，最后的频集l k 必须是c k 的一个子集。c 、中的每个元素需在交易数据库中进行验证来决定其是否加入 l k ，这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库，即如果频集最多包含 1 0 个项，那么就需要扫描交易数据库 1 0 遍，这需要很大的v 0负载。 5 . 2 . 4基于数据仓库的关联规则的挖掘随着数据仓库和o l a p技术研究的深入，可以预见大量的数据将经过整合、预处理，从而存入数据仓库之中。在当前，大多数的数据仓库的应用都是进行统计、建立多维以及o l a p 的分析工作。随着数据挖掘研究的深入，己经有了o l a p 和数据挖掘相结合的方法。卜6 首先一个有效的数据挖掘方法应该可以进行探索性的数据分析。用户往往希望能在数据库中穿行，选择各种相关的数据，在不同的细节层次上进行分析，以各种不同的形式呈现知识。基于o l a p的挖掘就可以提供在不同数据集、不同的细节上的挖掘，可以进行切片、切块、展开、过滤等各种对规则的操作。然后再加上一些可视化的工具，就能大大的提高数据挖掘的灵活性和能力。 5 . 2 . 4 . 1事务分类无论是对于支持度还是置信度的计算，都需要进行大量的统计工作，以得到项集x . y所包含事务的总和，再进行概率的统计。这样一来，必定要耗费大量的时间用于统计。引用o l a p的技术，在数据立方体结构上对关联规则挖掘的两个闭值进行计算将会节省大量的时间。本文在o l a p 数据仓库的基础上，对关联规则的算法做了改进: 首先，对项集x , y的上层作分类，例如: 如果x为i n c o m e ( 5 0 k - 7 0 k ) ，那么我们可以对i n c o m e 进行分类，那么其中必然包含 x ，同样，对 y的上层进行分类，不妨设 x . y 的上层项集为m. n。然后，按照计算两个闽值，最后判断是否为关联规则。具第 4 7页第五章 o l a p 技术与数据挖掘的结合应用最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树，是一种有指导的学习方法。该方法先根据训练子集 ( 又称为窗口) 形成决策树。如果该树不能对所有对象给出正确的分类，那么选择一些例外加入到窗口中，重复该过程一直到形成正确的决策集。最终结果是一棵树，其叶结点是类名，中间结点是带有分枝的属性，该分枝对应该属性的某一可能值。最为典型的决策树学习系统是1d 3 ，它采用自顶向下不回溯策略，能保证找到一个简单的树。7 1 数据分类还有统计、粗糙集 ( r o u g h s e t ) 等方法。线性回归和线性辨别分析是典型的统计模型。为降低决策树生成代价，人们还提出了一种区间分类器。最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。预测型知识 ( p r e d i c t i o n ) 它根据时间序列型数据，由历史的和当前的数据去推测未来的数据，也可以认为是以时间为关键属性的关联知识。目前，时间序列预测方法有经典的统计方法、神经网络和机器学习等。 1 9 6 8 年b o x 和j e n k i n s 提出了一套比较完善的时间序列建模理论和分析方法，这些经典的数学方法通过建立随机模型，如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等，进行时间序列的预测。由于大量的时间序列是非平稳的，其特征参数和数据分布随着时间的推移而发生变化。因此，仅仅通过对某段历史数据的训练，建立单一的神经网络预测模型，还无法完成准确的预测任务。为此，人们提出了基于统计学和基于精确性的再训练方法，当发现现存预测模型不再适用于当前数据时，对模型重新训练，获得新的权重参数，建立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。 5 . 3 . 2 准备分类

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）基于数据仓库的信息系统实现技术研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）基于数据仓库的信息系统实现技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档