




已阅读5页,还剩47页未读, 继续免费阅读
(管理科学与工程专业论文)基于数据立方体的多维关联规则挖掘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
f 本论文 z 卜f k k 学位论文质 主席: 委员: 导师: 学位论文作者签字i 习互弓冬 日 q 签字日期:缈年,r 月) ,v 学位论文版权使用授权书 本学位论文作者完全了解 金胆王些太堂 有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借 阅。本人授权 金月巴王些太堂 可以将学位论文的全部或部分论文内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 名:丹磅 签字日期:p t 年矽月7 泪 日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 心协1 , 签字日期:勿。1 年吖月1 ,v 电话: 邮编: 基于数据立方体的多维关联规则挖掘研究 摘要 关联规则挖掘是数据挖掘领域中的一个重要的研究内容,其主要目标 就是发现数据库中一组对象之间某种有趣关联或相关联系。近年来,关联 规则挖掘研究成为数据挖掘中的一个热点,并被广泛应用于市场营销、事 务分析等领域。 数据立方体是o l a p 多维数据分析的基础,它体现了数据仓库的结构 并且包含了预先计算好的聚合信息,能够直接为关联规则挖掘的过程所使 用,提高规则发现的效率。 本文对数据立方体上的关联规则挖掘算法进行了系统的研究和全面 的总结,并在此基础上提出了改进的关联规则挖掘算法。 首先,本文介绍了数据仓库、o l a p 、关联规则挖掘的基本知识和常 用的一些关联规则挖掘方法,并对数据立方体上的关联规则挖掘算法进行 了总结。 其次,针对m u l t i d s l i c i n g 算法中的冗余谓词搜索问题进行了分析, 提出了改进的基于维分类的关联规则挖掘算法,该算法有效减少了冗余谓 词搜索的问题,节省了生成频繁项集所消耗的时间,实验表明该算法比 m u l t i d s l i c i n g 算法具有更好的性能。 最后,论文提出了一种基于数据立方体的关联规则挖掘系统的结构模 型,介绍了系统实现采用的具体技术和方法,并且在挖掘系统中运用了改 进的算法,取得了良好的效果。 关键词:数据挖掘;o l a p ;关联规则;数据立方体 t h er e s e a r c ho nm u l t i d i m e n s i o n a la s s o c i a t i o nr u l e s m i n i n gb a s e do n d a t ac u b e s a b s t r a c t a so n eo fa ni m p o r t a n tc o n t e n ti nd a t am i n i n g ,a s s o c i a t i o nr u l e sm i n i n g a i m st od i s c o v e rt h ei n t e r e s t i n gc o n n e c t i o no r c o r r e l a t i o nm i d s tas e to f o b je c t si nad a t a b a s e a s s o c i a t i o nr u l e sm i n i n gh a sb e c o m eah o tr e s e a r c h t o p i ci nr e c e n ty e a r s ,a n di t h a sb e e nu s e dw i d e l yi ns e l e c t i v em a r k e t i n g , d e c i s i o na n a l y s i sa n db u s i n e s sm a n a g e m e n t d a t ac u b ei st h ef o u n d a t i o no fo l a pm u l t i d i m e n s i o n a ld a t aa n a l y s i s , a n di tr e f l e e t st h es t r u c t u r eo fd a t aw a r e h o u s ea n dc o n t a i n st h ec a l c u l a t e d a g g r e g a t i o ni n f o r m a t i o nt h a t c a nb ed i r e c t l yu s e di nm i n i n gp r o c e s st o i m p r o v et h ee f f i c i e n c yt of i n dr u l e s i nt h et h e s i s ,s o m ec l a s s i c a la l g o r i t h m sf o rm i n i n ga s s o c i a t i o nr u l e sh a v e b e e ns v s t e m a t i c a l l ys t u d i e da n dc o m p r e h e n s i v e l ys u m m a r i z e d o nt h eb a s i co f p r e v i o u sr e s e a r c h ,t h ei m p r o v e da l g o r i t h m f o rm i n i n ga s s o c i a t i o nr u l e si s p r o p o s e d f i r s t l y , t h e t h e s i si n t r o d u c e st h eb a s i ck n o w l e d g eo fd a t aw a r e h o u s e , o l a pa n ds o m ec o m m o na s s o c i a t i o nr u l e sm i n i n gm e t h o d s ,a n ds u m m a r i z e s a l g o r i t h m sf o ra s s o c i a t i o nr u l e sm i n i n g 0 nd a t ac u b e s - s e c o n d l y , t h et h e s i sa n a l y s e st h er e d u n d a n tp r e d i c a t e ss e a r c hp r o b l e mo f m u l t i d s l i c i n ga l g o r i t h m ,a n dp r o p o s e sa ni m p r o v e da l g o r i t h mo f a s s o c i a t i o n r u l e sm i n i n gb a s e do nd i m e n s i o nt y p e s ,w h i c he f f e c t i v e l yr e d u c e s t h e r e d u n d a n tp r e d i c a t e ss e a r c h ,s a v e st h et i m eo fg e n e r a t i n gf r e q u e n ti t e m s e t s t h ee x p e r i m e n ts h o w st h a tp r o p o s e da l g o r i t h mh a sb e t t e rp e r f o r m a n c et h a n m u l t i d - s l i c i n ga l g o r i t h m f i n a l l y , t h i sp a p e rg i v e sas t r u c t u r em o d e lo f d a t ac u b e - b a s e da s s o c i a t i o n r u l e sm i n i n gs y s t e ma n di n t r u c t s t h e s y s t e mr e a l i z i n gt e c h n o l o g i e s a n d m e t h o d s t h e nw eu s et h ep r o p o s e da l g o r i t h mt of i n da s s o c i a t i o nr u l e si nt h e m i n i n gs y s t e m ,a n di ta c h i e v e sg o o de f f e c t k e yw o r d s :d a t am i n i n g ;o l a p ;a s s o c i a t i o n r u l e s ;d a t ac u b e 致谢 值此论文完成之际,我谨向所有关心和帮助过我的老师、同学、朋友 以及家人致以最真诚的谢意! 首先,我要特别感谢我的导师倪志伟教授。倪老师治学严谨,学识渊 博,使我在理论学习上受益匪浅,且对我的生活和工作也是关怀备至。从 论文选题到最终成文,一直得到老师的指导和大力支持,才使得我能够顺 利完成论文撰写。在此,我谨向我的导师致以崇高的敬意和衷心的感谢! 我要感谢孟金华、戴奇波、查春生、公维峰、姜苗等同学,以及研二、 研一的师弟师妹们一直给予我的支持和帮助,特别要感谢倪丽萍师姐、高 雅卓师姐、胡汤磊师兄、郭峻峰师兄在我论文写作过程中给予的建议和帮 助。 感谢合肥工业大学管理学院智能商务研究所的同学们,正是在和你们 的交流和帮助卞,我才得以不断提高,衷心地祝愿你们学业有成、前程似 锦! 最后,我要感谢我的家人,感谢他们二十多年来给予我在学习和生活 方面的支持和鼓励,使我能够安心学习,顺利完成学业! i v 作者:周之强 2 0 1 1 年4 月 目录 第一章绪论1 1 1 研究背景及意义1 1 2 国内外研究现状2 1 3 论文的工作和组织结构3 1 3 1 论文的工作一3 1 3 2 论文的组织结构3 第二章相关研究工作4 2 1 数据仓库4 2 1 1 数据仓库概念4 2 1 2 数据仓库体系结构4 2 1 3 数据仓库数据模型5 2 2o l a p 技术6 2 2 1o l a p 的相关概念6 2 2 2o l a p 系统体系结构7 2 2 3o l a p 与数据仓库9 2 2 4o l a p 与数据挖掘9 2 3 主要关联规则挖掘方法1 0 2 3 1 基本概念和定义1 0 2 3 2 关联规则的分类1 1 2 3 3 多维关联规则挖掘1 1 2 3 4 多概念层次关联规则挖掘1 2 2 3 5 基于约束的关联规则挖掘1 3 2 4 本章小结l3 第三章基于数据立方体的关联规则挖掘算法1 4 3 1 数据立方体:1 4 3 1 1 数据立方体的基本概念1 4 3 1 2 数据立方体上的o l a p 操作1 5 3 1 3 数据立方体的物化1 6 3 2a p r i o r i 算法1 7 3 2 1a p r i o r i 算法思想1 7 3 2 2a p r i o r i 算法的改进18 3 3f p g r o w t h 算法1 9 3 3 1f p g r o w t h 算法思想1 9 3 3 2f p g r o w t h 算法的改进2 0 v 3 4 算法分析比较2 0 3 5 本章小结2 1 第四章一种基于维分类的关联规则挖掘算法2 2 4 1 基本概念与定义2 2 4 2 冗余谓词搜索问题2 4 4 3 算法描述2 5 4 4 实例分析2 6 4 5 实验2 8 4 5 1 实验环境和数据一2 8 4 5 2 实验结果分析2 8 4 6 本章小结2 9 第五章基于数据立方体的关联规则挖掘系统的设计与实现3 0 5 1 关键技术及工具3 0 5 1 1a s e n e t 2 0 3 0 5 1 2s s i s 3 0 5 1 3s s a s 3 0 5 1 4m d x 3 1 5 2 系统模型设计3 1 5 3 数据立方体3 3 5 3 1 数据仓库设计3 3 5 3 2 数据预处理3 3 5 3 3 数据立方体的生成3 5 5 4o l a p 引擎3 5 5 5 关联规则挖掘引擎3 6 5 6 用户界面3 6 5 7 本章小结3 7 第六章总结与展望3 8 6 1 工作总结3 8 6 2 工作展望3 8 参考文献3 9 攻读硕士学位期间的成果“4 3 v i 图2 1 图2 - 2 图2 - 3 图3 一l 图4 1 图4 2 图4 - 3 图5 1 图5 - 2 图5 - 3 图5 - 4 图5 - 5 图5 - 6 图5 - 7 图5 - 8 图5 9 图5 1 0 v i i 数传吖数数不不儿数客盯数此二儿儿挖 表4 - 1 表4 - 2 表4 - 3 表4 - 4 表4 - 5 表4 - 6 表4 - 7 表4 - 8 表4 - 9 表4 - 1 0数数数数数数数由由由 第一章绪论 近年来,随着信息技术的不断推广应用,企业已经进入了一个信息爆炸的 时代,同时企业经营的业务也在不断增多,随着时间的推移,企业积累的数据 规模也在不断地增大。人们正面对着海量存储的数据,企业的决策者如何从这 些海量的数据中找出有用的信息是企业决策方面的一个重要的研究课题。数据 仓库( d a t aw a r e h o u s e ,d w ) 技术专门用于为决策者提供决策支持信息,它可以 根据企业的决策需求将多种不同计算机系统中的相关数据集成在一起并存储到 数据仓库系统中,通过对数据仓库中数据的查询、分析和挖掘,发现对决策有 用的信息。 1 1 研究背景及意义 随着数据仓库技术的不断发展,建立在数据仓库之上的联机分析处理 ( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 技术受到人们的普遍关注,是一个重要的 研究热点。o l a p 以多维分析为基础,可以在管理和决策过程中对数据进行多 层次、多角度的分析处理,满足了日常的数据分析需求,为企业管理和决策活 动提供了一个新的工具,也为商业智能系统的开发提供了新的思路。o l a p 支 持最终用户对企业数据进行动态的多维分析,它首先根据数据分析的主题从数 据仓库中构建各种数据立方体,然后在根据数据分析的请求在立方体之上执行 相关的o l a p 操作,最后再把操作结果以图表或图形等各种比较直观的方式展 现给最终用户。数据立方体可以有效地支持决策目标的实现,它的特殊结构和 物化存储方法,使得从侮量数据中提取有用信息的计算过程变得比较简单,是 数据仓库和o l a p 技术的核心概念。 数据挖掘是从存储在数据库、数据仓库或者其他信息库中的大量数据中获 取有效的、新颖的、潜在有用的知识或者模式的过程。随着计算机技术的高速 发展,存储介质的容量不断增大而企业购买存储设备的成本却在相对减小的情 况下,越来越多的数据被存储在介质中,这些数据都是以数据库、数据仓库或 者其他的形式组织并存储的。这些存储在介质中的历史数据蕴含着有用的信息 或模式,如何从海量的数据中挖掘出这些信息或模式对企业有着重大的意义。 关联规则挖掘是数据挖掘的一个重要研究方向。关联规则挖掘可以在大型数据 库中找出各个项集之间有趣的关联关系,挖掘出来的结果可用于金融市场分析、 产品推荐等应用中。 数据仓库是面向主题的、集成的、时变的、非易失的数据集合,用于支持 企业管理部门的决策过程,构建在数据仓库之上的o l a p 技术也已日益成熟和 完善,这给数据挖掘带来了新的机遇,o l a p 和数据挖掘作为两种数据分析工 具,它们既有区别也有联系,所以完全可以将o l a p 和数据挖掘二者有机结合 在一起,使得决策支持系统能够发挥更大的功效。 1 2 国内外研究现状 近年来,数据仓库中执行数据挖掘任务这一主题的研究受到了普遍关注。 o l a p 是数据仓库支持决策分析的关键,数据仓库中o l a p 分析使用的数据存 储在数据立方体中,它是实现多维数据查询与分析的一种重要手段,多维数据 分析的本质就是沿着不同的维度进行数据获取的过程【l 】。在数据立方体上的模 式和关联规则的挖掘已成为许多学者的重要研究课题之一。 在数据仓库上运用o l a p 的过程一般是:首先从数据仓库中构造出相关的 数据立方体,然后对数据立方体进行o l a p 操作,最后把结果展现给最终用户。 如果用户事先给定了挖掘的约束条件,则可以从数据仓库中生成指定的数据立 方体,并且在数据立方体上进行关联规则挖掘,这种基于约束的关联规则挖掘 具有较大的针对性,可以不必事先全部物化整个数据立方体,而是选择较小的 子立方体进行物化,进而减小了物化数据立方体的代价。数据立方体被预先全 部或部分物化存储,而且数据立方体的聚合信息也存储在其中,从而为关联规 则发现节省了挖掘时间,有效地提高了挖掘效率。 k a m b e r 等人提出使用关联规则算法在数据立方体上进行数据挖掘操作,因 为数据立方体的结构体现了数据仓库的结构并且包含了预先计算好的聚合信 息,能够直接为关联规则挖掘的过程所使用【2 】;i m i e l i f i s k i 等人认为o l a p 技术 和关联规则联系密切,二者结合可以在数据中发现模式【3 j 。大量研究也表明, 关联规则挖掘技术能够与o l a p 技术很好地结合,从数据立方体中发现知识, 并使o l a p 在决策支持系统中变得更加简单有效。 在立方体上的关联规则挖掘算法研究中,k a m b e r 等人提出了立方体上的元 规则制导挖掘【4 】,并且给出两种主要的谓词搜索策略,第一种是基于a p r i o r i 算 法的谓词生成策略,第二种是直接p 谓词生成的策略;而也有学者r i a d hb e n m e s s a o u d 提出一种新型的增强关联规则挖掘方法 5 1 弥补传统立方体上采用 c o u n t 来计算支持度和置信度的不足,并且给出了自己的关联规则的支持度 和置信度的计算方法,最后还给出对规则的兴趣度和相关程度的计算方法。 我国的学者也对数据立方体上的关联规则挖掘做了进一步研究,其中大部 分运用了a p r i o f i 算法的基本思想,对立方体上的维内、维间关联规则算法进行 了研究【6 】【7 】;也有学者提出基于分块关联规则方法【8 】;还有学者在数据立方体上 采用f p g r o w t h 算法寻找频繁模式,提出并构建了体现概念层次的h i b & d i m f p 树和其挖掘算法h i b & d i m f p 算法【9 】,并把此算法应用于数据立方体上的多维 多层关联规则挖掘中。 2 1 3 论文的工作和组织结构 1 3 1 论文的工作 本文对数据仓库和o l a p 相关的概念和技术做了比较详细的介绍,对传统 的关联规则挖掘方法也进行了研究和论述,对数据立方体上的关联规则挖掘算 法进行了分类和总结,分析了其中一种算法的不足,并且针对该算法中存在的 缺陷提出了改进的算法,最后结合实际应用背景开发出了o l a p 关联规则挖掘 系统。本文工作主要体现在以下几个方面: 第一:详细介绍了数据仓库、o l a p 和关联规则挖掘相关的概念和技术, 并对传统的立方体上的关联规则挖掘算法进行了论述和比较。 第二:提出一种立方体上基于维分类的元规则制导的关联规则挖掘方法 ( l r s ) ,它能够有效解决解决立方体上的冗余谓词搜索问题,提高规则发现的 时间效率。 第三:结合实际应用背景提出一种基于数据立方体的关联规则挖掘系统结 构并开发出应用系统,详细说明了系统开发过程。 1 3 2 论文的组织结构 围绕着上述研究工作,本文的组织结构安排如下: 第一章,介绍本文的研究背景及意义、国内外研究现状以及研究内容和结 构。 第二章,介绍数据仓库和o l a p 技术和主要的关联规则挖掘方法。 第三章,介绍数据立方体的概念和相关技术、总结了目前立方体上主要的 关联规则挖掘算法。 第四章,本章结合冗余谓词搜索的问题提出了一种改进算法,主要内容包 括问题的描述、概念和定义、算法思想、算法分析、实例分析、实验和结论。 第五章,提出了一种基于数据立方体的关联规则挖掘系统的结构模型并详 细介绍了系统实现采用的具体技术和方法。 第六章,工作总结和展望。 3 第二章相关研究工作 2 1 数据仓库 2 1 1 数据仓库概念 w i l l i a mh i n m o n 在其著作b u i l d i n gt h ed a t aw a r e h o u s e ) ) 中详细阐述了数 据仓库的思想和理论,他对数据仓库的概念给出了以下描述:数据仓库是一个 面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用来支持管理 人员做出决策【l 。 数据仓库中存储来自于异地、异质、异构的数据源或数据库的数据,这些 原始数据在经过抽取、转换、过滤、清洗等处理后,由数据仓库进行存储和管 理。数据仓库中存储了企业不同部门的业务系统的集成化和历史化的数据,这 些数据均来自于企业的各个业务系统数据库并集中存储在数据仓库中,使得用 户可以随意提取数据,而不会影响业务系统数据库的正常运行。数据仓库是一 个由软、硬件技术结合组成的环境,它将各种数据源中的数据集成在统一的数 据仓库中,方便了最终用户的访问,而且可以从多种角度对这些数据进行观察 和分析,使得用户对数据有比较全面的认识,做出的决策也会更加有效。 2 1 2 数据仓库体系结构 数据仓库系统的主要内容是数据仓库以及建立在数据仓库基础上的查询、 分析处理、o l a p 和数据挖掘技术,根据系统工作的主要流程可以将它分为: 数据抽取、数据存储和管理、数据分析和展现、数据挖掘等关键技术。数据仓 库系统包含了四个层次和以下几个部分,如图2 1 所示: 1 数据源 数据仓库的数据来自于多个数据源,数据源是整个数据仓库系统的基础, 通常包括企业内部数据和市场调查与分析的外部数据。内部数据包括存放在关 系数据库管理系统中的各种业务系统的交易数据和各类文档数据;外部数据包 括各类政策、法律法规、市场信息和竞争对手信息等。 翻i 叫- 鲁糟一- - 卜曩哪碎憎工脚 图2 - 1数据仓库四层体系结构 4 2 数据的存储与管理 数据仓库面对的是海量数据的存储和管理,它是整个数据仓库系统的核心。 数据仓库的组织和管理方式不同于传统数据库,这也决定了它对外部数据的表 现形式也有别于传统数据库。按照数据的覆盖范围可以将数据仓库分为企业级 数据仓库和部门级数据仓库,其中,部门级数据仓库中是企业级数据仓库的一 个子集,他主要面向部门级业务,并且只面向某个特定的主题,通常又称为数 据集市( d a t am a r t ) 。 数据仓库的管理通常包括数据的维护、安全、备份、恢复、归档和日志记 录等工作。 3 o l a p 服务器 对需求分析的数据按照多维数据模型进行重组,支持用户随时从多角度、 多层次来对数据进行分析,从而可以发现数据中隐藏的一般规律和趋势。对于 以多维数据库方式进行数据组织的数据仓库,o l a p 是一种非常有效的分析方 法,它可以通过上卷、下钻、切片和旋转等操作,对多维数据库进行全面的分 析。 4 前端工具 数据仓库系统的前端工具主要由一些分析工具组成,主要包括检索查询工 具、多维数据的o l a p 分析工具、统计分析和数据挖掘工具等等。 5 元数据 元数据是数据仓库的核心,用于存储数据模型,定义数据结构、转换规则、 数据仓库结构和控制信息等等。元数据是关于数据的数据,是以概念、主题或 层次等形式建立起来的信息结构,有了元数据才可以最有效地利用数据仓库。 元数据可分为技术元数据和业务目录。 技术元数据由关于数据源、目标、转换规则及数据源与数据仓库之间的映 射组成。业务目录由数据仓库管理员生成,由数据来源、当前值、预定义的查 询等方面组成,是针对具体应用数据的元数据管理。 2 1 3 数据仓库数据模型 按照数据存储形式的不同,o l a p 可以分为m o l a p 、r o l a p 、h o l a p 三 种类型。m o l a p 即多维o l a p ,它利用一种专有的多维数据库来存储o l a p 分析所需要的数据;r o l a p 即关系型o l a p ,它通过使用关系的或者扩充关系 的数据库管理系统来存储并管理数据仓库,支持o l a p 操作;h o l a p 即混合 o l a p 结构,它不是m o l a p 与r o l a p 结构的简单结合,而是有机地综合了 r o l a p 较大的可伸缩性和m o l a p 有利于快速计算的特性,用户可以根据自己 的需求,选择哪些模型采用r o l a p ,哪些采用m o l a p 。 由于关系表是组织数据仓库的常见形式,r o l a p 是目前发展的较为成熟的 数据库管理系统,具有层次性较好、实时更新快等优点,常见的r o l a p 模型 包括星型模型、雪花模型以及星系模型。 星型模型( s t a rm o d e l ) :星型模型是最常见的一种形式,它由一个事实表和 多个维表组成,每个维表代表一个维度,并且维表和事实表都用二维关系表的 方式存放。维表中的对象通过事实表与另一个维表中的对象相关联这样就能建 立各个维表对象之间的联系。 雪花模型( s n o w f l a k em o d e l ) :雪花模型是对星形模型的扩展,雪花模型中 的某些维表是规范化的,它将数据进一步分解到附加的维表中,从而形成类似 雪花的形状。在这种模式中,维表除了具有星形模型中维表的功能外,还连接 对事实表进行详细描述的详细类别表,详细类别表通过对事实表在有关维上的 详细描述达到了缩小事实表和提高查询效率的目的。 星系模式( g a l a x ym o d e l ) :一个复杂的商业智能应用往往会在数据仓库中 存放多个事实表,这时就会出现多个事实表共享某一个或多个维表的情况,这 种就是事实星座。 2 2o l a p 技术 联机分析处理( o l a p ) 的概念最早是由关系数据库之父e f c o d d 于1 9 9 3 年 提出的【1 1 1 ,c o d d 认为联机事务处理( o l t p ) 已经不能满足用户对数据库查询分 析的需求,而s q l ( s t r u c t u r e dq u e r yl a n g u a g e ) 对大型数据库的简单查询也不能 满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得 到最终结果,而简单查询得到的结果不能满足决策者的需求。因此,c o d d 提出 了多维数据库和多维分析的概念,即o l a p 。 o l a p 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据 中转化出来的、能够被用户理解的、并且真实反映维特性的信息进行快速、一 致、交互地存取,从而获得对数据的更深入理解的一类软件技术。o l a p 的目 标是满足决策支持或多维环境中特定的查询和报表需求,它的技术核心概念是 “维 ,因此o l a p 也可以说是多维数据分析工具的集合。 2 2 1o l a p 的相关概念 1 对象 对象是在研究过程中所关心和分析的对象,如:商品的销售金额。 2 维 维是人们观察分析对象的某个角度,它是研究问题时所涉及的某种属性, 这些属性的集合构成了一个维。例如:可以从三个“维”角度观察“销售金额 这个对象,“时间维 可按时间的角度分析、统计其销售金额;“商品维 可按 不同商品分类的角度分析、统计;“地域维”可按连锁店不同地域的角度分析、 统计其销售金额。 6 3 维的层次 一个维中可允许存在若干个层,并且可以有不同的层次划分方法。在分析 型应用中,对对象可以从不同深度分析与观察并且可以得到不同的结果,“层 反映了对对象观察的深度。例如:时间维可以有日、周、月、季、年。 4 维的成员 维的一个取值称为该维的一个维成员,如果一个维是多层次的,则该维的 维成员是在不同层次的取值的组合。例如:对时间维来说,“某年 、“某年 某月 、“某月某日都是其维成员。 5 多维数组 一个多维数组可以表示为:( 维1 ,维2 ,维1 1 ,变量) ,其中变量是我 们所观察的数据对象,维1 ,维2 ,维n 分别表示我们观察该数据对象的角 度。如( 时间,商品种类,商店,销售额) 构成了一个有关商品销售额的三维 数组。 o l a p 是基于数据仓库的信息分析处理过程,旨在满足用户对决策支持和 特定查询和报表的需求。因此,o l a p 具有如下特点: 1 快速性,用户在使用o l a p 对数据进行查询和分析时,系统可以在较 短的时间内对用户的操作做出快速响应。 2 可分析性,o l a p 系统能够对用户及其应用相关的所有业务逻辑进行统 计和分析。在分析过程中不需要编程,利用现有的综合路径和统计公式就可以 定义新的专门计算,并且可以将新的专门计算作为分析的一部分直接提供给用 户使用,以用户所选择的方式展现在用户面前。 3 多维性,o l a p 系统的数据仓库采用多维模型结构,为用户提供数据的 多维概念视图,并支持层次维的选择,是o l a p 应用的灵魂。 4 信息性,指o l a p 系统中所给出的不是o l t p 系统中分散的数据,而是 具有指导意义的信息。 5 共享性,指系统在多用户存取数据时,系统可以保证数据的安全性。 2 2 2o l a p 系统体系结构 早期比较传统的o l a p 实现方案主要是采用三层客户服务器( c s ) 架构, 如图2 2 所示。 第一层:数据仓库服务器,它负责连接底层的业务数据库,并将数据集成 到数据仓库中进行集中存储和管理,实现企业级数据一致和数据共享的功能; 第二层:o l a p 服务器,主要负责将系统用户的各种操作解释成o l a p 分 析的请求,并根据请求对数据仓库进行各种分析处理的操作。 第三层:客户端,用户的操作界面,接收各种o l a p 分析操作的指令,并 且利用前端的展现工具将o l a p 服务器处理得到的结果用直观的方式展现给最 7 终用户。 三层c s 架构原理比较简单,这种体系结构的优点是系统的数据、应用逻 辑和客户应用这三分层次是分离的,因此系统的维护和升级成本比较小。如果 需要修改某个功能或者增加系统功能,可以只修改三层中的某些部分而不需要 对系统做整体的修改,但是这种体系结构也存在一个不足之处,就是当应用逻 辑发生改变时,必需在服务器端和客户端同时修改程序才能提供新功能,客户 端的o l a p 的软件也需要重新安装,这就增加了系统的投资,给用户的使用也 带来了不便。 敷据仓库晨务暑0 c a p 骧务嚣蕃尸疆 图2 - 2 传统0 l a p 三层c s 结构 随着网络传输和安全技术的不断成熟,b s 结构逐步成为了目前企业信息 系统建设的首选架构,o l a p 的前端展示方式也朝着w e b 方向发展,尤其是各 种w e b 新技术的出现,使得b s 结构系统的开发更为方便快速,为b s 结构 o l a p 系统奠定了技术基础。 b s 结构的o l a p 系统的典型架构如图2 3 所示,与传统架构的主要不同 点是增加了o l a pw e b 服务器,并且用浏览器取代了o l a p 前段工具。从功能 上来说,可分为如下四部分: 数据层:实现对数据仓库中数据的存储和管理,并且为o l a p 服务器提供 原始数据的访问服务。 o l a p 服务器:为w e b 服务器提供数据访问服务,当接收到w e b 服务器的 请求,则根据请求对数据仓库中数据进行分析处理,并且将结果返回至w e b 服 务器。 w e b 服务器:同时连接浏览器和o l a p 服务器,一方面接收客户端请求, 并把请求转换成对o l a p 服务器的数据访问请求;另一方面,它将o l a p 服务 器返回的结果按照预定的格式进行组织返回到客户端。 w e b 浏览器:它是用户的操作界面,能够根据用户操作生成客户端的访问 请求,同时将服务器端返回的数据按照预定格式展现给用户。 8 i;! 一: : : 圈牺回回 、- - - 7 :l 一:l - - - - - j :l - j : 藏据层:o l a p 服务器詹:冁b 艨务墨毽:溺踅嚣屡 : 图2 - 3b s 体系结构图 b s 系统架构提供了一种以w e b 为基本渠道的数据交换方法,远程计算机 可以通过互联网访问企业数据和应用程序。w e b 浏览器是一种使用简单、界面 友好的信息获取工具,不同计算机水平的用户都可以使用w e b 浏览器来访问互 联网,使用b s 结构具有如下优势: b s 系统架构在客户端都采用统一的w e b 浏览器界面,用户的操作比较简 便,系统的使用难度不高,也可以节省培训的费用; w e b 具有良好的跨平台性,在使用过程中用户仅通过浏览器界面就能完成 所需要的o l a p 分析,而不用考虑当前所使用的操作系统; 采用b s 系统架构时,客户端只需要安装w e b 浏览器,大多数应用程序的 处理工作都在服务器端进行,因而可以大幅缩减客户端硬件和软件的投入,同 时也降低了系统维护的工作量。 2 2 3o l a p 与数据仓库 数据仓库和o l a p 是两个截然不同的技术,但它们往往需要结合起来使用 才能显示出优势。数据仓库可以用来有效地存储和管理数据,而o l a p 用于对 建立在数据仓库之上的多维数据进行有效的查询分析,因此一个优秀的o l a p 方案一般都会有一个良好的数据仓库体系结构。 数据仓库的开发重点在于建立一个统一标准的、基础的、全面的企业数据 模型,这个模型必需满足企业日常数据分析的要求,而o l a p 的侧重点则是通 过对数据仓库中的数据进行聚集、多维化等处理,为用户提供各种快速的可视 化分析支持。 o l a p 和数据仓库可以互为补充,数据仓库保存o l a p 分析所需要的数据, o l a p 允许用户通过诸如切片、切块、钻取和旋转等方式来访问数据仓库中的 数据。 2 2 4o l a p 与数据挖掘 数据挖掘( d a t am i n i n g ,d m ) 技术可以帮助人们从数据库特别是数据仓库的 相关数据中提取出所感兴趣的知识、规律或更高层次的信息,而且也可以帮助 人们从不同程度上去分析它们,从而可以更加有效地利用数据。它不仅可以用 于描述过去数据的发展过程还能进一步预测未来的发展趋势。 9 数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要功能包括 自动预测趋势和行为、关联分析、聚类、概念描述和变差检测【l2 1 。 0 l a p 和d m 是数据仓库应用的两种重要的表现方式,但是它们所采用的 技术和最终目标不相同。o l a p 主要是为用户提供想查询的众多因素分析汇总 得出报表或者图形的服务,并且以此来指导日常经营中的决策分析工作。d m 则是运用数理统计等方法对数据进行深入分析,挖掘隐藏在数据中的更深层次 的信息,掌握数据中蕴藏的规律,也可以通过已有数据预测未来的发展趋势。 尽管d m 与o l a p 存在着以上差异,但作为决策支持工具二者是相辅相成 的。在整个决策分析系统中,o l a p 和d m 以及其它工具由于内在技术以及适 用范围的不同,只有通过协调工作才能发挥最佳作用。 2 3 主要关联规则挖掘方法 2 3 1 基本概念和定义 关联规则挖掘( a s s o c i a t i o nr u l e sm i n i n g ) 是一种重要并且已经被广泛应用 的是数据挖掘方法。关联规则挖掘的主要内容是发现大量数据中项集( i t e m s e t ) 之间有趣的关联或相关联系,是数据挖掘研究的一个重要内容。通过对大量交 易数据库进行关联规则挖掘,可以发现不同商品之间的关联,找出顾客购买的 行为模式,可以应用于产品推荐、库存安排以及根据购买模式对用户进行分类 等等。a g r a w a l 等人于1 9 9 3 年首先提出了挖掘顾客交易数据库中项集间的关联 规则问题,并提出了基于频繁项集的a p r i o r i 算法【l 3 1 。 设i = i l , f 2 ,i m 为数据项集合,d = t l ,t 2 ,兀) ,其中乃i ,称互为一个 事务,d 为i 上的交易集,简称交易集。 基于以上假设,下面给出关联规则相关定义: 定义2 1 关联规则 关联规则就是形如ajb 形式的蕴含式,并且满足条件aci ,bci 且 a n b = 矽。 定义2 2 支持度和置信度 支持度和置信度是衡量关联规则是否有意义有两个重要标准。 给定数据集d 和关联规则ajb ,其中 i f riau 口ct t d 叫 s u p p ( ajb ) = p ( a u 刀) = - t 寻= _ i i 则s u p p ( ajb ) 称为关联规则aj b 在数据集d 上的支持度。 i f raub ct t d 州 n f ( 鹏功= p m 卜书面主芜萨 则矽( 彳b ) 称为关联规则a j b 在数据集d 上的置信度。 定义2 3 强关联规则 给定最小支持度m i ns u p 和最小置信度m i n c o n f ,根据定义计算出规则 1 0 aj b 的支持度s u p p ( a b ) 和置信度国矿( 彳jb ) ,当s u p p ( ajb ) = r a i n s u p 且矿( 彳j 曰) = m i nc o n f 时,此时称关联规则ajb 为数据集d 上的强关联 规则,简称强关联规则。 定义2 4 项集、k 项集、频繁k 项集 项集是一个数据项的集合,一个包含k 个数据项的项集则称为k 项集。如 集合 键盘,鼠标就是一个2 项集。 频繁k 项集就是满足最小支持度的k 项集,所有频繁k 项集的集合就记为 l k 。 2 3 2 关联规则的分类 ( 1 ) 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间 的关系;数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型 字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然 数值型关联规则中也可以包含种类变量。 ( 2 ) 基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则 在单层关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的 层次的;在多层关联规则中,对数据按照概念层次进行划分,充分考虑数据的 层次性。 ( 3 ) 基
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国男性护理液行业市场全景分析及前景机遇研判报告
- 中班美术活动变脸
- 无创呼吸机应用和护理
- 智慧教育发展
- 煤矿机电运输事故原因及控制对策探究
- 物业品质管理与培训
- 车用尿素研发生产与销售合作协议书
- 房地产租赁合同补充协议书
- 员工培训计划表
- 知识产权侵权代理授权协议
- 陕西2025中考试题及答案
- 供应风险管理制度
- 直播间货盘管理制度
- 2025至2030中国心脏电生理标测、导航和记录设备行业发展趋势分析与未来投资战略咨询研究报告
- 2025泰山护理职业学院教师招聘考试试题
- 2025年重庆市中考历史真题(原卷版)
- 吉林省国资委监管企业招聘笔试真题2024
- 项目管理中的资源优化配置
- 2025年重庆市中考道德与法治试卷真题(含标准答案)
- 2025年北京昌平区东小口镇城市协管员招聘题库带答案分析
- 妇女儿童之家管理制度
评论
0/150
提交评论