(管理科学与工程专业论文)基于数据仓库的数据挖掘算法研究.pdf_第1页
(管理科学与工程专业论文)基于数据仓库的数据挖掘算法研究.pdf_第2页
(管理科学与工程专业论文)基于数据仓库的数据挖掘算法研究.pdf_第3页
(管理科学与工程专业论文)基于数据仓库的数据挖掘算法研究.pdf_第4页
(管理科学与工程专业论文)基于数据仓库的数据挖掘算法研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(管理科学与工程专业论文)基于数据仓库的数据挖掘算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据仓库的数据挖掘算法研究 摘要 我们己进入信息社会,企业非常注重对信息的拥有和利用,企业运用数据 库系统来记录反映企业运行状况的大量信息,以便企业工作人员能够及时获知 企业运行状况。当今社会已进入知识经济社会,数据库系统在成功地为企业提 供与企业现状有关的信息的同时,却不能直观反映出这些信息所蕴涵的对企业 未来发展趋势有重大影响的知识,从而不能为企业高层的决策行为提供有益支 持。 本文着重研究的是如何利用企业的数据库系统里大量信息资源,来获取对企业 决策有关的知识。过去的决策支持系统( d s s ) 都是以模型为中心,而且获取的 决策支持信息都是一些表面上的,属于查找性质的信息,不能得到蕴藏在信息 里的知识,为此,本文是在企业数据库系统的基础上再引进数据仓库技术,把 数据先引入数据仓库,再利用数据挖掘技术从大量信息资源中获取内在规律性 知识。如果说数据库系统解决了“信息枯竭”的问题,那么,数据仓库与数据 挖掘技术解决了信息过多,却又无法掌握有效信息的“信息爆炸”问题。 关键词:数据仓库数据挖掘知识发现算法 d a t am i n i n ga l g o r i t h m sr e s e a r c hb a s e do nd a t a 纬勿r e h o u s e a b s t r a c t w eh a v ee n t e r e dt h ei n f o r m a t i o ns o c i e t y ,e n t e r p r i s e sa t t a c hg r e a ti m p o r t a n c et o t h ep o s s e s s i o na n du s eo fi n f o r m a t i o n ,e n t e r p r i s e su s ed a t a b a s es y s t e mt or e c o r da w e a l t ho fi n f o r m a t i o nr e f l e c t i n gt h es t a t eo ft h ee n t e r p r i s eo p e r a t i o nf o re n t e r p r i s e s t a f fc a nb ei n f o r m e do fe n t e r p r i s ep e r f o r m a n c e t h ec o m m u n i t yh a sa c c e s st ot h e k n o w l e d g e - b a s e ds o c i e t y , t h ed a t a b a s es y s t e mi n t h es u c c e s s f u le n t e r p r i s e sf o r e n t e r p r i s e sw i t ht h e s t a t u s o fr e l e v a n ti n f o r m a t i o n ,i th a s n o tr e f l e c t t h ev i s u a l i n f o r m a t i o ni n c l u d e st h ef u t u r ed e v e l o p m e n tt r e n do fe n t e r p r i s e sh a v eas i g n i f i c a n t i m p a c to nt h ek n o w l e d g e ,a n dt h u sc a nn o ta c tf o re n t e r p r i s e l e v e ld e c i s i o n m a k i n g p r o v i d eu s e f u ls u p p o r t t h i sr e s e a r c hi sf o c u s i n go nh o wt ou s et h ed a t a b a s es y s t e m o fe n t e r p r i s ei n f o r m a t i o nr e s o u r c e sr e l a t e dt ot h ea c q u i s i t i o no fk n o w l e d g ei n b u s i n e s sd e c i s i o n s p a s td e c i s i o ns u p p o r ts y s t e m ( d s s ) i sam o d e lf o rt h ec e n t e r , a n da c c e s st od e c i s i o ns u p p o r ti n f o r m a t i o na r eo nt h es u r f a c e ,t of i n do u tt h en a t u r e o ft h ei n f o r m a t i o nc a nn o tb eh i d d e ni nt h ei n f o r m a t i o no fk n o w l e d g e ,a n dt ot h a t e n d ,t h i sa r t i c l ei si nt h ee n t e r p r i s ed a t a b a s es y s t e mt ot h eb a s i so ft h ei n t r o d u c t i o n o fd a t aw a r e h o u s i n gt e c h n o l o g y ,t h ei n t r o d u c t i o no ft h ef i r s td a t aw a r e h o u s ed a t a , r e u s ed a t af r o mt h ee x c a v a t i o no fi n f o r m a t i o nt e c h n o l o g yr e s o u r c e st o a c q u i r e k n o w l e d g ei nl a w i ft h ed a t a b a s es y s t e mt o a d d r e s st h e ”i n f o r m a t i o nd e p l e t i o n ” a n dt h e n ,t h ed a t aw a r e h o u s ea n dd a t at a pi n f o r m a t i o nt e c h n o l o g yt os o l v et h e e x c e s s i v e b u ti td i dn o th a v ee f f e c t i v ei n f o r m a t i o n ”i n f o r m a t i o ne x p l o s i o n ” k e y w o r d s :d a t aw a r e h o u s e ,d a t am i n i n g ,k n o w l e d g ed i s c o v e r y a l g o r i t h m s 插图清单 图2 1 数据仓库体系化环境 “5 图2 。z 数据仓库的概念结构l o 图2 3 数据仓库的功能结构”1 0 图4 1 家乐福某分店的事务数据2 2 图4 2 候选项集和频繁项集的产生”2 3 图4 3 使用a p r i o r i 性质2 4 图4 ,4 对于挖掘布尔关联规则发现频繁项集的a p r i o r i 算法2 5 图5 1 数据分类过程2 8 图5 2 家乐福的顾客是否可能购买计算机的决策树3 0 图5 。3 具体分类表3 4 图5 4 决策树举例3 5 图5 5 工作年数与年薪的关系图3 7 图6 1 在基于密度的聚类中密度可达和密度相连4 9 表格清单 表3 - 1 顾客购物清单1 3 表3 2 支持度大于( 等于) 2 5 的数据1 3 表3 - 3 支持度大于( 等于) 2 5 的同时购买两种商品的数据1 4 表3 - 4 支持度大于( 等于) 2 5 同时购买三种商品的数据1 4 表3 5 大学毕业生年薪数据”1 7 表5 1 由训练样本归纳判定树的基本算法一3 1 表5 - 2 家乐福顾客数据库训练数据元组3 3 表5 - 3 年薪数据一3 7 表6 - 1 二元变量的可能性表”4 3 表6 - 2 病人记录属性的关系表4 4 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所 知,除了文中特剐加以标志和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果r 也不包含为获得金胆王些太堂 或其他教育机构的学位或证书而使用过的材料。与我一同工作 的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意a 学位论文作者签字 字熙2 矿疹多月膨日 学位论文版权使用授权书 本学位论文作者完全了解金g b 王些太堂有关保留、使用学位论文的规定,有权保留并向 1 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅本人授权盒g 坠咝盘 堂一可以将学位论文的全部或部分论文内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名 签字b 强:2 吒年冠i s b 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名 在模 签字日期:净咖只髟日 电话 邮编 致谢 本论文是在我的导师杜习英副教授的悉心指导下完成的。在三年的读研生 涯中,杜老师一直在学业和生活等各方面关心、指导着我的成长,我的每一点 进步都离不开她。她渊博的科学知识、严谨的治学态度、谦和平等的为人处事 方式,都令我由衷的钦佩,使我受益匪浅,同时也必将影响我的生。在论文 完成的这一刻,我首先要深深感谢的就是导师对我的殷殷关切和谆谆教诲。今 后的生活和工作中我也一定会牢记导师的教诲,时刻不忘造福社会。 同时还要特别感谢师姐丁静、师兄王凯、同学袁龙砖、师弟夏同胜、刘嘉 嘉、田春明、杜颜几年来对我的关怀和帮助。个人的成长离不开集体,能在这 样一个科研氛围浓厚、治学踏实严谨、团结友爱、积极向上的集体里学习和成 长,我深表庆幸。 感谢家人在三年的学习中给了我物质和精神等方面的支持,没有家人的关 怀和支持,我的生活将是不完美的。 最后感谓 论文评审委员会的老师们百忙之中对我的论文认真指正。 作者:张庆 2 0 0 6 年5 月1 8 日 第一章数据挖掘研究与应用现状 随着计算机技术的快速发展和它在生产过程中的广泛应用,企业生成、收 集、存储和处理数据的能力大大提高,数据量与日俱增。众所周知,数据是有 价值的,但这种价值是隐含的“3 1 。为了从堆积如山的数据中找出真正有价值的 东西一一一一知识,从2 0 世纪9 0 年代人们就开始了对数据挖掘( d a t am i n i n g ) 的研究“1 1 。值得注意的是针对不同的应用领域,应该设计特定的数据挖掘方案, 以求达到知识获取的高效性。 1 1 知识获取与数据挖掘技术 在智能控制中,知识获取一直是研究的难点问题之一”。“。由于知识在智 能系统中扮演着重要的角色,而知识获取又往往不能自动进行,故其一直被公 认为是构造智能系统时的“瓶颈”。 领域知识获取的传统方法是通过知识工程师与领域专家交流,由知识工程 师整理、总结专家的经验,把它们数字化,再输入到计算机中“。这个过程较 多考虑了人的因素,而没有利用与专业领域相关的数据。 人工智能中专门研究知识获取的分支之一是机器学习“,它能够从数据中 提取知识,但机器学习使用的数据是专门为其特别准备的,与现实世界中的数 据有所不同。在2 0 世纪6 0 年代,统计学家们在基于计算机的数据分析中率先 使用了数据挖掘这个术语“。进入2 0 世纪8 0 年代后,随着计算机技术的飞速 发展,各行各业都开始广泛采用计算机及相应的信息技术进行运营和管理,企 业的数据量与日俱增。人们迫切希望能从堆积如山的数据中找出真正有价值的 东西,为决策支持服务。在这样的背景下,数据挖掘在2 0 世纪9 0 年代成了国 际上的热门话题。在此有必要提及的是数据挖掘与k d d ( k n o w l e d g ed i s c o r v e r y a n dd a t am i n i n g ,知识发现与数据挖掘) 的联系,数据挖掘有狭义和广义两层 涵义,狭义的数据挖掘是指k d d 过程的一个重要组成部分,称为d m ( d a t a m i n i n g ,数据挖掘) ;而广义的数据挖掘等同于k d d ,另外就k d d 本身而言,有 的学者认为是k n o w l e d g ed is c o v e r yi nd a t a 的缩写,而比较常见的说法是指 k n o w l e d g ed i s c o v e r yi nd a t a b a s e s 的缩写。 目前在国际上对数据挖掘还没有一个统一的定义,其中一种比较有代表性 的观点认为“:数据挖掘是从大量数据中提取出可信的、新颖的、有效的、具 有潜在价值的并能被人理解的模式的处理过程,这种处理过程是非平常的过程。 从技术角度看,它是从大量的、不完整的、有噪声的、模糊的、随机的实际数 据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过 程。 数据挖掘技术实际上为知识获取指出了一条新路。可以对领域数据进行分 析,找出蕴藏在数据背后有规律性的东西,在与专家的意见达成一致后,所发 现的模式经解释后就可上升为知识,可用于构造智能系统中的知识库,或提供 问题求解的对策。 1 2 数据挖掘研究与应用的现状 从数据挖掘发展的历史来看,它是一门从应用中发展起来的边缘学科,数 据挖掘实际上是一个统计学、机器学习、数据库技术、人工智能等许多相关领 域技术的结合体,这些相关领域现在都比较成熟,一旦把它们有效组织起来, 就会收到前所未有的效果“5 1 ;但是目前在数据挖掘的研究中最欠缺的还是在 整体上对系统的组织策略的研究,也即从系统的观点来看,还缺乏一种全局优 化的机制,系统整合的效率并不高”“。 国际上对数据挖掘的研究如火如荼,从1 9 9 5 年起,每年都举行k d d 大会, 以供这一领域的研究人员交流探讨。另外在许多国际会议中,也把k d d 作为征 文和讨论的一个领域。在美国国家科学基金会( n s f ) 的数据库研究项目中,k d d 被列为2 0 世纪9 0 年代最有价值的研究项目。目前这方面的专业期刊有 d a t a m a t i o n 和”k n o w l e d g ed i s c o v e r ya n dd a t am i n i n g ”杂志。 从2 0 世纪9 0 年代以来,数据挖掘首先与数据仓库结合。数据仓库将异构 的数据集成起来,经过数据清洗等过程,成为可直接使用的数据资源。数据仓库 带有自己的o l a p ( o n l i n ea n a l y s i sp r o c e s s ,联机分析处理) 工具,可为用户 提供数据分析和决策服务,进行初步的数据分析;数据挖掘和o l a p 最本质的区 别在于,数据挖掘是种挖掘性的分析工具,它主要是利用各种分析方法主动 地去挖掘大量数据中蕴含的规律,而o l a p 则是一种求证性的分析工具,即已有 一个假设,通过o l a p 来得到验证。o l a p 所采用的验证方法多是基于数据立方 体法,即通过对数据立方体的切片、切块、旋转、钻取等操作来实现对数据立 方体快速地多维存取。数据挖掘和o l a p 这两种分析工具本身是相辅相成的,因 为o l a p 可以帮助人们提出假设,以验证数据挖掘预测出的结果,而数据挖掘可 以帮助人们提出假设,可以验证数据挖掘预测出的结果,而数据挖掘能够挖掘 出一个结论。传统的数据环境基本上是数据操作型的,传统的信息系统只负责 数据的增、删及修改操作,而在数据库的基础上可实现的工作就是o l t p ( o n l i n e t r a n s a c t i o np r o c e s s ,联机事务处理) 。由于o l t p 和o l a p 在用户和系统的面向 性、数据内容、数据库设计、访问模式方面有很大的不同,所以现在随着数据 积累的不断增多,人们需要分析型的数据环境,于是就出现了数据仓库,以此 为基础则可以实现o l a p 和数据挖掘。我国一些大型企业的数据仓库正在建设和 应用之中,目的就是利用数据挖掘工具提高其产品的竞争力,从而提高企业的 竞争优势。 其次是数据挖掘与面向i n t e r n e t 和w e b 的数据。i n t e r n e t 上的数据的最 大特点是半结构化的。半结构化是相对于结构化和非结构化而言的。传统数据 库中的数据结构性很强。称之为完全结构化的数据,一本书、一张图片等无结 构的可称之为完全无结构的数据。但是i n t e r n e t 上存在的页面具有一定的描述 层次,存在一定的结构,所以将它称为半结构化的数据。w e b 上网站的信息也 可以看作是一个数据库,一个更大的、复杂性更高的数据库。w e b 上的每一个 站点就是一个数据源,每一个数据源都是异构的。每个站点的信息和组织形式 都不完全一样,这就构成了一个巨大的、异构的数据库环境。如果想要利用这 些数据进行数据挖掘,必须要研究站点之间异构数据的集成问题。只有将这些 站点上的数据都集成起来,提供给用户一个统一的视图或视角,才有可能从巨 大的数据资源中获取所需的东西。要解决上述问题需要寻找一个半结构化的数 据模型和一项技术能够自动地从现有数据中将这个模型提取出来。因为半结构 化数据模型和半结构化数据模型提取是面向i n t e r n e t 的数据挖掘技术实施的 前提,所以这已成为数据挖掘研究领域的晟大热点。 近年来,国内外已推出了些数据挖掘的产品和应用系统,并且获得了 定的成功应用,得到了业界的广泛关注。国外有s a s 公司的e n t e r p r i s em i n e t 、 i s l 公司的c i e m e n t ir e 、a n g o s s 公司的k n o w l e d g e s e e k e r 、r i g h t p o i n ts o f t w a r e 公司的d a t a c r u n c h e r 和i b m 公司的i b mi n t e l l i g e n tm ir l e 等等。 数据挖掘技术应用前景相当广泛,在政府管理决策、商业经营、科学研究 和企业决策支持等各个领域都有其用武之地。世界上很多大公司都在自己的经 营管理中使用了数据挖掘技术,例如: 美国钢铁公司和神户钢铁公司利用基于数据挖掘技术的i s p a 系统,研究分 析产品性能规律和进行质量控制,取得了显著效果。 通用电器公司( g e ) 与法国飞机发动机制造公司( s n e c m a ) ,利用数据挖掘 技术研制了c a s s i o p e e 质量控制系统,被三家欧洲航空公司用于诊断和测试波 音7 3 7 的故障,带来了可观的经济效益。该系统于1 9 9 6 年获欧洲等创造性应 用奖。 享有信誉的市场研究公司,如美国的a c n i e l s o n 和i n f o r m a t i o n r e s o u r c e ,欧洲的g f k 和i n f r a t e s tb u r k 等纷纷开始使用数据挖掘工具来应付 迅速增长的销售和市场信息数据。商家的激烈竞争导致产品迅速更新,使得经 营者对市场信息的需求格外强烈。利用数据挖掘所形成的市场测试能力和服务, 使这些市场研究公司取得了巨大收益。 英国广播公司( b b c ) 也应用数据挖掘技术来测试电视收视率,以便合理安 排电视节目时刻表。信用卡公司a m e r i c a ne x p r e s s 自采用数据挖掘技术后,信 用卡使用率增加了1 0 1 5 。a t & t 公司凭借数据挖掘技术侦探国际电话欺诈行 为,可以尽快发现国际电话使用中的不正常现象。 国内的情况是研究得多c 2 2 - - 2 6 ,应用得少。当然这与我们数据挖掘技术研究 起步晚和数据基础较差有关。近年来的情况有所好转,下面是国内数据挖掘应 用情况的三个例子。 中国的公安部门在研究利用数据挖掘技术总结各类案件的共性和发生规 律,从而在宏观上制定最有效的社会治安综合治理方案和措施;在微观上指出 犯罪人的特点,划定罪犯的范围,为侦破工作提供方向。 宝钢技术研究院已把他们研究的数据挖掘技术应用于炼钢的配矿系统中, 取得了巨大的经济效益。目前正在开展数据挖掘技术及其在宝钢质量控制中应 用的研究与开发。此项目的完成将会使宝钢降低生产成本,提高产品质量,形 成生产规程设计和产品设计的能力,最终达到按用户需求组织生产。 中国科学院计算技术研究所智能信息处理重点实验室研制的多策略数据挖 掘平台m s m i n e r 正在通信、金融等行业推广应用。 4 第二章数据仓库基本原理 随着信息技术的不断推广和应用,许多企业都已经在使用管理信息系统处 理管理事务和日常业务。这些管理信息系统为企业积累了大量的信息,此时, 企业管理者开始考虑如何利用这些信息海洋对企业的管理决策提供支持。因此, 在信息处理中,产生了与传统数据库有很大差异的数据环境要求和从这些海洋 数据中获取特殊知识的工具的需要。 2 1 从传统数据库到数据仓库 传统的数据库技术是以单一的数据资源,以数据库为中心,对数据进行操 作型处理。操作型处理也叫事务处理,是指对数据库联机的日常操作,通常是 对一个或一组纪录的查询和修改,主要为企业的特定应用服务的,注重响应时 间,数据的安全性和完整性。 传统数据库在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决 策分析要求却无法满足。因为,管理人员常常希望能够通过对组织中的大量数 据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信 息,缺乏决策分析所需要的大量历史信息。为满足管理人员的决策分析需要, 就需要在数据库的基础上产生适应决策分析的数据环境一一数据仓库( d w , d a t aw a r e h o u s e ) 。作为决策支持系统( d e c is i o n m a k i n gs u p p o r ts y s t e m ,简 称d s s ) ,数据仓库系统包括: 1 数据仓库技术; 2 数据挖掘技术( d a t aw i n i n g ,简称d m ) ; 数据仓库弥补了原有的数据库的缺点,将原来的以单一数据库为中心的数 据环境发展为一种新环境:体系化环境。如图2 1 所示: 图2 1 数据仓库体系化环境 2 2 数据仓库的定义与基本特性 在数据仓库的发展过程中,许多人对此做出了贡献,而美国科学家w i l l i a m h i n m o n 在1 9 9 3 年所写的论著b u i l d i n gt h ed a t aw a r e h o u s e 中首先系统 地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。在 文中,他将数据仓库定义为: “一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于 支持管理层的决策过程”。 从w h i n m o n 关于数据仓库的定义中可以发现,数据仓库具有这样一些重 要的特性:面向主题性、数据集成性、数据的时变性、数据的非易失性、数据 的集合性和支持决策作用”。 1 面向主题性 面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数 据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决 策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例 如,企业中的客户、产品、供应商等都可以作为主题看待。从信息管理的角度 看,主题就是在一个较高的管理层次上对信息系统中的数据按照某一具体的管 理对象进行综合、归类所形成的分析对象。而从数据组织的角度看,主题就是 一些数据的集合,这些数据集合对分析对象做了比较完整的、一致的描述,这 种描述不仅涉及到数据自身,而且还涉及到数据之间的联系。 数据仓库的创建、使用都是围绕着主题实现的。因此,我们必须了解如何 按照决策分析来抽取主题;所抽取出的主题应该包含哪些数据内容;这些数据 内容应该如何组织,在进行主题抽取时,必须按照决策分析对象进行。例如, 在企业销售管理中的管理人员所关心的是:本企业哪些产品销售量大、利润高; 哪些客户采购的产品数量多;竞争对手的哪些产品对本企业产品构成威胁。根 据这些管理决策的分析对象,就可以抽取出“产品”、“客户”等主题。 确定主题以后,需要确定主题应该涉及的数据。此时,不能将围绕主题的 数据与业务处理系统中的数据相混淆。例如“产品”主题在销售业务处理系统 中已有数据存在,但是这些数据未必都能用于数据仓库。因为在业务处理系统 中,数据组织的目的在于如何能够更加有效地处理产品的销售业务。因此,可 能采用“产品定单”、“产品销售细则”、“产品库存”、“客户”等数据来描述产 品的销售活动。但是在对产品销售所进行的决策分析中,分析哪些客户订购产 品量大时,只有客户才是所需要分析的对象。而“产品定单”、“产品销售细则”、 “产品库存”等数据只是业务处理系统中的业务操作数据。但是仅仅使用业务 处理系统中的“客户”数据,又不能完成对“客户”的分析,因为还需要了解 客户的产品采购量、最后一次采购时间、购买竞争对手的产品等数据。这就需 要围绕“客户”这一主题重新进行数据的组织。在围绕“客户”主题进行数据 组织时,不适合决策分析要求的数据需要抛弃。例如,“产品库存”对客户的产 品采购量没有直接的影响,就不需要在数据仓库中出现。有的则要将关于某 主题的、散落在其他业务处理系统中的信息组织进来。例如,客户的“信用” 信息存在于财务处理系统中,在进行客户的产品采购分析时,需要了解这一信 息,就要将其组织进来。有的信息则可能存在于企业的外部系统中,在决策分 析中需要使用,也要将其组织到所分析的主题中。例如,客户购买竞争对手产 品的信息是从企业的销售代理商或市场调查公司那里所获取的,不是企业内部 的数据,但是也需要组织到“客户”主题中。 在主题的数据组织中应该注意,不同的主题之间可能会出现相互重叠的信 息。例如,“客户”主题与“产品”主题在产品购买信息方面有相互重叠的信息。 这种重叠信息往往来源于两个主题之间的联系,例如,“客户”主题与“产品” 主题在产品购买信息方亟的相互重叠是源于与客户和产品都有关的销售业务处 理系统。这种主题间的重叠是逻辑上的重叠,而不是同一数据内容的物理存储 重复。 主题在数据仓库中可以用多维数据库方式进行存储。如果主题的存储量大, 用多维数据库存储时,处理效率将降低。为提高处理效率,可以采用关系数据 库方式进行存储。应该注意,主题只是逻辑上的一个概念,一个主题在数据仓 库中存储时可能需要几个表来实现。此时,这些表之间的相互联系需要通过表 的主键来实现,这些主键就构成了主题的公共主键。实际存储的主题数据是需 要经过综合处理的,而不再是业务处理系统中的详细数据。 在主题的划分中,必须保证每一个主题的独立性。也就是说每一个主题要 有独立的内涵和明确的界线。在划分主题时,应该保证在对主题进行分析时所 需要的数据都可以在此主题内找到。如果对主题进行分析时,涉及到主题外的 其他数据,就需要考虑将这些数据组织到主题中,以保证主题的完备性。 由于主题是在较高层次上的数据抽象,这就使面向主题的数据组织可以独 立于数据的处理逻辑,可以很方便地在这种数据环境上进行管理决策的分析处 理。 2 数据集成性 数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行 抽取、筛选、清理、综合等工作,使数据仓库中的数据具有集成性。 数据仓库所需要的数据不像业务处理系统那样直接从业务发生地获取,而 是从业务处理系统里获取。这些业务处理系统中的数据往往与业务处理联系在 一起,只为业务的日常处理服务,而不是为管理决策分析服务。数据仓库在从 业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓 库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合 等集成工作。也就是说,首先要从源数据库中挑选出数据仓库所需要的数据, 然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源 中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字 段的同名异义、异名同义现象,这些工作通称为数据的清理。在将源数据加载 进数据仓库后,即源数据装入数据仓库后,还需要将数据仓库中的数据进行综 合,即根据决策分析的需要对这些数据进行概括、聚集处理。 7 3 数据的时变性 数据仓库的时变性,是指数据应该随着时间的推移而发生变化。尽管数据 仓库中的数据并不像业务数据库那样要反映业务处理的实时状况,但是数据也 不能长期不变,如果依据1 0 年前的数据进行决策分析,那决策所带来的后果将 是十分可怕的。因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变 化的数据追加到数据仓库中去,也就是说在数据仓库中不断地生成主题的新快 照,以满足决策分析的需要。数据新快照生成的间隔,有的是每天一次,有的 是每周一次,可以根据快照的生成速度和决策分析的需要而定。例如,如果分 析企业近几年的销售情况,那新快照可以每隔一个月生成次;如果分析一个 月中的畅销产品,那快照生成间隔就需要每天一次。快照的生成时间一般选择 在业务系统处理较空闲的夜间或假日进行。这些快照是业务处理系统的某一时 间的瞬态图,而这些瞬态图则构成了数据仓库中数据的不同画面,这些画面的 连续播放可以产生数据仓库的连续动态变化图,这十分有利于高层管理者的决 策。 数据仓库数据的时变性,不仅反映在数据的追加方面,而且还反映在数据 的删除上。尽管数据仓库中的数据可以长期保留,不像业务系统中的数据那样 只保留数月。但是在数据仓库中,数据的存储期限还是有限的,一般保留5 、l o 年,在超过期限以后,也需要删除。 数据仓库中数据的时变性还表现在概括数据的变化上。数据仓库中的概括 数据是与时间有关的,概括数据需要按照时间进行综合,按照时间进行抽取。 因此,在数据仓库中,概括数据必须随着时间的变化而重新进行概括处理。为 满足数据仓库中数据的时变性需要所进行的操作一般称为数据仓库刷新。 4 数据的非易失性 数据仓库的数据非易失性是指数据仓库中的数据不进行更新处理,而是 旦数据进入数据仓库以后,就会保持一个相当长的时间。因为数据仓库中数据 大多表示过去某一时间的数据,主要用于查询、分析,不像业务系统中的数据 库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。数据仓库 的操作除了进行查询以外,还可以定期进行数据的加载,即追加数据源中新发 生的数据。数据在追加以后,一般不再修改,因此数据仓库可以通过使用索引、 预先计算等数据处理方式提高数据仓库的查询效率。数据的非易失性可以支持 不同的用户在不同的时间查询、分析相同的问题时,获得同一结果。避免了以 往决策分析中面对同一问题,因为数据的变化而导致结论不同的尴尬。 5 数据的集合性 数据仓库的集合性意味着数据仓库必须按照主题,以某种数据集合的形式 存储起来,目前数据仓库所采用的数据集合方式主要是以多维数据库方式进行 存储的多维模式。以关系数据库方式进行存储的关系模式或以两者相结合的方 式进行存储的混合模式。数据的集合性意味着在数据仓库中必须围绕主题全面 收集有关数据,形成该主题的数据集合。全面正确的数据集合有利于对该主题 的分析。例如,在超市的客户主题中就必须将客户的基本数据、客户购买数据 等与客户主题有关的数据收集起来,形成数据集合。 6 支持决策作用 数据仓库组织的根本目的在于对决策的支持。高层的企业决策者、中层的 管理者和基层的业务处理者等不同层次的管理人员均可以利用数据仓库进行决 策分析,提高管理决策的质量。 企业各级管理人员可以利用数据仓库进行各种管理决策的分析,利用自己 所特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据中发现众多的商机。 数据仓库为管理者利用数据进行管理决策分析提供了极大的便利。 2 3 数据仓库的结构” 1 数据仓库的概念结构 从数据仓库的概念结构看,应该包含数据源、数据准备区、数据仓库数据库、 数据集市知识挖掘库以及各种管理工具和应用工具,如图2 2 所示。数据仓库 在创建以后,首先要从数据源中抽取所需要的数据到数据准各区,在数据准备 区中经过数据的净化处理,再加载到数据仓库数据库中,最后根据用户的需求 将数据发布到数据集市知识挖掘库中。当用户使用数据仓库时,可以通过o l a p 等数据仓库应用工具向数据集市知识挖掘库或数据仓库进行决策查询分析或 知识挖掘。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。 在数据仓库的实际创建中,应该根据所选用的数据仓库创建工具来具体确定数 据仓库的结构框架。 , 数数据 集市 每栌 数 据知识 业务系l一, 挖掘 统 据 仓廑 准 库 备 数据 外部数l 数 集市 刊应用工l 爿= 据源 一 区 知识 。倒。 k 据 挖掘 库 廑 管理工具 | i l 图2 2数据仓库的概念结构 2 数据仓库的功能结构 数据仓库从功能角度上被划分成数据仓库基本功能层、数据仓库管理层和 数据仓库环境支持层三层体系结构,如图2 3 所示。 数据仓库基本功能层 数据仓库管理层 数据仓库环境支持层 图2 3 数据仓库的功能结构 ( 1 ) 数据仓库的基本功能层 数据仓库的基本功能层应该包含从数据源抽取数据,对所抽取的数据进行 筛选、清理,将清理后的数据加载到数据仓库中,根据用户的需求设立数据集 市,完成数据仓库的复杂查询、决策分析和知识的挖掘等功能。 ( 2 ) 数据仓库的管理层 数据仓库的管理层包含数据管理与元数据管理两部分。数据管理与元数据 管理主要负责对数据仓库中的数据抽取、清理、加载、更新与刷新等操作进行 管理。只有使这些操作正常完成,才能源源不断地为数据仓库提供新的数据源, 才能使数据仓库的使用者正确地利用数据仓库进行决策分析和知识挖掘。 ( 3 ) 数据仓库环境支持层 数据仓库环境支持层主要包含数据传输和数据仓库基础两大部分。这两大 部分对于数据仓库的创建和使用来说是必不可少的,没有这两个数据仓库的支 持环境,数据仓库的创建与使用是无法实现的。 第三章数据挖掘发现知识的类型 数据挖掘所能发现的知识有以下几种: ( 1 ) 关联型知识:用于反映一个事件和其他事件之间依赖或相互关联的知 识。 ( 2 ) 特征型知识:用于反映事物各方面特征的知识。 ( 3 ) 差异型知识:用于反映不同事物之间属性差别的知识。 ( 4 ) 预测型知识:用于根据历史的和当前的数据推测未来的数据。 3 1 关联知识【3 7 】 3 1 - 1 关联知识的概念 关联知识是反映一个事件和其他事件之间依赖或相互关联的知识。如果记 录的两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属 性值进行预测。 关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。随着大量 数据不停的收集和存储,人们希望从他们的交易数据中发现感兴趣的数据关联 关系,从而帮助商家进行商务决策的制定,如分类设计、交叉购物等。 3 1 2 关联知识的发现方法 1 、a p r i o r i 算法 最为著名的关联规则发现方法是a p r i o r i 算法。关联规则的发现可分为两 步。第一步是迭代识别所有的频繁项目集,要求频繁项目集的支持度不低于用 户设定的最低值:第二步是从频繁项目集中构造可信度不低于用户设定的最低 值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算 量最大的部分。 为了更好的理解支持度和可信度的概念,通过以下例子加以说明。 交通管理部门对车的运行情况有如下记录: 1 0 0 0 个记录中开快车且肇事者出现7 次,该数据记录对“快车且肇事”事 件的支持度= 7 1 0 0 0 ,即支持度为o 7 ;1 0 次肇事中开快车者出现7 次,则“肇 事由开快车引起”的可信度为7 1 0 = 7 0 。 关于a p r i o r i 算法在第5 章介绍数据挖掘的算法中,将作较详细地讲解。 2 、关联及关联规则 数据关联是数据库中存在的一类重要的可被发现的知识。关联可分为简单 关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。 关联规则从本质上讲是条件概率:a 发生时,b 同时也出现的概率是多大。 关联规则的一个典型的应用是“啤酒加尿布”。在应用关联规则时还需要多 考虑的一个问题是:这条规则遵循者的数量怎样? 通俗的说就是,如果超市的 尿布只有一个人买( 假设) ,但是这人每次买尿布时,一定会买啤酒。尽管这条 规则很可信( 可信度为1 0 0 ) ,但是意义却不大,因为支持度可能很低。 另外,在应用关联规则时,要注意关联不一定是因果,关联是有方向的。 在关联规则的挖掘中还应注意以下几点: ( 1 ) 充分理解数据; ( 2 ) 目标明确; ( 3 ) 数据准备工作要做好; ( 4 ) 选取恰当的最小支持度和最小可信度; ( 5 ) 很好地理解关联规则。 时序关联是把数据之间的关联性与时间联系起来,即发现序列模式。为了 发现序列模式,不仅需要知道事件是否发生,而且需要确定事件发生的时间。 在解决实际问题时,经常要同时使用。 3 1 3 关联规则应用实例 通过以下超市购物实例,进一步说明关联规则的应用。 例如,某超级市场的销售系统记录了5 个顾客的购物清单,如表3 - 1 。 表3 - 1 顾客购物清单 流水号所购物品清单 1 球鞋、手套、网球拍 2 摩托车、手套、头盔 3 球鞋、摩托车、手套、头盔 4 头盔 5 摩托车、头盔 表3 2 支持度大于( 等于) 2 5 的数据 单项统计支持度 球鞋 4 0 摩托车 6 0 手套 6 0 头盔 8 0 销售经理希望了解商品间的关联关系,顾客买了头盔是否就一定会买摩托 车。要求挖掘出支持度大于4 0 ( 即至少出现两次) 的商品间的关联。 采用著名的a p r i o r i 算法多次扫描数据库,得出支持度大于( 等于) 4 0 的 数据,如表3 2 所示。 由表3 2 的单项统计数据中,可看出6 0 的顾客买了摩托车、6 0 的顾客 买了手套,8 0 的顾客买了头盔。 进一步对支持度大于( 等于) 4 0 同时购买两种商品的数据进行统计,如 表3 3 所示。 表3 3 支持度大于( 等于) 2 5 的同时购买两种商品的数据 双项统计支持度 球鞋、手套 4 0 摩托车、手套 4 0 摩托车、头盔 6 0 手套、头盔 4 0 表3 - 4 支持度大于( 等于) 2 5 同时购买三种商品的数据 三项统计支持度 摩托车、手套、 4 0 头盔 由表3 3 的双项统计数据中,可看出6 0 的顾客买了摩托车和头盔。 再对支持度大于( 等于) 4 0 同时购买三种商品的数据进行统计,如表3 4 所示。 由表3 4 的三项统计数据中,可以看出4 0 的顾客同时买了摩托车、手套 和头盔。由此,可以得出下列规则: ( 1 ) 买了摩托车的顾客同时买手套和头盔的支持度是4 0 ,置信度是 6 6 6 : ( 2 ) 买了手套的顾客同时买摩托车和头盔的支持度是4 0 ,置信度是 6 6 6 : ( 3 ) 买了头盔的顾客同时买手套和摩托车的支持度是4 0 ,置信度是5 0 。 如何合理地运用得出的关联关系,完全靠决策者的正确理解来进行决策。 对于上述三个关联关系,如果按照第( 1 ) 条关系,将摩托车降价以促销手套或 头盔,就可能赔本:而按照第( 3 ) 条关系,将头盔降价以促销摩托车,就能盈 利;利用第( 2 ) 条关系,将手套降价以促销摩托车,有可能引不起顾客的兴趣。 3 2 分类知识 3 8 】 3 2 1 分类知识的概念 1 4 分类知识是反映同类事物共同性质的特征型知识和不同事物之间的差异型 特征知识。 数据库内容丰富,蕴藏大量信息,对其进行分类知识的学习,可以提取描 述重要数据类的模型或预测未来的数据趋势。但分类是预测分类标号,即离散 值。分类知识的应用范围广泛,包括信誉证实、医疗诊断、性能测试和选择购 物等。 3 2 2 分类知识的发现方法 所谓分类,就是把给定的数据划分到一定的类别中。分类的关键是对数据 按照什么标准或什么规则进行分类。分类作为数据挖掘的主要内容之一,主要 是通过分析训练数据样本,产生关于类别的精确描述。这种类别通常由分类规 则组成,可以用来对未来的数据进行分类预测,有着广泛的应用前景。 分类是一个两步过程:首先,在已知训练数据集上,根据属性特征,为每 一种类别找到一个合理的描述或模型,即分类规则;其次根据规则对新数据进 行分类。两步过程的具体步骤如下。 ( 1 ) 建立一个模型,描述规定的数据类集或概念级。为建立模型,先形成 一个训练数据集。训练数据集中的训练数据样本应随机地在样本群中抽取。每 个训练数据样本事先已确定是属于哪一类,因此这一步也称为有指导的学习。 学习模型用分类规则、判定树或数学公式的形式提供。 ( 2 ) 使用模型进行分类。首先,评估模型的规则的准确率。最简单的方法 是从不包含训练数据集的测试

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论