




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
英文摘要 abs tract a d e c i s i o n s u p p o rt s y s t e m ( d s s ) i s a n i n t e r a c t i v e c o m p u t e r - b a s e d s y s t e m t h a t h e l p s d e c i s i o n - m a k e r s u s e a v e r y l a r g e d a t a f r o m i n t e r n a l o r e x t e r n a l o f a c o m p a n y t o d r a w c o n c l u s i o n s . u s i n g d s s , m a n a g e r s c a n r e t r i e v e p r e c i s e , c o r r e c t a n d s c i e n t i f i c i n f o r m a t i o n . d s s e v o l v e s f r o m m a n a g e m e n t i n f o r m a t i o n s y s t e m s ( m i s ) a n d i m p r o v e s f u n c t i o n s o f m i s . d s s s u p p o rt s i n t e l l i g e n t i n f o r m a t i o n m a n a g e m e n t m u c h b e tt e r t h a n o t h e r i n f o r m a t i o n p r o c e s s i n g t o o l s s u c h a s mi s . i n r e c e n t y e a r s , s u p p o rt i n f o r m a t i o n t h e d e v e l o p m e n t o f c o m p u t e r t e c h n o l o g ie s i s f a s t , a n d m a n a g e r s n e e d s t o d e c i s i o n a n d a r e e n h a n c i n g . u n d e r s u c h c o n d i t i o n s , t r a d i t i o n a l d s s c a n t s a t i s f y u s e r s . p e o p l e a d d n e w t e c h n o l o g i e s s u c h a s a rt i f i c i a l i n t e l l i g e n c e , e x p o rt s y s t e m , d a t a m i n i n g a n d e t c . t o t r a d i t i o n a l d s s t o i m p r o v e i t s d a t a a n a l y s i s a b i l it y . f u r t h e r n e e d s o f wa r e h o u s e , d a t a i n t h e t h e s i s , w e d i s c u s s t h e i m p l e m e n t a t i o n s o f d s s b a s e d o n d a t a w a r e h o u s e . n e w i n f o r m a t i o n a n a l y s i s m e t h o d s a r e i n t r o d u c e d a n d e x p a n d e d . s o m e s o l u t i o n s t o i m p l e m e n t a t i o n a r e g i v e n i n d e t a i l s . t h e ma i n r e s e a r c h r e s u l t s a r e l i s t e d a s f o l l o ws . a c c o r d i n g t o t h e n e e d s o f d e c i s i o n - m a k e r s , a d e c i s i o n s u p p o rt p r o t o t y p e s y s t e m b a s e d o n d a t a w a r e h o u s e i s d e s i g n e d . t h e p r o t o t y p e s y s t e m a d o p t s t h e l a t e s t r e s e a r c h r e s u l t s a b o u t d a t a w a r e h o u s e , o l a p a n d d a t a m i n i n g . i t c o n s i s t s o f d a t a p r e p a r a t i o n l a y e r , d a t a p r o c e s s i n g l a y e r a n d v i s u a l i z a t i o n l a y e r . i n t h e s e l a y e r s m a i n s u b s y s t e m s i n c l u d e d a t a w a r e h o u s e m a n a g e m e n t , m u l t i - d i m e n s i o n d a t a m o d e l b u i l d i n g , o l a p o p e r a t i o n s , a n d d a t a m i n i n g e n g i n e . t h e p r o t o t y p e p r o v i d e s v e r i f i c a t i o n a n a ly s i s a n d d i s c o v e r y a n a l y s i s . t h e t h e s i s g i v e s s o l u t i o n s t o b u i l d m u lt i - d i m e n s i o n d a t a m o d e l a n d o l a p o p e r a t i o n s . a d e s c r i p t i o n l a y e r t e c h n o l o g y i s u s e d i n t h i s p r o t o t y p e . t h e s t r u c t u r e o f d a t a b a s e i s m a p p e d i n t o u s e r - o r i e n t e d o b j e c t s , s u c h a s d i m e n s i o n n a m e s , o p e r a t i o n s o n m e a s u r e s . u s e r s n e e d n t u n d e r s t a n d t h e r e a l d a t a b a s e c o m p o s i t i o n . t h e y s e l e c t d e s c r i p t i o n o b j e c t s i n q u e ry i n t e r f a c e s , a n d t h e d e s c r i p t i o n l a y e r i n t e r p r e t s s e l e c t e d o b j e c t i n t o s q l c o m m a n d l i n e s a n d s u b m i t s t o d b ms t o q u a n t it a t i v e a tt r i b u t e s i n t i m e s e r i e s d a t a b a s e , a n e w f o r m o f r u l e s , a s s o c i a t i o n r u l e s o f q u a n t i t a t i v e m o v e m e n t p a tt e r n , i s p r e s e n t e d . t h i s k i n d o f r u l e s i s u s e d t o e x p l a i n t h e r e l a t i o n s a m o n g m o v e m e n t t r e n d s o f q u a n t i t a t i v e a tt r i b u t e s . t h e t h e s i s p r o p o s e s a p r o c e s s i n g m o d e l t o d i s c o v e r y t h i s k i n d o f r u le s . i m p l e m e n t a t i o n s t e p s a r e i n t r o d u c e d . t h e p r o t o t y p e s y s t e m h a s e x c e l l e n t a p p l i c a t i o n m a r k e t . m a n y c o m p a n i e s n e e d i n t e l l i g e n t i n f o r m a t i o n d e c i s i o n s y s t e m s v e r y m u c h . we a r e d e d ic a t i n g t o a r e a l c o m m e r c i a l p r o d u c t k e y w o r d s : d e c i s i o n s u p p o rt s y s t e m ( d s s ) , d a t a w a r e h o u s e , o n - l i n e a n a l y t i c a l p r o c e s s i n g ( o l a p ) , d a t a m i n i n g , a s s o c i a t i o n r u le s o f q u a n t i t a t i v e m o v e m e n t p a t t e r n ! 1 第一章绪论 第一章绪论 1 . 1问题的提出 决 策支 持系统 ( d s s ) 是一 种以 支持决策为目 的、 人机交互的 信息系统 川 。 决 策者根据所掌 握的 信息为决策对象选择行为的思维过程称为决策,为决策者提供支持的信息称为决策支持信息。d s s 的 概 念 在 二 十 世 纪 七 十 年 代 初由 关 国g o r ry和s c o tt m o rt o n (2 1 教 授 首 先 提出 , 并 在 七、 八 十 年 代 得 到 迅速发展和推1应用。d s s主要致力于大、中、小型企业中的预算与 分析、预测与计划、 生产与销 代规划,辅助企业高层管理人员 制订正 确的策略。 d s s是在管理信息系统 ( m i s )的基础上建立起来的,它弥补了管理信息系统的不足, 适应信 息管理向智能化方面发展的需求。 传统的d s s 由数据库、 模型库、方法库和用户接口组成,通过定 量分析进行辅助决策。这种结构反映了 人们对于当时决策支持的要求,但仍存在不少局限性,只强 调数据、模型和两者的集成,而且主要进行数学运算,对于有些知识和经验不能很好处理。 随着企业界不断提出新的需求, 人们要求d s s 不仅能在模型的基础上利用数据库中的数据进行 计算,还应该能进行一些必要的 推理, 进一步降低人的参与。与d s s 同步发展的专家系统1 3 1 为d s s 勿能化发展提供了有效的支持。 d s s吸收专家系统在知识学习和推理方面的特点,在原有三库结构 t 增加知识库部分, 形成智能决策支持系统 ( i d s s ) 。 专家系统是定性分析辅助决策, 它和以定量分 析辅助决策的决策支持系统结合, 可在某些方面进行推理和知识的学习, 进一步提高了d s s 的辅助 决策能力。 但是 d s s + 专家系 统” 结构仍是有限 制的, 这 种体系并不能依据系统数据库中大量数据进行学 习和推理, 知识的来源并非是由真正的学习而来,而主要是由专家提供知识以 增加或更新知识库中 的内容。 新的情况要求d s s 能够具有比较强的学习功能, 能够利用现有的数据主动获取新的有用信 息。 进入九 十年代 后, 数据 仓库( d a t a w a r e h o u s in g ) 、 联机分析处理( o l a p ai 数据 挖掘( d a t a m i n in g ) 等技 术的出 现和蓬 勃发展, 为d s s 智能化发展 提供了 新的 方法, 揭开d s s 研究的 新篇 章14 115 1 。 数据 仓库. o l a p 、 数据挖掘最初是作为三种独立信息处理技术出现的: 数据仓库用于数据的存储和组织 为人们提供联机分析处理的环境; o l a p进行数据的分析,侧重考察数据的多维特性;数据挖掘致 力1 -. 潜在知识的发现。 它们可以分别应用到信息系统的设计和实现中, 以 提高相应部分的处理能力。 由于 它们之间内在的联系性和互补性,使得这三种技术成为高级决策支持系统中一个密不可分的核 心。 “ 数据仓库+ o l a p 十 数据挖掘”的结构被认为是d s s的有效解决方案。这种全新的d s s构架展 示了 信息的本质,表明了 信息系统的设计观念从处理驱动到数据驱动的转变。过去的信息系统以大 晕复杂的处理过程和各类算法为 特征, 数据从这些处理中产生。 而在今后, 信息的重点将转移到数 招模式分析,处理技术则是应数据分析的需要产生的。 1 . 2解决方案 l周 杳报告表明,许多企业都己采用计算机实现了 企业的白动化管理, 人多数企业并不缺少数据, 阳 址受阻 过 4 的兀余数据和数据不一致;而且它们变得越来越难于访问、管理和用于决策支持; 第一章绪论 其数据量止以 成倍的 速度增长。 针对企业的 应用需求, 我们认为企业迫切需要一种智能化的信息分 析决策支持处理软件, 它面向某一领域提供专用的数据仓库和数据挖掘1 _ 具, 注重方便、 功能强大、 卜 有 良好的人机空互界而 日前国内在这方面的研究正处于起步阶段,但己被人们公认为是今后的发展趋势。而国外己有 些商un化的以 数据仓库、 o l a p 和数 据挖掘 相结 合建立的 辅助决 策系 统, 如b u s in e s s o b j e c t ( b o ) l l1 1 的智能决策支持系统 t . 具b o 4 .0 . s a s , i n t e l l i g e n t m i n e r 等, 一些人的数据库厂商, 如o r a c l e 和s y b a s e也推出了具有数据仓库和数据挖掘功能的辅助l 具, 但这些 1 具并没有得到预期的推) 和普及, 最土要的原因有儿个:一是数据仓库和数据挖掘的技术还不成熟, 还有许多问题没有解决; _ 是知识发现与应用领域关系密切,脱离应用背景的数据仓库和数据挖掘是无法成功的:二是现有 的数据仓库、o l a p_ 一 具和数据挖掘产品显得过于 专业,其系统实施需要具有相当素质的专业人员 o f 助,易用性较芳,且价格昂贵。 根据以上分析,我们决定设计一个基于数据仓库的决策支持原型系统,该系统的应用对象是已 经采用计算机进行管理的企业,它的作用是帮助企业管理者从多个角度和多个层次分析企业原始数 据, 挖掘有价值的 信息, 为企业管理者提供决策支持。 该系统是一个基于 数据仓库的集查询、 报表、 联机分析处理和数据挖掘为一体的决策支持系统。它具有 卜 述特征: 原7 ( q 系统是一个专用小型数据仓库系统,具有数据仓库的基本功能,能全面反映企业管理 信息。 原型系统既可以实现传统的查询及统计报表功能,义可以实现多维数据分析、决策支持及 数据挖掘等高级功能。 为用户提供多维度、多粒度定义 _ 具,帮助用户从多个层次和角度重新组织企业数据,并 提供 占观的浏览显示。 运用描述层技术, 将数据库的列映射成易于理解的语义对象,用户在查询界面上只需面向 语义对象定义多 维分析请求,而无须理解数据库结构和杳询语法, 使分析操作简单直观。 采用数量3 j u 属性的变化趋势模型,改进各类经典挖掘方法,为管理者提供了有效的挖掘算 法,以发现专用7 41 知识 本文的研究 _ 作很有理论意义和实际应用价值。目 前许多企业力没有因为引进计算机管理就提 r.f 经济效益,这其中原因很多,但企业没有很好地利用计算机保存的宝贵信息资源这个原因不容 忽视。利用计算机进行企业管理、 提供决策支持是人趋势,本文设计的原7 4 1 系统可以用于中小型企 朴,j 1 . 有实际的应用前景。 1 . 3论文的组织结构 本文系统探讨了 实现信息分析的方法和技术路线, 给出了 原型系 统的模块划分和框架流程设 计, 介绍了利用关系数据库构建小型数据仓库和多维模型的实现技术, 提出了 挖掘趋势关联规则的算法, 使知识发现” : 实际需要更密切的结合起来,真正为企业管理者提供辅助决策的技术和手段 文章的整体结构如 卜 : 第一 章简要说明了决策支持系统的发展历程,以及提出基于数据仓库的信息分析决策支持系统 的必要性。 第一章绪 论 第_章介绍了构建原型系统涉及到的 计算机技术:数据仓库、 o l a p和数据挖掘技术, 分别叙 述了 这些技术涉及的概念定义、体系结构以及常用的实现方法,并评述了 它们在决策支持系统中扮 演的角色 第二章设计了 基于 数据仓库的决策支持原型系统的总体框架。给出了 个局流程图,井对各模块 的功能进行简单描述 第四章论述了使用多维数据模型重新组织企业数据以满足分析型应用的必要性和可行性,并给 出数据模型设计和实现的具体细节,以及在多维数据模型上实现o l a p 多种操作的设计要点 第五章基于数据挖掘中的经典关联规则的概念和算法,提出了一种新的规则形式趋势关联 规则, 这种规则侧重考察多个数量型属性的变化趋势之间的联系,拓宽了 关联规则的使用范畴,使 发掘出的规则更能满足实际需求、更能发现数量型属性蕴涵的知识。在第五章介绍了变化模型的概 念、挖掘趋势关联规则的方法和实验报告。 第六章介绍了基于数据仓库的决策支持原型系统的开发平台、编程实现,给出了部分界面,并 在该章中总结了本文的主要研究内容,提出原型系统中存在的不足之处,以及今后的改进方向和进 一步研究重点。 第三童系统实现的背景知识 第二章系统实现的背景知识 2 . 1引言 本文提出的决策支持原型系统足建立 _ 在数据仓库基础l 的, 它结介了数据仓库、 联机分析处理、 tiu p i 1 2 v 111 1,1 多项先进的信息 、 处理技术,从不同角度、不同层次分析企业多年积累的数据,提供尽, .1 能多的辅助决策信乞 。本章将对数据仓库技术、 o l a p技术和数据挖掘技术分别做概括性介绍,给 出它们的基本概念、体系组织、己有的实现方法等,为理解第三章中提出的原型系统结构做准备。 2 . 2数据仓库技术 2 . 2 . 1数据仓库的概念 w . h . i n m o n 在( b u i ld i n g t h e d a t a w a r e h o u s e ) 16 一 文 中 将 数 据 仓 库 定 义 为 : 11 数 据 仓 库 是 在 企 业 t i 理和决策中面向土题的、 集成的、与时间相关的、 不可修改的数据集合” 。与其他数据库应用不同 的是, 数据仓库更像一种过程,是对分布在企业内部各处的业务数据的整合、 加1 _ 和分析的过程 丽小是一种可以购买的产品。 数据仓库的信息来自 不同地点的数据库或其它信息源,并且信息源具有分散和异构的特点,其 中的主要信息可以视为定义在信息源上的实体化视图集合。数据仓库将分布在企业网络中不同站点 的商业数据集成到一起, 把支持决策分析的数据事先收集、归纳、处理,使企业的业务操作环境和 信1l i, 分析环境分离,从而有效地为决策者提供各种类型的、有效的数据分析和信息管理, 起到决策 支 手 的作用 数据仓库主要功能包括:一是从各信息源提取需要的数据,加 处理后存储到数据仓库中;_ 足右接在数据仓库_ h 处理用户的杳询 和决策分析请求,尽量避免访问信息源。 与 传统数据库 ( 关系数据库、 层次数据库、 对象数据库等) 相比, 数据仓库有以卜 特点: 1 ) 数据仓库是而向主题的,k p 它是按照业务土题f l i 织的基1上 题组织的数据被划分为各白独 为领域,侮个领域有白己的逻辑内涵,互不交义。而荃 1 几 应用的数据纤 织则完全不同,它的数据 糙为处理具体应川而组织在 一 起的。 2 )数据仓库是集成的。它汇集了不同的数据结构、处理规划、算法及过程,是一 个集成的信息 d a ( ,它也集成了多个专业应用系统。 ;s , 数据仓库足 一 致的和稳定的。 它反映的是il i 史数据的内容,而不是联机数据,土要用1 -. 进行 时间趋势分析,经集成后进入数据仓库的数据均有统一的数据结构和编码规则,是极少或根本不更 祈的。 4 )数据仓库是随时间变化的。为适应 d s s 进行趋势分析的要求,数据仓库的数据时限 ( 5 -1 0 勺) 远远长于 传统数据库中的数据时限,数据的键码包含时间项,侮个源数据的变换都反映了它执 第二章系统实现的背景知识 , 丁 的那一刻的状态。 5 )数据仓库的数据量很人。一般为 i o g b级,人型的数据仓库可达到t b级 6 ) 数据仓库中存放的数据为信息数据。 这些数据一 般按照便于分析整理的格式存放, 对数据的 深入分析通常在d s s 、 报表生产系统和经营管理系统中进行。 传统数据库中存放的数据为操作数据. 信0 、 数据是由操作数据产生的, 这一 过程通常需要使用数据仓库概念。 而且数据仓库还提供了管理 数据变换并追踪个别记录的变换过程等功能。 2 .2 .2数据仓库的体系结构 一个完整的数据仓库系统应该具备建立、 管理和使用等功能。从逻辑上讲, 数据仓库通常包含 以 卜 儿个部分n . 门仓库定义: 仓库定义主要完成数据仓库环境的定义和设 置, 其中元数据是仓库定义的主要部 分 元数据是关于数据的数据,它用来描述诸如数据结构、 属性、关键词、容量等数据特性。在决 策支持系统中, 元数据常包括以下内 容:源数据信息、别名信息、数据容量、集成信息、 摘录信息 及摘录历史、数据版本号、颗粒度级别、压缩关系以 及清除数据标准等。 2 ) 数据获取部分: 数据获取部分从外部数据源析取及变换数据, 使这些数据以数据仓库的方式 组织和存储。 在获取数据时常常需要对源数据关键词加上时间标记。 另外当数据来自 不同数据源时, 数据获取部分还要负责对不同数据源进行编码、转换及筛选,以避免决策支持系统出现混乱。 3 ) 存储管理部分:它负责完成数据更新、 分布数据的管理、存储及仓库例行维护等。 4 )数据访问部分 ( 前端服务) :这一部分面向 最终用户,是整个系统发挥作用的关键。在决策 支持系统中,它可向决策者提供各种高效的工 _ 具,如查询检索工 具、多维数据的o l a p 上具、数据 挖掘 _ 具等,从而获得决策信息及分析报告,辅助实施决策管理。 综合上述r 具, 数据仓库才能真 d 发挥出支持分析决策作用,满足用户对信息的各种需求。 2 .2 .3数据仓库与d s s的关系 数据仓库和d s s 的目 标用户相同, 都是面向企业的中高层领导,二者执行的都是决策和趋势分 析类型的应用, d s s中一 些传统的统计分析方法及一些智能决策技术, 可以很好地集成到数据仓库 中,使数据仓库的分析能力更加强大,并大大提高 数据仓库的决策支持能力。同时, 数据仓库解决 了 以往d s s 中数据不一致的问题, 为决策支持系统开辟了一种管理数据的新途径, 也使d s s 的应用 范m i 更加 i 泛8 1 数据仓库可以为企业提供完整、 及时、 准确和明了的决策信息,使最终用户能够真正利用d s s i 具直接从企业信息池中随机地提取、 分析数据, 有效地为企业提供全方位决策。因 此要想有效的 进行企业信息分析,必须将d s s 和数据仓库有机的结合起来, 使数据仓库成为d s s 的一部分。 2 . 3 o l a p技术 o l a p 是o n - l i n e a n a ly t i c a l p r o c e s s in g ( 联 机分析处 理) 的首 字母缩写, 它是从o l t p ( o n - l i n e t r a n s a c t i o n p r o c e s s i n g : 联机事务处 理) 基础上发展 起来的一 种数据分析技 术。 根据o l a p 委员 会的 第_章系统实现的背景知识 定义,o l a p是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能 够页: 为用户所理解的、并真实反映企业特性的信息进行快速、 一 致、交y _ 地存取,从而获得对数 据更深入了 解的一类软件技术19 1 o l a p 具 有下列五个 特征( 10 l , 这 些特征从另一个角 度定义了0 1- a p 应用系统的 概念。 o l a p的最显著特征是能提供数据的多维概念视图。 数据的多维视图使最终用户能多角度、 多侧面、 多层次地考察数据库中的数据, 从而深入地理解包含在数据中的信息及其内涵 维 是人们观察数据的特定角度) 。 o l a p的第_ _ 一 个特征是能快速响应用户的分析清求。 o l a p 的第二个特征是其分析功能。 这是指o l a p 系统可以 提供给用户强大的统计、分析 ( 包括时间序列分析、 成本分配、 货币兑换、非过程化建模、多维结构的随机变化等) 、 报 表处理功能。 此外, o l a p 系统还具有回答 “ 假设 分析” ( w h a t - i f )问 题的功能及进行 趋势预y ig 的 能力。 o l a p 的 基本 分析操作有 切片( s li c e ) 、 切 块( d i c e ) , 细化( d r il l d o w n ) , 综合( r o l l u p ) 和旋转( r o t a t e ) . o l a p的第四个特征是共享特性。 这是指o l a p 系统应有很高的安全性。例如,当多个用 户同时向o l a p 服务器写数据时,系统应能在适当的粒度级别上加更新锁。 o l a p的第五个特征是它的信息胜。这是指o l a p分析所需的数据及导出的有用信息。 r 面给出o l a p中的常用术语定义和一些基本操作动作 2 .3 . 1 o l a p中常用术语 ( 1 ) 维 ( d i m e n s i o n ) 维是人们观察数据的特定角度。例如:企业常常关心产品销售数据随着时间推移而产生的变化 r况, 这时它是从时间的角度来观察产品的销售, 所以时间就是一个维 ( 时间维) 。 企业也时常关心 自己的产品在不同地区的销售分布情况,这时它是从地理分布的角度来观察产品的销售,所以地理 分布也是 一 个维 地理维) 。 ( 2 )维的层次 人们观察数据的某个特定角度 ( 即某个维)还可以 存在细 f 程度不同的多个描述方面,这多个 描述方面称为维的层次。一个维往往具有多个层次, 例如描述时间维时, 可以从日期、月份、 季度、 年 亨 不同层次来描述, 那么日期、月份、季度、年等就是时间维的层次:同样,产品名、产品小类、 产品人类等构成了一个产品维的多个层次。 川 维成员 维的 一 个取值称为该维的 个维成员。如果 一 个维是多层次的,那么该维的维成员是在不同维 层79 的取位的组合。例如,考虑时间维具有日 期、月份、年这三个层次,分别在日期、月份、年上 各1 仅一个值织合起来,就得到了时间维的一个维成员,即 “ 某年某月某日 。对应个数据项来说, 维1 k 员是该数据项在某维中位置的描述。例如对一 个销售数据来说,时间维的维成员表示的是 “ 某 年某月某日”的销售数据, “ 某年某月某日”是该销售数据在时间维上位置的描述。 i )0) 10( mc a s u f c ) 测度足数据的实际意义, 即描述数据“ 是什么” 。 一股情况 卜 测度是一个数值度量指标, 例如: 第_章系 统实现的背景知识 4 。 单 价” 、 “ 销售景” 、 “ 销售额” 等都是测度。如果说 “ 本季度的销售额为 ! 0 0 0 0元” ,则0 l o o o o 趁 测度 “ 销ii i 额”的 一 个值。 5 )多维数纠 个多维数组可以表示为:( 维 1 ,维 2 ,. .,维 n ,变量) 。例如,产品销售数据是按时间、 地区和销售渠道组织起来的三维立方体, 加上测度“ 销售额” 、 就织成了一个多维数组 ( 地区, 时间, 梢竹渠道,销伏额) 。 6 )数据单元 多绍 几 数纤 ! 的取值称为数据单元。当多维数组的各个维都选中一个维成员,这些维成员的组合就 唯确定了 一 个测度的值。例如,如果在地区、时间和销信渠道 仁 各取维成员 “ 大津” . 2 0 0 1 年 1 季度”和 “ 零传” ,就唯确定了测度 “ 销售额”的一个值 ( 假设为 ! 0 0 0 0 ) ,则该数据单元可表示 为: 天津,2 0 0 1 年 1 季度,零售,1 0 0 0 0 ) , 2 . 3 . 2 o l a p常用的分析操作 o l a p 的多 维分析是指对以 多维形式组织 起来的数据, 采取切片、 切块、 旋转等各种分析动作, 以求剖析数据,使最终用户能从多个角度、多侧面地观察数据库中的数据,从而深入地了解包含在 数据中的信急 和内涵。多维分析方式符合人的思维方式,减少了混淆,井且能降低出现错误解释的 l i f 能性。 o l a p技术既可以在数据仓库上实现, 也可以在关系数据库上实现,这两种实 现各有优缺。常 见 的o l a p 分 析 操 作 包 括: 切 片( s l ic e ) 切 块( d ic e ) 、 旋 转( r o t a t e ) , 综 合( r o l l u p ) 和细 化( d r i l l d o w n ) 。下面给出各操作的定义描述: 切片 ( s l i c e ) 切片有两个定义, 他们分别反映了 不同的观察角度 ( 这两个定义不等价) 。 定义1 .在多 维数组的某一维上选定一 维成员的动作称为切片, 即在多维数组( 维1 , 维2 , , 组n , 变侧) 中选 一 维, 即维i ,并 取其一维成员( 设为“ 维成员v , ) , 所得的多维数组的子集 维 1 , . , 维成员v. . , 维。 ,变量) 称为在维i 上的一个切片 定义2 .选定多维数组的一个二维子集的动作称为切片,即选定多维数组 ( 维 1 , 维2 ,., 维 n . 变量)中的两个维:维 i 和维j ,在这两个维上取某一区间或任意维成员,而将其余的维都取定 个 维成员 , 则 得到的 就是多 维 数组在 维i 和维i 卜 的一 个 二 维子集, 即切片, 表小为: ( 维i , 组! , 变 日) 刀 块 ( d ic e ) 和切片相对应,切块也有两个定义: 定义1 在多 维数组的某一维上选定某一冈司 的维成员的动作称为切块,即限制多维数组的某 纷的取价区间显然,当 这一区间只取个维成员时,即得到个lu j 片 ( 切片的定义 ) 。 定义2 .选定多维数绢的一 个二维子集的动作称为切块。 即选定多维数织 ( 维 l 维2 , , 维 h ,变4 1 : ) f 的 尸 个维: 维i 、 维1 和维: , 在这三个维上取某一区间或任意维成员, 而将其余的维都 取定 个维成员,则得到的就是多维数组在维i 、 维i 和维r f . 的一个,维f 集,即切块,表示为 川 。 约 1 ,州 : r 、变 . ) 第二章系统实现的背景知识 从另一 个角度来讲,切 块可以 看成是 在切片的基础上,进一 步确定各个维成员的区间得到的片 段体,也叩由多个切片叠合起来。 旋转 ( r o t a t e ) 旋转即是改变一个报告或页面显示的 维的方向。例如,旋转可能包含了 交换行和列;或是把某 一 个行维移到列维中去,或是把页面显示中的一个维和页面外的维进行交换。 综合 ( r o l l u p ) 对某 一 维或某儿维的数据进行汇总。例如,按地区和产品分类求出去年的销售量等。 细化 ( d r i l l d o w n ) 从高水平综合数据到低水平综和数据或细节数据的过程,叫细化 ( 也可为r o l l d o w n ) 。 例如, 按j 污 定产品范畴,找出每个营业员每天的详细销售数据。 2 . 3 . 3 ol a p的休系结构及在 d s s中的应用 o l a p 是 种多 用户的二 层客户 / 服务器结 构f ia t 。 这种结 构的优点在丁 将应用逻辑( 或业务 逻辑) 、 图形用户接1 1 ( g u i )及 d b ms 严格区分开。复杂的应用逻辑不是分布于网络上的众多p c机上, 1 的 是集中存放在o l a p服务器上,由 服务器提供高效的数据存取,安排后台处理以及报表预处理。 如图所示,它由数据源 ( 数据仓库或用于o l t p 的数据库) 、 o l a p 服务器、o l a p 客户机及客户端 应川软件组成。其中,空心箭头表示数据流,而实心箭头表示控制流。 0l tp 图2 . 1 o l a p 休系结构 运用c l a p 技术, 可以帮助用户从多维的角度去观察和分析企业数据,这更能体现数据本身蕴 涵的关系, 更符合人类的思考习性。 因而这项技术在d s s 中得到广泛应用, 人们常常把它和数据仓 库技术结合起来,将它作为建立在数据仓库之上的一个分析组件。 2 . 4知识发现与数据挖掘技术 2 . 4 . 1知识发现与数据挖掘的概念定义 知 识 发 现( k d d : k n o w le d g e d is c o v e r y in d a t a b a s e ) 1 1是 一 种 以 计 算 机 为1 具 , 将人l 智 能 、 统洲、计算机及数据库等技术相结合,旨 在从数据中提取总结出新信息的技术。知识发现这个词是 在1 9 8 9 年8 月 美国底特律的第一届k d d国际学术会议上正式形成的。 1 9 9 5 年在加拿大召开了第一 第二章系统实现的背f t 知识 ,d u识发现和数据挖掘国际学术会议,此后知识发现与 数据挖掘开始盛行起来。 严格的讲,知识发现是指从数据中发现有用知识的综合处理,而数据挖掘是这个处理中的一个 牡蛛步骤,数据挖掘是从数据中提取模式的特定算法的应用。 一 者都是从数据中发现知识, 但知识 发现比数据挖掘更) 气 义,而数据挖掘则是更具体、更深入的概念。卜 而给出 一 者的定义。 定义 1 . 知识发现是从人量数据中提取出可信的、新颖的、有效的井能被人理解的模式的处理 过程,这种处理过程是一种高级的处理过程。 这里, 数据是指一系列事实 例如,数据库中的实例) , 模式 ( p a t t e r n )是用某种语言描述数据 j 二 集或应用于该子集的模型的表示。 定义2 . 数据挖掘是知识发现处理中的一步山在可按受的计算效率限制 卜 的应用数据分析和 发现算法组成,产生数据上模式的特殊列举。 知识发现和数据挖掘的共同目 的都是要从巨大的信息宝库中揭示出未被人知的关系和模式,通 过对人量事实、关系、趋势、模式、例外和异常的分析提炼来完成。为完成这项一 作而开发的一些 软科采用了一系列计算机技术、统计技术、人t 智能、 集合论、信息论、模糊数学等方法。而且, 儿乎只要一种方法可能会对知识发现和数据挖掘有用,就会被采用到知识发现和数据挖掘中来。这 就使知识发现和数据挖掘成了一个内容庞杂、发展迅速的技术领域,据信人约每 3个月就有一种新 技术进入市场但到目 前为止,知识发现和数据挖掘的主体技术框架仍然主要是基于 人上 智能、统 计方法、计算机技术与数据库技术的。 2 . 4 .2知识发现的处理模型 人 们对k d d的实现提出 不同的处理模型1 1 2 1 。常见的 有 多处理阶段过程模型 这种模型将数据库中的知识发现看做是一个多阶段的处理过程, 整个知识发现的过程中包括很 多 处 理 阶 段。 u s a m a m . f a y y a d 等人 和g e o r g e h . j o h n 等 人 分 别 给出 了 各自 的 处 理模型。 这 两 种模 型 在内 容上并没有非常本质的区别, 主要区别表现在对整个处理过程的组织和表达方式上。 后一种 处 理 模型 ( g e o r g e h . j o h n 等 提出 的) 强调 数 据挖掘人员 和 领域专 家要共同 参与k d d的全 过程, 用领 域专家的专业知识指导数据库中的知识发现的各个阶段,并对发现的知识进行评价。 我 们以f a y y a d l, 3 给出 的 多 阶 段 处 理 模 型 为 例 来 说 明 , 图2 .2 描 绘了 模 刑 中 的 儿 个 土 要 处 理 阶 段 该模型共分为九个处理阶段, 分别是数据准备、 数据选择、 数据预处理、 数据缩减、 k d d目标确定、 挖掘算法确定、数据挖掘、模式解释及知识评价。它们各白的任务分别解释如 卜 ( 1 ) 数据准备: 了 解k d d相关领域的 有关情况, 熟悉有关的背景知识, 并弄清楚用户的要求。 ( 2 ) 数据选择: 根据用户的要求从数据库中 提取与k d d相关的数据, k d d将主要从这些数据 , 进行知识 提取,在此过程中,会利用一些数据库操作对数据进行处理 ( 3 ) 数据预处理: 主要是 对阶段2 产生的 数据进行再加i检查数据的完整性及数据的一致性, 对其中的噪音数据进行处理,必要时平滑数据和估计噪音参数,对丢失的数据可以利用统计方法进 行填补。 ( 4 ) 数据缩减: 对经过预处理的数据, 根据知识发现的任务对数据进行再处理, 主要依据任务 标,通过运用投影、维缩减或数据库中的其他操作减少数据量 ( 5 ) 确定k d d的目 标:根据用户的要求,确定k d d是发现何种类型的知识,因为对k d d的 m-章系统实现的背最知识 不同要求会在具体的知识发现过程中采用不同的知识发现算法。 ( 6 ) 确定知识发 现算法: 根据阶段s 所确定的任务, 选抒介适的知识 发现算法, 这包括选取合 i. r, ( k 1 ( q n j p i 数,川1 得知% , 发现算法 。 整个 k d d的评m标准相致。 ( 7 )数 据挖4 1ifl ( d a t a m i n i n g ) : j l 川选定的)1 1 1 is 1 发现s法,从数据1 , 岁 达 取出川 1 1 , 所需要的知识 i z j i m识l if 以川 一 种特定的方式表示或使川一il r 常川的表示方式如u : t i 式规则件等。 ( 8 ) 丰 莫 式解释:对发现的模式进1 i 解释,在此过程中为了 取得更为有效的知识,可能会返回 前向处理步骤中的某些步以反复提取,从而提取出更有效的知识 ( 9 ) 知识评价: 将发现的知识以用户能了解的方式旱现给用户。这期i 3 1 也包含对知识的一致性 价八,以确信本次发现的知识不与以前发现的知识相抵触。 解释评价 数据挖掘 知识 图2 . 2 k d d处理模型结构图 泊 l 述的甸个处理阶段, k d d系统会提供处理 ! 具完成相应的 _ 作。 在对挖掘的知识进行评测 f! .根据结果可以决定是否重新进行某些处理过程,在处理的任意阶段都可以返回以前的阶段进行 l i t 处理。可见,k d d是一个反复的处理过程,具有反复性。 以川户为中心的处理模型 该模型从川户的角度对k d d处理过程进行分析, 特别注重对用户与数据库交互的支持, 强调了 处理的交 特胜 用户根据数据库中的数据,提出一种假ix 模型,然后选择有关数据进行知识的挖 掘,) 卞 不断对模侧的数据进行调整优化。该类模刑的 代表是b r a c h m a n 和a n a n d 竹人开发的数据挖 掘系 统i m a c s ( i n t e r a c t i v e m a r k e t i n g a n a l y s i s a n d c l a s s i f i c a t i o n s y s t e m ) 。 这里不再给出 模啄 中各个处 f !p 阶段的具体描述,详情参见文献【 1 2 1 . 2 . 4 . 3数据挖掘体系结构及分类 数 据挖掘系统可以大致分为二层结构 1 4 1第一 层是数据源, 包括数据i t , 、数据仓库和其它数据 衣 t1; ! 数据挖掘小 一 定要建立在数据仓库的荃础_ 1 ,但如果数据挖掘与 数据仓库协同 伯,则将人 捉高数州挖掘的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年浙江宁波市医疗中心李惠利医院招聘编外工作人员2人考前自测高频考点模拟试题及答案详解(新)
- 2025杭州钱塘区紧缺岗位人才招聘23人考前自测高频考点模拟试题及答案详解(各地真题)
- 2025年福建省厦门市集美区幸福幼儿园招聘1人考前自测高频考点模拟试题及完整答案详解
- 2025南昌市劳动保障事务代理中心招聘1名外包驾驶员模拟试卷附答案详解
- 2025昆明聂耳交响乐团编外人员招聘(1人)模拟试卷及答案详解(名校卷)
- 2025年西夏区自治区级公益性岗位招聘考前自测高频考点模拟试题及答案详解(全优)
- 2025贵州遵义粮食和物资(集团)有限公司招聘工作人员及笔试历年参考题库附带答案详解
- 2025贵州融通融资担保有限公司招聘4人笔试历年参考题库附带答案详解
- 2025航天科工集团科技保障中心有限公司部分岗位招聘11人笔试历年参考题库附带答案详解
- 2025福建省大数据集团厦门有限公司招聘7人笔试历年参考题库附带答案详解
- 2025机采棉作业合同协议书范本
- 树木学试题及答案北林
- 财政补贴政策在促进农村电商发展的扶持效果可行性分析报告
- 《创伤失血性休克中国急诊专家共识(2023)》解读 2
- 2025第三季度作风建设党课以忠诚廉洁担当的政治品格奋力书写高质量发展新答卷
- 打井设备成套转让协议书
- 组织结构的权力与权威
- 宠物急救标准化流程
- 2025届广东广州地铁集团有限公司校园招聘笔试参考题库附带答案详解(10套)
- 教师信息技术数字资源开发计划
- 低钾血症护理常规业务学习
评论
0/150
提交评论